[OSM-talk-fr] Panne des minutes diffs France
Philippe Verdy
verdy_p at wanadoo.fr
Sam 10 Aou 11:50:00 UTC 2013
Méfiance avec ce diff énorme : un utilisateur russe (uid="883031"
user="Згарбул Андрей") a fait tourner un bot pour importer massivement
(changeset 17266675) toutes les traductions des noms de 94 pays du monde
dans leurs relations (en prenant comme source Wikidata), mais en utilisant
les codes de langue internes à Wikipédia, et cela ne correspond pas pour un
certain nombre de langues à la codification ISO 639 (qui devrait être
utilisée pour les "name:<lang>=*"; il n'a fait aussi sur les noms de leurs
capitales (les membres admin_center).
Comme il a touché aux relations des frontières de pays qui ont de très
nombreux membres, et puisqu'il y a ajouté des centaines de noms, on peut
expliquer ce ce diff a été énorme. D'ailleurs cet utilisateur aurait mieux
fait d'importer langue par langue et non toutes les langues pour ici un
gros ensemble de pays (même l'import de centaines de noms pays par pays
aurait du être évité). L'utilisateur n'a pourtant pas le statut de bot
déclaré
Les codes langues internes à Wikipédia sont uniquement pour les liens de
certaines éditions Wikipédia mais n'ont rien à faire dans la base OSM
(d'autant plus qu'ils sont tous en cours de migration progressive pour
respecter la norme BCP47, et qu'un certain nombre ne subsistent encore que
comme des alias d'autres codes). Les codes langues de Wikipédia ne sont en
fait pas directement utilisés comme codes langues mais comme noms d'hôtes
dans un sous-domaine d'un projet Wikimedia. Certains sont de plus devenus
des aliases d'un autre nom de domaine et ne sont plus à utiliser même sur
les projets Wikimedia (aussi bien dans les liens interprojets insérés dans
le corps des articles, que dans Wikidata). Il ne doivent être utilisés
(éventuellement mais en fait inutile car un seul lien wiki utilisant un
code langue standard devrait suffire) que pour les tag
"wikipedia=<lang>:<Nom d'article>" (ou éventuellement
"wikipedia:<lang>=<Nom d'article>" bien que cela ne spit plus nécessaire
puisque Wikidata fait déjà le lien vers les articles Wikiépdia dans
d'autres langues à partir de la première langue d'une édition de Wikipédia
indiquée par défaut).
Exemple de noms incorrectement importés:
* Pour le Tchad :
<tag k="name:zh-min-nan" v="Tchad"/>
<tag k="name:zh-yue" v="乍得"/>
et qui auraient du être:
<tag k="name:nan" v="Tchad"/>
<tag k="name:yue" v="乍得"/>
(sans compter que le nom en Minnan est certainement faux ici, l'orthographe
est incorrecte même si le Minnan s'écrit en caractères latins et non en
sinogrammes comme le cantonnais donné ici en second).
* Pour la Norvège :
<tag k="name:bat-smg" v="Nuorvegėjė"/> (code langue complètement
invalide interne aux noms de domaine Wikimedia, non conforme à BCP47)
<tag k="name:be-x-old" v="Нарвэгія"/> (extension non enregistrée dans
le registre IANA des codes langues pour BCP 47, basé sur une extension
privée non portable à d'autres sites que ceux de Wikimedia; il y a un autre
code enregistré dans la base IANA pour cette variante orthographique
"tarashkevitsa" du biélorusse)
<tag k="name:zh-classical" v="挪威"/>
<tag k="name:zh-min-nan" v="Lo̍k-ui-kok"/>
et qui auraient du être:
<tag k="name:lzh" v="挪威"/>
<tag k="name:nan" v="Lo̍k-ui-kok"/>
* Pour la France :
<tag k="name:cbk-zam" v="Francia"/> (ce dialecte d'une autre langue
n'a pas actuellement de codification dans IANA en tant que variante, mais
le code ne respecte pas le format BCP47 et est invalide; là il auait fallu
utiliser une extension privée)
<tag k="name:fiu-vro" v="Prantsusmaa"/> (même remarque)
<tag k="name:simple" v="France"/> (complètement inutile : c'est en
fait le nom anglais; code langue totalement invalide)
<tag k="name:zh_pinyin" v="Fǎguó"/> (complètement invalide aussi: ce
n'est me^me pas un nom dans une langue différente, mais une romanisation et
les transcriptions ne sont pas codées comme ça; ce n'est même pas un code
langue Wikipedia valide non plus puisque ce n'est pas un nom d'hôte valide
pour un sous-domaine Internet à cause du caractère souligné).
Voilà un Bot qui n'a pas fait le détail et ne s'est pas posé la moindre
question. C'est un import massif sans intégration (qui en plus a écrasé
d'autres noms déjà corrigés dans OSM, mais carrément faux dans Wikidata).
Ici on devrait vérifier les noms français importés (j'ai vu depuis un bon
moment des tas d'erreurs dans la base Wikidata avec des noms sois-disant
français copiés de l'anglais ou de l'Allemand, uniquement à cause de liens
de redirections non inversés dans Wikipédia où c'est e noms français qui
evrait être principal et les autres des alias).
Cet utilisateur a aussi parfois remplacé les liens Wikipédia par défaut par
des liens vers les articles Wikipédia en russe ou en anglais, alors que ce
n'est même pas une langue officielle ou nationale du pays concerné.
Exemples:
* Pour le sultanat d'Oman :
<tag k="wikipedia" v="en:Oman"/>
(ce lien devrait être la version de l'article en arabe, servant de base de
traduction des titres d'articles des autres langues, c'est la seule langue
officielle à Oman ; mais on pourrait avoir <tag k="wikipedia:en" v="Oman"/>
malgré tout, justifié uniquement par le fait que certains rendus ne savent
pas afficher les écritures complexes ou bidirectionnelles comme l'arabe).
* Pour l'Ouzbékistan :
<tag k="wikipedia" v="en:Uzbekistan"/>
(ici la question ne se pose pas, le nom ouzbek de ce pays suffit, il
s'écrit en caractèes latins simples <tag k="name:uz" v="O‘zbekiston"/>,
l'écriture cyrillique est désuète)
<tag k="official_name:uz at cyrillic" v="Ўзбекистон Республикаси"/>
là encore ce n'est pas comme ça qu'on code une écriture dans BCP47 si on
veut écrire la variante qui devrait être
<tag k="official_name:uz-Cyrl" v="Ўзбекистон Республикаси"/>
(selon la norme BCP47).
Il n'a pas non plus fait l'effort de remplacer les soulignés ou caractères
URL encodés par des caractères en clair. Exemple :
<tag k="wikipedia" v="en:Mexico_city"/>
<tag k="wikipedia:ast" v="Méxicu_D.F."/>
<tag k="wikipedia:en" v="Mexico_city"/>
<tag k="wikipedia:es" v="México,_D._F."/>
<tag k="wikipedia:fr" v="Mexico"/>
Le 10 août 2013 12:28, Jocelyn Jaubert <jocelyn.jaubert at gmail.com> a écrit :
> Le 10/08/2013 11:29, GaelADT a écrit :
> > Jocelyn Jaubert wrote
> >> Effectivement, c'était bloqué.
> >>
> >> J'ai relancé, mais le diff numéro 471688 est toujours en train de
> >> tourner depuis 2 heures, parce qu'il contient beaucoup de modifications
> >> sur des grosses relations. Je ne suis pas sûr qu'il arrive à finir dans
> >> un temps raisonnable, parce que ça swappe ...
> >
> > Merci bien.
> > On croise les doigts alors :)
>
> C'est reparti correctement, et les diffs sont maintenant à jour:
>
>
> http://munin.openstreetmap.fr/pole-aquinetic.fr/osm8.openstreetmap.fr/osm_replication_lag_osmbin.html
>
> --
> Jocelyn
>
> _______________________________________________
> Talk-fr mailing list
> Talk-fr at openstreetmap.org
> http://lists.openstreetmap.org/listinfo/talk-fr
>
-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: <http://lists.openstreetmap.org/pipermail/talk-fr/attachments/20130810/90abafc1/attachment.htm>
Plus d'informations sur la liste de diffusion Talk-fr