[OSM-talk-fr] Vérification des tags wikipedia et nettoyage ?

Yves P. yves.pratter at gmail.com
Mer 27 Nov 12:53:27 UTC 2019


@Jean-Yvon
> Philippe, la réponse d'Yves est bonne car il ne parlait "que" des tags wikipedia.
> 
Je confirme. Le sujet est déjà assez vaste et chiant comme ça 😀
> Tu veux généraliser, ce n'est pas une mauvaise idée, tu proposes une base réutilisable par les différents éditeurs ?
> 
J’ai fait un ticket (cf. infra) suggérant que le code du greffon wikipedia utilise déjà l’API wikimedia pour avoir une liste à jour.
Par défaut, le « contrôleur » (validator) de JOSM ne teste pas tout (en ne pas pas tout tester).
Le greffon wikipedia va plus loin, mais les 2 ne testent pas tous les cas, ils sont en partie redondant et parfois donnent des résultats différent.

Du coup, ça complique le travail de maintenance des données 😉😕

J’ai creusé un peu plus ce matin.

wikipedia=gl:https://upload.wikimedia.org/wikipedia/commons/6/6a/Plano_de_Moaña.png (version 1 du noeud 6703264890 <https://www.openstreetmap.org/node/6703264890/history>)
Le préfixe GL (galégo) provient d’une contribution récente sous iD par un « débutant » (94 contributions depuis 1 an).
Sous iD, si on colle une URL dans le formulaire wikipedia, la langue est saisie par défaut (le contributeur parle le galicien).

iD ne fait pas de contrôle sur le contenu du champ wikipedia… encore moins de transformation en File:Plano_de_Moaña.png

Le contrôleur par défaut de JOSM détecte un problème, mais ne le corrige pas. Le greffon ne voit rien.

> Le 26/11/2019 à 22:53, Yves P. - yves.pratter at gmail.com <mailto:yves.pratter at gmail.com> a écrit :
> 
>> Faut-il les nettoyer ?
>> gros travail…
>> la clé wikidata permet de gérer les libellés en plusieurs langues, les synonymes, les relations entre objets, les identifiants externes…
> Oui si possible
Pour la clé wikipedia, il ne reste «  que » :
61 <https://overpass-turbo.eu/s/Ovv> URL
15 <https://overpass-turbo.eu/s/Ovx> fichiers wikimedia commons
1 <https://overpass-turbo.eu/s/Ovy> préfixe tronqué (e: au lieu de en:)
1 <https://overpass-turbo.eu/s/Ovz> préfixe wiki:
1 <https://overpass-turbo.eu/s/OvA> préfixe language:
478 <https://overpass-turbo.eu/s/OvB> objets ans préfixe (au minimum)
78 <https://overpass-turbo.eu/s/OvD> encodées (contenant %XX)
2669 <https://overpass-turbo.eu/s/OvE> contenant des _ à la place des espaces
? combien avec des pages redirigées ou inexistantes ?

Et il y a toutes les autres sous clés wikipedia à vérifier 🤪😜

>> Il y a en avait beaucoup, c’est presque tout nettoyé. Est-ce que ça reviendra avec l’arrivée de contributeurs débutants ?
> Oui
> 
Je pense aussi.
Nous devons donc analyser ces erreurs pour fait des contrôles plus adaptés dans iD, JOSM… (et ou corriger des bugs).

>> Tags d'éléments « supprimés »
>> Faut-il les supprimer ?
> Ça dépend des cas. Globalement ça ne mange pas de pain et si des gens ont jugé utile de les ajouter.
> 
Il y a peut-être l’historique pour ça.
Mettre old_name et was:amernity=xxx et peut être suffisant ?

Je ne savais pas encore récemment, mais il est possible de faire des requêtes overpass dans le passé. 😉😎
> former_operator:wikipedia
> former:operator:wikipedia
> Je ne vois pas trop l'utilité et il faudrait a minima passer à un préfixe de cycle de vie (was: ?)
> 
Pour moi, à virer comme plus haut.
L’idée de mettre ca-nexiste-plus:amenity=* est plutôt bonne (c’est une forme de cycle de vie), mais au final ça « pollue »  la base.
Autant le garder pour le nom et l’objet principal, autant le virer pour les tags *:wikipedia:*

> old_name:wikipedia
> old_wikipedia
> old_wikipedia:zh
> old:wikipedia
> J'ai du mal à comprendre. Si on a un ancien nom, dans l'article Wikipédia actuel il y sera fait référence et la page Wikipédia correspondante sera citée.
> 
Du coup, pas d’intérêt à garder ça ?
> not:brand:wikipedia
> 
> Ça c'est utile pour éviter que des cartographes en fauteuil ne disent que le restaurant McDonald est une franchise McDonald alors qu'il a juste le malheur de partager son nom.
> 
ok pour garder not:brand=*
voir not:band:wikidata=* (overpass et le site web d’osm affichent les liens)
ça ne fait que 5 <https://overpass-turbo.eu/s/OvF> cas
> Virer/corriger les valeurs incorrectes me semble plus utile. Par exemple en transformant ta revue des manques de vérification en tickets JOSM/iD…
> 
2 ici pour JOSM : 
https://josm.openstreetmap.de/ticket/18360
https://josm.openstreetmap.de/ticket/18256#comment:8 (c’est pas l’objet principal du ticket)

En fait il y a une multitude de chose à faire, ou à revoir. Il faut peut-être prendre du recul sur la façon de saisir et/ou de contrôler les données ?
Les validateurs de JOSM sont très bruyants, avec parfois des messages « ésotériques ».
Ils ne proposent pas toujours de nettoyage automatique.

Par exemple, saisir une article wikipedia, un élément wikidata ou une photo wikimedia commons… est peut-être plus facile pour les contributeurs en faisant un simple copier/coller de l’URL.

Si c’est vraiment le cas, il faut nettoyer ça à la saisie, ou simplifier le processus de saisie.
Dans iD, on tape un nom et il est recherché à la volé dans wikidata et wikipedia.

@Philippe
> on doit donc normaliser la casse de ces codes […]
> et ça traîne depuis des années et continue à compliquer les requêtes et à poser des problèmes d'évolution pour plus de langues ou de régions).
Oui. Le contrôleur du plugin dit clairement que ça doit être en minuscules et propose une réparation.
L’autre, dit qu’il ne reconnait pas le préfixe, mais ne propose rien.

—
Yves
-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: <http://lists.openstreetmap.org/pipermail/talk-fr/attachments/20191127/cf881276/attachment.htm>


Plus d'informations sur la liste de diffusion Talk-fr