[OSM-talk-fr] Vérification des tags wikipedia et nettoyage ?
Yves P.
yves.pratter at gmail.com
Mar 26 Nov 21:53:17 UTC 2019
Bonsoir,
En regardant de plus près les clés wikipedia et leurs valeurs avec taginfo, je constate pas mal de bazar.
Lors de la saisie, que vérifient (ou pas) les principaux éditeurs ?
(J’ai fait un tableau comparatif. Il sera envoyé plus tard)
Pour les données existantes,
Comment repérer les valeurs et/ou les clés erronées ?
taginfo
difficile car pas de recherche par expressions rationnelles (regex)
export des valeurs + script utilisant des regex
requêtes overpass
expressions rationnelles limitées (pas de PCRE)
outils de contrôle qualité (Osmose…)
…
Faut-il les nettoyer ?
gros travail…
la clé wikidata permet de gérer les libellés en plusieurs langues, les synonymes, les relations entre objets, les identifiants externes…
Si oui, comment ?
contrôles et corrections automatiques dans l’éditeur
…
—
Yves
PS: Quelques exemples :
wikipedia=fr:Phare
wikipedia_1=es:Faro
wikipedia_2=de:Leuchtturm
wikipedia_3=fa:فانوس دریایی
…
Il y a en avait beaucoup, c’est presque tout nettoyé. Est-ce que ça reviendra avec l’arrivée de contributeurs débutants ?
Préfixe de langue manquant
wikipedia=Phare
brand:wikipedia=McDonald's
Préfixe de langue incomplet (pb de copier/coller ?)
wikipedia=n:Connections Museum
operator:wikipedia=e:BDZ Deutsche Zoll- und Finanzgewerkschaft
brand:wikipedia=u:Россельхозбанк
Préfixes de langues correctes (norme ISO) mais sans site linguistique wikipédia correspondant
url complète et ses variantes
wikipedia=https://fr.wikipedia.org/wiki/Phare
url vers un site n’ayant rien à voir avec wikipedia
wikipedia=http://undar.edu.pe/
url avec un préfixe de langue rajouté !
wikipedia=fr:https://fr.wikipedia.org/wiki/Phare
mauvais séparateur . ; …
wikipedia=fr.Château_Mathelin
Photos wikimedia commons avec préfixe de langue
wikipedia=it:File:Alfred Nobel - Villa in Sanremo.jpg
wikipedia=fr:Canal Saint-Félix#/media/File:W1785-Nantes CanalStFelix Ecluse 85749.JPG
wikipedia=de:Datei:Prichsenstadt BW 6.JPG
wikipedia=fr:Fichier:Bouvines Monument au morts.jpg
Valeurs multiples :
wikipedia=en:Izadshahr, fa:ایزدشهر
…
Des clés incorrectes :
Suffixes de langue inappropriés :
brand:wikipedia_1
brand:wikipedia:ar
…
subject:wikipedia:de
subject:wikipedia:en
…
artist:wikipedia:et
Tags d'éléments « supprimés »
abandoned:brand:wikipedia
abandoned:wikipedia
demolished:brand:wikipedia
demolished:wikipedia
former_operator:wikipedia
former:operator:wikipedia
not:brand:wikipedia
old_brand:wikipedia
old_name:wikipedia
old_wikipedia
old_wikipedia:zh
old:wikipedia
razed:wikipedia
was:brand:wikipedia
was:operator:wikipedia
was:wikipedia
Faut-il les supprimer ?
…
-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: <http://lists.openstreetmap.org/pipermail/talk-fr/attachments/20191126/85fc2da8/attachment.htm>
Plus d'informations sur la liste de diffusion Talk-fr