[OSM-talk-fr] "Mechanical Edit" : le mal peut-il guérir le mal ?

Frédéric Rodrigo fred.rodrigo at gmail.com
Dim 18 Jan 13:47:35 UTC 2015


Le 18/01/2015 13:43, Art Penteur a écrit :
>      Une bonne partie des bureaux de poste français ont un nom
> complètement en majuscule et sans accent, contrairement à l’usage.
>
>      Cela provient sans doute d'un outil d'intégration de
> "data.gouv.fr:LaPoste - 01/2013".

C'est outil est Osmose. C'est de l'intégration manuelle massive, c'est 
même pire que automatique.
Je n'en avais pas conscience pour les postes.

>      On peut attendre que le test "orthographe" d'Osmose fasse son
> effet et que les mappeurs corrigent.
>
>     On peut aussi prendre le taureau par les cornes, à divers degrés :
>         - Mieux le signaler. Faire un test Osmose spécifique, puis
> lancer un projet du mois visant réduire à zéro les détections de ce
> test.
>         - Responsabiliser les cartographieurs. Repérer tous les
> amenity=post_office dont le name est intégralement en majuscule,
> repérer dans l'historique le changeset où c'est arrivé, et envoyer un
> message à l'auteur en lui demandant de corriger.

J'ai déjà contacté un contributeur qui faisait ça pour les arrêts bus 
(le même ?). Il à corrigé les quelques exemples érrornés que je lui 
avait désigne et a continué.

Les burreau de post sont géocodé, donc il est fort porporable qui ne 
sont même pas repositonné à la main.
Si c'est bine le cas, c'est stopper le contributeur et un revert qu'il 
faut faire à mon avis.

>         - Écrire un bot qui tente de faire une correction automatique.
> Le résultat ne sera sans doute pas 100% correct (pb de capitalisation
> des prépositions, attribution d'accents, ..) mais on aura fait des
> progrès.

Je pense qu'il faut surtout mieux informer les contributeurs qui 
utilisent osmose pour de l'intégration de données. Je pense que certains 
ne sont pas suffisamment conscient de la qualité et de l'origine des 
données et de ce qu'ils en font.

Frédéric.






Plus d'informations sur la liste de diffusion Talk-fr