[OSM-talk-fr] Première évaluation de la qualité des données libres d'OpenStreetMap en France
Serge Mang GAIAGO
s.mang at gaiago.fr
Mar 17 Nov 14:06:00 UTC 2009
Bonjour,
Merci François pour cette information.
L'étude semble intéressante. Le résumé est prometteur en tout cas.
Je pense qu'il faut dépasser l'idée que l'approche de l'IGN est
partiale. Elle l'est, nécessairement. And so what?
Tout d'abord, le COGIT a assez d'autonomie pour ne pas avoir autant la
tête dans le guidon que la direction commerciale de l'IGN. Les remarques
qui sont faites sont des constatations. Même si la méthode était
discutable (ce qui reste à démontrer), les ordres de grandeur sont
éloquents. Et la raison principale évoquée, à savoir le manque de
cadrage à la saisie est absolument vrai. Actuellement, on peut faire à
peu près ce que l'on souhaite lorsqu'on fait une contribution, notamment
en terme de modèle de données et de topologie.
Les pistes de réflexion proposées par le COGIT semblent pertinentes et
les actions évoquées, à savoir "Le COGIT étudie des méthodes permettant
de définir des spécifications au sein de systèmes de saisie
collaborative", ne sont pas à prendre à la légère et sont à encourager,
au contraire. Ce laboratoire regroupe de vrais experts sur la qualité
des données géographiques, et, au lieu de nuire au projet OSM, leur
approche pourrait être au contraire bénéfique. Prêtons nous à rêver, et
envisageons la complémentarité, à terme, entre une communauté libre et
un institut national, qui aurait retrouvé ses missions de service
public. Vu comme ça, où est la concurrence? Par contre, il faudrait que
cette utopie devienne un peu plus concrète un jour ou l'autre. Or, le
terme même de "service public" passe de moins en moins...
Pour en revenir aux problèmes de qualité liés spécifiquement aux
libertés trop importantes de saisie, d'une part, et à la relative
faiblesse des métadonnées d'autre part, je livre en prime time des
extraits d'un document sur lequel GAIAGO travaille depuis quelques mois,
en interaction avec le CERTU (autre expert de la qualité des données
s'il en est).
Ce document est intitulé: "LA PROBLEMATIQUE DE LA QUALITE DES DONNEES
GEOGRAPHIQUES COLLABORATIVES, Cas d'OpenStreetMap, pistes de solutions".
Cas de l'utilisateur Néophyte (chapitre "La déprofessionnalisation des
producteurs")
Situation :
Ce contributeur, par définition, n’y connaît à priori rien en
géomatique, en production de données et en cartographie, même s’il peut
par ailleurs connaître parfaitement bien la zone qu’il cartographie.
Problème potentiel :
La probabilité est forte que ce néophyte produise des données fausses et
non conformes aux spécifications en terme de structuration. Les données
sont alors inexploitables en l’état et peuvent conduire à l’avenir
l’utilisateur à de mauvais résultats.
Il est de plus incapable de documenter sa production au travers de
métadonnées.
Pistes de solution:
(...)
3) Ergonomie encadrée : l’utilisateur ne doit pas avoir la possibilité
de produire les données n’importe comment :
- Contrôle à la volée de la topologie,
- Modèle de données simple et figé pour les néophytes (seuls les experts
peuvent ajouter de nouveaux champs aux objets, par exemple)
Cas d’OSM :
- Actuellement, la topologie peut être contrôlée par certains outils
(...). Ce contrôle n’est pas réalisé à la volée, mais par une action
volontaire du contributeur.
- La création d’un nouvel attribut (tag) est réalisée en concertation
avec les autres contributeurs actifs de la communauté (actif étant un
statut empirique, non défini). Un contributeur peut néanmoins inventer
de nouvelles valeurs possibles de ces attributs sans consulter personne,
s’il le souhaite. S’il ne justifie pas sa démarche en associant un
commentaire à l’objet comportant une nouvelle valeur pour un attribut
donné, il prend le risque de voir cette valeur supprimée un peu plus
tard par un autre membre, plus « avancé » de la communauté (ou remplacé
par la valeur qui existe déjà et que le contributeur n’a pas pris la
peine de chercher). Exemple : un contributeur renseigne un tronçon de
voie avec l’attribut highway ayant la valeur « voie piétonne », alors
que cette distinction existe déjà, sous la forme « footway »
(highway=footway). Un autre contributeur, plus au fait, peut remplacer
sans prévenir « voie piétonne » par « footway ». Le risque est encore
plus grand que la donnée reste telle quelle, non "normalisée" donc
inexploitable.
4) Métadonnées obligatoires (en règle générale, on ne devrait pas
pouvoir valider et enregistrer une quelconque saisie sans avoir rempli
une série de métadonnées incontournables). Cette pratique marche aussi
pour tous les types de producteurs qu’ils soient ou non néophytes.
Cas d’OSM :
Actuellement ,lorsqu’on crée un objet, renseigner la source n’est pas
obligatoire. Il faudrait non seulement la rendre obligatoire, mais
imposer les éléments suivants :
· Estimation de la précision géométrique de la source,
· Date de la source,
· Estimation de l’échelle de la source (dans le cas d’une
numérisation à partir d’une photographie aérienne ou d’une source
vectorielle existante),
· Estimation de la précision sémantique de la source (pour les
valeurs des attributs),
· Droits d’utilisation de la source (type de licence).
J'arrête là l'extrait.
L'ensemble du document sera bientôt mis en ligne dans notre rubrique
ressources (http://www.gaiago.fr). Je ferai un message lorsque ce sera
le cas.
Serge Mang
GAIAGO
François Van Der Biest a écrit :
> Bonjour,
>
> A la conférence SAGEO 2009 [1] ("SPATIAL ANALYSIS AND GEOMATICS",
> Paris, 25-27 novembre 2009), il y aura un poster sur le travail
> de Guillaume Touya et Jean-François Girres du laboratoire COGIT de
> l'IGN. Ils se sont intéressés à l'évaluation de la qualité des données
> libres d'OpenStreetMap en France.
>
> Je les ai contactés, et ils m'ont transmis un résumé PDF de leurs
> travaux, disponible en [2].
> Un article est en cours de soumission à une revue à comité de lecture,
> et je n'ai donc pas pu accéder au détail de l'étude.
>
> Extraits :
> "La comparaison des thèmes linéaires routiers montre des écarts
> maximaux moyens très supérieurs (Distance de Hausdorff moyenne de
> 13.57 mètres)
> à la précision de la base de données de référence (Erreur moyenne
> quadratique de 2
> mètres) mais surtout une très forte hétérogénéité dans la distribution
> des valeurs, du
> fait du manque de spécifications de saisie précises.
> L’étude des carrefours des thèmes routiers a permis d’estimer une
> erreur de
> position moyenne trois fois supérieure (distance moyenne de 6.65
> mètres) à celle
> garantie par la BD TOPO®."
>
> Pour une saisie manuelle sur fond de traces GPS, ces chiffres me
> semblent en bon accord avec la précision attendue.
> Ce qui me semble plus grave, c'est la précision sémantique pas
> terrible, notamment entre routes "résidentielles" et "tertiaires".
>
> On attend la suite des travaux avec impatience ...
>
> Cordialement,
> F.
>
> [1] http://sageo09.univ-pau.fr/
> [2] http://dl.free.fr/ohUh3LLVh
> ------------------------------------------------------------------------
>
> _______________________________________________
> Talk-fr mailing list
> Talk-fr at openstreetmap.org
> http://lists.openstreetmap.org/listinfo/talk-fr
>
Plus d'informations sur la liste de diffusion Talk-fr