[OSM-talk-fr] Traitement statistiques OSM vs INSEE

Pierre-Alain Dorange pdorange at mac.com
Sam 20 Nov 21:12:53 UTC 2010


Pour un besoin spécifique je travaille sur une série de moulinettes
(scripts en python) qui traitent des fichiers OSM pour mettre en
relation avec les données INSEE des communes, départements et région.

A ce stade je me concentre sur les communes.
Les scripts sont encore au stade prototype mais les premiers résultats
donnent quelques éléments qui pourrait permettre d'avoir un retour
qualité sur les communes, départements et région, voir le remplissage
des populations insee respectives...

En mettant en lien les 36 682 communes INSEE j'obitent des résultats
intéressants :

OSM contient environ 29136 communes (node place=town, city ou village) ;
je dis environ car j'ai encore quelques communes hors France dans le
tas.
Je met en relation avec le code INSEE et je compare le nom, j'obtiens :

3762 codes INSEE eronnée (mauvais code insee mais nom conforme)
186 noms différents
5533 départements mauvais ou manquants
25732 populations mauvaises ou absentes (INSEE 2007)

Au total 26243 communes identifiées (par rapport à l'insee par leur code
ou leur nom), 583 avec mauvais insee mais dont le nom n'est pas
directement identifiable (orthographe différente).

Dans un futur je pense pouvoir optimiser le test d'inclusion avec la
frontière et améliorer la recherche des noms (j'utilise déjà soundex),
ce qui pourrait permettre éventuellement de disposer d'un outil qui
pourrait signaler les orthographes, code insee à corriger, voir mettre à
jour les populations de l'ensemble des communes avec le dernier
recensement INSEE.

On peut imaginer produire bien sur la liste des communes manquantes ou
d'autres choses encore (j'ai noté des communes taggé en hamlet et
l'inverse aussi).

Je vais avoir besoin de traiter les frontières (communes, départements,
région) de la même manière.

Est-ce un projet envisageable et sous quel forme...

PS : quand les scripts seront un peu plus affiné j'en signalerai
l'existence (libre) sur la liste développement.

-- 
Pierre-Alain Dorange
OSM experiences : <http://www.leretourdelautruche.com/map/>





Plus d'informations sur la liste de diffusion Talk-fr