[OSM-dev-fr] Import des numéros de rue (addr:housenumber) depuis le Cadastre
Tyndare
tyndare at wanadoo.fr
Jeu 3 Nov 11:22:12 GMT 2011
Je suis partis sur une approche plus simpliste qui doit être similaire
à ta première tentative. Je me contente des données récupérée par
qadastre: un Path composé d'une liste de commandes (moveto, lineto,
curveto) et une liste de coordonnées associées.
J'ai pris comme à priori que les numéros de rue seraient toujours
écris avec la même police et devrais donc être composés exactement des
même commandes dans le même ordre.Ensuite pour comparer la liste des
coordonnées associées aux commandes, j'applique une transformation
(déplacement et rotation) pour ramener la première de la liste à (0,0)
et la troisième à l'horizontale (en choisissant la deuxième ça ne
marchait pas pour le chiffre 3) et je met le tout à échelle pour que
ça rentre dans un carré d'1 de large.
Ca a l'air très fiable si les coordonnées sont assez précises, et je
pense que c'est généralisable au texte (chaque mot génère un Path mais
il faut ensuite les assembler).
Je n'ai pas regardé la simplification faite par qadastre, c'est où le
bouton pou la désactiver ?
Pour les problèmes de tailles, je commence à me dire qu'il n'y a pas
d'autre solution que de repartir sur un découpage des requêtes au
cadastre en plusieurs pdf comme le fait le script import-bati.sh
Le programme de Benoît ROUSSEAU avait l'air très avancé. J’essaierais
de le contacter directement si il ne se manifeste pas.
Ludo.
Le 3 novembre 2011 09:49, Frédéric Rodrigo <fred.rodrigo at gmail.com> a écrit :
> Bonjour,
> J'ai également tenté de faire ça. Mais généralisé à tout le texte.
> J'avais commencé par faire une approche par signature de forme sur les
> composantes du chemin décrivant la forme (comme la tentative de 2010).
> Mais pour les raisons précédemment évoquées c'est vite limité. Au
> passage noter que qadastre fait une "simplification" qu'il faut
> désactiver pour faire des analyses sur la forme d'origine.
> J'étais donc parti sur une autre piste. Le détection des caractères
> pas comparaison de critère : ratio de taille, de périmètre, nombre de
> ligne droites significatives, détection d'angles, d'intérieurs... le
> tout avec une détection et la correction de l'orientation du texte
> pour diminuer les faux positif. Le résultat est bien indépendant de la
> taille du pdf. Mais la qualité n'est toujours pas suffisante pour
> donner un résultat exploitable même en augmentant la base statistique
> de référence.
>
> Je peux te donner les sources, c'est un qadastre modifié avec une
> extension en ruby.
>
> Fred
Plus d'informations sur la liste de diffusion dev-fr