[Talk-br] Lista de nomes de Ruas com erros e typos no OSM - Brasil

Lucas Ferreira Mation lucasmation em gmail.com
Quarta Abril 9 20:12:42 UTC 2014


Pessoal,

Fiz uns testes dos nomes de Ruas no OSM-Brasil. Objetivo era chegar
numa base "limpa" para cruzar com o CNEFE, mas acho que já é um
resutlado de interesse por sí só, então já adianto neste email

Basicamente eu fiz a comparação dos nomes de ruas no OSM dentro de
cada cidade, para tentar achar nomes duplicados e/ou com algum erro de
grafia. Para isso fiz um pareamento fuzzy/probabilistico entre os
nomes de ruas em cada cidade, usando o método de Levenshtein (
threshold = 0.1). Resultados:

Dos  1.392k ways (seguimentos de ruas) que o OSM tem, 964k  (69%)
destes estão sem nome. Portanto há 428 mil ruas com nome. Colapsando
por nome de rua e município (usando a divisão municipal de 2010 do
IBGE) ficamos com 297k ruas (na verdade são pares de nome de
rua-município).  Aí apliquei o método mesmo método de Levenshtein (
threshold = 0.1) e encontrei 10.2k ruas que potencialmente são
duplicadas, devido a typos no nome, etc.

Coloquei estes casos nestes arquivos (é o mesmo dado, só para
facilitar o acesso)

excel:     https://www.dropbox.com/s/9akoujoaww4xqf1/Erros_Nomes_Ruas_Municipios_OSM.xls

csv:
https://www.dropbox.com/s/jjd67ayn22vgyqo/Erros_Nomes_Ruas_Municipios_OSM.csv

Alguém se anima a encarar estas correções? Como encaminhar isso?
abs
Lucas



Mais detalhes sobre a lista de discussão Talk-br