[Talk-br] Lista de nomes de Ruas com erros e typos no OSM - Brasil
Lucas Ferreira Mation
lucasmation em gmail.com
Quarta Abril 9 20:12:42 UTC 2014
Pessoal,
Fiz uns testes dos nomes de Ruas no OSM-Brasil. Objetivo era chegar
numa base "limpa" para cruzar com o CNEFE, mas acho que já é um
resutlado de interesse por sí só, então já adianto neste email
Basicamente eu fiz a comparação dos nomes de ruas no OSM dentro de
cada cidade, para tentar achar nomes duplicados e/ou com algum erro de
grafia. Para isso fiz um pareamento fuzzy/probabilistico entre os
nomes de ruas em cada cidade, usando o método de Levenshtein (
threshold = 0.1). Resultados:
Dos 1.392k ways (seguimentos de ruas) que o OSM tem, 964k (69%)
destes estão sem nome. Portanto há 428 mil ruas com nome. Colapsando
por nome de rua e município (usando a divisão municipal de 2010 do
IBGE) ficamos com 297k ruas (na verdade são pares de nome de
rua-município). Aí apliquei o método mesmo método de Levenshtein (
threshold = 0.1) e encontrei 10.2k ruas que potencialmente são
duplicadas, devido a typos no nome, etc.
Coloquei estes casos nestes arquivos (é o mesmo dado, só para
facilitar o acesso)
excel: https://www.dropbox.com/s/9akoujoaww4xqf1/Erros_Nomes_Ruas_Municipios_OSM.xls
csv:
https://www.dropbox.com/s/jjd67ayn22vgyqo/Erros_Nomes_Ruas_Municipios_OSM.csv
Alguém se anima a encarar estas correções? Como encaminhar isso?
abs
Lucas
Mais detalhes sobre a lista de discussão Talk-br