[Talk-br] Lista de nomes de Ruas com erros e typos no OSM - Brasil

Erick de Oliveira Leal erickdeoliveiraleal em gmail.com
Quarta Abril 9 21:15:11 UTC 2014


Anor Carlos, ate onde sei não ajuda nada ter rua ao invés de não ter nada.
Só atrapalha, pq não dificulta saber o q esta com nome realmente. Então não
coloque rua onde não tem nada.
Em 09/04/2014 17:13, "Lucas Ferreira Mation" <lucasmation em gmail.com>
escreveu:

> Pessoal,
>
> Fiz uns testes dos nomes de Ruas no OSM-Brasil. Objetivo era chegar
> numa base "limpa" para cruzar com o CNEFE, mas acho que já é um
> resutlado de interesse por sí só, então já adianto neste email
>
> Basicamente eu fiz a comparação dos nomes de ruas no OSM dentro de
> cada cidade, para tentar achar nomes duplicados e/ou com algum erro de
> grafia. Para isso fiz um pareamento fuzzy/probabilistico entre os
> nomes de ruas em cada cidade, usando o método de Levenshtein (
> threshold = 0.1). Resultados:
>
> Dos  1.392k ways (seguimentos de ruas) que o OSM tem, 964k  (69%)
> destes estão sem nome. Portanto há 428 mil ruas com nome. Colapsando
> por nome de rua e município (usando a divisão municipal de 2010 do
> IBGE) ficamos com 297k ruas (na verdade são pares de nome de
> rua-município).  Aí apliquei o método mesmo método de Levenshtein (
> threshold = 0.1) e encontrei 10.2k ruas que potencialmente são
> duplicadas, devido a typos no nome, etc.
>
> Coloquei estes casos nestes arquivos (é o mesmo dado, só para
> facilitar o acesso)
>
> excel:
> https://www.dropbox.com/s/9akoujoaww4xqf1/Erros_Nomes_Ruas_Municipios_OSM.xls
>
> csv:
>
> https://www.dropbox.com/s/jjd67ayn22vgyqo/Erros_Nomes_Ruas_Municipios_OSM.csv
>
> Alguém se anima a encarar estas correções? Como encaminhar isso?
> abs
> Lucas
>
> _______________________________________________
> Talk-br mailing list
> Talk-br em openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://lists.openstreetmap.org/pipermail/talk-br/attachments/20140409/28b7c6c6/attachment.html>


Mais detalhes sobre a lista de discussão Talk-br