[Talk-br] Fwd: Re: Street name data
Hermann Peifer
peifer em gmx.eu
Sábado Março 22 20:13:52 UTC 2014
É mesmo: a qualidade dos dados do IBGE pode ser um problema.
Acabei de abaixar todos os 1370 arquivos do RS com um total de 5 129 203
endereços. Nemhum deles tem um acento e todos os nomes em letras
maiúsculas :-( Alguns exemplos abaixo. Tambem já pensei no algoritmo
Levenshtein, mas agora estou na dúvidas si vale a pena mesmo.
Por outro lado: ainda acho que os "heat maps" poderiam fazer sentido,
para ilustrar o estágio do mapeamento.
Abraços, Hermann
RUA ALBINO PRIESTCH
RUA ANTONIO ALVES PEREIRA
RUA ADAO BRASIL
RUA PROJETADA 1
RUA PROJETADA 2
RUA VEREADORA LORINHA
RUA PROJETADA 3
...
ESTRADA LOC SAO SEBASTIAO A PTO BIGUA
ESTRADA PORTO BIGUA A ESQ SAO PEDRO
ESTRADA ESQ SAO PEDRO A POCO PRETO
...
RUA BARAO TRIUNFO
RUA SEM DENOMINACAO A
RUA SEM DENOMINACAO B
RUA SEM DENOMINACAO D
On 2014-03-22 19:56, Fernando Trebien wrote:
> Uma idéia: o diff poderia ordenar as diferenças pela distância de
> Levenshtein (http://en.wikipedia.org/wiki/Levenshtein_distance). No
> início do arquivo, ficariam os nomes com o menor número de diferenças,
> a maioria pequenos erros ortográficos ou com acentuação incorreta
> (tanto no OSM quanto no cadastro do IBGE), muitas das quais teriam uma
> solução imediatamente óbvia (dispensando que o mapeador tenha que
> confirmar o nome na placa). No final, ficariam as diferenças mais
> grosseiras (problemas de qualidade em ou ou no outro cadastro), cujo
> conserto custaria mais para o mapeador, mas somariam um número bem
> menor.
>
> Uma rápida olhada no arquivo daria ao mapeador uma idéia de quanto
> trabalho ele teria pela frente. Por exemplo, se forem 10000 diferenças
> na sua cidade, mas só 250 realmente exigirem que ele verifique a placa
> (o resto é aparentemente trivial), é muito mais provável que sinta
> vontade de iniciar o processo de correção. Mas se o mapeador só souber
> que são 10000 diferenças, pode nunca começar por achar que o trabalho
> é difícil demais.
>
> 2014-03-22 14:11 GMT-03:00 wille <wille-Y/LS8JSQkG7wKRl1EuVUxQ em public.gmane.org>:
>> oi, Hermann
>>
>>
>>>
>>> Claro: faltam páginas em Português e talves outras adaptações (por
>>> exemplo no algoritmo de comparação dos nomes: qual seria a tolerância
>>> para dizer que 2 nomes são iguais: tolerância cero que nem na Lei
>>> Seca?).
>>
>>
>> Os dados do IBGE tem muitas ruas com nomes abreviados ou sem os acentos...
>>
>> Acho a ideia interessante, mas não consideraria prioritária, por dois
>> motivos: não estamos num estágio tão avançado de mapeamento quanto os
>> alemães e o os dados do IBGE não são de qualidade muito confiável.
>>
>> abçs,
>> wille
>>
>>
>>>
>>> Acho que no caso este projeto saísse do papel: tambem é preciso de
>>> alguns voluntários do Brasil mesmo, alguns "verdadeiros mapeadores
>>> brasileiros" que entendem melhor o sistema de endereços no Brasil.
>>>
>>> Hermann
>>>
>>> On 2014-03-22 15:50, Arlindo Pereira wrote:
>>>>
>>>> Muito legal. Acho super válido, se não for tomar muito o seu tempo. Não
>>>> deixa de ser uma forma de contribuir com o projeto. =)
>>>>
>>>>
>>>> []s
>>>> Arlindo Pereira
>>>>
>>>> On Sat, Mar 22, 2014 at 11:16 AM, Hermann Peifer
>>>> <peifer-CFr20CYPKuQ-XMD5yJDbdMReXY1tMh2IBg em public.gmane.org
>>>> <mailto:peifer-CFr20CYPKuQ-XMD5yJDbdMReXY1tMh2IBg em public.gmane.org>> wrote:
>>>>
>>>> On 2014-03-22 14:51, Hermann Peifer wrote:
>>>>
>>>>
>>>> [1] http://www.openstreetmap.org/__user/okilimu/diary
>>>> <http://www.openstreetmap.org/user/okilimu/diary>
>>>>
>>>> [2] "Heat maps" por cidade/região, clique por exemplo: Berlim
>>>> http://regio-osm.de/__listofstreets/__kartenuebersicht.html
>>>> <http://regio-osm.de/listofstreets/kartenuebersicht.html>
>>>>
>>>>
>>>>
>>>> Esqueci que daqueles heat maps vc pode chegar nas páginas com as
>>>> estatísticas. Aqui os números de uma pequena vila de 1000
>>>> habitantes, nem é município (usando Google Translate):
>>>>
>>>>
>>>> http://translate.google.com/__translate?sl=de&tl=pt&js=n&__prev=_t&hl=en&ie=UTF-8&u=__regio-osm.de%2Flistofstreets%__2Fevaluation%3Ftitle%__3DWiltingen%26country%__3DBundesrepublik%2BDeutschland
>>>>
>>>> <http://translate.google.com/translate?sl=de&tl=pt&js=n&prev=_t&hl=en&ie=UTF-8&u=regio-osm.de%2Flistofstreets%2Fevaluation%3Ftitle%3DWiltingen%26country%3DBundesrepublik%2BDeutschland>
>>>>
>>>> Hermann
>>>
>>>
>>>
>>> _______________________________________________
>>> Talk-br mailing list
>>> Talk-br-3+rWM/WnaLOn4i5uJCXUsti2O/JbrIOy em public.gmane.org
>>> https://lists.openstreetmap.org/listinfo/talk-br
>>
>>
>> --
>> wille
>> http://wille.blog.br
>>
>>
>> _______________________________________________
>> Talk-br mailing list
>> Talk-br-3+rWM/WnaLOn4i5uJCXUsti2O/JbrIOy em public.gmane.org
>> https://lists.openstreetmap.org/listinfo/talk-br
>
>
>
Mais detalhes sobre a lista de discussão Talk-br