[Talk-br] Street name data

Fernando Trebien fernando.trebien em gmail.com
Sábado Março 22 18:56:36 UTC 2014


Uma idéia: o diff poderia ordenar as diferenças pela distância de
Levenshtein (http://en.wikipedia.org/wiki/Levenshtein_distance). No
início do arquivo, ficariam os nomes com o menor número de diferenças,
a maioria pequenos erros ortográficos ou com acentuação incorreta
(tanto no OSM quanto no cadastro do IBGE), muitas das quais teriam uma
solução imediatamente óbvia (dispensando que o mapeador tenha que
confirmar o nome na placa). No final, ficariam as diferenças mais
grosseiras (problemas de qualidade em ou ou no outro cadastro), cujo
conserto custaria mais para o mapeador, mas somariam um número bem
menor.

Uma rápida olhada no arquivo daria ao mapeador uma idéia de quanto
trabalho ele teria pela frente. Por exemplo, se forem 10000 diferenças
na sua cidade, mas só 250 realmente exigirem que ele verifique a placa
(o resto é aparentemente trivial), é muito mais provável que sinta
vontade de iniciar o processo de correção. Mas se o mapeador só souber
que são 10000 diferenças, pode nunca começar por achar que o trabalho
é difícil demais.

2014-03-22 14:11 GMT-03:00 wille <wille em wille.blog.br>:
> oi, Hermann
>
>
>>
>> Claro: faltam páginas em Português e talves outras adaptações (por
>> exemplo no algoritmo de comparação dos nomes: qual seria a tolerância
>> para dizer que 2 nomes são iguais: tolerância cero que nem na Lei
>> Seca?).
>
>
> Os dados do IBGE tem muitas ruas com nomes abreviados ou sem os acentos...
>
> Acho a ideia interessante, mas não consideraria prioritária, por dois
> motivos: não estamos num estágio tão avançado de mapeamento quanto os
> alemães e o os dados do IBGE não são de qualidade muito confiável.
>
> abçs,
> wille
>
>
>>
>> Acho que no caso este projeto saísse do papel: tambem é preciso de
>> alguns voluntários do Brasil mesmo, alguns "verdadeiros mapeadores
>> brasileiros" que entendem melhor o sistema de endereços no Brasil.
>>
>> Hermann
>>
>> On 2014-03-22 15:50, Arlindo Pereira wrote:
>>>
>>> Muito legal. Acho super válido, se não for tomar muito o seu tempo. Não
>>> deixa de ser uma forma de contribuir com o projeto. =)
>>>
>>>
>>> []s
>>> Arlindo Pereira
>>>
>>> On Sat, Mar 22, 2014 at 11:16 AM, Hermann Peifer
>>> <peifer-CFr20CYPKuQ em public.gmane.org
>>> <mailto:peifer-CFr20CYPKuQ em public.gmane.org>> wrote:
>>>
>>>     On 2014-03-22 14:51, Hermann Peifer wrote:
>>>
>>>
>>>         [1] http://www.openstreetmap.org/__user/okilimu/diary
>>>         <http://www.openstreetmap.org/user/okilimu/diary>
>>>
>>>         [2] "Heat maps" por cidade/região, clique por exemplo: Berlim
>>>         http://regio-osm.de/__listofstreets/__kartenuebersicht.html
>>>         <http://regio-osm.de/listofstreets/kartenuebersicht.html>
>>>
>>>
>>>
>>>     Esqueci que daqueles heat maps vc pode chegar nas páginas com as
>>>     estatísticas. Aqui os números de uma pequena vila de 1000
>>>     habitantes, nem é município (usando Google Translate):
>>>
>>>
>>> http://translate.google.com/__translate?sl=de&tl=pt&js=n&__prev=_t&hl=en&ie=UTF-8&u=__regio-osm.de%2Flistofstreets%__2Fevaluation%3Ftitle%__3DWiltingen%26country%__3DBundesrepublik%2BDeutschland
>>>
>>> <http://translate.google.com/translate?sl=de&tl=pt&js=n&prev=_t&hl=en&ie=UTF-8&u=regio-osm.de%2Flistofstreets%2Fevaluation%3Ftitle%3DWiltingen%26country%3DBundesrepublik%2BDeutschland>
>>>
>>>     Hermann
>>
>>
>>
>> _______________________________________________
>> Talk-br mailing list
>> Talk-br em openstreetmap.org
>> https://lists.openstreetmap.org/listinfo/talk-br
>
>
> --
> wille
> http://wille.blog.br
>
>
> _______________________________________________
> Talk-br mailing list
> Talk-br em openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br



-- 
Fernando Trebien
+55 (51) 9962-5409

"The speed of computer chips doubles every 18 months." (Moore's law)
"The speed of software halves every 18 months." (Gates' law)



Mais detalhes sobre a lista de discussão Talk-br