[Talk-br] Fwd: Re: Street name data

Fernando Trebien fernando.trebien em gmail.com
Domingo Março 23 22:16:02 UTC 2014


Hehe foi exatamente isso que eu fiz na segunda versão:
http://forum.openstreetmap.org/viewtopic.php?pid=408056#p408056

2014-03-23 19:04 GMT-03:00 Paulo Carvalho <paulo.r.m.carvalho em gmail.com>:
> Sugiro dividir o valor da distância pelo número de caracteres de um dos
> operandos.  Em ambos os exemplos a distância é 1.  Mas se relativizar, fica
> 25% para o primeiro exemplo e 3% para o segundo.
>
>
> Em 23 de março de 2014 16:01, Hermann Peifer <peifer em gmx.eu> escreveu:
>
>>
>> Nossa! Isso foi rápido. Nem tive tempo para olhar os detalhes dos
>> resultados, mas vou fazer logo.
>>
>> A distäncia Levenshtein é absoluta, não é? Digamos: estes dois exemplos
>> tem ambos uma distância de 1:
>>
>> 'RUA A' <-> 'RUA B'
>> 'RUA MARECHAL ARTHUR COSTA E SILVA' <-> 'RUA MARECHAL ARTUR COSTA E SILVA'
>>
>> No primeiro exemplo, um dos dois nomes seria completamente errado e no
>> segundo exemplo falta só uma letra no meio de um nome comprido. Vou pensar
>> no assunto.
>>
>> Abçs, Hermann
>>
>> PS:
>>
>> Agora tambem coloquei os nomes dos municípios na minha pasta:
>> MUE250GC_SIR.txt, baseado no shapefile 43MUE250GC_SIR.shp do IBGE
>> 496 municípios com código e nome, 10 kb, texto UTF-8, sep = tab
>> http://ubuntuone.com/1uCkqoBdecUmXgsMw8lSQC
>>
>> Minha NORMALIZACAO does nomes das ruas do OSM era asim:
>>
>> $ cat scripts/translit.awk
>>
>> {
>>         $0 = toupper($0)
>>         gsub(/[ÀÁÂÃĪ]/, "A")
>>         gsub(/Ç/, "C")
>>         gsub(/[ÈÉÊ]/, "E")
>>         gsub(/Í/, "I")
>>         gsub(/Ñ/, "N")
>>         gsub(/[ÓÔÕÖ°º]/, "O")
>>         gsub(/[ÚÜ]/, "U")
>>         gsub(/ß/, "SS")
>>
>>         print
>>
>> }
>>
>> On 2014-03-23 18:31, Fernando Trebien wrote:
>>>
>>> Tentei, acho que os resultados são interessantes. Por isso, acabei
>>> postando no fórum:
>>> http://forum.openstreetmap.org/viewtopic.php?pid=408015#p408015
>>>
>>> 2014-03-23 12:01 GMT-03:00 Hermann Peifer <peifer em gmx.eu>:
>>>>
>>>>
>>>> Olá,
>>>>
>>>> Fiz algumas pesquisas provisórias, pegando os dados do RS:
>>>>
>>>> O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre
>>>> eles tem uma boa quantidade de varias formas de ruas sem nome, veja o
>>>> anexo.
>>>>
>>>> Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no
>>>> ubuntu.com:
>>>>
>>>> 1) municipio_cep_RUA_CNEFE.txt
>>>> Código do municipio, CEP e NOME DA RUA, segundo o CNEFE
>>>> 130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação
>>>> http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs
>>>>
>>>>
>>>> 2) municipio_rua_RUA_OSM.txt
>>>> Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM
>>>> 23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação
>>>> http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9
>>>>
>>>> Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para
>>>> facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz
>>>> dessa forma para evitar de mexer com as duas listas).
>>>>
>>>> Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a
>>>> distância Levenshtein, ou algo semelhante.
>>>>
>>>> Alguem quer tentar ?
>>>>
>>>> Abçs, Hermann
>>>>
>>>>
>>>> Anexo
>>>>
>>>>    Casos Nome
>>>>      215 RUA SEM DENOMINACAO
>>>>      163 RUA SEM NOME
>>>>       91 RUA SEM NOME 2
>>>>       88 BECO SEM NOME
>>>>       84 RUA SEM NOME 1
>>>>       77 BECO SEM DENOMINACAO
>>>>       68 RUA SEM NOME 3
>>>>       67 ESTRADA SEM DENOMINACAO
>>>>       66 RUA SEM DENOMINACAO 2
>>>>       60 TRAVESSA SEM NOME
>>>>       57 RUA SEM DENOMINACAO 1
>>>>       57 ESTRADA SEM NOME
>>>>       54 RUA SEM NOME 4
>>>>       45 RUA SEM DENOMINACAO 3
>>>>       43 RUA SEM NOME 5
>>>>       38 BECO SEM NOME 2
>>>>       37 RUA SEM DENOMINACAO 4
>>>>       36 TRAVESSA SEM DENOMINACAO
>>>>       36 BECO SEM NOME 1
>>>>       33 RUA SEM NOME 6
>>>>       28 ESTRADA SEM NOME 2
>>>>       27 ESTRADA SEM NOME 1
>>>>       26 RUA SEM DENOMINACAO 5
>>>>       25 RUA CASEMIRO DE ABREU
>>>>       23 BECO SEM NOME 3
>>>>       22 RUA SEM NOME 8
>>>>       22 RUA SEM NOME 7
>>>>       21 BECO SEM NOME 4
>>>>       20 ESTRADA SEM DENOMINACAO 2
>>>>
>>>>
>>>>
>>>> On 2014-03-23 14:24, Thiago Marcos P. Santos wrote:
>>>>>
>>>>>
>>>>> 2014-03-23 14:53 GMT+02:00 Fernando Trebien
>>>>> <fernando.trebien em gmail.com>:
>>>>>>
>>>>>>
>>>>>> Pelo que entendi é no processamento, pra poder comparar as duas bases
>>>>>> tendo menos falsas diferenças.
>>>>>>
>>>>>
>>>>> Eh.... a qualidade dos dados está realmente bastante questionável....
>>>>>
>>>>> Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
>>>>> pérolas que encontrei:
>>>>>
>>>>> RUA SEMINTERIO
>>>>> RUA DO CEMINTERIO
>>>>> RUA CEMINTERIO
>>>>>
>>>>
>>>>
>>>>
>>>>
>>>>
>>>> _______________________________________________
>>>> Talk-br mailing list
>>>> Talk-br em openstreetmap.org
>>>> https://lists.openstreetmap.org/listinfo/talk-br
>>>
>>>
>>>
>>>
>>
>>
>>
>> _______________________________________________
>> Talk-br mailing list
>> Talk-br em openstreetmap.org
>> https://lists.openstreetmap.org/listinfo/talk-br
>
>
>
> _______________________________________________
> Talk-br mailing list
> Talk-br em openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>



-- 
Fernando Trebien
+55 (51) 9962-5409

"The speed of computer chips doubles every 18 months." (Moore's law)
"The speed of software halves every 18 months." (Gates' law)



Mais detalhes sobre a lista de discussão Talk-br