[Talk-br] Fwd: Re: Street name data
Fernando Trebien
fernando.trebien em gmail.com
Domingo Março 23 22:16:02 UTC 2014
Hehe foi exatamente isso que eu fiz na segunda versão:
http://forum.openstreetmap.org/viewtopic.php?pid=408056#p408056
2014-03-23 19:04 GMT-03:00 Paulo Carvalho <paulo.r.m.carvalho em gmail.com>:
> Sugiro dividir o valor da distância pelo número de caracteres de um dos
> operandos. Em ambos os exemplos a distância é 1. Mas se relativizar, fica
> 25% para o primeiro exemplo e 3% para o segundo.
>
>
> Em 23 de março de 2014 16:01, Hermann Peifer <peifer em gmx.eu> escreveu:
>
>>
>> Nossa! Isso foi rápido. Nem tive tempo para olhar os detalhes dos
>> resultados, mas vou fazer logo.
>>
>> A distäncia Levenshtein é absoluta, não é? Digamos: estes dois exemplos
>> tem ambos uma distância de 1:
>>
>> 'RUA A' <-> 'RUA B'
>> 'RUA MARECHAL ARTHUR COSTA E SILVA' <-> 'RUA MARECHAL ARTUR COSTA E SILVA'
>>
>> No primeiro exemplo, um dos dois nomes seria completamente errado e no
>> segundo exemplo falta só uma letra no meio de um nome comprido. Vou pensar
>> no assunto.
>>
>> Abçs, Hermann
>>
>> PS:
>>
>> Agora tambem coloquei os nomes dos municípios na minha pasta:
>> MUE250GC_SIR.txt, baseado no shapefile 43MUE250GC_SIR.shp do IBGE
>> 496 municípios com código e nome, 10 kb, texto UTF-8, sep = tab
>> http://ubuntuone.com/1uCkqoBdecUmXgsMw8lSQC
>>
>> Minha NORMALIZACAO does nomes das ruas do OSM era asim:
>>
>> $ cat scripts/translit.awk
>>
>> {
>> $0 = toupper($0)
>> gsub(/[ÀÁÂÃĪ]/, "A")
>> gsub(/Ç/, "C")
>> gsub(/[ÈÉÊ]/, "E")
>> gsub(/Í/, "I")
>> gsub(/Ñ/, "N")
>> gsub(/[ÓÔÕÖ°º]/, "O")
>> gsub(/[ÚÜ]/, "U")
>> gsub(/ß/, "SS")
>>
>> print
>>
>> }
>>
>> On 2014-03-23 18:31, Fernando Trebien wrote:
>>>
>>> Tentei, acho que os resultados são interessantes. Por isso, acabei
>>> postando no fórum:
>>> http://forum.openstreetmap.org/viewtopic.php?pid=408015#p408015
>>>
>>> 2014-03-23 12:01 GMT-03:00 Hermann Peifer <peifer em gmx.eu>:
>>>>
>>>>
>>>> Olá,
>>>>
>>>> Fiz algumas pesquisas provisórias, pegando os dados do RS:
>>>>
>>>> O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre
>>>> eles tem uma boa quantidade de varias formas de ruas sem nome, veja o
>>>> anexo.
>>>>
>>>> Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no
>>>> ubuntu.com:
>>>>
>>>> 1) municipio_cep_RUA_CNEFE.txt
>>>> Código do municipio, CEP e NOME DA RUA, segundo o CNEFE
>>>> 130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação
>>>> http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs
>>>>
>>>>
>>>> 2) municipio_rua_RUA_OSM.txt
>>>> Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM
>>>> 23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação
>>>> http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9
>>>>
>>>> Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para
>>>> facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz
>>>> dessa forma para evitar de mexer com as duas listas).
>>>>
>>>> Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a
>>>> distância Levenshtein, ou algo semelhante.
>>>>
>>>> Alguem quer tentar ?
>>>>
>>>> Abçs, Hermann
>>>>
>>>>
>>>> Anexo
>>>>
>>>> Casos Nome
>>>> 215 RUA SEM DENOMINACAO
>>>> 163 RUA SEM NOME
>>>> 91 RUA SEM NOME 2
>>>> 88 BECO SEM NOME
>>>> 84 RUA SEM NOME 1
>>>> 77 BECO SEM DENOMINACAO
>>>> 68 RUA SEM NOME 3
>>>> 67 ESTRADA SEM DENOMINACAO
>>>> 66 RUA SEM DENOMINACAO 2
>>>> 60 TRAVESSA SEM NOME
>>>> 57 RUA SEM DENOMINACAO 1
>>>> 57 ESTRADA SEM NOME
>>>> 54 RUA SEM NOME 4
>>>> 45 RUA SEM DENOMINACAO 3
>>>> 43 RUA SEM NOME 5
>>>> 38 BECO SEM NOME 2
>>>> 37 RUA SEM DENOMINACAO 4
>>>> 36 TRAVESSA SEM DENOMINACAO
>>>> 36 BECO SEM NOME 1
>>>> 33 RUA SEM NOME 6
>>>> 28 ESTRADA SEM NOME 2
>>>> 27 ESTRADA SEM NOME 1
>>>> 26 RUA SEM DENOMINACAO 5
>>>> 25 RUA CASEMIRO DE ABREU
>>>> 23 BECO SEM NOME 3
>>>> 22 RUA SEM NOME 8
>>>> 22 RUA SEM NOME 7
>>>> 21 BECO SEM NOME 4
>>>> 20 ESTRADA SEM DENOMINACAO 2
>>>>
>>>>
>>>>
>>>> On 2014-03-23 14:24, Thiago Marcos P. Santos wrote:
>>>>>
>>>>>
>>>>> 2014-03-23 14:53 GMT+02:00 Fernando Trebien
>>>>> <fernando.trebien em gmail.com>:
>>>>>>
>>>>>>
>>>>>> Pelo que entendi é no processamento, pra poder comparar as duas bases
>>>>>> tendo menos falsas diferenças.
>>>>>>
>>>>>
>>>>> Eh.... a qualidade dos dados está realmente bastante questionável....
>>>>>
>>>>> Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
>>>>> pérolas que encontrei:
>>>>>
>>>>> RUA SEMINTERIO
>>>>> RUA DO CEMINTERIO
>>>>> RUA CEMINTERIO
>>>>>
>>>>
>>>>
>>>>
>>>>
>>>>
>>>> _______________________________________________
>>>> Talk-br mailing list
>>>> Talk-br em openstreetmap.org
>>>> https://lists.openstreetmap.org/listinfo/talk-br
>>>
>>>
>>>
>>>
>>
>>
>>
>> _______________________________________________
>> Talk-br mailing list
>> Talk-br em openstreetmap.org
>> https://lists.openstreetmap.org/listinfo/talk-br
>
>
>
> _______________________________________________
> Talk-br mailing list
> Talk-br em openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>
--
Fernando Trebien
+55 (51) 9962-5409
"The speed of computer chips doubles every 18 months." (Moore's law)
"The speed of software halves every 18 months." (Gates' law)
Mais detalhes sobre a lista de discussão Talk-br