[Talk-br] Fwd: Re: Street name data
Paulo Carvalho
paulo.r.m.carvalho em gmail.com
Domingo Março 23 22:04:20 UTC 2014
Sugiro dividir o valor da distância pelo número de caracteres de um dos
operandos. Em ambos os exemplos a distância é 1. Mas se relativizar, fica
25% para o primeiro exemplo e 3% para o segundo.
Em 23 de março de 2014 16:01, Hermann Peifer <peifer em gmx.eu> escreveu:
>
> Nossa! Isso foi rápido. Nem tive tempo para olhar os detalhes dos
> resultados, mas vou fazer logo.
>
> A distäncia Levenshtein é absoluta, não é? Digamos: estes dois exemplos
> tem ambos uma distância de 1:
>
> 'RUA A' <-> 'RUA B'
> 'RUA MARECHAL ARTHUR COSTA E SILVA' <-> 'RUA MARECHAL ARTUR COSTA E SILVA'
>
> No primeiro exemplo, um dos dois nomes seria completamente errado e no
> segundo exemplo falta só uma letra no meio de um nome comprido. Vou pensar
> no assunto.
>
> Abçs, Hermann
>
> PS:
>
> Agora tambem coloquei os nomes dos municípios na minha pasta:
> MUE250GC_SIR.txt, baseado no shapefile 43MUE250GC_SIR.shp do IBGE
> 496 municípios com código e nome, 10 kb, texto UTF-8, sep = tab
> http://ubuntuone.com/1uCkqoBdecUmXgsMw8lSQC
>
> Minha NORMALIZACAO does nomes das ruas do OSM era asim:
>
> $ cat scripts/translit.awk
>
> {
> $0 = toupper($0)
> gsub(/[ÀÁÂÃĪ]/, "A")
> gsub(/Ç/, "C")
> gsub(/[ÈÉÊ]/, "E")
> gsub(/Í/, "I")
> gsub(/Ñ/, "N")
> gsub(/[ÓÔÕÖ°º]/, "O")
> gsub(/[ÚÜ]/, "U")
> gsub(/ß/, "SS")
>
> print
>
> }
>
> On 2014-03-23 18:31, Fernando Trebien wrote:
>
>> Tentei, acho que os resultados são interessantes. Por isso, acabei
>> postando no fórum:
>> http://forum.openstreetmap.org/viewtopic.php?pid=408015#p408015
>>
>> 2014-03-23 12:01 GMT-03:00 Hermann Peifer <peifer em gmx.eu>:
>>
>>>
>>> Olá,
>>>
>>> Fiz algumas pesquisas provisórias, pegando os dados do RS:
>>>
>>> O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre
>>> eles tem uma boa quantidade de varias formas de ruas sem nome, veja o
>>> anexo.
>>>
>>> Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no
>>> ubuntu.com:
>>>
>>> 1) municipio_cep_RUA_CNEFE.txt
>>> Código do municipio, CEP e NOME DA RUA, segundo o CNEFE
>>> 130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação
>>> http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs
>>>
>>>
>>> 2) municipio_rua_RUA_OSM.txt
>>> Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM
>>> 23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação
>>> http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9
>>>
>>> Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para
>>> facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz
>>> dessa forma para evitar de mexer com as duas listas).
>>>
>>> Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a
>>> distância Levenshtein, ou algo semelhante.
>>>
>>> Alguem quer tentar ?
>>>
>>> Abçs, Hermann
>>>
>>>
>>> Anexo
>>>
>>> Casos Nome
>>> 215 RUA SEM DENOMINACAO
>>> 163 RUA SEM NOME
>>> 91 RUA SEM NOME 2
>>> 88 BECO SEM NOME
>>> 84 RUA SEM NOME 1
>>> 77 BECO SEM DENOMINACAO
>>> 68 RUA SEM NOME 3
>>> 67 ESTRADA SEM DENOMINACAO
>>> 66 RUA SEM DENOMINACAO 2
>>> 60 TRAVESSA SEM NOME
>>> 57 RUA SEM DENOMINACAO 1
>>> 57 ESTRADA SEM NOME
>>> 54 RUA SEM NOME 4
>>> 45 RUA SEM DENOMINACAO 3
>>> 43 RUA SEM NOME 5
>>> 38 BECO SEM NOME 2
>>> 37 RUA SEM DENOMINACAO 4
>>> 36 TRAVESSA SEM DENOMINACAO
>>> 36 BECO SEM NOME 1
>>> 33 RUA SEM NOME 6
>>> 28 ESTRADA SEM NOME 2
>>> 27 ESTRADA SEM NOME 1
>>> 26 RUA SEM DENOMINACAO 5
>>> 25 RUA CASEMIRO DE ABREU
>>> 23 BECO SEM NOME 3
>>> 22 RUA SEM NOME 8
>>> 22 RUA SEM NOME 7
>>> 21 BECO SEM NOME 4
>>> 20 ESTRADA SEM DENOMINACAO 2
>>>
>>>
>>>
>>> On 2014-03-23 14:24, Thiago Marcos P. Santos wrote:
>>>
>>>>
>>>> 2014-03-23 14:53 GMT+02:00 Fernando Trebien <fernando.trebien em gmail.com
>>>> >:
>>>>
>>>>>
>>>>> Pelo que entendi é no processamento, pra poder comparar as duas bases
>>>>> tendo menos falsas diferenças.
>>>>>
>>>>>
>>>> Eh.... a qualidade dos dados está realmente bastante questionável....
>>>>
>>>> Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
>>>> pérolas que encontrei:
>>>>
>>>> RUA SEMINTERIO
>>>> RUA DO CEMINTERIO
>>>> RUA CEMINTERIO
>>>>
>>>>
>>>
>>>
>>>
>>>
>>> _______________________________________________
>>> Talk-br mailing list
>>> Talk-br em openstreetmap.org
>>> https://lists.openstreetmap.org/listinfo/talk-br
>>>
>>
>>
>>
>>
>
>
> _______________________________________________
> Talk-br mailing list
> Talk-br em openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://lists.openstreetmap.org/pipermail/talk-br/attachments/20140323/ac291ed0/attachment.html>
Mais detalhes sobre a lista de discussão Talk-br