[Talk-br] Fwd: Re: Street name data
Hermann Peifer
peifer em gmx.eu
Domingo Março 23 19:01:14 UTC 2014
Nossa! Isso foi rápido. Nem tive tempo para olhar os detalhes dos
resultados, mas vou fazer logo.
A distäncia Levenshtein é absoluta, não é? Digamos: estes dois exemplos
tem ambos uma distância de 1:
'RUA A' <-> 'RUA B'
'RUA MARECHAL ARTHUR COSTA E SILVA' <-> 'RUA MARECHAL ARTUR COSTA E SILVA'
No primeiro exemplo, um dos dois nomes seria completamente errado e no
segundo exemplo falta só uma letra no meio de um nome comprido. Vou
pensar no assunto.
Abçs, Hermann
PS:
Agora tambem coloquei os nomes dos municípios na minha pasta:
MUE250GC_SIR.txt, baseado no shapefile 43MUE250GC_SIR.shp do IBGE
496 municípios com código e nome, 10 kb, texto UTF-8, sep = tab
http://ubuntuone.com/1uCkqoBdecUmXgsMw8lSQC
Minha NORMALIZACAO does nomes das ruas do OSM era asim:
$ cat scripts/translit.awk
{
$0 = toupper($0)
gsub(/[ÀÁÂÃĪ]/, "A")
gsub(/Ç/, "C")
gsub(/[ÈÉÊ]/, "E")
gsub(/Í/, "I")
gsub(/Ñ/, "N")
gsub(/[ÓÔÕÖ°º]/, "O")
gsub(/[ÚÜ]/, "U")
gsub(/ß/, "SS")
print
}
On 2014-03-23 18:31, Fernando Trebien wrote:
> Tentei, acho que os resultados são interessantes. Por isso, acabei
> postando no fórum:
> http://forum.openstreetmap.org/viewtopic.php?pid=408015#p408015
>
> 2014-03-23 12:01 GMT-03:00 Hermann Peifer <peifer em gmx.eu>:
>>
>> Olá,
>>
>> Fiz algumas pesquisas provisórias, pegando os dados do RS:
>>
>> O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre
>> eles tem uma boa quantidade de varias formas de ruas sem nome, veja o anexo.
>>
>> Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no
>> ubuntu.com:
>>
>> 1) municipio_cep_RUA_CNEFE.txt
>> Código do municipio, CEP e NOME DA RUA, segundo o CNEFE
>> 130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação
>> http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs
>>
>>
>> 2) municipio_rua_RUA_OSM.txt
>> Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM
>> 23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação
>> http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9
>>
>> Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para
>> facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz
>> dessa forma para evitar de mexer com as duas listas).
>>
>> Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a
>> distância Levenshtein, ou algo semelhante.
>>
>> Alguem quer tentar ?
>>
>> Abçs, Hermann
>>
>>
>> Anexo
>>
>> Casos Nome
>> 215 RUA SEM DENOMINACAO
>> 163 RUA SEM NOME
>> 91 RUA SEM NOME 2
>> 88 BECO SEM NOME
>> 84 RUA SEM NOME 1
>> 77 BECO SEM DENOMINACAO
>> 68 RUA SEM NOME 3
>> 67 ESTRADA SEM DENOMINACAO
>> 66 RUA SEM DENOMINACAO 2
>> 60 TRAVESSA SEM NOME
>> 57 RUA SEM DENOMINACAO 1
>> 57 ESTRADA SEM NOME
>> 54 RUA SEM NOME 4
>> 45 RUA SEM DENOMINACAO 3
>> 43 RUA SEM NOME 5
>> 38 BECO SEM NOME 2
>> 37 RUA SEM DENOMINACAO 4
>> 36 TRAVESSA SEM DENOMINACAO
>> 36 BECO SEM NOME 1
>> 33 RUA SEM NOME 6
>> 28 ESTRADA SEM NOME 2
>> 27 ESTRADA SEM NOME 1
>> 26 RUA SEM DENOMINACAO 5
>> 25 RUA CASEMIRO DE ABREU
>> 23 BECO SEM NOME 3
>> 22 RUA SEM NOME 8
>> 22 RUA SEM NOME 7
>> 21 BECO SEM NOME 4
>> 20 ESTRADA SEM DENOMINACAO 2
>>
>>
>>
>> On 2014-03-23 14:24, Thiago Marcos P. Santos wrote:
>>>
>>> 2014-03-23 14:53 GMT+02:00 Fernando Trebien <fernando.trebien em gmail.com>:
>>>>
>>>> Pelo que entendi é no processamento, pra poder comparar as duas bases
>>>> tendo menos falsas diferenças.
>>>>
>>>
>>> Eh.... a qualidade dos dados está realmente bastante questionável....
>>>
>>> Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
>>> pérolas que encontrei:
>>>
>>> RUA SEMINTERIO
>>> RUA DO CEMINTERIO
>>> RUA CEMINTERIO
>>>
>>
>>
>>
>>
>>
>> _______________________________________________
>> Talk-br mailing list
>> Talk-br em openstreetmap.org
>> https://lists.openstreetmap.org/listinfo/talk-br
>
>
>
Mais detalhes sobre a lista de discussão Talk-br