[Talk-br] Fwd: Re: Street name data

Hermann Peifer peifer em gmx.eu
Domingo Março 23 19:01:14 UTC 2014


Nossa! Isso foi rápido. Nem tive tempo para olhar os detalhes dos 
resultados, mas vou fazer logo.

A distäncia Levenshtein é absoluta, não é? Digamos: estes dois exemplos 
tem ambos uma distância de 1:

'RUA A' <-> 'RUA B'
'RUA MARECHAL ARTHUR COSTA E SILVA' <-> 'RUA MARECHAL ARTUR COSTA E SILVA'

No primeiro exemplo, um dos dois nomes seria completamente errado e no 
segundo exemplo falta só uma letra no meio de um nome comprido. Vou 
pensar no assunto.

Abçs, Hermann

PS:

Agora tambem coloquei os nomes dos municípios na minha pasta:
MUE250GC_SIR.txt, baseado no shapefile 43MUE250GC_SIR.shp do IBGE
496 municípios com código e nome, 10 kb, texto UTF-8, sep = tab
http://ubuntuone.com/1uCkqoBdecUmXgsMw8lSQC

Minha NORMALIZACAO does nomes das ruas do OSM era asim:

$ cat scripts/translit.awk

{
	$0 = toupper($0)
	gsub(/[ÀÁÂÃĪ]/, "A")
	gsub(/Ç/, "C")
	gsub(/[ÈÉÊ]/, "E")
	gsub(/Í/, "I")
	gsub(/Ñ/, "N")
	gsub(/[ÓÔÕÖ°º]/, "O")
	gsub(/[ÚÜ]/, "U")
	gsub(/ß/, "SS")

	print
}

On 2014-03-23 18:31, Fernando Trebien wrote:
> Tentei, acho que os resultados são interessantes. Por isso, acabei
> postando no fórum:
> http://forum.openstreetmap.org/viewtopic.php?pid=408015#p408015
>
> 2014-03-23 12:01 GMT-03:00 Hermann Peifer <peifer em gmx.eu>:
>>
>> Olá,
>>
>> Fiz algumas pesquisas provisórias, pegando os dados do RS:
>>
>> O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre
>> eles tem uma boa quantidade de varias formas de ruas sem nome, veja o anexo.
>>
>> Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no
>> ubuntu.com:
>>
>> 1) municipio_cep_RUA_CNEFE.txt
>> Código do municipio, CEP e NOME DA RUA, segundo o CNEFE
>> 130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação
>> http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs
>>
>>
>> 2) municipio_rua_RUA_OSM.txt
>> Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM
>> 23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação
>> http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9
>>
>> Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para
>> facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz
>> dessa forma para evitar de mexer com as duas listas).
>>
>> Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a
>> distância Levenshtein, ou algo semelhante.
>>
>> Alguem quer tentar ?
>>
>> Abçs, Hermann
>>
>>
>> Anexo
>>
>>    Casos Nome
>>      215 RUA SEM DENOMINACAO
>>      163 RUA SEM NOME
>>       91 RUA SEM NOME 2
>>       88 BECO SEM NOME
>>       84 RUA SEM NOME 1
>>       77 BECO SEM DENOMINACAO
>>       68 RUA SEM NOME 3
>>       67 ESTRADA SEM DENOMINACAO
>>       66 RUA SEM DENOMINACAO 2
>>       60 TRAVESSA SEM NOME
>>       57 RUA SEM DENOMINACAO 1
>>       57 ESTRADA SEM NOME
>>       54 RUA SEM NOME 4
>>       45 RUA SEM DENOMINACAO 3
>>       43 RUA SEM NOME 5
>>       38 BECO SEM NOME 2
>>       37 RUA SEM DENOMINACAO 4
>>       36 TRAVESSA SEM DENOMINACAO
>>       36 BECO SEM NOME 1
>>       33 RUA SEM NOME 6
>>       28 ESTRADA SEM NOME 2
>>       27 ESTRADA SEM NOME 1
>>       26 RUA SEM DENOMINACAO 5
>>       25 RUA CASEMIRO DE ABREU
>>       23 BECO SEM NOME 3
>>       22 RUA SEM NOME 8
>>       22 RUA SEM NOME 7
>>       21 BECO SEM NOME 4
>>       20 ESTRADA SEM DENOMINACAO 2
>>
>>
>>
>> On 2014-03-23 14:24, Thiago Marcos P. Santos wrote:
>>>
>>> 2014-03-23 14:53 GMT+02:00 Fernando Trebien <fernando.trebien em gmail.com>:
>>>>
>>>> Pelo que entendi é no processamento, pra poder comparar as duas bases
>>>> tendo menos falsas diferenças.
>>>>
>>>
>>> Eh.... a qualidade dos dados está realmente bastante questionável....
>>>
>>> Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
>>> pérolas que encontrei:
>>>
>>> RUA SEMINTERIO
>>> RUA DO CEMINTERIO
>>> RUA CEMINTERIO
>>>
>>
>>
>>
>>
>>
>> _______________________________________________
>> Talk-br mailing list
>> Talk-br em openstreetmap.org
>> https://lists.openstreetmap.org/listinfo/talk-br
>
>
>





Mais detalhes sobre a lista de discussão Talk-br