[Talk-br] Fwd: Re: Street name data

Hermann Peifer peifer em gmx.eu
Domingo Março 23 15:01:55 UTC 2014


Olá,

Fiz algumas pesquisas provisórias, pegando os dados do RS:

O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre 
eles tem uma boa quantidade de varias formas de ruas sem nome, veja o anexo.

Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no 
ubuntu.com:

1) municipio_cep_RUA_CNEFE.txt
Código do municipio, CEP e NOME DA RUA, segundo o CNEFE
130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação
http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs


2) municipio_rua_RUA_OSM.txt
Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM
23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação
http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9

Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para 
facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz 
dessa forma para evitar de mexer com as duas listas).

Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a 
distância Levenshtein, ou algo semelhante.

Alguem quer tentar ?

Abçs, Hermann


Anexo

   Casos Nome
     215 RUA SEM DENOMINACAO
     163 RUA SEM NOME
      91 RUA SEM NOME 2
      88 BECO SEM NOME
      84 RUA SEM NOME 1
      77 BECO SEM DENOMINACAO
      68 RUA SEM NOME 3
      67 ESTRADA SEM DENOMINACAO
      66 RUA SEM DENOMINACAO 2
      60 TRAVESSA SEM NOME
      57 RUA SEM DENOMINACAO 1
      57 ESTRADA SEM NOME
      54 RUA SEM NOME 4
      45 RUA SEM DENOMINACAO 3
      43 RUA SEM NOME 5
      38 BECO SEM NOME 2
      37 RUA SEM DENOMINACAO 4
      36 TRAVESSA SEM DENOMINACAO
      36 BECO SEM NOME 1
      33 RUA SEM NOME 6
      28 ESTRADA SEM NOME 2
      27 ESTRADA SEM NOME 1
      26 RUA SEM DENOMINACAO 5
      25 RUA CASEMIRO DE ABREU
      23 BECO SEM NOME 3
      22 RUA SEM NOME 8
      22 RUA SEM NOME 7
      21 BECO SEM NOME 4
      20 ESTRADA SEM DENOMINACAO 2


On 2014-03-23 14:24, Thiago Marcos P. Santos wrote:
> 2014-03-23 14:53 GMT+02:00 Fernando Trebien <fernando.trebien em gmail.com>:
>> Pelo que entendi é no processamento, pra poder comparar as duas bases
>> tendo menos falsas diferenças.
>>
>
> Eh.... a qualidade dos dados está realmente bastante questionável....
>
> Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as
> pérolas que encontrei:
>
> RUA SEMINTERIO
> RUA DO CEMINTERIO
> RUA CEMINTERIO
>







Mais detalhes sobre a lista de discussão Talk-br