[Talk-it] dataset MISE distributori

Andrea Musuruane musuruan a gmail.com
Mar 17 Apr 2018 12:16:10 UTC


Ciao,

2018-04-17 10:51 GMT+02:00 Cascafico Giovanni <cascafico at gmail.com>:

> Il giorno 28 marzo 2018 11:46, Andrea Musuruane <musuruan at gmail.com> ha
> scritto:
>
>> Nel file description viene messo l'indirizzo. Sarebbe meglio riuscire a
>>>> metterlo in addr:street e addr:housenumber (per quelli che hanno un numero
>>>> civico, per gli altri l'informazione mi sembra inutile).
>>>>
>>>
>>> Onestamente non saprei come processare la stringa... l'unica certezza di
>>> questo campo è il codice postale alla fine. La ho assegnata a description,
>>> pensando che il mappatore occasionale possa eventualemnte aggiungere il
>>> civico manualmente. Anche il no rari riferimenti kilometrici (p.es. "Ss
>>> 356 Km 45+5112") potrebbero essere utili per mettere qualche milestone,
>>> seppure mi pare siano relegate ad ogetti historic.
>>>
>>
>> Si può fare in questo modo.
>>
>> Estrai tre valori dalla stringa in base alla seguente espressione
>> regolare:
>> (.*),*\s+(\d+\/*\w*),*\s+(\d{5})
>>
>> Se l'espressione regolare non è soddisfatta si scarta la stringa.
>>
>
> Ho applicato al regexp in qgis (necessario anteporre un ulteriore
> backslash ad ogni backslash)
> regexp_substr ("Indirizzo", '(.*),*\\s+(\\d+\\/*\w*),*\s+(\\d{5})' )
>
> ed estrae il nome strada per circa metà dei record. Speriamo che il modulo
> online che il MISE sta pubblicando per i gestori ci semplichi la vita :-)
>

Giocando con awk e grep (la sintassi della regexp è leggermente differente)
si possono vedere i valori che vengono estratti:
awk -F ";" '{print $6}' anagrafica_impianti_attivi.csv | grep -E
'.*,*[[:blank:]]+([[:digit:]]+\/*[[:alnum:]]*),*[[:blank:]]+([[:digit:]]{5})'

e quelli che vengono scartati:
awk -F ";" '{print $6}' anagrafica_impianti_attivi.csv | grep *-v* -E
'.*,*[[:blank:]]+([[:digit:]]+\/*[[:alnum:]]*),*[[:blank:]]+([[:digit:]]{5})'


I falsi positivi sono proprio pochi (la regola cerca di scartare tutti gli
indirizzi che non hanno numero civico e cap), soprattutto considerando il
marasma che c'è nei dati sorgente.

Concordo comunque sull'auspicio che i dati debbano essere standardizzati
alla fonte.

Ciao,

Andrea
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.openstreetmap.org/pipermail/talk-it/attachments/20180417/26a42c05/attachment.html>


Maggiori informazioni sulla lista Talk-it