[Talk-it] dataset MISE distributori

Cascafico Giovanni cascafico a gmail.com
Mar 17 Apr 2018 12:49:42 UTC


Il giorno 17 aprile 2018 14:16, Andrea Musuruane <musuruan at gmail.com> ha
scritto:

> Giocando con awk e grep (la sintassi della regexp è leggermente
> differente) si possono vedere i valori che vengono estratti:
> awk -F ";" '{print $6}' anagrafica_impianti_attivi.csv | grep -E
> '.*,*[[:blank:]]+([[:digit:]]+\/*[[:alnum:]]*),*[[:blank:]]+
> ([[:digit:]]{5})'
>
> e quelli che vengono scartati:
> awk -F ";" '{print $6}' anagrafica_impianti_attivi.csv | grep *-v* -E
> '.*,*[[:blank:]]+([[:digit:]]+\/*[[:alnum:]]*),*[[:blank:]]+([[:digit:]]{5})'
>
>
> I falsi positivi sono proprio pochi (la regola cerca di scartare tutti gli
> indirizzi che non hanno numero civico e cap), soprattutto considerando il
> marasma che c'è nei dati sorgente.
>

E' con malcelata invidia che applaudo Andrea, ora meglio noto come Gran
Visir delle regexp :-) Mi son permesso di contare le linee generate dai due
comandi e vien fuori che 10960 sono "indirizzabili", contro le 9940
incasinate.
Credo che al primo aggiornamento post-import ci metteremo pure gli addr!
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.openstreetmap.org/pipermail/talk-it/attachments/20180417/c158be23/attachment.html>


Maggiori informazioni sulla lista Talk-it