<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">Il giorno 17 aprile 2018 14:16, Andrea Musuruane <span dir="ltr"><<a href="mailto:musuruan@gmail.com" target="_blank">musuruan@gmail.com</a>></span> ha scritto:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div class="gmail_extra"><div class="gmail_quote"><div>Giocando con awk e grep (la sintassi della regexp è leggermente differente) si possono vedere i valori che vengono estratti:<br>awk -F ";" '{print $6}' anagrafica_impianti_attivi.csv | grep -E '.*,*[[:blank:]]+([[:digit:]]+<wbr>\/*[[:alnum:]]*),*[[:blank:]]+<wbr>([[:digit:]]{5})'<br><br>e quelli che vengono scartati:<br>awk -F ";" '{print $6}' anagrafica_impianti_attivi.csv | grep <b>-v</b> -E '.*,*[[:blank:]]+([[:digit:]]+<wbr>\/*[[:alnum:]]*),*[[:blank:]]+<wbr>([[:digit:]]{5})' <br><br></div><div>I falsi positivi sono proprio pochi (la regola cerca di scartare tutti gli indirizzi che non hanno numero civico e cap), soprattutto considerando il marasma che c'è nei dati sorgente.<br></div></div></div></div></div></blockquote><div><br></div><div>E' con malcelata invidia che applaudo Andrea, ora meglio noto come Gran Visir delle regexp :-) Mi son permesso di contare le linee generate dai due comandi e vien fuori che 10960 sono "indirizzabili", contro le 9940 incasinate.</div><div>Credo che al primo aggiornamento post-import ci metteremo pure gli addr!</div><div><br></div></div></div></div>