<div class="gmail_extra"><br><br><div class="gmail_quote">Il giorno 01 settembre 2013 11:55, Daniele Forsi <span dir="ltr"><<a href="mailto:dforsi@gmail.com" target="_blank">dforsi@gmail.com</a>></span> ha scritto:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Buongiorno lista,<br>
<br>
dopo la discussione di qualche giorno fa [1] ho scaricato i dati con i<br>
nomi delle strade italiane per creare un nuovo dizionario per il<br>
correttore ortografico.<br>
Ho usato questo nuovo dizionario (e i vecchi per cercare di recuperare<br>
più parole possibile) e ho aggiornato i dati in linea[2] e siamo scesi<br>
da oltre 40.000 parole sconosciute a meno di 10.000, trovate un<br>
confronto per i capoluoghi di Regione in [3], il caso più eclatante è<br>
Roma che è passata da 2776 a 107 parole sconosciute!<br>
<br>
Aspetti positivi:<br>
* ho estratto 169037 parole diverse da 1233526 toponimi (i dizionari<br>
che ho usato finora hanno 22410 parole in quello predefinito e 75131<br>
in quelli creati a partire dai dati OSM)<br>
* ho scartato solo 1795 parole (ad esempio quelle che contengono numeri arabi)<br>
<br>
Aspetti negativi:<br>
* i nomi sono tutti in maiuscolo, quindi non è più possibile segnalare<br>
come errore i nomi propri con l'iniziale minuscola o le parole tutte<br>
in maiuscolo<br>
* i dati contengono errori evidenti che possono essere filtrati<br>
automaticamente (come "0VIDIO" dove l'iniziale è uno zero invece che<br>
una O) però rimane il dubbio di quanti errori nascosti ci siano<br>
* non è possibile usare le parole con la E accentata perché nei dati<br>
c'è l'apice quindi non è possibile distinguere l'accento acuto da<br>
quello grave (per questo ho mantenuto i vecchi dizionari, poi estrarrò<br>
solo le parole accentate)<br>
* dai dati sono escluse le province di Bolzano e Trento perché sono<br>
dati per il catasto<br>
<br>
In definitiva questi dati sono utili per eliminare un gran numero di<br>
falsi positivi e concentrarsi sugli errori più comuni in OSM, a patto<br>
che gli stessi errori NON siano stati commessi anche da chi ha scritto<br>
questi dati...<br>
<br>
<br>
[1] <a href="http://lists.openstreetmap.org/pipermail/talk-it/2013-August/036830.html" target="_blank">http://lists.openstreetmap.org/pipermail/talk-it/2013-August/036830.html</a><br>
[2] <a href="http://www.forsi.it/osm/spellcheck/highway/boundary/" target="_blank">http://www.forsi.it/osm/spellcheck/highway/boundary/</a><br>
[3] <a href="http://www.forsi.it/node/135" target="_blank">http://www.forsi.it/node/135</a><br>
<span class="HOEnZb"><font color="#888888">--<br>
Daniele Forsi<br>
<br>
_______________________________________________<br>
Talk-it mailing list<br>
<a href="mailto:Talk-it@openstreetmap.org">Talk-it@openstreetmap.org</a><br>
<a href="http://lists.openstreetmap.org/listinfo/talk-it" target="_blank">http://lists.openstreetmap.org/listinfo/talk-it</a><br>
</font></span></blockquote></div><br></div>