[Talk-it] Nuovo dizionario per il controllo ortografico

Daniele Forsi dforsi a gmail.com
Dom 1 Set 2013 09:55:17 UTC


Buongiorno lista,

dopo la discussione di qualche giorno fa [1] ho scaricato i dati con i
nomi delle strade italiane per creare un nuovo dizionario per il
correttore ortografico.
Ho usato questo nuovo dizionario (e i vecchi per cercare di recuperare
più parole possibile) e ho aggiornato i dati in linea[2] e siamo scesi
da oltre 40.000 parole sconosciute a meno di 10.000, trovate un
confronto per i capoluoghi di Regione in [3], il caso più eclatante è
Roma che è passata da 2776 a 107 parole sconosciute!

Aspetti positivi:
* ho estratto 169037 parole diverse da 1233526 toponimi (i dizionari
che ho usato finora hanno 22410 parole in quello predefinito e 75131
in quelli creati a partire dai dati OSM)
* ho scartato solo 1795 parole (ad esempio quelle che contengono numeri arabi)

Aspetti negativi:
* i nomi sono tutti in maiuscolo, quindi non è più possibile segnalare
come errore i nomi propri con l'iniziale minuscola o le parole tutte
in maiuscolo
* i dati contengono errori evidenti che possono essere filtrati
automaticamente (come "0VIDIO" dove l'iniziale è uno zero invece che
una O) però rimane il dubbio di quanti errori nascosti ci siano
* non è possibile usare le parole con la E accentata perché nei dati
c'è l'apice quindi non è possibile distinguere l'accento acuto da
quello grave (per questo ho mantenuto i vecchi dizionari, poi estrarrò
solo le parole accentate)
* dai dati sono escluse le province di Bolzano e Trento perché sono
dati per il catasto

In definitiva questi dati sono utili per eliminare un gran numero di
falsi positivi e concentrarsi sugli errori più comuni in OSM, a patto
che gli stessi errori NON siano stati commessi anche da chi ha scritto
questi dati...


[1] http://lists.openstreetmap.org/pipermail/talk-it/2013-August/036830.html
[2] http://www.forsi.it/osm/spellcheck/highway/boundary/
[3] http://www.forsi.it/node/135
-- 
Daniele Forsi



Maggiori informazioni sulla lista Talk-it