[Talk-it] Nuovo dizionario per il controllo ortografico

Francesco Frassinelli fraph24 a gmail.com
Dom 1 Set 2013 10:06:28 UTC


Il giorno 01 settembre 2013 11:55, Daniele Forsi <dforsi a gmail.com> ha
scritto:

> Buongiorno lista,
>
> dopo la discussione di qualche giorno fa [1] ho scaricato i dati con i
> nomi delle strade italiane per creare un nuovo dizionario per il
> correttore ortografico.
> Ho usato questo nuovo dizionario (e i vecchi per cercare di recuperare
> più parole possibile) e ho aggiornato i dati in linea[2] e siamo scesi
> da oltre 40.000 parole sconosciute a meno di 10.000, trovate un
> confronto per i capoluoghi di Regione in [3], il caso più eclatante è
> Roma che è passata da 2776 a 107 parole sconosciute!
>
> Aspetti positivi:
> * ho estratto 169037 parole diverse da 1233526 toponimi (i dizionari
> che ho usato finora hanno 22410 parole in quello predefinito e 75131
> in quelli creati a partire dai dati OSM)
> * ho scartato solo 1795 parole (ad esempio quelle che contengono numeri
> arabi)
>
> Aspetti negativi:
> * i nomi sono tutti in maiuscolo, quindi non è più possibile segnalare
> come errore i nomi propri con l'iniziale minuscola o le parole tutte
> in maiuscolo
> * i dati contengono errori evidenti che possono essere filtrati
> automaticamente (come "0VIDIO" dove l'iniziale è uno zero invece che
> una O) però rimane il dubbio di quanti errori nascosti ci siano
> * non è possibile usare le parole con la E accentata perché nei dati
> c'è l'apice quindi non è possibile distinguere l'accento acuto da
> quello grave (per questo ho mantenuto i vecchi dizionari, poi estrarrò
> solo le parole accentate)
> * dai dati sono escluse le province di Bolzano e Trento perché sono
> dati per il catasto
>
> In definitiva questi dati sono utili per eliminare un gran numero di
> falsi positivi e concentrarsi sugli errori più comuni in OSM, a patto
> che gli stessi errori NON siano stati commessi anche da chi ha scritto
> questi dati...
>
>
> [1]
> http://lists.openstreetmap.org/pipermail/talk-it/2013-August/036830.html
> [2] http://www.forsi.it/osm/spellcheck/highway/boundary/
> [3] http://www.forsi.it/node/135
> --
> Daniele Forsi
>
> _______________________________________________
> Talk-it mailing list
> Talk-it a openstreetmap.org
> http://lists.openstreetmap.org/listinfo/talk-it
>
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://lists.openstreetmap.org/pipermail/talk-it/attachments/20130901/fee94736/attachment.html>


Maggiori informazioni sulla lista Talk-it