Nuovo dizionario per il controllo ortografico

Con il nuovo dizionario mancano solo 9650 parole da controllare!!!

Il nuovo dizionario usa i dati scaricabili a partire dal sito dell'Agenzia delle Entrate (sono i dati per il software docfa) che secondo me sono utilizzabili per l'art. 52 del codice dell'amministrazione digitale, però alcune parole contengono errori, per quelli evidenti ho ignorato le parole, gli altri andranno trovati manualmente dai mappatori locali.

Con il dizionario predefinito e quelli artigianali e 8088 Comuni caricati (perché 4 confini erano danneggiati...) nei dati del 21 agosto c'erano 44697 parole sconosciute al correttore (su 78688 parole univoche), con il nuovo dizionario si scende a 10418 parole sconosciute al correttore e aggiungendo di nuovo i dizionari precedenti si scende a 9650 parole sconosciute al correttore.

Le parole nei dati OSM sono 78688, i vecchi dizionari comprendevano 75131 parole, quello nuovo ne comprende 167501, ma non comprende le parole con la E accentata perché dai dati di partenza non è possibile stabilire se l'accento è acuto o grave.
In tutto le parole scartate sono 18405 per vari motivi: 7548 perché contengono abbreviazioni, 4127 perché contengono parentesi, 1241 perché finiscono con la E accentata.

Questo è un confronto per i capoluoghi di Regione:

Sei mesi di controlli ortografici (2013/01-06)

Negli ultimi 6 mesi sono state classificate 3679 parole, grazie a chi ha controllato tutti questi nomi!

Nella prima importazione di gennaio 2013 c'erano 8463 parole classificate su 48681 parole (pari a circa il 17%) che formavano 73657 nomi diversi, nell'ultima importazione di giugno ci sono 12142 parole classificate su 44869 (pari a circa il 27%) e 62644 nomi diversi.