[Talk-cz] Import adres z katastralni mapy

Lukas Kabrt lukas na kabrt.cz
Středa Leden 20 22:31:29 UTC 2010


>        Muzu se zeptat, zda pouzivate nejak upraveny/nauceny tesseract
>        na ceske znaky, nebo to cestinu uspesne neumi?

Pro verzi 3.0 uz existuje i cestina. Verze 3.0 je v stadiu prerelease,
nejsou pro ni binarky a tak je potreba si stahnou zdrojove kody [1] a
zkompilovat.
Soubor pro cestinu je v adresari tessdata tamtez (ces.traineddata).
Nebude ale zpetne kompatibilni s tesseract 2.04.

Puvodne jsem pozival verzi 2.04 ale tam jsem narazil na nejake
problemy na starsich pocitacich s WinXP. Pro verzi 2.04 jsem mel
vytvoreny vlastni jazyk, kde byly definovany pouze znaky ktere se
vyskytuji na katastralni mape - bezčpe. 0123456789. Uspesnost
rozpoznavani byla o neco lepsi nez ted s celou abecedou, ale to se da
celkem dobre vykonpenzovat postprocesingem - stejne zamenuje porad
stejne znaky jako o/0, ./_ apod. Chtel jsem si vytvorit vlastni jazyk
i pro verzi 3.0 ale nenasel jsem k tomu zadny nastroj.


[1] http://tesseract-ocr.googlecode.com/svn/trunk/
--
Lukas




Další informace o konferenci talk-cz