[Talk-cz] tile-processor pro Mono

Petr Dlouhý petr.dlouhy na email.cz
Pátek Leden 22 20:34:17 UTC 2010


Ahoj,

zdá se, že jsem vyřešil všechny problémy a zprovoznil tile-processor pod
Mono. V příloze posílám verzi funkční přímo pod Mono (je nutné mít
nainstalovaný Tesseract) a upravený TileAnalyzer.cs.

Výhoda této verze je jednodušší provoz (není nutné instalovat Mono pod  
Wine), a také podle mých testů funguje o 30% rychleji. Tesseract pod Wine  
navíc občas spadl, což zničilo celý dosavadní výpočet - to s nativní verzí  
snad už nestane.

Aby program fungoval provedl jsem následující úpravy:

1) Je nutné použít nativní Tesseract (místo toho Windowsového). Řešení je  
jednoduché - stačí používat "tesseract" místo "tesseract.exe", tak by to  
mělo fungovat multiplatformě.
Nepodařilo se mi nativní Tesseract přinutit aby bral trénovací soubory ze  
složky v aktuálním adresáři, je tedy nutné nakopírovat naučené soubory  
(tessdata/cuzk.*) do systémové složky (u mě  
/usr/share/tesseract-ocr/tessdata/).

2) V Monu je nějaký záhadný problém se změnou měřítka obrázku. Chtěl jsem  
nahlásit bug, ale nepodařilo se mi odhalit na čem chyba závisí. Navíc  
algoritmus, který to používá na Linuxu je horší než ve Wine, a je tedy  
nutné obrázek zvětšit ne 2x ale 3x.
Problém jsem obešel docela nepěkně - obrázek se musí před zvětšením jednou  
zkopírovat. Jestli má někdo nějaký nápad, tak sem s ním.

Dále jsem program upravil tak, že okraje kolem čísel ořezává těsněji, a  
tím zvýší účinnost v případech, kdy by se do výřezu dostalo nějaké další  
číslo.

Taky jsem upravil program tak, aby nehledal čísla moc blízko u pravého  
okraje, protože by mohlo dojít k ukrojení čísla (např. z "č.p.1234" by se  
mohlo stát "č.p.12").

PS: Knihovnu AForge.dll je možné zkompilovat pro Mono - stačí přidat  
symbol "MONO".

-- 
Petr Dlouhý
------------- další část ---------------
A non-text attachment was scrubbed...
Name: CUZK.ExtractAddresses.tar.gz
Type: application/x-gzip
Size: 14774 bytes
Desc: [žádný popis není k dispozici]
URL: <https://lists.openstreetmap.org/pipermail/talk-cz/attachments/20100122/ecc2aaf2/attachment.bin>
------------- další část ---------------
A non-text attachment was scrubbed...
Name: TileAnalyzer.cs
Type: application/octet-stream
Size: 6963 bytes
Desc: [žádný popis není k dispozici]
URL: <https://lists.openstreetmap.org/pipermail/talk-cz/attachments/20100122/ecc2aaf2/attachment.obj>


Další informace o konferenci talk-cz