[Talk-cz] Import adres z katastralni mapy

Pondělí Únor 15 14:29:06 UTC 2010

Ahoj,

nezkousel jsem porovnavat vysledky z tesseractu a meho rozpoznavani
vzoru, ale myslim, ze by to slo snadno. Staci nejaka data, ktera byla
zpracovana tesseractem, zpracovat take timto. Oba csv soubory seradit
a pouzit nejaky klasicky diff.

Obecne mam obavu, ze tesseract se muze splest a rozpoznat cislo
spatne, i kdyz vysledek rozpoznani odpovida vzoru. Zato muj OCR na
miru detektuje pripady, kdy si neni jisty, a loguje je, aby je bylo
mozne rucne zkontrolovat. Pritom je jich dostatecne maly pocet na to,
aby rucni kontrola byla proveditelna. Pokud v programu neni chyba (coz
nevylucuji), tak by program nemel popisek rozpoznat spatne, aniz by
jej oznacil, ze si neni jisty.

To byl hlavni cil, proc jsem OCR delal - zajisteni spolehlivosti.
Zvyseni rychlosti bylo druhorade, i kdyz je to prijemne.

Honza

2010/2/15 Petr Dlouhý <petr.dlouhy na email.cz>:
> Ahoj,
>
> algoritmus po Honzových úpravách pracuje výrazně rychleji a dokáže
> detekovat překrývající se čísla s téměř 100% úspěšností (na rozsáhlém
> území jsou to jednotky chyb). Vzhledem k tomu, že je to možné zpracovat za
> několik dnů na jednom PC, tak bych řekl, že se to předělat vyplatí.
>
> On Mon, 15 Feb 2010 09:44:58 +0100, Lukas Kabrt <lukas na kabrt.cz> wrote:
>
>> Ahoj,
>>
>> ja byl ted tyden pryc, proto jsem se do diskuze a reseni problemu
>> nezapojil.
>>
>> Pokud spravne chapu situaci, tak problem je u c.e., ve kterych je
>> cislice 2 se obcas stava a obcas se stava, ze se rozpozna jako 7. Jak
>> jsem z diskuze pochopil, tak Honza Bilak napsal programek, ktery vezme
>> celou dlazdici a provede OCR jinym zpusobem.
>>
>> Ja mam pripravene skripty na docisteni vysledku (slouceni dat z
>> dlazdic, vymazani duplicit zpusobenych prekryvem dlazdic, vyfiltorvani
>> bodu ktere neodpovidaji vzoru c.p., c.e., bez cp./c.e a jejich stazeni
>> ve vyssim rozliseni a znovuprovedeni OCR - vyreseni prokryvajicich se
>> napisu)
>>
>> Vysledky po stazeni detailu a znovuprovedeni OCR jsou celkem dobre. Na
>> datech, co byla  spocitana minuly tyden (cca 2/3 republiky) je po
>> znovuprovedeni OCR jen 1050 adresnich bodu, ktere neodpovidaji
>> zadanemu vzoru.
>>
>> Myslim, ze by bylo zbytecne zpracovavat celou CR znovu. Z dat si muzu
>> vytahnout c.e., ktera obsahuji cislici 7, stahnout si detail ve vyssim
>> rozliceni a ten misto terreractem zpracovat algoritmem od Honzy.
>> --
>> Lukas
>>
>> _______________________________________________
>> Talk-cz mailing list
>> Talk-cz na openstreetmap.org
>> http://lists.openstreetmap.org/listinfo/talk-cz
>
>
> --
> Petr Dlouhý
>
> _______________________________________________
> Talk-cz mailing list
> Talk-cz na openstreetmap.org
> http://lists.openstreetmap.org/listinfo/talk-cz
>