[Talk-cz] Import adres z katastralni mapy

Jan Bilak jan.bilak.osm na gmail.com
Čtvrtek Únor 11 17:29:27 UTC 2010


Ahoj,

ještě jsem si říkal, že možná nebylo špatné rozpoznávání dělat na
základě podobnosti vzoru jednotlivých číslic. Když je to psané jedním
fontem, jednou velikostí, vždy stejně natočené a bez nějakých kazů
vzniklým skenováním, tak by tato metoda musela být vysoce spolehlivá.
Dokonce podle pozorování jsou znaky zarovnané na celé pixely (ale mohu
se plést - koukal jsem na to jen letmo).

Výhoda je v tom, že je to metoda prakticky zcela spolehlivá. Pokud
text něco překrývá, tak to odhalí (neshoduje se s žádným vzorem
číslice/písmena). Pokud se naopak znak shoduje se vzorem, tak je
prakticky jisté, že jde o tento znak. Teoreticky by nějaký jiný objekt
mohl udělat např. z písmene I písmeno T, ale aby to zcela přesně
odpovídalo vzoru, to je podle mne menší pravděpodobnost, než vyhrát
první cenu v nějaké loterii.

Algoritmus rozpoznávání by přitom byl myslím velmi jednoduše
naprogramovatelný, rychlý a nepotřeboval by nějaké externí OCRy. To se
sice může zdát jako zbytečnost, ale mělo by to význam při
aktualizacích. Tedy nyní se celý import pojal jako jednorázový import.
Ale data se budou měnit a nebylo by od věci, kdyby se periodicky našly
změny, doplnila nová čísla domů apod.

Zkusím to ověřit na příkladu.

Honza


2010/2/11 Petr Dlouhý <petr.dlouhy na email.cz>:
> Ahoj,
>
> začal jsem s imortem adresních bodů v Praze-západ, ale zjistil jsem jeden
> celkem zásadní problém.
> Zdá se, že evidenční čísla jsou o něco blíž k tečce než ta popisná -
> důsledkem je to, že pokud je v čísle číslice 2, tak se občas stane, že jí
> to rozezná jako 7. Těch případů je tolik, že dělat to ručně pro celou ČR
> by byla nepředstavitelná práce (nehledě na to, že by se to špatně
> přiřadilo) - bylo by tedy dobré vyřešit to nějak automaticky.
>
> Otázka je jak problém vyřešit. Asi nejlepší bude znovu rozpoznat ty
> evidenční čísla, ve kterých je 7 - byl by to tedy stejný problém jako jsem
> už navrhoval s čísly, která nebyla rozpoznána vůbec. Máš na to Lukáši
> skript, nebo ho mám vyrobit?
>
> On Wed, 10 Feb 2010 01:48:34 +0100, Petr Dlouhý <petr.dlouhy na email.cz>
> wrote:
>
>> Ahoj,
>>
>> tak na Kubajzově stroji je (po kratší odstávce) už taky vše spočítané a
>> uploadované.
>>
>> On Tue, 02 Feb 2010 22:52:06 +0100, Martin Kupec <magon na jkopava.cz>
>> wrote:
>>
>>> Tak jsem uploadoval na server vysledky, odkaz je na wiki ([1]).
>>>
>>> Nevim jak je to se zpracovanim zbylych tilu, ale kdyz mi nekdo neco
>>> uvolni, tak to klidne jeste spocitam :-). Zjistil jsem ze ten stoj co
>>> jsem na to zneuzil se nejak moc zbytecne flaka...
>>>
>>> [1] http://wiki.openstreetmap.org/wiki/Import_Adres_ČR/Prubeh_Zpracovani
>>>
>>>      Martin Kupec
>>>
>>>
>>> _______________________________________________
>>> Talk-cz mailing list
>>> Talk-cz na openstreetmap.org
>>> http://lists.openstreetmap.org/listinfo/talk-cz
>>
>>
>
>
> --
> Petr Dlouhý
>
> _______________________________________________
> Talk-cz mailing list
> Talk-cz na openstreetmap.org
> http://lists.openstreetmap.org/listinfo/talk-cz
>




Další informace o konferenci talk-cz