Re: [osm-hu] Üzletek naprakész nyilvántartásába való betekintés

osm at igor2.repo.hu osm at igor2.repo.hu
2018. Nov. 4., V, 05:18:48 UTC


Sziasztok,

On Sat, 3 Nov 2018, Úr Balázs wrote:

>bkil <bkil.hu at gmail.com> ezt írta (id?pont: 2018. okt. 23., K, 16:36):
>> a települések tetemes része meg is teszi, még ha eldugva vagy bugyuta
>> formára konvertálva is.
>
>Eldugva ÉS bugyuta formára konvertálva:
>http://www.ferencvaros.hu/doks/nyilvantartasok/Kereskedeok.pdf

A jo oreg pdf... De legalabb nem szkennelt.

2014-ben volt egy hasonlo problemam, ahol par ezer oldal tablazatot 
kellett C kodda alakitani. Lefuttattam az akkor keletkezett Legnagyobb 
Balta szkripteket a fenti fajlon, es egesz hasznalhato eredmeny szuletett 
(mintanak az elso oldal fejlece es elso ket sora csatolva).

A tbl az, ami kipottyan a szkript vegen (lasd lent). A CSV-t ebbol 
generaltam egy par soros awk-val. A tbl formatum tudja kezelni, ha 
vizszintesen egybe vannak nyitva cellak (de fuggolegesen nem) - a csv-ben 
ez nem jelenik meg. A fejlec kicsit torott, de pontosan tudom, hogy miert 
(lasd lent).

Ha kell, kipofozom a szkripteket, a CPU intenziv reszt ujrairom C-ben es 
szivesen konvertalok barmikor barmennyi hasonlo pdf-t. Viszont csak akkor 
szannek erre tobb idot, ha a kovetkezo 4 dolog teljesul:

- legyen teljesen tisztazott, hogy ezeket a forrasokat legalisan 
hasznalhatjuk

- legyen egynel tobb ember, aki a pdf-ek felkutatasaval es a csv-k 
feldolgozasaval foglalkozik, az adatok tenyleg keruljenek fel a terkepre 

- legyen valaki, aki koordinalja az egeszet es atlatja a dolog allasat (en 
csak a konverzioval tudok bibelodni, alacsony szinten)

- vegyuk figyelembe a szkript korlatait: nagyjabol csak fekete vonallal 
korbekeretezett tablazatot tud feldolgozni; nem erti a laphatarokat; nem 
OCR; nem erti a szoveget, ami oda van irva, csak kiszedi


Apro betus resz:

Zaraskent egy kis magyarazat, hogy mekkora is az a bizonyos balta.

A pdf-et egy dolgra talaltak ki, es ennek megfeleloen nagyjabol csak arra 
jo: nyomtatas. Igy aztan a formatum strukturaja alapvetoen nem a 
dokumentum tartalmi strukturajat probalja lekovetni, hanem a kirajzolas 
strukturajat. Ebbol kovetkezik az is, hogy pdf-ben valojaban nem nagyon 
tudsz tablazatot tablazatkent megadni.

Ehelyett ezekben a dokumentumokban tipikusan egy koteg egymastol 
fuggetlen szovegdarabkat helyeznek el fix koordinatakon, majd ettol tok 
fuggetlenul rajzolnak vonalakat ilyen-olyan (termeszetesen 
valtozatos) modon. Ha szerencsenk van (most epp az van), akkor legalabb 
szavankent egyben van a szoveg, de sajnos lattam mar olyat is, ahol szinte 
betunkent kulon szoveg volt sajat koordinataval.

A feldolgozasnal ezert kulon kigyujtom a szovegdarabkak x;y koordinatait 
es megprobalom detektalni (pixelesen), hogy hozzajuk kepest milyen 
iranyban vannak vonalnak kinezo dolgok, tehat kik vannak egy cellaban. 
Ebbol kipottyan egy koztes formatum, ami teny szeruen de 
osszefuggestelenul rogziti, hogy milyen koordinatakon van tablazat 
cellanak kinezo dolog (bounding box leirassal). Ebbol aztan egy 
kovetkezo lepesben egy ujabb szkript megprobalja rekonstrualni a tablazat 
logikai felepiteset; ez adja a tbl fajlt.

Fejlec eltores: a fejlec nemelyik soraban par szo vastaggal ala van huzva; 
az alahuzasokat emberi intelligenciaval konnyu megkulonboztetni a tablazat 
keretenek szant vonalaktol, de programmal kevesbe. Be is nezte a szkript, 
es tobb tablazatsornak gondolta a tobb soros, alahuzott fejleceket.

Arra szamitok, hogy sok hasonlo pdf lesz, de a fejlec mindegyikben kicsit 
mas lesz. Cserebe fajlonkent egy fele fejlec lesz es aztan tobb ezer 
adatsor. Valosznuleg minden fajl eseten a fejlecet kezzel kell feldogozni 
(az oszlopok jelentesenek egysegesitese miatt ez amugy is 
elkerulhetetlennek tunik), cserebe az adatok mar "ingyen jonnek". Mivel 
fajlbol (es igy fejlecbol) lesz keves es adatbol sok, ez elfogadhato 
mennyisegu kezi munkanak tunik.


Udv,

Igor2

--------- következő rész ---------
table|begin
table|row
hdr|0|0|<b>ADATLAP </b> <b>keres kedelmi </b> <b>tevékenységről: </b> <b>Engedély-köteles</b>
hdr|1|1|<b>Nyilvántartásba vétel </b> <b>száma:</b>
hdr|2|2|<b>Kereskedő neve:</b>
hdr|3|3|<b>Címe/székhelye:</b>
hdr|4|4|<b>Statisztikai száma:</b>
hdr|5|5|<b>A kereskedelmi tevékenység helye, címe(i):</b>
hdr|6|6|<b>Üzleten kívüli ker. és </b> <b>csomagküldő ker. esetén a </b> <b>működési terület jegyzéke, </b> <b>érintett települések, vagy a </b> <b>megye, ill. az országos jelleg </b> <b>megjelölése:</b>
hdr|7|7|<b>A ker. tev. helye s zerinti </b> <b>Kertv. 3.§ (4) bek. szerint: </b>
hdr|8|8|<b>Mozgóbolt </b> <b>útján</b>
hdr|9|9|<b>Bevásárló-</b> <b>központban</b>
hdr|10|10|<b>Vásáron </b> <b>vagy piacon</b>
hdr|11|11|<b>Közterületi </b> <b>értékesítés</b>
hdr|12|12|<b>Közvetlen </b> <b>értékesítés</b>
hdr|13|13|<b>Üzleten </b> <b>kívüli </b> <b>értékesítés</b>
hdr|14|14|<b>Cs omag-</b> <b>küldő ker.</b>
hdr|15|15|<b>Auto-</b> <b>matából </b> <b>történő </b> <b>értékesítés</b>
hdr|16|16|<b>Közlekedés</b> <b>i eszközön </b> <b>folytatott </b> <b>értékesítés</b>
hdr|17|17|<b>Közlekedési eszközön </b> <b>folytatott értékesítés </b> <b>esetén a közlekedési </b> <b>eszköz megjelölése és </b> <b>a jármű  azonosítására </b> <b>használt jelzés </b> <b>feltüntetése</b>
hdr|18|18|<b>Ha a ker. tev. üzletben történik: </b>
hdr|19|19|<b>Üzlet elnevezése:</b>
hdr|20|20|<b>Üzlet címe:</b>
hdr|21|21|<b>Helyrajzi </b> <b>száma:</b>
hdr|22|22|<b>Üzlet alap-</b> <b>területe:</b>
hdr|23|23|<b>Vendég-</b> <b>látóüzlet </b> <b>esetén </b> <b>befogadó-</b> <b>képesség </b> <b>(fő):</b>
hdr|24|24|<b>Vásárlók könyve </b> <b>használatba vételének </b> <b>időpontja:</b>
hdr|25|25|<b>Az egyes ker. formák és helyek szerinti bontásban: Termékek megnevezése és </b>
hdr|26|26|<b>Ill. ebből: a Jöt. 3.§ (2) bek. szerinti termékek:</b>
hdr|27|27|<b>Üzletköteles termékek: </b>
hdr|28|28|<b>A ker. formák és </b> <b>szerinti bontásban a </b>
hdr|29|29|<b>Kis keres -</b> <b>kedelem/ </b> <b>vendéglátás </b>
hdr|30|30|<b>Nagykeres -</b> <b>kedelem</b>
hdr|31|31|<b>Az üzletben </b>
hdr|32|32|<b>Zenes zolg./ </b> <b>műsoros </b> <b>előadás/ </b> <b>tánc </b>
hdr|33|33|<b>Szerencs e-</b> <b>játéknak </b> <b>nem minő-</b> <b>sülő játék</b>
hdr|34|34|<b>Külön engedély: Külön </b> <b>engedély esetén → az ez </b>
hdr|35|35|<b>Külön eng.-t kiállító </b> <b>hatóság:</b>
hdr|36|36|<b>Külön eng. száma:</b>
hdr|37|37|<b>Külön eng. hatálya:</b>
hdr|38|38|<b>Keresk. forma és </b> <b>hely megjelölése:</b>
hdr|39|39|<b>Időpont: A kereskedelmi tev. </b>
hdr|40|40|<b>Módosításának időpontja:</b>
hdr|41|41|<b>Megszűnésének idő-</b> <b>pontja:</b>
table|row
data|28|28|<b>helyek (üzletek) </b>
table|row
data|7|7|<b>bontásban a ker. </b> <b>tevékenység formája a </b>
data|31|31|<b>folytatnak-</b> <b>e:Szes zes -</b>
data|34|34|<b>alapján forgalmazott </b> <b>termékek köre, </b> <b>megnevezése:</b>
table|row
data|28|28|<b>keres kedelmi tev. </b>
data|31|31|<b>rést </b>
table|row
data|0|0|<b>Bejelentés-</b> <b>köteles, vagy </b>
data|18|18|<b>Napi/ heti nyitva tartási idő:</b>
data|25|25|<b>sorszáma a 6. mell. alapján:</b>
data|39|39|<b>megkezdésének időpontja:</b>
table|row
data|28|28|<b>jellege: </b> <b>Keres kedelmi </b> <b>ügynöki tev. </b>
data|31|31|<b>ital-kimé-</b>
table|row
data|7|7|<b>üzletben folytatott ker. tv.</b>
table|row
data|0|0|B.
data|1|1|7338/2011
data|2|2|G-Bar Kft.
data|3|3|2821/200
data|4|4|13973786-9200-113-01
data|5|5|1091 Bp., Üllői út 109/B
data|7|7|X
data|18|18|H-V: 0:00-24:00
data|19|19|LUDOVIKA SÖRÖZŐ
data|20|20|1091 Bp. Üllői út 109/B
data|21|21|37238/0/a/2
data|22|22|69
data|23|23|19
data|25|25|1.2,
data|26|26|alkoholterm., sör,bor,pezsgő, köztes alkoholt.
data|29|29|X
data|31|31|X
data|32|32|X
data|33|33|X
data|39|39|2011.03.01
data|41|41|2014.02.04
table|row
data|0|0|B.
data|1|1|7344/2011
data|2|2|Klári Bt.
data|3|3|1095 Bp., Boráros téri aluljáró, 
data|4|4|28267946-5630-212-01
data|5|5|1095 Bp., Boráros téri gyalogos alulj.
data|7|7|X
data|18|18|H-P: 07:00-18:00, Szo-V.: Z.
data|19|19|INTERNET KÁVÉZÓ
data|20|20|1095 Bp., Boráros téri gyalogos alulj.
data|22|22|33
data|23|23|20
data|25|25|1.2,
data|26|26|alkoholterm., sör,bor,pezsgő, köztes alkoholt.
data|29|29|X
data|31|31|X
data|39|39|2011.03.02
table|row
data|0|0|Régi
data|1|1|1113/1997
data|2|2|Klári Könyvesboltja Bt.
data|3|3|1096 Bp., Boráros téri aluljáró,  könyvesbolt
data|4|4|28267946-5244-212-01
data|5|5|1095 Bp., Boráros téri alulj.
data|7|7|X
data|18|18|H-P:10:00-18:00, Szo: 10:00-13:00,  V: Z
data|19|19|Kiskereskedelmi üzlet
data|20|20|1095 Bp, Boráros téri alulj.
data|22|22|33
data|25|25|I./62 Papír, írószer, könyv, térkép, bélyeg, hírlap kisker.
data|29|29|X
data|39|39|1997.09.23
data|41|41|2011.02.28
--------- következő rész ---------
A non-text attachment was scrubbed...
Name: page1.csv
Type: text/csv
Size: 1921 bytes
Desc: 
URL: <http://lists.openstreetmap.org/pipermail/talk-hu/attachments/20181104/eba22f97/attachment.csv>


További információk a(z) Talk-hu levelezőlistáról