Re: [osm-hu] Üzletek naprakész nyilvántartásába való betekintés
osm at igor2.repo.hu
osm at igor2.repo.hu
2018. Nov. 4., V, 05:18:48 UTC
Sziasztok,
On Sat, 3 Nov 2018, Úr Balázs wrote:
>bkil <bkil.hu at gmail.com> ezt írta (id?pont: 2018. okt. 23., K, 16:36):
>> a települések tetemes része meg is teszi, még ha eldugva vagy bugyuta
>> formára konvertálva is.
>
>Eldugva ÉS bugyuta formára konvertálva:
>http://www.ferencvaros.hu/doks/nyilvantartasok/Kereskedeok.pdf
A jo oreg pdf... De legalabb nem szkennelt.
2014-ben volt egy hasonlo problemam, ahol par ezer oldal tablazatot
kellett C kodda alakitani. Lefuttattam az akkor keletkezett Legnagyobb
Balta szkripteket a fenti fajlon, es egesz hasznalhato eredmeny szuletett
(mintanak az elso oldal fejlece es elso ket sora csatolva).
A tbl az, ami kipottyan a szkript vegen (lasd lent). A CSV-t ebbol
generaltam egy par soros awk-val. A tbl formatum tudja kezelni, ha
vizszintesen egybe vannak nyitva cellak (de fuggolegesen nem) - a csv-ben
ez nem jelenik meg. A fejlec kicsit torott, de pontosan tudom, hogy miert
(lasd lent).
Ha kell, kipofozom a szkripteket, a CPU intenziv reszt ujrairom C-ben es
szivesen konvertalok barmikor barmennyi hasonlo pdf-t. Viszont csak akkor
szannek erre tobb idot, ha a kovetkezo 4 dolog teljesul:
- legyen teljesen tisztazott, hogy ezeket a forrasokat legalisan
hasznalhatjuk
- legyen egynel tobb ember, aki a pdf-ek felkutatasaval es a csv-k
feldolgozasaval foglalkozik, az adatok tenyleg keruljenek fel a terkepre
- legyen valaki, aki koordinalja az egeszet es atlatja a dolog allasat (en
csak a konverzioval tudok bibelodni, alacsony szinten)
- vegyuk figyelembe a szkript korlatait: nagyjabol csak fekete vonallal
korbekeretezett tablazatot tud feldolgozni; nem erti a laphatarokat; nem
OCR; nem erti a szoveget, ami oda van irva, csak kiszedi
Apro betus resz:
Zaraskent egy kis magyarazat, hogy mekkora is az a bizonyos balta.
A pdf-et egy dolgra talaltak ki, es ennek megfeleloen nagyjabol csak arra
jo: nyomtatas. Igy aztan a formatum strukturaja alapvetoen nem a
dokumentum tartalmi strukturajat probalja lekovetni, hanem a kirajzolas
strukturajat. Ebbol kovetkezik az is, hogy pdf-ben valojaban nem nagyon
tudsz tablazatot tablazatkent megadni.
Ehelyett ezekben a dokumentumokban tipikusan egy koteg egymastol
fuggetlen szovegdarabkat helyeznek el fix koordinatakon, majd ettol tok
fuggetlenul rajzolnak vonalakat ilyen-olyan (termeszetesen
valtozatos) modon. Ha szerencsenk van (most epp az van), akkor legalabb
szavankent egyben van a szoveg, de sajnos lattam mar olyat is, ahol szinte
betunkent kulon szoveg volt sajat koordinataval.
A feldolgozasnal ezert kulon kigyujtom a szovegdarabkak x;y koordinatait
es megprobalom detektalni (pixelesen), hogy hozzajuk kepest milyen
iranyban vannak vonalnak kinezo dolgok, tehat kik vannak egy cellaban.
Ebbol kipottyan egy koztes formatum, ami teny szeruen de
osszefuggestelenul rogziti, hogy milyen koordinatakon van tablazat
cellanak kinezo dolog (bounding box leirassal). Ebbol aztan egy
kovetkezo lepesben egy ujabb szkript megprobalja rekonstrualni a tablazat
logikai felepiteset; ez adja a tbl fajlt.
Fejlec eltores: a fejlec nemelyik soraban par szo vastaggal ala van huzva;
az alahuzasokat emberi intelligenciaval konnyu megkulonboztetni a tablazat
keretenek szant vonalaktol, de programmal kevesbe. Be is nezte a szkript,
es tobb tablazatsornak gondolta a tobb soros, alahuzott fejleceket.
Arra szamitok, hogy sok hasonlo pdf lesz, de a fejlec mindegyikben kicsit
mas lesz. Cserebe fajlonkent egy fele fejlec lesz es aztan tobb ezer
adatsor. Valosznuleg minden fajl eseten a fejlecet kezzel kell feldogozni
(az oszlopok jelentesenek egysegesitese miatt ez amugy is
elkerulhetetlennek tunik), cserebe az adatok mar "ingyen jonnek". Mivel
fajlbol (es igy fejlecbol) lesz keves es adatbol sok, ez elfogadhato
mennyisegu kezi munkanak tunik.
Udv,
Igor2
--------- következő rész ---------
table|begin
table|row
hdr|0|0|<b>ADATLAP </b> <b>keres kedelmi </b> <b>tevékenységrÅl: </b> <b>Engedély-köteles</b>
hdr|1|1|<b>Nyilvántartásba vétel </b> <b>száma:</b>
hdr|2|2|<b>KereskedÅ neve:</b>
hdr|3|3|<b>CÃme/székhelye:</b>
hdr|4|4|<b>Statisztikai száma:</b>
hdr|5|5|<b>A kereskedelmi tevékenység helye, cÃme(i):</b>
hdr|6|6|<b>Ãzleten kÃvüli ker. és </b> <b>csomagküldÅ ker. esetén a </b> <b>működési terület jegyzéke, </b> <b>érintett települések, vagy a </b> <b>megye, ill. az országos jelleg </b> <b>megjelölése:</b>
hdr|7|7|<b>A ker. tev. helye s zerinti </b> <b>Kertv. 3.§ (4) bek. szerint: </b>
hdr|8|8|<b>Mozgóbolt </b> <b>útján</b>
hdr|9|9|<b>Bevásárló-</b> <b>központban</b>
hdr|10|10|<b>Vásáron </b> <b>vagy piacon</b>
hdr|11|11|<b>Közterületi </b> <b>értékesÃtés</b>
hdr|12|12|<b>Közvetlen </b> <b>értékesÃtés</b>
hdr|13|13|<b>Ãzleten </b> <b>kÃvüli </b> <b>értékesÃtés</b>
hdr|14|14|<b>Cs omag-</b> <b>küldŠker.</b>
hdr|15|15|<b>Auto-</b> <b>matából </b> <b>történÅ </b> <b>értékesÃtés</b>
hdr|16|16|<b>Közlekedés</b> <b>i eszközön </b> <b>folytatott </b> <b>értékesÃtés</b>
hdr|17|17|<b>Közlekedési eszközön </b> <b>folytatott értékesÃtés </b> <b>esetén a közlekedési </b> <b>eszköz megjelölése és </b> <b>a jármű azonosÃtására </b> <b>használt jelzés </b> <b>feltüntetése</b>
hdr|18|18|<b>Ha a ker. tev. üzletben történik: </b>
hdr|19|19|<b>Ãzlet elnevezése:</b>
hdr|20|20|<b>Ãzlet cÃme:</b>
hdr|21|21|<b>Helyrajzi </b> <b>száma:</b>
hdr|22|22|<b>Ãzlet alap-</b> <b>területe:</b>
hdr|23|23|<b>Vendég-</b> <b>látóüzlet </b> <b>esetén </b> <b>befogadó-</b> <b>képesség </b> <b>(fÅ):</b>
hdr|24|24|<b>Vásárlók könyve </b> <b>használatba vételének </b> <b>idÅpontja:</b>
hdr|25|25|<b>Az egyes ker. formák és helyek szerinti bontásban: Termékek megnevezése és </b>
hdr|26|26|<b>Ill. ebbÅl: a Jöt. 3.§ (2) bek. szerinti termékek:</b>
hdr|27|27|<b>Ãzletköteles termékek: </b>
hdr|28|28|<b>A ker. formák és </b> <b>szerinti bontásban a </b>
hdr|29|29|<b>Kis keres -</b> <b>kedelem/ </b> <b>vendéglátás </b>
hdr|30|30|<b>Nagykeres -</b> <b>kedelem</b>
hdr|31|31|<b>Az üzletben </b>
hdr|32|32|<b>Zenes zolg./ </b> <b>műsoros </b> <b>elÅadás/ </b> <b>tánc </b>
hdr|33|33|<b>Szerencs e-</b> <b>játéknak </b> <b>nem minÅ-</b> <b>sülÅ játék</b>
hdr|34|34|<b>Külön engedély: Külön </b> <b>engedély esetén â az ez </b>
hdr|35|35|<b>Külön eng.-t kiállÃtó </b> <b>hatóság:</b>
hdr|36|36|<b>Külön eng. száma:</b>
hdr|37|37|<b>Külön eng. hatálya:</b>
hdr|38|38|<b>Keresk. forma és </b> <b>hely megjelölése:</b>
hdr|39|39|<b>IdÅpont: A kereskedelmi tev. </b>
hdr|40|40|<b>MódosÃtásának idÅpontja:</b>
hdr|41|41|<b>Megszűnésének idÅ-</b> <b>pontja:</b>
table|row
data|28|28|<b>helyek (üzletek) </b>
table|row
data|7|7|<b>bontásban a ker. </b> <b>tevékenység formája a </b>
data|31|31|<b>folytatnak-</b> <b>e:Szes zes -</b>
data|34|34|<b>alapján forgalmazott </b> <b>termékek köre, </b> <b>megnevezése:</b>
table|row
data|28|28|<b>keres kedelmi tev. </b>
data|31|31|<b>rést </b>
table|row
data|0|0|<b>Bejelentés-</b> <b>köteles, vagy </b>
data|18|18|<b>Napi/ heti nyitva tartási idÅ:</b>
data|25|25|<b>sorszáma a 6. mell. alapján:</b>
data|39|39|<b>megkezdésének idÅpontja:</b>
table|row
data|28|28|<b>jellege: </b> <b>Keres kedelmi </b> <b>ügynöki tev. </b>
data|31|31|<b>ital-kimé-</b>
table|row
data|7|7|<b>üzletben folytatott ker. tv.</b>
table|row
data|0|0|B.
data|1|1|7338/2011
data|2|2|G-Bar Kft.
data|3|3|2821/200
data|4|4|13973786-9200-113-01
data|5|5|1091 Bp., ÃllÅi út 109/B
data|7|7|X
data|18|18|H-V: 0:00-24:00
data|19|19|LUDOVIKA SÃRÃZÅ
data|20|20|1091 Bp. ÃllÅi út 109/B
data|21|21|37238/0/a/2
data|22|22|69
data|23|23|19
data|25|25|1.2,
data|26|26|alkoholterm., sör,bor,pezsgÅ, köztes alkoholt.
data|29|29|X
data|31|31|X
data|32|32|X
data|33|33|X
data|39|39|2011.03.01
data|41|41|2014.02.04
table|row
data|0|0|B.
data|1|1|7344/2011
data|2|2|Klári Bt.
data|3|3|1095 Bp., Boráros téri aluljáró,
data|4|4|28267946-5630-212-01
data|5|5|1095 Bp., Boráros téri gyalogos alulj.
data|7|7|X
data|18|18|H-P: 07:00-18:00, Szo-V.: Z.
data|19|19|INTERNET KÃVÃZÃ
data|20|20|1095 Bp., Boráros téri gyalogos alulj.
data|22|22|33
data|23|23|20
data|25|25|1.2,
data|26|26|alkoholterm., sör,bor,pezsgÅ, köztes alkoholt.
data|29|29|X
data|31|31|X
data|39|39|2011.03.02
table|row
data|0|0|Régi
data|1|1|1113/1997
data|2|2|Klári Könyvesboltja Bt.
data|3|3|1096 Bp., Boráros téri aluljáró, könyvesbolt
data|4|4|28267946-5244-212-01
data|5|5|1095 Bp., Boráros téri alulj.
data|7|7|X
data|18|18|H-P:10:00-18:00, Szo: 10:00-13:00, V: Z
data|19|19|Kiskereskedelmi üzlet
data|20|20|1095 Bp, Boráros téri alulj.
data|22|22|33
data|25|25|I./62 PapÃr, Ãrószer, könyv, térkép, bélyeg, hÃrlap kisker.
data|29|29|X
data|39|39|1997.09.23
data|41|41|2011.02.28
--------- következő rész ---------
A non-text attachment was scrubbed...
Name: page1.csv
Type: text/csv
Size: 1921 bytes
Desc:
URL: <http://lists.openstreetmap.org/pipermail/talk-hu/attachments/20181104/eba22f97/attachment.csv>
További információk a(z) Talk-hu levelezőlistáról