<div dir="ltr">A felhasználhatóságról csak annyit, hogyha mobiltelefonon is navigálható értelmes formátumra tudjuk hozni ezeket a kötelezően publikált dokumentumokat (például CSV, akár utólag megszűrve vagy abból generálva valamit), akkor mapping party/helyszíni bejáráson teljesen rendben van a használatuk. Vagy lehetne építeni rá valami OSM Note-szerű réteget amivel szintén át lehetne nézni, illetve Kami OSM párosítójához hasonló tool alapján szintén tudnánk fixme-ket generálni. Én ezen a részen nem aggódnék.<div><br></div><div>Én direkten biztos nem importálnám mert $SUBJECT szerint elavult egy része, emiatt jogi problémákat nem okozhat.</div></div><br><div class="gmail_quote"><div dir="ltr">On Sun, Nov 4, 2018 at 6:18 AM <<a href="mailto:osm@igor2.repo.hu">osm@igor2.repo.hu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Sziasztok,<br>
<br>
On Sat, 3 Nov 2018, Úr Balázs wrote:<br>
<br>
>bkil <<a href="mailto:bkil.hu@gmail.com" target="_blank">bkil.hu@gmail.com</a>> ezt írta (id?pont: 2018. okt. 23., K, 16:36):<br>
>> a települések tetemes része meg is teszi, még ha eldugva vagy bugyuta<br>
>> formára konvertálva is.<br>
><br>
>Eldugva ÉS bugyuta formára konvertálva:<br>
><a href="http://www.ferencvaros.hu/doks/nyilvantartasok/Kereskedeok.pdf" rel="noreferrer" target="_blank">http://www.ferencvaros.hu/doks/nyilvantartasok/Kereskedeok.pdf</a><br>
<br>
A jo oreg pdf... De legalabb nem szkennelt.<br>
<br>
2014-ben volt egy hasonlo problemam, ahol par ezer oldal tablazatot <br>
kellett C kodda alakitani. Lefuttattam az akkor keletkezett Legnagyobb <br>
Balta szkripteket a fenti fajlon, es egesz hasznalhato eredmeny szuletett <br>
(mintanak az elso oldal fejlece es elso ket sora csatolva).<br>
<br>
A tbl az, ami kipottyan a szkript vegen (lasd lent). A CSV-t ebbol <br>
generaltam egy par soros awk-val. A tbl formatum tudja kezelni, ha <br>
vizszintesen egybe vannak nyitva cellak (de fuggolegesen nem) - a csv-ben <br>
ez nem jelenik meg. A fejlec kicsit torott, de pontosan tudom, hogy miert <br>
(lasd lent).<br>
<br>
Ha kell, kipofozom a szkripteket, a CPU intenziv reszt ujrairom C-ben es <br>
szivesen konvertalok barmikor barmennyi hasonlo pdf-t. Viszont csak akkor <br>
szannek erre tobb idot, ha a kovetkezo 4 dolog teljesul:<br>
<br>
- legyen teljesen tisztazott, hogy ezeket a forrasokat legalisan <br>
hasznalhatjuk<br>
<br>
- legyen egynel tobb ember, aki a pdf-ek felkutatasaval es a csv-k <br>
feldolgozasaval foglalkozik, az adatok tenyleg keruljenek fel a terkepre <br>
<br>
- legyen valaki, aki koordinalja az egeszet es atlatja a dolog allasat (en <br>
csak a konverzioval tudok bibelodni, alacsony szinten)<br>
<br>
- vegyuk figyelembe a szkript korlatait: nagyjabol csak fekete vonallal <br>
korbekeretezett tablazatot tud feldolgozni; nem erti a laphatarokat; nem <br>
OCR; nem erti a szoveget, ami oda van irva, csak kiszedi<br>
<br>
<br>
Apro betus resz:<br>
<br>
Zaraskent egy kis magyarazat, hogy mekkora is az a bizonyos balta.<br>
<br>
A pdf-et egy dolgra talaltak ki, es ennek megfeleloen nagyjabol csak arra <br>
jo: nyomtatas. Igy aztan a formatum strukturaja alapvetoen nem a <br>
dokumentum tartalmi strukturajat probalja lekovetni, hanem a kirajzolas <br>
strukturajat. Ebbol kovetkezik az is, hogy pdf-ben valojaban nem nagyon <br>
tudsz tablazatot tablazatkent megadni.<br>
<br>
Ehelyett ezekben a dokumentumokban tipikusan egy koteg egymastol <br>
fuggetlen szovegdarabkat helyeznek el fix koordinatakon, majd ettol tok <br>
fuggetlenul rajzolnak vonalakat ilyen-olyan (termeszetesen <br>
valtozatos) modon. Ha szerencsenk van (most epp az van), akkor legalabb <br>
szavankent egyben van a szoveg, de sajnos lattam mar olyat is, ahol szinte <br>
betunkent kulon szoveg volt sajat koordinataval.<br>
<br>
A feldolgozasnal ezert kulon kigyujtom a szovegdarabkak x;y koordinatait <br>
es megprobalom detektalni (pixelesen), hogy hozzajuk kepest milyen <br>
iranyban vannak vonalnak kinezo dolgok, tehat kik vannak egy cellaban. <br>
Ebbol kipottyan egy koztes formatum, ami teny szeruen de <br>
osszefuggestelenul rogziti, hogy milyen koordinatakon van tablazat <br>
cellanak kinezo dolog (bounding box leirassal). Ebbol aztan egy <br>
kovetkezo lepesben egy ujabb szkript megprobalja rekonstrualni a tablazat <br>
logikai felepiteset; ez adja a tbl fajlt.<br>
<br>
Fejlec eltores: a fejlec nemelyik soraban par szo vastaggal ala van huzva; <br>
az alahuzasokat emberi intelligenciaval konnyu megkulonboztetni a tablazat <br>
keretenek szant vonalaktol, de programmal kevesbe. Be is nezte a szkript, <br>
es tobb tablazatsornak gondolta a tobb soros, alahuzott fejleceket.<br>
<br>
Arra szamitok, hogy sok hasonlo pdf lesz, de a fejlec mindegyikben kicsit <br>
mas lesz. Cserebe fajlonkent egy fele fejlec lesz es aztan tobb ezer <br>
adatsor. Valosznuleg minden fajl eseten a fejlecet kezzel kell feldogozni <br>
(az oszlopok jelentesenek egysegesitese miatt ez amugy is <br>
elkerulhetetlennek tunik), cserebe az adatok mar "ingyen jonnek". Mivel <br>
fajlbol (es igy fejlecbol) lesz keves es adatbol sok, ez elfogadhato <br>
mennyisegu kezi munkanak tunik.<br>
<br>
<br>
Udv,<br>
<br>
Igor2<br>
<br>
</blockquote></div>