Re: [osm-hu] Üzletek naprakész nyilvántartásába való betekintés

bkil bkil.hu at gmail.com
2018. Nov. 4., V, 11:39:18 UTC


A felhasználhatóságról csak annyit, hogyha mobiltelefonon is navigálható
értelmes formátumra tudjuk hozni ezeket a kötelezően publikált
dokumentumokat (például CSV, akár utólag megszűrve vagy abból generálva
valamit), akkor mapping party/helyszíni bejáráson teljesen rendben van a
használatuk. Vagy lehetne építeni rá valami OSM Note-szerű réteget amivel
szintén át lehetne nézni, illetve Kami OSM párosítójához hasonló tool
alapján szintén tudnánk fixme-ket generálni. Én ezen a részen nem aggódnék.

Én direkten biztos nem importálnám mert $SUBJECT szerint elavult egy része,
emiatt jogi problémákat nem okozhat.

On Sun, Nov 4, 2018 at 6:18 AM <osm at igor2.repo.hu> wrote:

> Sziasztok,
>
> On Sat, 3 Nov 2018, Úr Balázs wrote:
>
> >bkil <bkil.hu at gmail.com> ezt írta (id?pont: 2018. okt. 23., K, 16:36):
> >> a települések tetemes része meg is teszi, még ha eldugva vagy bugyuta
> >> formára konvertálva is.
> >
> >Eldugva ÉS bugyuta formára konvertálva:
> >http://www.ferencvaros.hu/doks/nyilvantartasok/Kereskedeok.pdf
>
> A jo oreg pdf... De legalabb nem szkennelt.
>
> 2014-ben volt egy hasonlo problemam, ahol par ezer oldal tablazatot
> kellett C kodda alakitani. Lefuttattam az akkor keletkezett Legnagyobb
> Balta szkripteket a fenti fajlon, es egesz hasznalhato eredmeny szuletett
> (mintanak az elso oldal fejlece es elso ket sora csatolva).
>
> A tbl az, ami kipottyan a szkript vegen (lasd lent). A CSV-t ebbol
> generaltam egy par soros awk-val. A tbl formatum tudja kezelni, ha
> vizszintesen egybe vannak nyitva cellak (de fuggolegesen nem) - a csv-ben
> ez nem jelenik meg. A fejlec kicsit torott, de pontosan tudom, hogy miert
> (lasd lent).
>
> Ha kell, kipofozom a szkripteket, a CPU intenziv reszt ujrairom C-ben es
> szivesen konvertalok barmikor barmennyi hasonlo pdf-t. Viszont csak akkor
> szannek erre tobb idot, ha a kovetkezo 4 dolog teljesul:
>
> - legyen teljesen tisztazott, hogy ezeket a forrasokat legalisan
> hasznalhatjuk
>
> - legyen egynel tobb ember, aki a pdf-ek felkutatasaval es a csv-k
> feldolgozasaval foglalkozik, az adatok tenyleg keruljenek fel a terkepre
>
> - legyen valaki, aki koordinalja az egeszet es atlatja a dolog allasat (en
> csak a konverzioval tudok bibelodni, alacsony szinten)
>
> - vegyuk figyelembe a szkript korlatait: nagyjabol csak fekete vonallal
> korbekeretezett tablazatot tud feldolgozni; nem erti a laphatarokat; nem
> OCR; nem erti a szoveget, ami oda van irva, csak kiszedi
>
>
> Apro betus resz:
>
> Zaraskent egy kis magyarazat, hogy mekkora is az a bizonyos balta.
>
> A pdf-et egy dolgra talaltak ki, es ennek megfeleloen nagyjabol csak arra
> jo: nyomtatas. Igy aztan a formatum strukturaja alapvetoen nem a
> dokumentum tartalmi strukturajat probalja lekovetni, hanem a kirajzolas
> strukturajat. Ebbol kovetkezik az is, hogy pdf-ben valojaban nem nagyon
> tudsz tablazatot tablazatkent megadni.
>
> Ehelyett ezekben a dokumentumokban tipikusan egy koteg egymastol
> fuggetlen szovegdarabkat helyeznek el fix koordinatakon, majd ettol tok
> fuggetlenul rajzolnak vonalakat ilyen-olyan (termeszetesen
> valtozatos) modon. Ha szerencsenk van (most epp az van), akkor legalabb
> szavankent egyben van a szoveg, de sajnos lattam mar olyat is, ahol szinte
> betunkent kulon szoveg volt sajat koordinataval.
>
> A feldolgozasnal ezert kulon kigyujtom a szovegdarabkak x;y koordinatait
> es megprobalom detektalni (pixelesen), hogy hozzajuk kepest milyen
> iranyban vannak vonalnak kinezo dolgok, tehat kik vannak egy cellaban.
> Ebbol kipottyan egy koztes formatum, ami teny szeruen de
> osszefuggestelenul rogziti, hogy milyen koordinatakon van tablazat
> cellanak kinezo dolog (bounding box leirassal). Ebbol aztan egy
> kovetkezo lepesben egy ujabb szkript megprobalja rekonstrualni a tablazat
> logikai felepiteset; ez adja a tbl fajlt.
>
> Fejlec eltores: a fejlec nemelyik soraban par szo vastaggal ala van huzva;
> az alahuzasokat emberi intelligenciaval konnyu megkulonboztetni a tablazat
> keretenek szant vonalaktol, de programmal kevesbe. Be is nezte a szkript,
> es tobb tablazatsornak gondolta a tobb soros, alahuzott fejleceket.
>
> Arra szamitok, hogy sok hasonlo pdf lesz, de a fejlec mindegyikben kicsit
> mas lesz. Cserebe fajlonkent egy fele fejlec lesz es aztan tobb ezer
> adatsor. Valosznuleg minden fajl eseten a fejlecet kezzel kell feldogozni
> (az oszlopok jelentesenek egysegesitese miatt ez amugy is
> elkerulhetetlennek tunik), cserebe az adatok mar "ingyen jonnek". Mivel
> fajlbol (es igy fejlecbol) lesz keves es adatbol sok, ez elfogadhato
> mennyisegu kezi munkanak tunik.
>
>
> Udv,
>
> Igor2
>
>
--------- következő rész ---------
Egy csatolt HTML állomány át lett konvertálva...
URL: <http://lists.openstreetmap.org/pipermail/talk-hu/attachments/20181104/4f56c36f/attachment.htm>


További információk a(z) Talk-hu levelezőlistáról