Re: [osm-hu] Üzletek naprakész nyilvántartásába való betekintés
osm at igor2.repo.hu
osm at igor2.repo.hu
2018. Nov. 4., V, 14:53:01 UTC
On Sun, 4 Nov 2018, bkil wrote:
>Azt végig tudnád nézni legalább egy oldalon, hogy nem szúr-e szóközöket
>változatos helyre a szövegbe?
Szurni nem szur, de az eredeti input bizony tartalmaz furcsa dolgokat.
Pelda: elso oldal, 5. sor, cim oszlop: az fszt-ben az s ez a z kozott
vagas van. Ugyan nem teljes szelessegu spacekent, de eleg jol latszik
mupdf-el is, a firefox js alapu nezegetojeben is, evince-ben is. Vagolapra
masolaskor is altalaban kerul bele space itt.
Meg lehetne nezni a fajlban, hogy ez pontosan mi; ha szerencsenk van, csak
valami unicode half space vagy hasonlo kretenseg a ket karakter kozott, de
az is lehet, hogy egyszereun tobb objektumbol van osszerakva a cella es az
fszt csak szemmel latszik egy szonak nemelyik programban.
De az egesz dokuemntumot elnezve amugy sem gondolnam, hogy nagy mugonddal
keszult es barmilyen 1:1 importalas lehetseges. Ugyanazoknak az adatonak a
felvietele sem egyseges: nehol elternek roviditesek, irasjelek, de akar
ugyanannak a dolognak a megnevezesere is 3..4 fele irasmodot hasznalnak.
Szoval nem hiszem, hogy olyan importot lehetne ebbol kihozni, ami 1:1
mehet barmibe, inkabb olyat, amit egesz jol lehet hasznalni arra, hogy
kevesebbet kelljen kezzel szenvedni. De azert minden mezohoz hozza kell
nyulni - de legalabb mezok egy tablazatban, nem kell egyesevel masolni,
cellankent.
>A pdftohtml és pdf2htmlEX tool is ugyanezt
>csinálja, csak valahogy ezt a fontot nem eszik meg és szóközökkel tarkítják
>az adatokat.
Egyreszt a pdftohtml nem ugyanazt csinalja, mint a szkript: amikor
legutobb neztem, nem epitett html tablazatot, hanem pixelpozicionalassal
elhelyezte a szovegdarabkakat es kepkent berakta hatternek a tablazat
vonalait. Amugy pontosan ez a szkript bemenete.
Ami a szkript hozzaadott erteke: a random koordinatakra lerakott
szovegekbol es a tablazat vonalainak grafikajabol logikai tablazat keszul,
sorokkal, oszlopokkal, cellakkal. Amit aztan mar tudsz importalni barmibe,
ami alapvetoen tablazatbol szeret dolgozni, nem "kepbol".
(A pdf2htmlEX-et nem probaltam, de oszinten meglepne, ha az valodi
tablazatot csinalna.)
Masreszt valoszinu, hogy ezek sem beszurnak space-eket, hanem nem tudjak
megjavitani a torott inputot.
Ezert is ajanlottam igy eredetileg: ha a minta alapjan valakinek van kedve
a munka kezi reszet megcsinalni, es hajtani a dolgot, akkor szivesen
konvertalok barmi ilyet, de ha nem, akkor azert tul sok idot nem tolok
bele.
Udv,
Igor2
További információk a(z) Talk-hu levelezőlistáról