Re: [osm-hu] Üzletek naprakész nyilvántartásába való betekintés

osm at igor2.repo.hu osm at igor2.repo.hu
2018. Nov. 4., V, 14:53:01 UTC



On Sun, 4 Nov 2018, bkil wrote:

>Azt végig tudnád nézni legalább egy oldalon, hogy nem szúr-e szóközöket
>változatos helyre a szövegbe?

Szurni nem szur, de az eredeti input bizony tartalmaz furcsa dolgokat. 
Pelda: elso oldal, 5. sor, cim oszlop: az fszt-ben az s ez a z kozott 
vagas van. Ugyan nem teljes szelessegu spacekent, de eleg jol latszik 
mupdf-el is, a firefox js alapu nezegetojeben is, evince-ben is. Vagolapra 
masolaskor is altalaban kerul bele space itt.

Meg lehetne nezni a fajlban, hogy ez pontosan mi; ha szerencsenk van, csak 
valami unicode half space vagy hasonlo kretenseg a ket karakter kozott, de 
az is lehet, hogy egyszereun tobb objektumbol van osszerakva a cella es az 
fszt csak szemmel latszik egy szonak nemelyik programban.

De az egesz dokuemntumot elnezve amugy sem gondolnam, hogy nagy mugonddal 
keszult es barmilyen 1:1 importalas lehetseges. Ugyanazoknak az adatonak a 
felvietele sem egyseges: nehol elternek roviditesek, irasjelek, de akar 
ugyanannak a dolognak a megnevezesere is 3..4 fele irasmodot hasznalnak. 

Szoval nem hiszem, hogy olyan importot lehetne ebbol kihozni, ami 1:1 
mehet barmibe, inkabb olyat, amit egesz jol lehet hasznalni arra, hogy 
kevesebbet kelljen kezzel szenvedni. De azert minden mezohoz hozza kell 
nyulni - de legalabb mezok egy tablazatban, nem kell egyesevel masolni, 
cellankent. 

>A pdftohtml és pdf2htmlEX tool is ugyanezt
>csinálja, csak valahogy ezt a fontot nem eszik meg és szóközökkel tarkítják
>az adatokat.

Egyreszt a pdftohtml nem ugyanazt csinalja, mint a szkript: amikor 
legutobb neztem, nem epitett html tablazatot, hanem pixelpozicionalassal 
elhelyezte a szovegdarabkakat es kepkent berakta hatternek a tablazat 
vonalait. Amugy pontosan ez a szkript bemenete.

Ami a szkript hozzaadott erteke: a random koordinatakra lerakott 
szovegekbol es a tablazat vonalainak grafikajabol logikai tablazat keszul, 
sorokkal, oszlopokkal, cellakkal. Amit aztan mar tudsz importalni barmibe, 
ami alapvetoen tablazatbol szeret dolgozni, nem "kepbol".

(A pdf2htmlEX-et nem probaltam, de oszinten meglepne, ha az valodi 
tablazatot csinalna.)

Masreszt valoszinu, hogy ezek sem beszurnak space-eket, hanem nem tudjak 
megjavitani a torott inputot.

Ezert is ajanlottam igy eredetileg: ha a minta alapjan valakinek van kedve 
a munka kezi reszet megcsinalni, es hajtani a dolgot, akkor szivesen 
konvertalok barmi ilyet, de ha nem, akkor azert tul sok idot nem tolok 
bele.

Udv,

Igor2


További információk a(z) Talk-hu levelezőlistáról