[Talk-cz] jizdni rady: uzitecny parser

Pavel Machek pavel na ucw.cz
Středa Září 2 09:53:59 UTC 2015


Ahoj!

> Koukám na to rozbalování, máme to plus mínus stejně. Ale než tahle hala bala
> se mi více líbí rozbalení do struktury
> 
> <dopravce>/<linka>/
> 
> 
> 
> 
> To už mám rozvrtáno, večer dokončím a pošlu. Jediný problém na který jsem 
> narazil bylo, že někteří dopravci mají ve svém jméně čárku, takže cut -d ","
> mi vrátil jen kousek. To se dá vyřešit přes cut -d '"'. Jenže to mně napadlo
> až teď ráno ;-)

Ono by to chtelo poradne parsovat CSV...

> No a pak ještě ze zména dopravce buď úplně odstranit diakritiku, nebo ji 
> převést z cp1250 do utf-8 (iconv -f cp1520 -t utf-8)

Nastesti ten python si s charsetama celkem rozumi... tohle bylo
nakonec rychle.

Pridal jsem opravdovy parser, otaceni linek, a castecne parsovani
poznamek.

Rozhodnout se podle toho jejich systemu, ktery dny to teda jede bude
jeste na dlouho.

Kazdopadne kod je tady...

http://timetab.cvs.sourceforge.net/viewvc/timetab/timetab/cz/cis/

...a je dost zajimave videt jak maji ta data udelana "doopravdy".

									Pavel
-- 
(english) http://www.livejournal.com/~pavelmachek
(cesky, pictures) http://atrey.karlin.mff.cuni.cz/~pavel/picture/horses/blog.html




Další informace o konferenci talk-cz