[Talk-cz] jizdni rady: uzitecny parser
Pavel Machek
pavel na ucw.cz
Středa Září 2 09:53:59 UTC 2015
Ahoj!
> Koukám na to rozbalování, máme to plus mínus stejně. Ale než tahle hala bala
> se mi více líbí rozbalení do struktury
>
> <dopravce>/<linka>/
>
>
>
>
> To už mám rozvrtáno, večer dokončím a pošlu. Jediný problém na který jsem
> narazil bylo, že někteří dopravci mají ve svém jméně čárku, takže cut -d ","
> mi vrátil jen kousek. To se dá vyřešit přes cut -d '"'. Jenže to mně napadlo
> až teď ráno ;-)
Ono by to chtelo poradne parsovat CSV...
> No a pak ještě ze zména dopravce buď úplně odstranit diakritiku, nebo ji
> převést z cp1250 do utf-8 (iconv -f cp1520 -t utf-8)
Nastesti ten python si s charsetama celkem rozumi... tohle bylo
nakonec rychle.
Pridal jsem opravdovy parser, otaceni linek, a castecne parsovani
poznamek.
Rozhodnout se podle toho jejich systemu, ktery dny to teda jede bude
jeste na dlouho.
Kazdopadne kod je tady...
http://timetab.cvs.sourceforge.net/viewvc/timetab/timetab/cz/cis/
...a je dost zajimave videt jak maji ta data udelana "doopravdy".
Pavel
--
(english) http://www.livejournal.com/~pavelmachek
(cesky, pictures) http://atrey.karlin.mff.cuni.cz/~pavel/picture/horses/blog.html
Další informace o konferenci talk-cz