[Talk-cz] Cestina bez diakritiky
Pavel Machek
pavel na ucw.cz
Neděle Leden 27 11:28:55 UTC 2008
On Wed 2008-01-23 01:38:44, BH wrote:
> > Pravdepodobne slo. Dokaze nekdo vytahnout UIR-ADR databazi v nejakym
> > rozumnym formatu?
> >
> > Ona by se hodila i k dalsim fintam, kdyby se sikovne zobrazili adresni
> > body v josm, bylo by doplnovani jmen ulic hned veselejsi...
>
> http://www.mvcr.cz/adresa/xml.html
>
> Tam je ke stazeni databaze ulic v XML formatu. Bohuzel k tem ulicim
> nejsou zadne souradnice, je tam jen napsano kam to patri (jake mesto,
> jaky kraj ... ), ale zase jsoui ke kazde ulici pripsany existujici
> cisla popisna
No, kompletni databazi snad rozdavaj na CDckach...
> Podle tech nazvu by sla doplnovat diakritika (pokud k neohackovanemu
> jmenu existuje jen jedina ohackovana varianta v souboru, bude to asi
> ona :)
No, to by nebylo tak tezky, ale kdyz nejak oedituju .osm, jak ho
dostanu zpet na server?
Jinak jsem si trosku hral:
Adresy mvcr obsahuji
25858 adresy.ofic
unikatnich jmen ulic. Data v osm obsahuji
2518 adresy.osm
unikatnich jmen ulic, z nichz je 979 neznamych pro mvcr --
tj. pravdepodobne spatne (ale bohuzel je v tom i kus nemecka etc).
Z toho plyne ze osm pokryva spravne nejakych 6% jmen ulic... zda se ze
jeste mame co delat.
Pavel
--
(english) http://www.livejournal.com/~pavelmachek
(cesky, pictures) http://atrey.karlin.mff.cuni.cz/~pavel/picture/horses/blog.html
------------- další část ---------------
#!/bin/bash
cat adresy.xml | grep "ulice nazev" | cstocs utf8 ascii | sed 's/.*nazev..//' | sed 's/. kod=.*//' | sort | uniq > adresy.ofic
bzcat ~/incoming/czechia.osm.bz2 | grep -3 highway.*residential | grep name | sed 's/.*name. v..//' | sed 's/....$//' | cstocs utf8 ascii | tr '[:lower:]' '[:upper:]' | sort | uniq > adresy.osm
diff -u adresy.osm adresy.ofic
Další informace o konferenci talk-cz