[Talk-cz] Cestina bez diakritiky

Pavel Machek pavel na ucw.cz
Neděle Leden 27 11:28:55 UTC 2008


On Wed 2008-01-23 01:38:44, BH wrote:
> > Pravdepodobne slo. Dokaze nekdo vytahnout UIR-ADR databazi v nejakym
> > rozumnym formatu?
> >
> > Ona by se hodila i k dalsim fintam, kdyby se sikovne zobrazili adresni
> > body v josm, bylo by doplnovani jmen ulic hned veselejsi...
> 
> http://www.mvcr.cz/adresa/xml.html
> 
> Tam je ke stazeni databaze ulic v XML formatu. Bohuzel k tem ulicim
> nejsou zadne souradnice, je tam jen napsano kam to patri (jake mesto,
> jaky kraj ... ), ale zase jsoui ke kazde ulici pripsany existujici
> cisla popisna

No, kompletni databazi snad rozdavaj na CDckach...

> Podle tech nazvu by sla doplnovat diakritika (pokud k neohackovanemu
> jmenu existuje jen jedina ohackovana varianta v souboru, bude to asi
> ona :)

No, to by nebylo tak tezky, ale kdyz nejak oedituju .osm, jak ho
dostanu zpet na server?

Jinak jsem si trosku hral:

Adresy mvcr obsahuji 

25858 adresy.ofic

unikatnich jmen ulic. Data v osm obsahuji

2518 adresy.osm

unikatnich jmen ulic, z nichz je 979 neznamych pro mvcr --
tj. pravdepodobne spatne (ale bohuzel je v tom i kus nemecka etc).

Z toho plyne ze osm pokryva spravne nejakych 6% jmen ulic... zda se ze
jeste mame co delat.
									Pavel
-- 
(english) http://www.livejournal.com/~pavelmachek
(cesky, pictures) http://atrey.karlin.mff.cuni.cz/~pavel/picture/horses/blog.html
------------- další část ---------------
#!/bin/bash
cat adresy.xml | grep "ulice nazev" | cstocs utf8 ascii | sed 's/.*nazev..//' | sed 's/. kod=.*//' | sort  | uniq > adresy.ofic
bzcat  ~/incoming/czechia.osm.bz2  | grep -3  highway.*residential | grep name |  sed 's/.*name. v..//' | sed 's/....$//' | cstocs utf8 ascii | tr '[:lower:]' '[:upper:]' | sort | uniq > adresy.osm
diff -u adresy.osm adresy.ofic


Další informace o konferenci talk-cz