[Talk-cz] Cestina bez diakritiky

Pavel Machek pavel na ucw.cz
Neděle Leden 27 11:33:26 UTC 2008


On Sun 2008-01-27 12:28:55, Pavel Machek wrote:
> On Wed 2008-01-23 01:38:44, BH wrote:
> > > Pravdepodobne slo. Dokaze nekdo vytahnout UIR-ADR databazi v nejakym
> > > rozumnym formatu?
> > >
> > > Ona by se hodila i k dalsim fintam, kdyby se sikovne zobrazili adresni
> > > body v josm, bylo by doplnovani jmen ulic hned veselejsi...
> > 
> > http://www.mvcr.cz/adresa/xml.html
> > 
> > Tam je ke stazeni databaze ulic v XML formatu. Bohuzel k tem ulicim
> > nejsou zadne souradnice, je tam jen napsano kam to patri (jake mesto,
> > jaky kraj ... ), ale zase jsoui ke kazde ulici pripsany existujici
> > cisla popisna
> 
> No, kompletni databazi snad rozdavaj na CDckach...
> 
> > Podle tech nazvu by sla doplnovat diakritika (pokud k neohackovanemu
> > jmenu existuje jen jedina ohackovana varianta v souboru, bude to asi
> > ona :)
> 
> No, to by nebylo tak tezky, ale kdyz nejak oedituju .osm, jak ho
> dostanu zpet na server?
> 
> Jinak jsem si trosku hral:
> 
> Adresy mvcr obsahuji 
> 
> 25858 adresy.ofic
> 
> unikatnich jmen ulic. Data v osm obsahuji
> 
> 2518 adresy.osm
> 
> unikatnich jmen ulic, z nichz je 979 neznamych pro mvcr --
> tj. pravdepodobne spatne (ale bohuzel je v tom i kus nemecka etc).
> 
> Z toho plyne ze osm pokryva spravne nejakych 6% jmen ulic... zda se ze
> jeste mame co delat.

(aha, tak tohle bylo na lehce starejch datech, ale ted to neni o moc
lepsi. Nemecky ulice zmizely, zrejme diky presnejsimu czechia.osm).


-- 
(english) http://www.livejournal.com/~pavelmachek
(cesky, pictures) http://atrey.karlin.mff.cuni.cz/~pavel/picture/horses/blog.html




Další informace o konferenci talk-cz