[Talk-cz] Nedělitelná mezera v OSM datech

Lukáš Karas lukas.karas na centrum.cz
Pátek Leden 20 16:57:32 UTC 2017


Tak tento problém musí všichni řešit už nyní. 
A nemusíš ani chtít párovat OSM s jinými daty, ale třeba jen strojově vytvořit 
strom adres z OSM dat...

Například máme název ulice "Pod Lipami" [1] ale adresní nody mají v 
"addr:street" hodnotu "Pod lipami" [2].

Takže musíš minimálně normalizovat velikost písmen, což je docela sranda ale 
dá se to pro latinku s přimhouřeným okem zvádnout, ale co dělat když máš 
administrativní oblast "Bělá u Turnova" [3] ale tag "addr:place" je nastaven 
na "Bělá" [4] ?

Je ale pravda že pokud program nenormalizuje bílé znaky tak jej pevná mezera 
rozbije, to je potřeba také zohlednit :-( OSM není bohužel (bohudík?) relační 
databáze, takže při práci s ní vždy bude docházet ke špatnému provázání dat.

Lukáš


1) https://www.openstreetmap.org/way/28714626
2) https://www.openstreetmap.org/node/296700722
3) https://www.openstreetmap.org/relation/426770
4) https://www.openstreetmap.org/node/198686670


Dne pátek 20. ledna 2017 16:45:07 CET jzvc napsal(a):
> Dne 19.1.2017 v 21:36 Jan Macura napsal(a):
> > //pardon, odeslal jsem mail předčasně
> > 
> > 2017-01-19 9:01 GMT+01:00 Lukáš Karas <lukas.karas na centrum.cz
> > 
> > <mailto:lukas.karas na centrum.cz>>:
> >     Ano, zalomení řádku je forma (pokud nepíši poezii). Ale nikdo nechce
> >     do osm
> >     dat dávat konce řádku do názvů - tedy to kde zalomit. Ale bavíme se
> >     o pevných
> >     mezerách. Tedy kde nezalomit. Je to věcí jazyka, měly by dle mě být
> >     součástí
> >     všech strojově čitelných textů - tedy dle mě obsah.
> > 
> > Chápu, ale pořád mi to nepřijde jako dostatečný argument. Je to jedno
> > bez druhého – informace o tom, kde nezalomit řádek může existovat jen
> > pro potřeby jeho zalomení a jsme zpátky u formátování dat (textu) pro
> > konkrétní potřeby.
> > 
> > Ale ten hate Jana Martince mě trochu nalomil (sic!). Pokud neexistuje
> > žádný argument proti, kromě logického (to, co se tu snažím obhajovat),
> > nemá asi smysl tomu bránit. Navíc, když Ladislav Laska píše, že některé
> > editory s tím umí pracovat, bral bych to v nejlepším duchu OSM (a
> > dobrovolnictví) jako možnost, ale určitě ne nutnost.
> 
> Existuje minimalne jeden zasadni argument proti, u znacne casti prvku
> mapy je jejich nazev zaroven jejich identifikatorem (jednoduse proto, ze
> neni jiny). A sem opravdu zvedav, az bude nekdo porovnavat (pripadne na
> sebe navazovat) dve databaze, co rekne na to, ze mu to proti sobe nesedi
> jen proto, ze na jedny strane sou nejaky divny znaky, coz mu trvalo
> tyden zjistit.
> 
> > 2017-01-19 9:11 GMT+01:00 Mikoláš Štrajt <strajt9 na seznam.cz
> > 
> > <mailto:strajt9 na seznam.cz>>:
> >     Fun fact:
> >     
> >     RUIAN už skloňování názvů obcí ve své databázi má. V exportu je to v
> >     položce obi:MluvnickeCharakteristiky.
> > 
> > A to je dobře. Plní tak pečlivě funkci registru územní identifikace.
> > Stejně tak bych čekal "mluvnické charakteristiky" třeba v GeoNames, ale
> > ne v OSM ;-)
> > 
> > 2017-01-19 10:35 GMT+01:00 Petr Kadlec <petr.kadlec na gmail.com
> > 
> > <mailto:petr.kadlec na gmail.com>>:
> >     A ještě k
> >     
> >     >  je extrémně výhodné, aby velikost písmen byla přímo brána jako
> >     >  součást obsahu>     
> >     To přece není „extrémně výhodné“ [wut?], to je přece _pravda_. Ta
> >     obec se _nejmenuje_ „libčice nad vltavou“˝, ale „Libčice nad
> >     Vltavou“. _Proto_ to tam takhle máme. Ne proto, aby bylo jednodušší
> >     to hezky vykreslovat. Stejně tak máme mít třeba „PP Opatřilka//–
> >     Červený lom“, nikoli „PP Opatřilka - Červený lom“ (bez ohledu na to,
> >     jakým písmem to pak kdo vykresluje).
> > 
> > Je to off-topic, ale snad bude strpen. Dokážu si představit takový
> > datový model, kde jméno objektu nebude řetězec "Kostelec nad Černými
> > lesy", ale objekt (v OSM tedy relace) se členy "kostelec", "černá",
> > "les" a vyjádřením jejich vzájemných vztahů , které by velikost písmen
> > implikovaly. Možné by to bylo, jen je to úplná blbost, takhle to
> > modelovat (= tím myslím, že je to extrémně nevýhodné ;-) )
> > 
> > H.
> > 
> > 
> > 
> > 
> > 
> > _______________________________________________
> > Talk-cz mailing list
> > Talk-cz na openstreetmap.org
> > https://lists.openstreetmap.org/listinfo/talk-cz
> 
> _______________________________________________
> Talk-cz mailing list
> Talk-cz na openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-cz
------------- další část ---------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 455 bytes
Desc: This is a digitally signed message part.
URL: <https://lists.openstreetmap.org/pipermail/talk-cz/attachments/20170120/2a87f9b3/attachment.sig>


Další informace o konferenci talk-cz