<div dir="auto">Ahoj,<div dir="auto"><br></div><div dir="auto">To jsme zase zpátky hledání problému pro řešení - pokud je ten datový zdroj s jakoukoli Unicode collation (mimo *_bin), tj. stávající stav, tak to bude hledat i porovnávat bez ohledu na diakritiku, velká a malá písmena, a dokonce i "exotické" whitespacy. (Exhibit A: Nominatim, zkuste si v něm trochu zavyhledávat)</div><div dir="auto"><br></div><div dir="auto">Já chápu, že po třiceti letech Kameníků a win1250 a kdoví čeho ještě máme všichni (já taky) neurózu z nabôdeníček, ale tady máme systém, který je (přinejmenším pro latinku) docela slušně promyšlený. Nevynalézejme hranatá kola. </div><div dir="auto"><br></div><div dir="auto">HPM</div></div><div class="gmail_extra"><br><div class="gmail_quote">Dne 20. 1. 2017 6:55 odp. napsal uživatel "Lukáš Karas" <<a href="mailto:lukas.karas@centrum.cz">lukas.karas@centrum.cz</a>>:<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Tak tento problém musí všichni řešit už nyní.<br>
A nemusíš ani chtít párovat OSM s jinými daty, ale třeba jen strojově vytvořit<br>
strom adres z OSM dat...<br>
<br>
Například máme název ulice "Pod Lipami" [1] ale adresní nody mají v<br>
"addr:street" hodnotu "Pod lipami" [2].<br>
<br>
Takže musíš minimálně normalizovat velikost písmen, což je docela sranda ale<br>
dá se to pro latinku s přimhouřeným okem zvádnout, ale co dělat když máš<br>
administrativní oblast "Bělá u Turnova" [3] ale tag "addr:place" je nastaven<br>
na "Bělá" [4] ?<br>
<br>
Je ale pravda že pokud program nenormalizuje bílé znaky tak jej pevná mezera<br>
rozbije, to je potřeba také zohlednit :-( OSM není bohužel (bohudík?) relační<br>
databáze, takže při práci s ní vždy bude docházet ke špatnému provázání dat.<br>
<br>
Lukáš<br>
<br>
<br>
1) <a href="https://www.openstreetmap.org/way/28714626" rel="noreferrer" target="_blank">https://www.openstreetmap.org/<wbr>way/28714626</a><br>
2) <a href="https://www.openstreetmap.org/node/296700722" rel="noreferrer" target="_blank">https://www.openstreetmap.org/<wbr>node/296700722</a><br>
3) <a href="https://www.openstreetmap.org/relation/426770" rel="noreferrer" target="_blank">https://www.openstreetmap.org/<wbr>relation/426770</a><br>
4) <a href="https://www.openstreetmap.org/node/198686670" rel="noreferrer" target="_blank">https://www.openstreetmap.org/<wbr>node/198686670</a><br>
<br>
<br>
Dne pátek 20. ledna 2017 16:45:07 CET jzvc napsal(a):<br>
> Dne 19.1.2017 v 21:36 Jan Macura napsal(a):<br>
> > //pardon, odeslal jsem mail předčasně<br>
> ><br>
> > 2017-01-19 9:01 GMT+01:00 Lukáš Karas <<a href="mailto:lukas.karas@centrum.cz">lukas.karas@centrum.cz</a><br>
> ><br>
> > <mailto:<a href="mailto:lukas.karas@centrum.cz">lukas.karas@centrum.cz</a><wbr>>>:<br>
> >     Ano, zalomení řádku je forma (pokud nepíši poezii). Ale nikdo nechce<br>
> >     do osm<br>
> >     dat dávat konce řádku do názvů - tedy to kde zalomit. Ale bavíme se<br>
> >     o pevných<br>
> >     mezerách. Tedy kde nezalomit. Je to věcí jazyka, měly by dle mě být<br>
> >     součástí<br>
> >     všech strojově čitelných textů - tedy dle mě obsah.<br>
> ><br>
> > Chápu, ale pořád mi to nepřijde jako dostatečný argument. Je to jedno<br>
> > bez druhého – informace o tom, kde nezalomit řádek může existovat jen<br>
> > pro potřeby jeho zalomení a jsme zpátky u formátování dat (textu) pro<br>
> > konkrétní potřeby.<br>
> ><br>
> > Ale ten hate Jana Martince mě trochu nalomil (sic!). Pokud neexistuje<br>
> > žádný argument proti, kromě logického (to, co se tu snažím obhajovat),<br>
> > nemá asi smysl tomu bránit. Navíc, když Ladislav Laska píše, že některé<br>
> > editory s tím umí pracovat, bral bych to v nejlepším duchu OSM (a<br>
> > dobrovolnictví) jako možnost, ale určitě ne nutnost.<br>
><br>
> Existuje minimalne jeden zasadni argument proti, u znacne casti prvku<br>
> mapy je jejich nazev zaroven jejich identifikatorem (jednoduse proto, ze<br>
> neni jiny). A sem opravdu zvedav, az bude nekdo porovnavat (pripadne na<br>
> sebe navazovat) dve databaze, co rekne na to, ze mu to proti sobe nesedi<br>
> jen proto, ze na jedny strane sou nejaky divny znaky, coz mu trvalo<br>
> tyden zjistit.<br>
><br>
> > 2017-01-19 9:11 GMT+01:00 Mikoláš Štrajt <<a href="mailto:strajt9@seznam.cz">strajt9@seznam.cz</a><br>
> ><br>
> > <mailto:<a href="mailto:strajt9@seznam.cz">strajt9@seznam.cz</a>>>:<br>
> >     Fun fact:<br>
> ><br>
> >     RUIAN už skloňování názvů obcí ve své databázi má. V exportu je to v<br>
> >     položce obi:MluvnickeCharakteristiky.<br>
> ><br>
> > A to je dobře. Plní tak pečlivě funkci registru územní identifikace.<br>
> > Stejně tak bych čekal "mluvnické charakteristiky" třeba v GeoNames, ale<br>
> > ne v OSM ;-)<br>
> ><br>
> > 2017-01-19 10:35 GMT+01:00 Petr Kadlec <<a href="mailto:petr.kadlec@gmail.com">petr.kadlec@gmail.com</a><br>
> ><br>
> > <mailto:<a href="mailto:petr.kadlec@gmail.com">petr.kadlec@gmail.com</a>><wbr>>:<br>
> >     A ještě k<br>
> ><br>
> >     >  je extrémně výhodné, aby velikost písmen byla přímo brána jako<br>
> >     >  součást obsahu><br>
> >     To přece není „extrémně výhodné“ [wut?], to je přece _pravda_. Ta<br>
> >     obec se _nejmenuje_ „libčice nad vltavou“˝, ale „Libčice nad<br>
> >     Vltavou“. _Proto_ to tam takhle máme. Ne proto, aby bylo jednodušší<br>
> >     to hezky vykreslovat. Stejně tak máme mít třeba „PP Opatřilka//–<br>
> >     Červený lom“, nikoli „PP Opatřilka - Červený lom“ (bez ohledu na to,<br>
> >     jakým písmem to pak kdo vykresluje).<br>
> ><br>
> > Je to off-topic, ale snad bude strpen. Dokážu si představit takový<br>
> > datový model, kde jméno objektu nebude řetězec "Kostelec nad Černými<br>
> > lesy", ale objekt (v OSM tedy relace) se členy "kostelec", "černá",<br>
> > "les" a vyjádřením jejich vzájemných vztahů , které by velikost písmen<br>
> > implikovaly. Možné by to bylo, jen je to úplná blbost, takhle to<br>
> > modelovat (= tím myslím, že je to extrémně nevýhodné ;-) )<br>
> ><br>
> > H.<br>
> ><br>
> ><br>
> ><br>
> ><br>
> ><br>
> > ______________________________<wbr>_________________<br>
> > Talk-cz mailing list<br>
> > <a href="mailto:Talk-cz@openstreetmap.org">Talk-cz@openstreetmap.org</a><br>
> > <a href="https://lists.openstreetmap.org/listinfo/talk-cz" rel="noreferrer" target="_blank">https://lists.openstreetmap.<wbr>org/listinfo/talk-cz</a><br>
><br>
> ______________________________<wbr>_________________<br>
> Talk-cz mailing list<br>
> <a href="mailto:Talk-cz@openstreetmap.org">Talk-cz@openstreetmap.org</a><br>
> <a href="https://lists.openstreetmap.org/listinfo/talk-cz" rel="noreferrer" target="_blank">https://lists.openstreetmap.<wbr>org/listinfo/talk-cz</a><br>______________________________<wbr>_________________<br>
Talk-cz mailing list<br>
<a href="mailto:Talk-cz@openstreetmap.org">Talk-cz@openstreetmap.org</a><br>
<a href="https://lists.openstreetmap.org/listinfo/talk-cz" rel="noreferrer" target="_blank">https://lists.openstreetmap.<wbr>org/listinfo/talk-cz</a><br>
<br></blockquote></div></div>