<div dir="auto">Já bych si dovolil tvrdit něco jiného:<div dir="auto">Můžeme s tím nesouhlasit, můžeme o tom diskutovat, ale to je situace, kterou s Unicode a s UTF8 už teď máme, a je to stav odpovídající specifikaci unikodu, <a href="http://tj.ne">tj.ne</a> chyba k opravě. Volat "fuj fuj hack nechci to" je sice možný názor, ale jakou navrhuješ alternativu? Vrátíme se ke Kameníkům, byli takoví hezký a přehledný? Tahle loď už odplula - planetfile je tak nějak z definice celosvětový, a Unicode znaky nejsou bajty, ba ani 1:1 sekvence bajtů (kernelu se to medle netýká vůbec, to je záležitost OSM toolchainu).</div><div dir="auto"><br></div>Normalizovat před uložením - já jsem úplně pro, když zrovna pro češtinu ten kratší způsob zápisu existuje...jenže to si můžeme říct tady, a kdo to bude hlídat, že třeba nějaká appka nebude zapisovat tagy v NFD? Z principu to ani nemůže nikdo u-hlídat; prostě je třeba počítat s tím, že občas dostaneme validní data kódovaná jinak než tou konvencí, kterou si tady my vzájemně řekneme.<div dir="auto"><br></div><div dir="auto">TL;DR: nemáme vliv na všechna vstupní data, a nic s tím nenaděláme. Pokud jsou validní, musíme s nimi žít. <br><div class="gmail_extra" dir="auto"><br><div class="gmail_quote">Dne 31. 1. 2017 12:43 odp. napsal uživatel "Pavel Machek" <<a href="mailto:pavel@ucw.cz">pavel@ucw.cz</a>>:<br type="attribution"><blockquote class="quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="quoted-text">On Fri 2017-01-20 20:19:31, Jan Martinec wrote:<br>

> (A když jsme u toho párování, porovnávání a podobných mňamek, __normalizace<br>

> velkých písmen už teď zdaleka nestačí__ - je třeba používat nástroje, který<br>

> má daný jazyk pro Unicode. Ne proto, že by to jinak nešlo, ale proto, že to<br>

> tuhle práci udělá samo, i pro případy, který by mě ani nenapadly. Což<br>

> znamená mj. to, že když ty stringy budeš porovnávat po bajtech, tak tě<br>

> kousne nejen whitespace, ale i případ, kdy "Bělá" je sice v Unicode rovno<br>

> "Bělá", ale převedený __na bajty__ bez normalizace do NFC nebo NFD to není<br>

> identický, protože to první jsou čtyři znaky, a druhý je fskutčnosti znaků<br>

> šest, totiž "B(kombinující háček)el(kombinující čárka)a", a obojí je<br>

> rovnocenný způsob zápisu - ani jedno není workaround či  hack.<br>

<br>

</div>Hmm. To abychom do kernelu pridali unicodovej normalizator. Ne-e,<br>

sorry.<br>

<br>

Zapsat pomoci 6-ti znaku na co staci 4 znaky je workaround a hack.<br>

<br>

Podobne by mi prislo rozumny normalizovat _pred_ ulozenim do osm databaze.<br>

<font color="#888888"><br>

                                                                        Pavel<br>

--<br>

(english) <a href="http://www.livejournal.com/~pavelmachek" rel="noreferrer" target="_blank">http://www.livejournal.com/~<wbr>pavelmachek</a><br>

(cesky, pictures) <a href="http://atrey.karlin.mff.cuni.cz/~pavel/picture/horses/blog.html" rel="noreferrer" target="_blank">http://atrey.karlin.mff.cuni.<wbr>cz/~pavel/picture/horses/blog.<wbr>html</a><br>

</font><br>______________________________<wbr>_________________<br>

Talk-cz mailing list<br>

<a href="mailto:Talk-cz@openstreetmap.org">Talk-cz@openstreetmap.org</a><br>

<a href="https://lists.openstreetmap.org/listinfo/talk-cz" rel="noreferrer" target="_blank">https://lists.openstreetmap.<wbr>org/listinfo/talk-cz</a><br>

<br></blockquote></div><br></div></div></div>