[Talk-cz] Nedělitelná mezera v OSM datech - poznámka na okraj

Pavel Machek pavel na ucw.cz
Úterý Leden 31 11:42:26 UTC 2017


On Fri 2017-01-20 20:19:31, Jan Martinec wrote:
> (A když jsme u toho párování, porovnávání a podobných mňamek, __normalizace
> velkých písmen už teď zdaleka nestačí__ - je třeba používat nástroje, který
> má daný jazyk pro Unicode. Ne proto, že by to jinak nešlo, ale proto, že to
> tuhle práci udělá samo, i pro případy, který by mě ani nenapadly. Což
> znamená mj. to, že když ty stringy budeš porovnávat po bajtech, tak tě
> kousne nejen whitespace, ale i případ, kdy "Bělá" je sice v Unicode rovno
> "Bělá", ale převedený __na bajty__ bez normalizace do NFC nebo NFD to není
> identický, protože to první jsou čtyři znaky, a druhý je fskutčnosti znaků
> šest, totiž "B(kombinující háček)el(kombinující čárka)a", a obojí je
> rovnocenný způsob zápisu - ani jedno není workaround či  hack.

Hmm. To abychom do kernelu pridali unicodovej normalizator. Ne-e,
sorry.

Zapsat pomoci 6-ti znaku na co staci 4 znaky je workaround a hack.

Podobne by mi prislo rozumny normalizovat _pred_ ulozenim do osm databaze.

									Pavel
-- 
(english) http://www.livejournal.com/~pavelmachek
(cesky, pictures) http://atrey.karlin.mff.cuni.cz/~pavel/picture/horses/blog.html
------------- další část ---------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 181 bytes
Desc: Digital signature
URL: <https://lists.openstreetmap.org/pipermail/talk-cz/attachments/20170131/4e50e4b4/attachment.sig>


Další informace o konferenci talk-cz