[Talk-cz] Nedělitelná mezera v OSM datech
Jan Martinec
jan na martinec.name
Úterý Leden 17 10:39:14 UTC 2017
Ahoj,
On 01/17/17 11:13, Miroslav Suchy wrote:
> Dne 17.1.2017 v 08:45 Lukáš Karas napsal(a):
>> Moje otázka zní, zda-li je žádoucí do OSM přidávat na taková místa nedělitelné
>> mezery (v xml " ", unicode znak U+00A0)
>
> Osobně bych byl proti. To bychom tam pak mohli pridavat i hinty, kde rozdelovat slova
> Nove Mesto na Mo-
> rave
to už je overkill - nepíšeme v devanagari, abychom potřebovali znaky pro
ZWNBJ a ZWJ. Oproti tomu nedělitelná mezera v češtině dává smysl.
>
>> Pokud i s nedělitelnou mezerou to renderer zalomí špatně, je potřeba opravit
>> renderer, ale bez ní nemá prostě šanci cokoliv hádat...
>
> Ony existuji jeste i "narrow NBSP", pouzivaji se napr. ve francouzstine.
To taky, ale pro češtinu se to nepoužívá; takových je povícero:
https://en.wikipedia.org/wiki/Whitespace_character#Unicode
Každopádně by se to *teoreticky* mělo chovat všechno jako whitespace, leč:
1. podpora ze strany nástrojů (taky *teoreticky* funkční, ale vsadil
bych se, že netestovaná - tohle je moje oblíbená třída bugů)
a 2. podpora v tagování - chceme masivně přejmenovávat jak v
jednadevadesátým? ;) (Osobně bych řekl, že ne)
> Ja bych to osobne nechal na renderu.
Renderer má k dispozici jenom heuristiku, což vede k problematickýmu
věštění z koule typu "končí -a, takže ženský rod, is_in: CZ a má tam
*nad*, takže za to narvem NBSP" - navíc si to věštění z koule musí každý
renderer znovu implementovat (po svým?).
Takže bych se těm hintům nebránil, a klidně bych to u těch různých
Dlouhojmenovic nad Labem a Vedle Kopce u Dálnice zaváděl - ale postupně,
netřeba to narvat do db po importním způsobu.
Honza "Piškvor" Martinec
Další informace o konferenci talk-cz