[Talk-TW] [Talk-cn] [RFC] 提案中文名稱標籤方式, Multilingual names

Colin Zhao lonely.ibm於gmail.com
Fri 4月 1 13:29:08 UTC 2016


谢谢解释,我之前是从语义上来理解语言 tag 了,现在才知道是把逻辑搞反了……而我之前画 OSM 一直是用语言优先的方式加 tag
的,看来有必要改一下习惯了。

Rex Tsai <rex.cc.tsai於gmail.com>于2016年3月31日周四 下午10:57写道:

> Hi, Colin
>
> 謝謝你寶貴的意見。
>
> 1) zh-Hans-HK, Wade-Gilos 等錯別字已經修正。
>
> 2) 關於 language tag 以地區的使用者或是語言為優先 -
>
> 實務上資訊系統 (信息系统) 在 l10n 的處理是以「地區」優先選擇,而後選擇語言。
>
> 前端的 繪圖者 (map renderer) 可以比較容易的依照 IETF 的語法1]往後回推。程式開發上,如果能夠盡可能的提供往下最完整的
> language tag, 可以減少繪圖者 (map renderer) 的窮舉工作,提高繪圖效率
>
> 優先會是
> - primary language subtag
> - extended language subtags (未使用)
> - script subtag
> - region subtag
> - variant subtags (少用, 如 :zh-Latn-pinyin :zh-Latn-wadegile)
> - extersion subtags  (少用, 目前中文語系表[2]未用)
> - private-use subtags (少用, 目前中文語系表未用)
>
> 但就像您所說盡量避免壅餘的標籤,可以減少資料庫大小與減少圖客 (mapper) 負擔。
>
> 雖然文字有官方語言地位,但是可能由於民間習俗或居民慣例或政治衝突導致使用者習慣上的差異。
>
> 即便屬於同一個 "名從主人/名义主人",也可能無法有群體認可的官方名稱,這個時候實務上 name 必須使用被眾人接受的俗名,而把爭議名稱移動到
> alt_name, loc_name, official_name, old_name 等。
>
> 如果 "名從主人/名义主人"[3]都無法取得共識了,就別說使用同一種語言,而在其他政治區域的使用者了。即便在使用中文作為官方語言的地區,僅使用 script subtags
> 來作為區分仍很多機會引起衝突。以地區來區分政治觀點或取名為俗名,仍是比較避免衝突的方式。
>
> 以珠穆朗玛峰 / 聖母峰為例子,如果以
> name:zh-CN=珠穆朗玛峰
> name:zh-TW=聖母峰
> name:zh-Hans-TW=圣母峰
>
> 如果軟體本身支持先選地區、再選語系,若缺失才回退另一語系,那麼必須使用簡體的台灣使用者,仍可持續使用其習慣的命名方式。
>
> 前一封信造成誤會的論述是「台灣地區簡體用戶請改用 "name:zh-CN"」。這段文字描述錯誤,我其實假設目前需要在台灣使用簡體字的圖客
> (mapper) 都是中國訪客。我會修正這段文字。
>
> 3) Romanization / 拼音系統
>
> 拼音系統在台灣也是有很相當的分歧[4],無論是中文拼音或是閩南話拼音都有許多版本。我在這份提案書裡面無法解決這個問題,只能建議採取"名從主人/名义主人"[3]的命名方式,也就是採用當地政府或民間通用的規格。
>
> 主要考量是訪客必須參照當地的其他旅遊文件或官方門牌資料,地圖上的資料與本地統一才不會造成太多困擾。
>
> [1]
> https://en.wikipedia.org/wiki/IETF_language_tag#Syntax_of_language_tags
> [2]
> https://docs.google.com/spreadsheets/d/1d0ahZTEuu9B8Ud7CJOFYi5fBSoI_s1iOo8QZoKkrA5E/edit#gid=0
> [3]
> https://zh.wikipedia.org/zh-tw/Wikipedia:%E5%91%BD%E5%90%8D%E5%B8%B8%E8%A7%84#.E5.90.8D.E4.BB.8E.E4.B8.BB.E4.BA.BA
> [4] https://zh.wikipedia.org/wiki/台灣的拼音系統爭議
> Cheers
> -Rex
>
> Colin Zhao <lonely.ibm於gmail.com> 於 2016年3月30日 上午1:43 寫道:
>
>> 抱歉,刚才我对中文命名的建议中遗漏了一点:对于*中文不具有官方语言地位的地区*,如果地名有中文标识,则 :zh
>> 严格按照标识的形式来写,并相应地转换出 :zh-Hans 或 :zh-Hant,余下的处理方式和前述一致;如果地名没有中文标识,由于此种情况下任何中文
>> tag 都并非必需,并且“名从主人”也已经完全不适用,所以建议是不要再使用不带地区标识的 :zh、:zh-Hans 或
>> :zh-Hant,因为它们不论怎么填写都会存在偏颇问题,这时候还是只使用带地区的 tag 比较稳妥。
>>
>> Colin Zhao <lonely.ibm於gmail.com>于2016年3月30日周三 上午1:35写道:
>>
>>> 对于 Rex 的表格中各 Tag 的定义我觉得已经很合理了(顺便指出两个 typo:zh-Hans-HK 被写成了
>>> zh-Hants-HK,Wade-Giles 被写成了 Wade-Gilos)。
>>> 但是在这个表格里:
>>>
>>>    - :zh-Hans-TW - 適合在台灣使用簡體字的用戶。
>>>
>>> 那么,在 RFC 的表述里面,这个地方乍看起来就有点奇怪:
>>>
>>>    - 配合中國訪客,台灣地區簡體用戶請改用 "name:zh-CN"。
>>>    - 如除了編碼外,有地名命名衝突,則於台灣境內簡體名稱改用 zh-Hans-TW。
>>>
>>> 因为使用《简化字总表》或者等同规范的简体地区并不只限于大陆,把台湾地名的简化字版本预设成 zh-CN 而不是 zh-SG 乃至各种
>>> zh-Hans-?? 容易招致地域争议,对此只要带上了地区标识,就不可能一碗水端平,必然会有人觉得“被代表”了,OSM 的中文地名 tag
>>> 应该考虑到这样的问题。
>>>
>>> 但幸运的是,语言标记并不是一个非此即彼的东西,zh 实际上涵盖了 zh-Hans 和 zh-Hant,而 zh-Hant 同样涵盖了
>>> zh-TW、zh-HK、zh-MO、zh-Hant-CN 和 zh-Hant-SG,zh-Hans 也同样涵盖了
>>> zh-CN、zh-SG、zh-Hans-TW、zh-Hans-HK 和 zh-Hans-MO,因而只要上位的 tag 不存在冲突,就完全可以用上位的
>>> tag 来统一地代表采用下位 tag 时互不冲突的那部分内容,出现冲突时再追加带地区标识的 tag 来解决。具体而言,就是
>>> *对于中文具有官方语言地位的地区(大陆、台湾、香港、澳门、新加坡)*,在当前 name:zh
>>> 遵循“名从主人”的共识下,建议将简体地区的地名逐字转换成繁体放到 name:zh-Hant 中(不再单独指定 :zh-Hans,因为已被 :zh
>>> 涵盖),繁体地区的地名同样逐字转换成简体放到 name:zh-Hans 中(同样也不再单独指定 :zh-Hant,因为已被 :zh
>>> 涵盖)。在这里,:zh-Hans 和 :zh-Hant 的定义就是 :zh 的逐字转换版本;而后,如果其他地区对该地点的命名与已有的
>>> :zh、:zh-Hans 和 :zh-Hant 中的任意一个相一致,便不再追加带地区的 tag,只有出现不一致时才追加。这样一来也可以很大程度上减轻
>>> Mapper 的工作负担,因为同样的一个名称不需要因为适用于不同地区而被重复指定多次。
>>>
>>> 拼音系统部分中,Wade-Giles 在 IANA Language Subtag Registry
>>> 里面查到是有标准表示方式的:zh-Latn-wadegile。
>>>
>>> 拼音系统必要时可能还是需要通过地区标识来解决冲突问题(包括注音符号,因为陆港澳虽然已经不使用,但字典上仍会标注),一方面是与中文名称自身的冲突对应,另一方面即便中文名称完全一致,不同地区的普通话/国语审定读音也可能会有区别。
>>>
>>> 对于汉语拼音,这里又有一些很混乱的问题。首先就是声调标不标、怎么标的问题(除了通用拼音外的所有系统应该都存在这个问题,Wade-Giles
>>> 可能还有送气符号标不标的问题),我的看法是:至少对于 zh-Latn 系列的 tag 需要标出声调;“a”直接用键盘打出来的 a
>>> 即可,不必跟随大陆的字典和教科书使用“ɑ”(因为方案里并没有这么规定);必须注意第三声的符号是 ˇ (caron) 而不是 ˘
>>> (breve),这个很容易搞错。这里我把涉及的带声调字符全部呈上,以供不方便直接输入的用户使用:
>>>
>>>    - 小写:
>>>       - ā á ǎ à ō ó ǒ ò ē é ě è ī í ǐ ì ū ú ǔ ù ǖ ǘ ǚ ǜ
>>>    - 大写(实际使用中一般只会遇到 AOE,并且大陆实质上规定大写不需要标调):
>>>       - Ā Á Ǎ À Ō Ó Ǒ Ò Ē É Ě È Ī Í Ǐ Ì Ū Ú Ǔ Ù Ǖ Ǘ Ǚ Ǜ
>>>
>>>
>>> 但是这还没完,就算大家都认同首字母大写,还有根据词语来加空格还是每一个字都加空格、连字符怎么用等等,大陆甚至很滑稽地规定拼音里的数词在一些情况下要写成阿拉伯数字而非用汉语拼音拼出来。如果这个问题无法进行规范的话会出现非常混乱的情况,比如“浙江中路”可能会这样:
>>>
>>>    - Zhèjiāng Zhōnglù(符合大陆官方标准的写法)
>>>    - Zhèjiāng Zhōng Lù
>>>    - Zhèjiāngzhōng Lù
>>>    - Zhèjiāngzhōnglù
>>>    - Zhè Jiāng Zhōng Lù
>>>
>>> 而上海外滩的路名“中山东一路”则是更加极致的一个例子:
>>>
>>>    - Zhōngshān Dōng 1 Lù(符合大陆官方标准的写法)
>>>    - Zhōngshāndōng 1 Lù
>>>    - Zhōng Shān Dōng 1 Lù
>>>    - Zhōngshān Dōng-1 Lù(似乎是大陆现行标准未修订前的写法)
>>>    - Zhōngshāndōng-1 Lù
>>>    - Zhōngshān Dōng-1-Lù
>>>    - Zhōngshāndōng-1-Lù
>>>    - Zhōngshān Dōng Yī Lù
>>>    - Zhōngshāndōng Yī Lù
>>>    - Zhōngshāndōng Yīlù
>>>    - Zhōngshān Dōngyī Lù
>>>    - Zhōngshāndōngyī Lù
>>>    - Zhōngshān Dōngyīlù
>>>    - Zhōngshāndōngyīlù
>>>    - Zhōng Shān Dōng Yī Lù
>>>    - ……
>>>
>>> 对此我的意见是,对于大陆地名原则上遵循大陆规定,但是是否遵循数词使用阿拉伯数字的规定我还拿不定主意。大陆官方规定的具体内容我在大陆教育部网站上谷歌到了一个翻拍版
>>> PDF:
>>> http://www.moe.edu.cn/ewebeditor/uploadfile/2015/01/12/20150112161950748.pdf
>>>>>> 其他地区的情况我不太清楚,相关地区的用户可以另行讨论。
>>>
>>>
>>> Rex Tsai <rex.cc.tsai於gmail.com>于2016年3月28日周一 下午3:59写道:
>>>
>>>> 1) 我倡議的轉移程序是複製 name:zh -> name:zh-TW。而非複製 name -> name:zh。
>>>>
>>>> 在 name key 中併用多種名稱,是一種替代方案,而並非技術上的正確解法。
>>>> 無論是在 name 使用 "中文 (英文)" 或 "中文 南島語系"。
>>>>
>>>> OpenStreetMap 資料庫中應該使用不同的 tag 保存不同語系的資料,再由繪圖者 (render) 負責選擇何種資料呈現。
>>>> 依照地圖終端使用者或地域的偏好,選擇語言優先值後呈現。
>>>>
>>>> 前端呈現的繪圖者有多種技術實踐方式,但如果資料庫取巧採用語系並存於同一 tag,呈現層就無法自行依照用戶偏好提供動態切換了。
>>>>
>>>> 2) 所謂「具歧視性的命名」政治問題可以分成兩個議題 2.1 技術方案 2.2 社群治理。
>>>>
>>>> 2.1) 技術方案
>>>> 提出這個技術方案想解決的問題之一,是透過更完善的 namespace
>>>> 來緩解因為語言、文化、政治上的歧異造成的衝突。但是技術方案無法定義「客觀性」。
>>>>
>>>> 地圖一直都是統治者用來宣傳其政治訊息的工具,每位圖客 (mapper) 都有其獨立政治觀點[1][2]。開放街圖
>>>> (OpenStreetMap)
>>>> 提供了一個平台讓這些不同的政治觀點可以在資料庫並存,讓那些文化可能消失的少數民族,或經濟弱勢的國家得以有代表自己聲音的地理資訊[3][4]。
>>>>
>>>> 透過技術上的解決方案,可以讓不同的偏好共存,並由繪圖者決定最後如何採用這些資料給終端用戶,也因此台灣圖客可以選擇只呈現 name:zh-TW
>>>> 而非政治觀點不同的 name:zh-CN.
>>>>
>>>> 地點命名只是其中一個產生衝突的場域,其他領土疆域等問題,則是另外一個議題了。
>>>>
>>>> 2.2) 社群治理
>>>> 我認為社群中的每位圖客都應該遵守行為守則[5]。如果有歧視性的命名行為,刻意冒犯了其他的成員,我們的確應該嚴肅處置。請提供具體的例子來說明「
>>>> 歧視性」命名。
>>>>
>>>> 作為社群成員,我認為容忍不同政治觀點上的偏好差異是社群合作的基礎。畢竟只有獨裁統治者才有權力決定自己的觀點不是偏見,並可將
>>>> 自己的偏好置於其他語系用戶的偏好之上。
>>>>
>>>> [1] BBC Four - Maps: Power, Plunder and Possession -
>>>> http://www.bbc.co.uk/programmes/b00s5m7w
>>>> [2] 地图:权力、掠夺和占有 (豆瓣) - https://movie.douban.com/subject/4826804/
>>>> [3] 地圖上找不到的地方在哪裏? - BBC 主页 -
>>>> http://www.bbc.com/ukchina/trad/vert_fut/2016/03/160317_vert_fut_the-last-unmapped-places
>>>> [4] BBC - Future - The last unmapped places on Earth -
>>>> http://www.bbc.com/future/story/20141127-the-last-unmapped-places
>>>> [5]
>>>> http://wiki.openstreetmap.org/wiki/Community_Code_of_Conduct_(Draft)
>>>> Cheers
>>>> -Rex
>>>>
>>>>
>>>>
>>>> Dennis Raylin Chen <b92612009於gmail.com> 於 2016年3月28日 上午10:04 寫道:
>>>>
>>>>> Rex以及各位Mappers:
>>>>>
>>>>> 有兩種意見
>>>>>
>>>>> 1.
>>>>> name直接複製name:zh遇到原住民地名會遇到問題
>>>>> 我是建議依香港的name用中英文並列的方式
>>>>> 中間用空格處理
>>>>> 原住民地名用
>>>>> "中文名 空一格 原住民族地名"
>>>>>
>>>>> 2.
>>>>> 假若中國mappers將臺灣稱作台湾省的話
>>>>> 我覺得有一些臺灣mappers會跳腳
>>>>> 不論是放那個name欄位裡
>>>>> 本地mappers是否可以抗拒具歧視性的命名?
>>>>>
>>>>> Dennis
>>>>>
>>>>>
>>>>> 2016-03-27 12:48 GMT+08:00 Rex Tsai <rex.cc.tsai於gmail.com>:
>>>>>
>>>>>> 提案: https://osmtw.hackpad.com/RFC-Multilingual-names-ngewyizFYzN
>>>>>> 好讀表格: https://goo.gl/TpumXK
>>>>>>
>>>>>> 目前多國語系的 name 標籤 (tag),社群偏好使用 alpha-2 code of ISO 639-1,因此全世界中文用戶使用
>>>>>> name:zh。但由於中文用戶包含簡體與繁體兩種字體編碼,以及對於國際地名翻譯不同,很容易因為共用標籤 key 產生衝突。例如 Everest
>>>>>> 在台灣使用者偏好使用「聖母峰」、而中國使用「珠穆朗玛峰」。
>>>>>>
>>>>>>
>>>>>>    - <http://www.openstreetmap.org/node/2681940781>
>>>>>>    http://www.openstreetmap.org/node/2681940781
>>>>>>    - 珠穆朗玛峰
>>>>>>    - 聖母峰
>>>>>>
>>>>>> 為了滿足多元使用情境與需求,原有 ISO-639 標示過於簡化,建議 name 標籤使用 IETF language tag  (BCP
>>>>>> 47) 標示多國語系,以容納各地區地名使用習慣,以及繁體、簡體、閩南、客家、廣東話、台灣原著民、拼音等語言需求。
>>>>>>
>>>>>> 依照 IETF language tag  (BCP 47) 標示,建議做出以下更動
>>>>>>
>>>>>>    - 台灣地區繁體中文使用者,改用 "name:zh-TW",以符合本地需求。
>>>>>>    - 為了解決命名衝突問題,建議如下
>>>>>>       - 配合中國訪客,台灣地區簡體用戶請改用 "name:zh-CN"。
>>>>>>       - 如除了編碼外,有地名命名衝突,則於台灣境內簡體名稱改用 zh-Hans-TW。
>>>>>>       - 各地區 name 與 name:zh 預設使用當地字碼與名稱。如台灣境內 name 應同等
>>>>>>       name:zh,name:zh 應同等 name:zh-TW。香港境內則為 name:zh-HK = name:zh = name.
>>>>>>       - 各地區域中文用戶 - 香港用戶請改用 name:zh-HK、澳門請用 name:zh-MO、新加坡請改用
>>>>>>       name:zh-SG.
>>>>>>    - 其他中文語言
>>>>>>       - 因為閩南話次方言各地演化產生變異,漳州話、泉州話、廈門話略有不同。台灣地區閩南語地名建議用 name:nan-TW.
>>>>>>       預設使用台羅拼音。
>>>>>>       - 台灣地區客家話地名,請使用 name:hak-TW.
>>>>>>       - 其他中文語言如吳語、廣東話、晉語請見語言表。
>>>>>>    - 台灣使用南島語系的官方登記原住民族群可依照其 language subtag 標注地名。
>>>>>>    - 拼音系統的使用慣例
>>>>>>       - name:en 依照當地政府所使用的拼音系統 (參照路牌) 為主。
>>>>>>       - name:zh-Latn 預設對應 name:zh 的漢語拼音系統。採取當地名稱直譯,例如「路」直接譯為 Lu, 而非
>>>>>>       Road 或 Rd. 如此可以便利非中文用戶,發出地名本地音。
>>>>>>       - name:zh-Hanb 台灣注音符號系統。
>>>>>>       - 繪圖 (render) 應依照語系優先值套用地名名稱,如台灣用戶,應該先查找 name:zh-TW 後 name:zh
>>>>>>    後 name.
>>>>>>    - 日文漢字 (Japanese Kanji) 請使用 name:ja-Hani,韓文漢字 (Korean Hanja) 請使用
>>>>>>    ko:Hani.
>>>>>>
>>>>>> 詳情請見語言表好讀表格: https://goo.gl/TpumXK
>>>>>>
>>>>>> *整合程序*
>>>>>>
>>>>>>    1. 發出 RFC 尋求意見。
>>>>>>    2. 提出 Proposal
>>>>>>    3. 「複製」台灣區域所有 name:zh -> name:zh-TW
>>>>>>    4. 通知 Map Render / Clieients, 依照新的命名規格,改變地名使用優先次序
>>>>>>       1. 依照 region 預先讀取
>>>>>>       2. 依照 script coding 讀取
>>>>>>    5. 由於 "name:zh" 將成為壅餘標籤,未來將可逐步消失。
>>>>>>
>>>>>> *影響 *
>>>>>>
>>>>>>    - 由於未變動原有 name:zh 標籤,不會直接影響現有使用者習慣。
>>>>>>
>>>>>> Cheers
>>>>>> -Rex
>>>>>>
>>>>>> _______________________________________________
>>>>>> Talk-TW mailing list
>>>>>> Talk-TW於openstreetmap.org
>>>>>> https://lists.openstreetmap.org/listinfo/talk-tw
>>>>>>
>>>>>>
>>>>>
>>>> _______________________________________________
>>>> Talk-cn mailing list
>>>> Talk-cn於openstreetmap.org
>>>> https://lists.openstreetmap.org/listinfo/talk-cn
>>>>
>>>
>
-------------- 下一部份 --------------
抹去了一個 HTML 附加檔...
URL: <http://lists.openstreetmap.org/pipermail/talk-tw/attachments/20160401/0903d262/attachment-0001.html>


More information about the Talk-TW mailing list