[OSM-dev-fr] Osmose et last-update.py

Thomas Petillon tpetillon at gmail.com
Ven 15 Juil 11:43:17 BST 2011


(Désolé pour le double envoi, j'ai fait une fausse manipulation.)

2011/7/15 Frédéric Rodrigo <fred.rodrigo at gmail.com>

> Le 13/07/2011 21:09, Thomas Petillon a écrit :
>
>> Ce patch s'applique à Name_Toponymie.py et permet de régler le problème
>>
>> des (nombreux) noms de lieu bretons contenant « c'h », dont l'apostrophe
>> est détectée comme une coupure de mot, ce qui déclenche une erreur de
>> toponymie due à la majuscule supposément manquante au « h ». En gros il
>> y a plein de faux positifs.
>>
>
> Je viens de regarder. Je me pause par contre des questions. La page
> wikipédia sur le sujet n'est pas assez claire et contradictoire.
>
> http://fr.wikipedia.org/wiki/**C%27h <http://fr.wikipedia.org/wiki/C%27h>
>
> - Quel est la majuscule de "c'h" : "C'h" ou "C'H' ?
>

La majuscule est "C'h". (Sauf quand on écrit entièrement en capitales bien
sûr. ;) )


> - Quel est bon caractère à mettre au milieu "'" ou "’" ?
>

Je suppose que le caractère à utiliser dans l'idéal serait U+02BC (modifier
letter apostrophe), qui a l'air d'être l'apostrophe non sécable d'Unicode.
Dans la pratique il est conseillé de mettre au moins un U+2019 (la vraie
apostrophe). Mais en réalité on trouve surtout du U+0027, i.e. la fausse
apostrophe, celle qu'on a dans l'ASCII et sur les clavier. Dans ce cas par
contre c'est une erreur de typographie. (Valable aussi en français,
techniquement on pourrait faire un plug-in pour détecter ces fausses
apostrophes.)

Le patch gère les différentes apostrophes, sans les modifier au final.
(U+02BC n'apparaît pas, mais c'est normal car les mots ne sont déjà pas
coupés sur ce caractère, donc le problème n'est pas présent.)


> Pour le patch on peut faire plus simple en remplaçant tout le trigramme par
> un caractère utf8 temporaire  tout en s'assurant qu'il n'est pas déjà
> présent dans la chaîne d'origine.
>

C'est plus ou moins ce que j'ai déjà fait, sauf que je n'ai remplacé que
l'apostrophe elle-même. Ça permet de traiter plus de cas (par exemple
"prud'homme", qui est un cas particulier dans la version non patchée), et de
remettre les caractères tels quels à la fin du traitement.

Thomas.
-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: <http://lists.openstreetmap.org/pipermail/dev-fr/attachments/20110715/0032f786/attachment.html>


Plus d'informations sur la liste de diffusion dev-fr