<div class="gmail_quote">(Désolé pour le double envoi, j'ai fait une fausse manipulation.)<br><br>2011/7/15 Frédéric Rodrigo <span dir="ltr"><<a href="mailto:fred.rodrigo@gmail.com">fred.rodrigo@gmail.com</a>></span><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;"><div class="im">Le 13/07/2011 21:09, Thomas Petillon a écrit :<br>
</div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Ce patch s'applique à Name_Toponymie.py et permet de régler le problème<div class="im"><br>
des (nombreux) noms de lieu bretons contenant « c'h », dont l'apostrophe<br>
est détectée comme une coupure de mot, ce qui déclenche une erreur de<br>
toponymie due à la majuscule supposément manquante au « h ». En gros il<br>
y a plein de faux positifs.<br>
</div></blockquote>
<br>
Je viens de regarder. Je me pause par contre des questions. La page wikipédia sur le sujet n'est pas assez claire et contradictoire.<br>
<br>
<a href="http://fr.wikipedia.org/wiki/C%27h" target="_blank">http://fr.wikipedia.org/wiki/<u></u>C%27h</a><br>
<br>
- Quel est la majuscule de "c'h" : "C'h" ou "C'H' ?<br></blockquote><div><br>La majuscule est "C'h". (Sauf quand on écrit entièrement en capitales bien sûr. ;) )<br>
</div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
- Quel est bon caractère à mettre au milieu "'" ou "’" ?<br></blockquote><div><br>Je suppose que le caractère à utiliser dans l'idéal serait U+02BC (modifier letter apostrophe), qui a l'air d'être l'apostrophe non sécable d'Unicode. Dans la pratique il est conseillé de mettre au moins un U+2019 (la vraie apostrophe). Mais en réalité on trouve surtout du U+0027, i.e. la fausse apostrophe, celle qu'on a dans l'ASCII et sur les clavier. Dans ce cas par contre c'est une erreur de typographie. (Valable aussi en français, techniquement on pourrait faire un plug-in pour détecter ces fausses apostrophes.)<br>
<br>Le patch gère les différentes apostrophes, sans les modifier au final. (U+02BC n'apparaît pas, mais c'est normal car les mots ne sont déjà pas coupés sur ce caractère, donc le problème n'est pas présent.)<br>
</div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
Pour le patch on peut faire plus simple en remplaçant tout le trigramme par un caractère utf8 temporaire tout en s'assurant qu'il n'est pas déjà présent dans la chaîne d'origine.<br></blockquote><div><br>
C'est plus ou moins ce que j'ai déjà fait, sauf que je n'ai remplacé que l'apostrophe elle-même. Ça permet de traiter plus de cas (par exemple "prud'homme", qui est un cas particulier dans la version non patchée), et de remettre les caractères tels quels à la fin du traitement.<br>
<br>Thomas.<br></div></div>