2011/7/15 Frédéric Rodrigo <span dir="ltr"><<a href="mailto:fred.rodrigo@gmail.com">fred.rodrigo@gmail.com</a>></span><br><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<div class="im">Le 13/07/2011 21:09, Thomas Petillon a écrit :<br>
</div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Ce patch s'applique à Name_Toponymie.py et permet de régler le problème<div class="im"><br>
des (nombreux) noms de lieu bretons contenant « c'h », dont l'apostrophe<br>
est détectée comme une coupure de mot, ce qui déclenche une erreur de<br>
toponymie due à la majuscule supposément manquante au « h ». En gros il<br>
y a plein de faux positifs.<br>
</div></blockquote>
<br>
Je viens de regarder. Je me pause par contre des questions. La page wikipédia sur le sujet n'est pas assez claire et contradictoire.<br>
<br>
<a href="http://fr.wikipedia.org/wiki/C%27h" target="_blank">http://fr.wikipedia.org/wiki/<u></u>C%27h</a><br>
<br>
- Quel est la majuscule de "c'h" : "C'h" ou "C'H' ?<br>
- Quel est bon caractère à mettre au milieu "'" ou "’" ?<br></blockquote><div> <br>Je suppose que le caractère à utiliser dans l'idéal serait <i><a href="http://en.wikipedia.org/wiki/Modifier_letter_apostrophe" title="Modifier letter apostrophe"></a></i>U+02BC (modifier letter apostrophe), qui a l'air d'être l'apostrophe non sécable d'Unicode. Da<br>
<br></div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
Pour le patch on peut faire plus simple en remplaçant tout le trigramme par un caractère utf8 temporaire tout en s'assurant qu'il n'est pas déjà présent dans la chaîne d'origine.<br>
<br></blockquote></div><br>