[Talk-de] "Sprache des Namens" Fehler in Kort.

Martin Raifer tyr.asd at gmail.com
So Jun 23 17:06:15 UTC 2013


>> Für diesen speziellen Fall: Ich habe
>> bereits mit multilingualen Namen experimentiert und habe auch konkrete
>> Ideen,
> Das klingt interessant. Ich nehme an, die Diskussion wird hier auf
> Talk-de stattfinden?

OK: Ich nehme mal an, dass es Konsens ist, bei Namen, die bereits  
teilweise multilingual erfasst sind, auch die ursprüngliche(n)  
"Haupt"-Sprache(n) des name-Tags redundant mit aufzunehmen.

Die Frage ist jetzt, wie man am besten herausfindet, ob eines oder mehrere  
dieser name:* Tags fehlen.

== "Naive" Kriterien ==

Zur Zeit überprüft KeepRight folgendes Kriterium:
"Ist keines der lokalisierten name:**-Tags mit dem name-Tag identisch?"
Das funktioniert aber, wie bereits gesagt, bei mehrsprachigen name-Tags  
nicht. Beispiel:

   name=Bruxelles - Brussel
   name:fr=Bruxelles
   name:nl=Brussel

Die von Peter vorgeschlagene Variante:
"Ist keines der lokalisierten name:**-Tags im name-Tag enthalten?"
Dieses Kriterium deckt aber nicht alle Fälle ab. Gegenbeispiele:

   name=Bolzano - Bozen
   name:it=Bolzano
   name:de=Bozen
   name:lld=Bulsan

Hier würde ein evtl. fehlendes name:it oder name:de nicht entdeckt werden.

   name=Roma
   name:it=Roma
   name:en=Rome
   name:de=Rom

Hier würde ein evtl. fehlendes name:it nicht gefunden werden.

== "Besseres" Kriterium ==

Mit folgendem Algorithmus hatte ich experimentiert:

1. Man iteriert über alle name:* und markiert alle Vorkommen des  
jeweiligen Namen im name Tag.
2. Anschließend entfernt man alle markierten Zeichen.
3. Wenn der Rest nur mehr aus Whitespace und/oder Trennzeichen [-/,;()]  
besteht, dann sollte der Name OK sein.

Meines Erachtens nach werden damit die meisten Fälle zuverlässig abgedeckt.

Viele Grüße
Martin




Mehr Informationen über die Mailingliste Talk-de