[Talk-de] "Sprache des Namens" Fehler in Kort.

Peter Wendorff wendorff at uni-paderborn.de
So Jun 23 18:19:12 UTC 2013


Am 23.06.2013 19:06, schrieb Martin Raifer:
> 
> Die von Peter vorgeschlagene Variante:
> "Ist keines der lokalisierten name:**-Tags im name-Tag enthalten?"
> Dieses Kriterium deckt aber nicht alle Fälle ab. Gegenbeispiele:
> 
>   name=Bolzano - Bozen
>   name:it=Bolzano
>   name:de=Bozen
>   name:lld=Bulsan
> 
> Hier würde ein evtl. fehlendes name:it oder name:de nicht entdeckt werden.
Moment!
Es geht nicht darum, jede Sprachvariante, auch nicht, jede regional
offizielle Sprache, zu entdecken.
Aber du hast schon recht: Man könnte das noch weiter verfeinern.

>   name=Roma
>   name:it=Roma
>   name:en=Rome
>   name:de=Rom
> 
> Hier würde ein evtl. fehlendes name:it nicht gefunden werden.
Stimmt, wobei ich mit meiner "Teilstring"-Idee vermutlich vor allem
nicht weit genug gegangen bin.
Verfeinert man das und fordert einen sinnvoll abgetrennten Teil, dan
wird Roma doch als fehlend markiert.
In "Bolzano - Bozen" hingegen würde "Bolzano" und "Bozen" gesucht, wenn
nicht "Bolzano - Bozen" als name:xx existiert.
> 
> == "Besseres" Kriterium ==
> 
> Mit folgendem Algorithmus hatte ich experimentiert:
> 
> 1. Man iteriert über alle name:* und markiert alle Vorkommen des
> jeweiligen Namen im name Tag.
> 2. Anschließend entfernt man alle markierten Zeichen.
> 3. Wenn der Rest nur mehr aus Whitespace und/oder Trennzeichen [-/,;()]
> besteht, dann sollte der Name OK sein.
> 
> Meines Erachtens nach werden damit die meisten Fälle zuverlässig abgedeckt.
Das klingt nicht schlecht, bisher finde ich noch keine Gegenbeispiele.
Hast Du Gegenbeispiele? Immerhin redest du von den "meisten Fällen".

Gruß
Peter




Mehr Informationen über die Mailingliste Talk-de