[Talk-de] "Sprache des Namens" Fehler in Kort.

Peter Wendorff wendorff at uni-paderborn.de
Mo Jun 24 08:31:58 UTC 2013


Am 23.06.2013 21:01, schrieb Martin Raifer:
> Am 23.06.2013, 20:19 Uhr, schrieb Peter Wendorff
> <wendorff at uni-paderborn.de>:
>> Das klingt nicht schlecht, bisher finde ich noch keine Gegenbeispiele.
>> Hast Du Gegenbeispiele? Immerhin redest du von den "meisten Fällen".
> 
> Konkretes Gegenbeispiel habe ich auch keines. Aber theoretisch könnte
> sich ein Name in zwei (oder mehr) anderen Sprachen so ungeschickt
> überschneiden, dass der Algorithmus ausgehebelt wird. Konstruiertes
> Beispiel:
> 
> name=Great Mount Doom
> name:1=Mount Doom
> name:2=Great Mount
Der vorgeschlagene Algorithmus wprde aber auch hier funktionieren, weil
er nicht nacheinander die Sprachvarianten entfernt, sondern alle
Sprachvarianten erst markiert.
Der Algorithmus würde also:
"Great Mount Doom" betrachten, und darin nach
"Mount Doom" suchen. Das wird gefunden und markiert. Unmarkierter Teil
ist jetzt noch "Great ".
Es würde in "Great Mount Doom" (!) nach "Great Mount" gesucht, das wird
gefunden und die Markierung wird entsprechend erweitert: Es bleibt kein
unmarkiertes Zeichen mehr übrig.

Der Rest vom "name"-Tag nach der Markierung aller Sprachvarianten ist
also eine leere Zeichenkette, und damit wird das akzeptiert. (weil
maximal whitespace und Trenner wie Slash, Bindestrich etc. drin vorkommen).
> 
> Keine Ahnung, ob das irgendwo auf der Welt vorkommt. Viel häufiger
> dürfte aber der Fall sein, dass ein Name in mehreren Sprachen gleich
> lautet:
> 
> name=London
> name:de=London
> 
> Hier fehlt offensichtlich das name:en=London, allerdings kann man hier
> unabhängig vom Algorithmus (ohne Vergleichs-Datenbank) nicht viel machen...
Richtig. Der Algorithmus kann nicht alles finden, aber immerhin dürften
es wenige falsche Fehlermeldungen sein.

Gruß
Peter




Mehr Informationen über die Mailingliste Talk-de