[Talk-de] Straßenlistenauswertung LIP/SO/WAF/GT/ST/MI/HX/PB und andere

Tobias Wendorff tobias.wendorff at uni-dortmund.de
Mi Jun 10 21:01:54 UTC 2009


Florian Lohoff schrieb:
> Ich habe auch schon ueberlegt ob "Fuzzy" match besser ist. Die Frage
> ist halt - wo ist die Grenze? Ist ein "-" statt " " okay? Oder nur
> groß/kleinschreibung? Im moment mache ich einen strikten vergleich
> und korrigiere lieber die Liste (Die meisten listen sind mind. genauso
> fehlerhaft wie die OSM Daten)

Ich habe diesbezüglich ein eigenes Auswertungstool geschrieben, welches
die Adresssätze normalisiert.

"Von-Schell-Straße" => VONSCHELLSTRASSE, VONSCHELSTRASE, VONSCHELLSTR, 
VONSCHELSTR, VONSCHEL

So kann man nämlich erstmal gucken, ob der Eintrag schon da ist. Wenn
er da ist, wird durch einen anderen Algorithmus die ähnliche
berechnet (nein, nicht die bekannten Algorithmen, die eignen sich für
die moderne, deutsche Sprache nicht mehr).

Wenn es nicht identisch ist, wird nur angegeben, dass die Straße
wahrscheinlich vorhanden, aber vermutlich falsch geschrieben ist.

Ich habe damit _sehr_ gute Ergebnisse erreicht und das ganze fließt
in meinen Namefinder ein.




Mehr Informationen über die Mailingliste Talk-de