[Talk-de] Neuer OpenGeoDB Anlauf gewünscht?

Martin Trautmann traut at gmx.de
Di Jan 29 09:18:52 UTC 2008


In-Reply-To: <1201381445.6451.31.camel at andy-desktop>

On 2008-01-26 22:04, Andreas Stricker wrote:
> Sven Anders schrieb:
>> * Die falsche Zuordnung von Namen (und dadurch Verdoppelungen).
>> Das Problem könnte dadurch gelöst werden, das jeder in seiner Region die Nodes
>> einmalig zusammenfasst und dann das auto_update anpasst).
>
> Könnten einige Fehler nicht dadurch vermieden werden, dass die Namen auf
> Ähnlichkeit verglichen werden, z.B. mit der Levenshtein-Distanz [1] oder
> dem Soundex [2] Verfahren?

In Einzefaellen mag das helfen.

Hauptproblem ist aber, dass opengeodb die Namen mit Zusaetzen verwendet.
Die kurzen Namen ohne Zusaetze existieren ebenfalls - aber als
ASCII-Varianten. Ich hatte Sven hier bereits vorgeschlagen, zum Abgleich
aus OSM die Ortsnamen zu verwenden, in upper case umzuwanden und Umlaute
durch AE/OE/UE/SS zu ersetzen und damit den Abgleich durchzufuehren.

Fuer andere Laender entfallen alle Akzente: É -> E, Î -> I usw.

soundex ist fuer Tippfehler oft ungeeignet, wie ich fortlaufend beim
Abgleich der Strassennamen feststelle. Liesl <-> Lisl waere erkennbar,
Friedhofsstrasse <-> Friedhofstrasse ebenso. In vielen anderen Faellen
liegen aber so massive Schreibfehler vor, die nicht erkennbar sind.
Beispielsweise wird oft "rn" mit "m" verwechselt, "i" mit "l" usw.

>> Sollen wir eine neuen Anlauf wagen?
>
> Klar. Nur wer wagt gewinnt...

Da mit dem neuen Stand einerseits etliches dazukam, andererseits die
alten, kurzzeitigen Fehler behoben wurden, waere das sinnvoll.

>> Aktueller Datenbestand (in denen auch kleinere Orte enthalten sind?)? Oder
>> erstmal mit den alten weiter machen und z.B. die Relationen einführen?
>
> Hmm, ich würde erstmals mit dem alten weiterfahren. Nur immer kleine
> Schritte auf einmal, auch wegen der Akzeptanz. Den aktuellen
> Datenbestand kannst du ja schon einmal vorbereiten und in kleinen
> Gebieten testen.

Ich hatte empfohlen, nur die unteren Ebenen ab Gemeinde einzuspielen,
nicht aber Kreise, Bundeslaender usw. Ich wuerde das sogar verschaerfen,
dass nur jene Gemeinden eingspielt werden, die nicht nochmals als
gleichlautender Ortsname innerhalb der Gemeinde auftauchen - sonst kommen
weitere Duplikate hinzu, die verwaltungstechnisch sinnvoll sind, nicht
aber kartentauglich.

Schoenen Gruss
Martin

-- 
Psssst! Schon vom neuen GMX MultiMessenger gehört?
Der kann`s mit allen: http://www.gmx.net/de/go/multimessenger




Mehr Informationen über die Mailingliste Talk-de