[Talk-de] Status-Update: Adress-Suche bei Garmin-Karten

Gernot Hillier gernot at hillier.de
Mo Apr 20 06:19:35 UTC 2009


Morgen!

Bernd Wurst schrieb:
> Am Sonntag 19 April 2009 17:24:12 schrieb Gernot Hillier:
>> Ok, einverstanden, dass man es in dieser Richtung löst. Nur leider gibt
>> es das nicht in der OSM-Datenbank. Es gibt nur die Möglichkeit, Strings
>> zu erfassen, die mit Glück dem Namen des Parent entsprechen. Du kannst
>> aber mit an Sicherheit grenzender Wahrscheinlichkeit davon ausgehen,
>> dass du mindestens Tippfehler im einstelligen Prozentbereich hast.
> 
> Das ist ein Informatikerargument.
> 
> Wenn du an jeder Straße Informationen der Art
>   name=Foobarstraße
>   city=X-Y-Stadt
> hast, dann ist die Wahrscheinlichkeit für einen Fehler bei name erstmal gleich 
> groß wie bei city. Und wie viele falsch geschriebene Straßennamen haben wir in 
> der Datenbank? Meiner Beobachtung nach maximal im Promillebereich. Für die 
> Städtenamen tippe ich also auf nicht mehr.

Ne, das kannst Du nicht vergleichen. Wenn ich 30 Hausnummern erfasse und
jedesmal den Straßennamen und Ortsnamen eintippe, dann ist die
Wahrscheinlichkeit für Vertipper ungleich höher, weil ich unmotiviert
bin und das für überflüssig halte.

Und ich weiß nicht, wie es mit anderen Orten ist, aber in Landshut würde
ich schon bei den motiviert eingetippten Strings auf jeden Fall vom
Prozentbereich an Tippfehlern ausgehen. Insbesondere bei den von mir
erfassten Daten - und obwohl ich der Meinung bin, allgemein einen sehr
sorgfältigen Arbeitsstil an den Tag zu legen.

> Zudem kann man recht einfach mit Tools ausgeben lassen, welche Ortsnamen in 
> einer gewissen bounding-Box gesetzt wurden und erkennt Tippfehler sehr 
> schnell. Editoren können einem dabei einfach helfen, siehe KA-
> Hausnummernschema.

Jep, aber wenn ich schon Editoren-Unterstützung habe, warum dann nicht
gleich im Hintergrund mit einer vernünftigen Datenstruktur?

Ganz zu schweigen von der Speicherplatzverschwendung, wenn man Strings
als ID nimmt...

> Du siehst das zu sehr als Informatiker. Alles braucht eine (numerische) ID, 
> diesen Drang kenne ich. ;-)
> 
> Aber die Praxis zeigt, dass
> 1. Namen als ID funktionieren. Siehe KA-Schema und was man schon jetzt damit 
> alles machen kann
> und
> 2. allem eine zusätzliche ID zu geben (maschinen- oder menschenlesbar) die 
> Komplexität stark erhöht und die Fehler dann auf anderem Level passieren und 
> nicht so einfach erkennbar bzw. behebbar sind wie einfache Tippfehler bei 
> Namen.

Wir brauchen keine zusätzlichen IDs. Alle Objekte in der Datenbank haben
bereits (sicherlich aus gutem Grund) eine eindeutige numerische ID!

--
Gernot





Mehr Informationen über die Mailingliste Talk-de