[Talk-de] Bulk changes

Frederik Ramm frederik at remote.org
Di Nov 4 18:44:35 UTC 2008


Hallo,

Michael Roth wrote:
> Denn der Mensch kann erkennen dass mit "Germany" offensichtlich "BRD"
> gemeint ist. Dieses Wissen kann er manuell per Hand anwenden oder in ein
> Skript packen.

Oder gleich in die Software, die die Daten auswertet (bzw., um 
Mehrarbeit zu vermeiden, zwischen die Datenbank und diese Software).

*Entweder* gibt es eine gute Moeglichkeit, irgendetwas automatisch zu 
"korrigieren". Dann ist es doch 10x besser, ich baue das z.B. in den 
Name Finder ein, wenn der seine Indexdatenbank aufbaut o.ae., als dass 
ich den Name Finder so programmiere, dass er nur mit einem bestimmten 
Format auskommt, und dann brauche ich ein Skript, das taeglich dafuer 
sorgt, dass auch nur dieses in der Datenbank vorkommt.

*Oder* es gibt diese Moeglichkeit nicht, weil menschliche Intelligenz 
vonnoeten ist, um die Entscheidung zu treffen; dann kann man sowieso 
keine automatisierte Aenderung machen.

Ich vertrete die Ansicht, dass reine Schoenheitskorrekturen wertlos 
sind. Wenn in Deutschland 10.000 Strassen mit max_speed und 10.000 
Strassen mit maxspeed getaggt waeren, kaeme bestimmt irgendjemand und 
wuerde fordern, dass man das gleichzieht. Aber man braucht das nicht in 
der Datenbank zu machen, man kann das auch bei der Entnahme der Daten 
aus der Datenbank tun; dann ist man auf der sicheren Seite und weiss 
*genau*, was rauskommt, waehrend man ansonsten nie weiss, ob seit dem 
letzten Bot-Lauf vor einer Woche vielleicht wieder ein max_speed 
hinzugekommen ist. Ausserdem kann bei dieser, von mir bevorzugten 
Vorgehensweise jeder selbst entscheiden, welchen Umfang an Saeuberungen 
er wuenscht.

In meinen Augen ist waere es wertvoll, Zeit darauf zu verwenden, sich zu 
ueberlegen, wie man mit den chaotischen Daten in OSM besser umgehen 
kann, anstatt den Versuch zu unternehmen, das Chaos zu beseitigen. Ich 
nehme an, dass das Ausmass an Chaos, das durch neue Nutzer taeglich 
hinzukommt, immer groesser wird, und ein staendiges Hinterherraeumen 
durch hunderte von Bots zunehmend unpraktikabel wird.

Nimm das Beispiel "Strasse" - *kein* gescheites OSM-Programm wird es 
sich je leisten koennen, die Schreibweise mit Doppel-S einfach zu 
ignorieren, zu viele neue so geschriebene Strassen kommen staendig 
hinzu. Aber wenn jedes Programm, das die Daten weiterverarbeitet, 
ohnehin mit beiden Schreibungen klarkommen muss - wozu dann die 
Saeuberungsaktion? Blaeht die History auf, erschwert die Interpretation 
von Autoren- und Rechtesituation, und nach ein paar Monaten ist schon 
wieder "Gras drueber gewachsen".

Bye
Frederik

-- 
Frederik Ramm  ##  eMail frederik at remote.org  ##  N49°00'09" E008°23'33"




Mehr Informationen über die Mailingliste Talk-de