[Talk-de] Tag-Babelfisch

Fr Feb 5 04:19:36 UTC 2010

Hi Lars, 

danke erstmal fürs Antworten.

On Jue 04 Feb 2010, Lars Francke wrote:
> Hallo,
>
> > 1.: OSM nach verwendeten Tagging-Kombinationen durchsuchen
>
> dieser Teil ist ziemlich rechen-/zeit-/speicheraufwendig. In diesem
> Falle weiß ich ausnahmsweise wovon ich rede: osmdoc.com hatte die
> Funktion mal und die wird auch demnächst wiederkommen (hosting
> fehlt...). Ich rede hier aber nicht von wenigen Zeilen, die einfach in
> einer SQLite DB gespeichert werden sondern von hunderten von
> Millionen/Milliarden (je nachdem wie detailliert man das moechte)
> verschiedener Kombinationen und Zeilen.

Wow, osmdoc.com kannte ich noch gar nicht. Respekt!

Die temporären Daten werden groß sein bei der stochastischen Analyse, aber 
irgendwo definiert man eben eine Grenze der Signifikanz und orientiert sich 
schließlich beim Endprodukt der Tagging-Datenbank zum Verteilen an den 
häufigsten paar tausend Tag-Kombinationen oder so. 
Also zum Schluß hat man fast alle Information hinausgeworfen.

Von der Methodik her (ich bin jetzt kein Experte in Data-Mining) würde ich 
nach Korrelationen suchen, also zunächst einmal semantische Kombinationen 
identifizieren. Ich denke da praktisch an einen XML-Analysator für 
planet.osm.

Als "gleichzeitig" gilt das Auftreten eines Ereignisses in derselben Node, 
Relation, Way oder Changeset.
Sowohl Schlüsselname als auch Schlüsselwert sollten gleichberechtigt 
unabhängig analysiert werden, am besten sollten sogar syntaktische 
Trennzeichen wie ":", "|" oder ";" als solche interpretiert werden.
Auch das Ereignis des "XML parent" (Node, Relation, ...) sollte ausgewertet 
werden (um zu erkennen, welche Tags z.B. nur in Ways auftreten (sollten)).

Es werden Einzelhäufigkeiten und Paarhäufigkeiten in der Auswertungsdatenbank 
gespeichert, das werden zig Gigabyte werden. Alle Ereignisse werden als 
Integerwerte codiert. 

Ist planet.osm fertiggeparst, geht es an die Ermittlung von Korrelationen (da 
müßte es doch auch einen Trick on-the-fly geben, aber evt. schmeißt man ja zu 
früh Ergebnisse weg).

Dann geht es wohl los mit dem Ignorieren, da (n-1)^2/2 
Korrelationskoeffizienten[1] ermittelt werden müßten. Ich nehme an, da nimmt 
man die häufigsten 2 Millionen Wertepaare oder so. 2 Wochen Rechenzeit? Keine 
Ahnung. Irgendwo als ge-"nice"-ter Rechenjob auf einem sich langweilenden 
Server.

Von denen untersucht wiederum bei den maximal Korrellierenden, ob es weitere 
hochkorrelierte Beziehungen gibt, also Suche nach Mehrfach-Koinzidenz 
(maximal 4 nehme ich an).
Dann ist man schon fertig mit dem "Extrakt", und bricht nach 70 tausend oder 
so in der Rangfolge ab.

Nun hat man (so hoffe ich) bedeutungsbehaftete Tag-Kombinationen isoliert, die 
die Mapper miteinander in Beziehung setzen können.

Dazu bietet man ihnen auf einer Webseite ein Interface zu diesen Daten an.
Eine natürliche Kategorisierung erfolgt glaube ich schon durch die 
Begrenztheit der Schlüsselnamen (oder irre ich mich da?).

Die Benutzer haben nun die Möglichkeit, Kombinationen als mehr oder 
weniger "ähnlich" zu definieren. Vielleicht kann man das mit einem 
Preisausschreiben kombinieren (12 Nexus-One, Nokia Nxxx oder Garmins, oder 
Charity für Haiti, was weiß ich).

Diese paar tausend Notationen mit ihrer Ähnlichkeitsbeziehung und möglichen 
Rendersymbolen werden dann in eine kleine Datenbank von 2MByte oder so 
gepackt.

Je näher sich Tag-Kombinationen sind, desto eher hat man Kandidaten für (haha 
Bots, nein.) zur Konsolidierung und neuen Brennstoff für noch längere Threads 
für den verbalen Kampfsport, oder mit anderen Worten eine Diskussionsbasis, 
und es werden nicht nur isolierte Einzel-Tags betrachtet wie bei Tagwatch, 
sondern sozusagen "Objekte".

Man hat sozusagen da draußen nicht nur uns Daten-Typen, die mappen (kleines 
Wortspielchen), sondern Tag-Datentypen, die mehr oder weniger als kongruent 
gemappt werden. 

Man muß da dann nicht unbedingt die Sense bei den redundanten Notationen 
ansetzen, sondern gerade weil man ja nun weiß, daß bestimmte Notationen sehr 
dicht beieinander liegen, können sie problemlos koexistieren.

Im Editor werden diese Tags dann aus der 2 MByte-Tag-Datenbank eingebunden.
Wegen der stetigen assoziativen Beziehung zu den Bedeutungen werden einem dann 
Symbole mit Beschreibungen optisch auch entsprechend gruppiert zur Selektion 
angeboten (am besten nicht in einer eindimensionalen Menüleiste, sondern auf 
einer zweidimensionalen Verteilung von Elementen), am besten optional noch 
mit Erläuterungstext über die Alternativen, so wie jetzt auf dem Wiki.

> > 2.: Beginnend bei den häufigsten Kombinationen, bedeutungsähnliche oder
> > gar redundante Kombinationen zuordnen ("1.0" für identisch, "0.8" für
> > "ziemlich ähnlich", "0.0" (default) für "total unterschiedlich).
>
> Hast Du dafür ein Beispiel?

Also das Widget das ich mir vorstelle, ist eine Wolke von Begriffen oder 
Symbolen, bei denen Du das, was Dich interessiert, ins Zentrum klickst.

Da gabs doch diese assoziative Suchmaschinen, die immer mehr so ein Gimmick 
waren...
http://en.eyeplorer.com/show/me/OpenStreetmap
Kaboo.com?

Die definieren also eine "Metrik" zwischen Begriffen. Das geht am besten 
Kontinuierlich.
Ich glaube, das ist nicht so akademisch abgehoben wie es klingt, sondern 
ziemlich praktisch.

> > 3.: Auf dieser Basis Diskussionen zur Vereinfachung und Standardisierung
> > des Taggings führen
>
> Aufgrund der Erfahrungen, die ich die letzten Monate/Jahre mit OSM
> gesammelt habe moechte ich vermuten, dass das nichts wird. Du bist
> nicht der erste - und bitte sieh das nicht negativ - der als Neuling
> kommt und Ideen hat das Tagging zu standardisieren oder zu verbessern.
> Bisher sind alle Versuche gescheitert und ich bin mir ziemlich sicher,
> dass zukünftige Versuche auch scheitern werden. Jeder darf taggen wie
> er moechte und das ist auch gut so und es wird vermutlich _nie_ einen
> Konsens zu den ewig gleichen Themen geben (path/footway, smoothnes,
> openseamap/freietonne, cycleway, left/right, ...). Such Dir aus was
> Dir am Besten gefällt und tagge danach.

Meine Motivation ist eher: aha, die haben ein Problem, mal nachdenken...
Also das "Wickie"-Syndrom.
Manchmal ist das als Neuer, Außenstehender einfacher.

> Ich hoffe Du hast auch trotz des Taggingchaos weiter viel Spaß bei OSM!

Chaos stört mich persönlich nur bei essentiellen Dingen, wie Essen, Bildung, 
öffentlicher Sicherheit, emotionaler Integrität und menschliche Relationen.

Der Rest - watt solls. :-)

Bye,

Jochen

__
[1] Das ist nicht der klassische Korrelations-Koeffizient, sondern ein 
Koeffizient, der die Signifikanz der stochastischen Gleichzeitigkeit zweier 
Zustände bezeichnet. Sowas gibt's sicher, müßte ich suchen.