[Talk-de] Tag-Babelfisch
Jochen Plumeyer
jochen at plumeyer.org
Fr Feb 5 04:19:36 UTC 2010
Hi Lars,
danke erstmal fürs Antworten.
On Jue 04 Feb 2010, Lars Francke wrote:
> Hallo,
>
> > 1.: OSM nach verwendeten Tagging-Kombinationen durchsuchen
>
> dieser Teil ist ziemlich rechen-/zeit-/speicheraufwendig. In diesem
> Falle weiß ich ausnahmsweise wovon ich rede: osmdoc.com hatte die
> Funktion mal und die wird auch demnächst wiederkommen (hosting
> fehlt...). Ich rede hier aber nicht von wenigen Zeilen, die einfach in
> einer SQLite DB gespeichert werden sondern von hunderten von
> Millionen/Milliarden (je nachdem wie detailliert man das moechte)
> verschiedener Kombinationen und Zeilen.
Wow, osmdoc.com kannte ich noch gar nicht. Respekt!
Die temporären Daten werden groß sein bei der stochastischen Analyse, aber
irgendwo definiert man eben eine Grenze der Signifikanz und orientiert sich
schließlich beim Endprodukt der Tagging-Datenbank zum Verteilen an den
häufigsten paar tausend Tag-Kombinationen oder so.
Also zum Schluß hat man fast alle Information hinausgeworfen.
Von der Methodik her (ich bin jetzt kein Experte in Data-Mining) würde ich
nach Korrelationen suchen, also zunächst einmal semantische Kombinationen
identifizieren. Ich denke da praktisch an einen XML-Analysator für
planet.osm.
Als "gleichzeitig" gilt das Auftreten eines Ereignisses in derselben Node,
Relation, Way oder Changeset.
Sowohl Schlüsselname als auch Schlüsselwert sollten gleichberechtigt
unabhängig analysiert werden, am besten sollten sogar syntaktische
Trennzeichen wie ":", "|" oder ";" als solche interpretiert werden.
Auch das Ereignis des "XML parent" (Node, Relation, ...) sollte ausgewertet
werden (um zu erkennen, welche Tags z.B. nur in Ways auftreten (sollten)).
Es werden Einzelhäufigkeiten und Paarhäufigkeiten in der Auswertungsdatenbank
gespeichert, das werden zig Gigabyte werden. Alle Ereignisse werden als
Integerwerte codiert.
Ist planet.osm fertiggeparst, geht es an die Ermittlung von Korrelationen (da
müßte es doch auch einen Trick on-the-fly geben, aber evt. schmeißt man ja zu
früh Ergebnisse weg).
Dann geht es wohl los mit dem Ignorieren, da (n-1)^2/2
Korrelationskoeffizienten[1] ermittelt werden müßten. Ich nehme an, da nimmt
man die häufigsten 2 Millionen Wertepaare oder so. 2 Wochen Rechenzeit? Keine
Ahnung. Irgendwo als ge-"nice"-ter Rechenjob auf einem sich langweilenden
Server.
Von denen untersucht wiederum bei den maximal Korrellierenden, ob es weitere
hochkorrelierte Beziehungen gibt, also Suche nach Mehrfach-Koinzidenz
(maximal 4 nehme ich an).
Dann ist man schon fertig mit dem "Extrakt", und bricht nach 70 tausend oder
so in der Rangfolge ab.
Nun hat man (so hoffe ich) bedeutungsbehaftete Tag-Kombinationen isoliert, die
die Mapper miteinander in Beziehung setzen können.
Dazu bietet man ihnen auf einer Webseite ein Interface zu diesen Daten an.
Eine natürliche Kategorisierung erfolgt glaube ich schon durch die
Begrenztheit der Schlüsselnamen (oder irre ich mich da?).
Die Benutzer haben nun die Möglichkeit, Kombinationen als mehr oder
weniger "ähnlich" zu definieren. Vielleicht kann man das mit einem
Preisausschreiben kombinieren (12 Nexus-One, Nokia Nxxx oder Garmins, oder
Charity für Haiti, was weiß ich).
Diese paar tausend Notationen mit ihrer Ähnlichkeitsbeziehung und möglichen
Rendersymbolen werden dann in eine kleine Datenbank von 2MByte oder so
gepackt.
Je näher sich Tag-Kombinationen sind, desto eher hat man Kandidaten für (haha
Bots, nein.) zur Konsolidierung und neuen Brennstoff für noch längere Threads
für den verbalen Kampfsport, oder mit anderen Worten eine Diskussionsbasis,
und es werden nicht nur isolierte Einzel-Tags betrachtet wie bei Tagwatch,
sondern sozusagen "Objekte".
Man hat sozusagen da draußen nicht nur uns Daten-Typen, die mappen (kleines
Wortspielchen), sondern Tag-Datentypen, die mehr oder weniger als kongruent
gemappt werden.
Man muß da dann nicht unbedingt die Sense bei den redundanten Notationen
ansetzen, sondern gerade weil man ja nun weiß, daß bestimmte Notationen sehr
dicht beieinander liegen, können sie problemlos koexistieren.
Im Editor werden diese Tags dann aus der 2 MByte-Tag-Datenbank eingebunden.
Wegen der stetigen assoziativen Beziehung zu den Bedeutungen werden einem dann
Symbole mit Beschreibungen optisch auch entsprechend gruppiert zur Selektion
angeboten (am besten nicht in einer eindimensionalen Menüleiste, sondern auf
einer zweidimensionalen Verteilung von Elementen), am besten optional noch
mit Erläuterungstext über die Alternativen, so wie jetzt auf dem Wiki.
> > 2.: Beginnend bei den häufigsten Kombinationen, bedeutungsähnliche oder
> > gar redundante Kombinationen zuordnen ("1.0" für identisch, "0.8" für
> > "ziemlich ähnlich", "0.0" (default) für "total unterschiedlich).
>
> Hast Du dafür ein Beispiel?
Also das Widget das ich mir vorstelle, ist eine Wolke von Begriffen oder
Symbolen, bei denen Du das, was Dich interessiert, ins Zentrum klickst.
Da gabs doch diese assoziative Suchmaschinen, die immer mehr so ein Gimmick
waren...
http://en.eyeplorer.com/show/me/OpenStreetmap
Kaboo.com?
Die definieren also eine "Metrik" zwischen Begriffen. Das geht am besten
Kontinuierlich.
Ich glaube, das ist nicht so akademisch abgehoben wie es klingt, sondern
ziemlich praktisch.
> > 3.: Auf dieser Basis Diskussionen zur Vereinfachung und Standardisierung
> > des Taggings führen
>
> Aufgrund der Erfahrungen, die ich die letzten Monate/Jahre mit OSM
> gesammelt habe moechte ich vermuten, dass das nichts wird. Du bist
> nicht der erste - und bitte sieh das nicht negativ - der als Neuling
> kommt und Ideen hat das Tagging zu standardisieren oder zu verbessern.
> Bisher sind alle Versuche gescheitert und ich bin mir ziemlich sicher,
> dass zukünftige Versuche auch scheitern werden. Jeder darf taggen wie
> er moechte und das ist auch gut so und es wird vermutlich _nie_ einen
> Konsens zu den ewig gleichen Themen geben (path/footway, smoothnes,
> openseamap/freietonne, cycleway, left/right, ...). Such Dir aus was
> Dir am Besten gefällt und tagge danach.
Meine Motivation ist eher: aha, die haben ein Problem, mal nachdenken...
Also das "Wickie"-Syndrom.
Manchmal ist das als Neuer, Außenstehender einfacher.
> Ich hoffe Du hast auch trotz des Taggingchaos weiter viel Spaß bei OSM!
Chaos stört mich persönlich nur bei essentiellen Dingen, wie Essen, Bildung,
öffentlicher Sicherheit, emotionaler Integrität und menschliche Relationen.
Der Rest - watt solls. :-)
Bye,
Jochen
__
[1] Das ist nicht der klassische Korrelations-Koeffizient, sondern ein
Koeffizient, der die Signifikanz der stochastischen Gleichzeitigkeit zweier
Zustände bezeichnet. Sowas gibt's sicher, müßte ich suchen.
Mehr Informationen über die Mailingliste Talk-de