[Talk-de] Project of the Week und Gamification

Hartmut Holzgraefe hartmut.holzgraefe at gmail.com
Mo Jul 15 19:48:34 UTC 2013


On 07/15/2013 09:12 PM, Peter Wendorff wrote:

> Ich sehe einen deutlichen Unterschied in der Wahrnehmung.
> Die OSM-Extrakte sind seit langem so, wie sie sind, enthalten Username,
> und userid sowie changeset-ids samt sämtlicher Metadaten (darunter
> meistens, welcher editor genutzt wurde, und immer der zeitraum des
> changesets).

bezüglich des Zeitstempel möchte ich dazu in die Runde werfen das der,
selbst wenn er aus den eigentlichen Changeset-Informationen entfernt
würde, über die minütlichen Datenbank-Diffs einfach zumindest in
Minutenauflösung wieder herstellbar wäre.

Auf Changeset IDs (welche Daten wurden im Zusammenhang miteinander
geändert und warum?) möchte ich nicht wieder verzichten wollen,
rollbacks/undos sind so schon schwierig genug.

Und eine "Wer hats geändert" ID brauchts auch, Gründe dafür sind
Qualitässicherung, rechtliche Absicherung (wenn sich herausstellt
das User X mehrfach aus nicht kompatiblen Quellen Daten übernommen
hat muss die Möglichkeit bestehen alle Changesets dieses Users zu
identifizieren.

Natürlich könnte man die User-IDs noch einmal zusätzlich pseudo-
anonymisieren, solagen man das aber mit einem 1:1 Mapping macht
kann immer noch wie vorher auch aus den Edits auf den eigentlichen
Benutzer rückgeschlossen werden.

Mappt man dagegen eine tatsächliche User-ID auf mehrere pseudo-IDs
nimmt man u.a. allen die nur Zugriff auf den anonymisierten Datenbestand
haben die Möglichkeit vieler statistischer Auswertungen ...

Statistiken wie "wieviele user waren im letzten Monat aktiv" wären
dann nur noch einer "User-Elite" mit erweiterten Zugriffsrechten
möglich, Rolbacks aller Edits eines bestimmten Users bei Verdacht
auf umfassende Imports nicht lizenzkompatiblen Materials ebenso.

Erstens möchte ich nicht so eine Zweiklassen-Situation haben, und
zweitens können die nicht anonymisierten Daten irgendwann doch
öffentlich werden, sowohl unbeabsichtig als auch beabsichtigt.
Dann hätten wir aber statt "Wir haben Dir gleich gesagt das auch
die Metadaten Username und Edit-Zeitpunkt Teil der öffentlichen
Daten sind" Situation (wie sie auch in den Privacy Policies
kommuniziert sind) die "Ooops die Daten sind jetzt öffentlich
obwohl wir Dir eigentlich versprochen hatten sie nicht zu
veröffentlichen". Dann doch lieber gleich mit offenen Karten
spielen ...

Bleibt also nach wie vor nur der "Code of Conduct" Ansatz,
oder der harte Weg die ODBL so zu modifizieren das man die
Veröffentlichung von nicht-aggregierten Auswertungen reiner
Edit-Metadaten (von wem, wann, wo, womit ...) explizit
ausschließt. Letzteres halte ich für in absehbarer Zeit
nicht durchführbar ...

Oder wir bleiben einfach beim aktuellen "Alles was wir über
Deine Edits wissen kann und wird von uns veröffentlicht werden"
Ansatz und weisen evtl. noch deutlicher als bisher darauf hin.

Wer damit nicht leben kann muss dann tatsächlich entweder
User Id Hopping betreiben (was ich aber eigentlich schon als
potentiellen Mißbrauch sehen würde, man erinnere sich zB an
unseren alten "Freund" den Oberkiller) oder leider darauf
Verzichten Daten beizutragen ... klingt komisch, ist aber so ...

-- 
hartmut




Mehr Informationen über die Mailingliste Talk-de