[Talk-de] Geofabrik-Downloads jetzt als Binaerformat

Frederik Ramm frederik at remote.org
Fr Okt 29 06:28:55 UTC 2010


Hallo,

On 10/28/2010 09:13 PM, Carsten Moeller wrote:
 > Ich halte bpf für eine Alternative, nicht jedoch für eine wirklich
 > gute Lösung. Die Annahme, dass alles da draußen auf osmosis aufsetzen
 > wolle oder mal eben ganze Importstrukturen umkippen wird, um sich dem
 > doch eher gruseligen Binärgefriggel-Format anzuschlie~_en, halte ich
 > für gewagt.

Uebertreibst Du da nicht ein bisschen? Ok, einige benutzen vielleicht 
wirklich irgendeine bz2-Lese-Library, aber die meisten, die nicht direkt 
Osmosis oder osm2pgsql einsetzen, werden doch derzeit in irgendeiner 
Form ein "bunzip2 extract.osm.bz2 | meintollesprogramm" machen. Und die 
machen halt kuenftig "pbf2osm extract.osm.pbf | meintollesprogramm". 
Wobei sich die Laufzeit natuerlich drastisch reduzieren laesst, wenn man 
dem "meintollesprogramm" das Binaer-Lesen direkt beibringt, damit spart 
man naemlich das XML-Parsen.

 > Eine 30%ige Reduzierung der Transportmengen wäre durchaus auch
 > anders zu erreichen. Nicht jeder benötigt immer alles. Als gutes
 > Beispiel sehe ich hier die Cloudmade-Philosophie Extrakte für
 > verschiedene Anwendungsfälle bereitzustellen. Da ist ein
 > europa-highways.osm plötzlich nur noch ein Drittel so gro~_ wie das
 > Original.

Ich finde, da ergaenzen sich die Geofabrik- und die Cloudmade-Dienste 
praechtig. Wem die Highways reichen, der kann sich die ja dort runterladen.

 > Analog wäre z.B. auch denkbar, die ganzen Meta-Infos wie
 > Autor, TimeStamp, etc. aus den Tags rauszulassen und nur reine Nutzdaten
 > zu komprimieren. Wette, das geht dann auch auf 30% runter!

In der Tat hat das neue Binaerformat eine Option, mit der man diese 
ganzen Metadaten rauskicken kann. Das spart ca. 15% von der 
komprimierten Datei. Es gibt eine weitere Option, mit der man die 
Genauigkeit der Koordinaten auf 1.1m oder besser reduzieren kann, das 
spart erneut rund 15%. Das sind beides sinnvolle Optionen fuer reine 
Daten-Konsumenten, also z.B. fuer eine Routing-Applikation auf dem Handy 
oder sowas.

Allerdings richte ich mich mit den Geofabrik-Extrakten eher an die 
Community - an diejenigen, die die Daten irgendwie auf eine von mir 
nicht vorbestimmte Art weiterverarbeiten. Deswegen biete ich diese 
verlustbehafteten Optionen nicht an, weil das die Daten fuer einige 
Zwecke untauglich machen wuerde.

Ich habe mitbekommen, dass mehr und mehr Leute die 
Geofabrik-Downloadlinks in ihre Applikationen einbauen und damit also 
den Endbenutzer diese Dateien herunterladen lassen (oft alles so 
automatisiert, dass der Benutzer nicht mal sieht, woher er die Datei 
holt). Das ist mir nicht recht - wie gesagt, das ganze ist von mir als 
ein Service fuer die Community gedacht und nicht als allgemeiner 
OSM-Downloadserver fuer die breite Masse. Wer den Anwendern seiner 
Software sowas anbieten will, der sollte selbst Extrakte berechnen und 
dabei eben auch die oben erwaehnte Filterung unnoetiger Daten einbauen.

Auf keinen Fall sollte Software an Endanwender verteilt werden, in die 
irgendwelche Geofabrik-Downloadlinks fest eingebaut sind, denn es kann 
durchaus sein, dass ich die Pfad-Struktur oder die Datenformate aendere. 
Es kann sogar sein, dass ich das voellig unnoetig und absichtlich mal 
mache ;)

 > Ich weiß nicht wie viele XMLs ich bereits analysiert habe und so ganz
 > schnell auf kleine aber nicht unwichtige Dinge und Fehlerchen aufmerksam
 > geworden bin. Diese Option wird es dann ja in Zukunft nicht mehr geben.

Diese Aussage verstehe ich nicht. Die kleinen Fehlerchen, die es bislang 
gab, waren entweder Fehler im Transportformat (z.B. falsches escaping 
bei einem Unicode-Zeichen) oder in den Daten.

Fehler im Transportformat mag es beim Binaerformat genauso geben, aber 
sie sind natuerlich anderer Art als Fehler im XML und es bedarf anderer 
Mechanismen, sie zu debuggen (bislang hast Du Dich auch blind darauf 
verlassen, dass bunzip2 schon richtig funktionieren wird und Dich nicht 
beschwert, dass es schwierig ist, Fehler im komprimierten Datenstrom zu 
debuggen). Fehler oder Unregelmaessigkeiten in den Daten gibt es jetzt 
genauso wie frueher, und wer sie sucht, findet sie auch genauso.

Bye
Frederik




Mehr Informationen über die Mailingliste Talk-de