[Talk-de] Geofabrik-Downloads jetzt als Binaerformat
Frederik Ramm
frederik at remote.org
Fr Okt 29 06:28:55 UTC 2010
Hallo,
On 10/28/2010 09:13 PM, Carsten Moeller wrote:
> Ich halte bpf für eine Alternative, nicht jedoch für eine wirklich
> gute Lösung. Die Annahme, dass alles da draußen auf osmosis aufsetzen
> wolle oder mal eben ganze Importstrukturen umkippen wird, um sich dem
> doch eher gruseligen Binärgefriggel-Format anzuschlie~_en, halte ich
> für gewagt.
Uebertreibst Du da nicht ein bisschen? Ok, einige benutzen vielleicht
wirklich irgendeine bz2-Lese-Library, aber die meisten, die nicht direkt
Osmosis oder osm2pgsql einsetzen, werden doch derzeit in irgendeiner
Form ein "bunzip2 extract.osm.bz2 | meintollesprogramm" machen. Und die
machen halt kuenftig "pbf2osm extract.osm.pbf | meintollesprogramm".
Wobei sich die Laufzeit natuerlich drastisch reduzieren laesst, wenn man
dem "meintollesprogramm" das Binaer-Lesen direkt beibringt, damit spart
man naemlich das XML-Parsen.
> Eine 30%ige Reduzierung der Transportmengen wäre durchaus auch
> anders zu erreichen. Nicht jeder benötigt immer alles. Als gutes
> Beispiel sehe ich hier die Cloudmade-Philosophie Extrakte für
> verschiedene Anwendungsfälle bereitzustellen. Da ist ein
> europa-highways.osm plötzlich nur noch ein Drittel so gro~_ wie das
> Original.
Ich finde, da ergaenzen sich die Geofabrik- und die Cloudmade-Dienste
praechtig. Wem die Highways reichen, der kann sich die ja dort runterladen.
> Analog wäre z.B. auch denkbar, die ganzen Meta-Infos wie
> Autor, TimeStamp, etc. aus den Tags rauszulassen und nur reine Nutzdaten
> zu komprimieren. Wette, das geht dann auch auf 30% runter!
In der Tat hat das neue Binaerformat eine Option, mit der man diese
ganzen Metadaten rauskicken kann. Das spart ca. 15% von der
komprimierten Datei. Es gibt eine weitere Option, mit der man die
Genauigkeit der Koordinaten auf 1.1m oder besser reduzieren kann, das
spart erneut rund 15%. Das sind beides sinnvolle Optionen fuer reine
Daten-Konsumenten, also z.B. fuer eine Routing-Applikation auf dem Handy
oder sowas.
Allerdings richte ich mich mit den Geofabrik-Extrakten eher an die
Community - an diejenigen, die die Daten irgendwie auf eine von mir
nicht vorbestimmte Art weiterverarbeiten. Deswegen biete ich diese
verlustbehafteten Optionen nicht an, weil das die Daten fuer einige
Zwecke untauglich machen wuerde.
Ich habe mitbekommen, dass mehr und mehr Leute die
Geofabrik-Downloadlinks in ihre Applikationen einbauen und damit also
den Endbenutzer diese Dateien herunterladen lassen (oft alles so
automatisiert, dass der Benutzer nicht mal sieht, woher er die Datei
holt). Das ist mir nicht recht - wie gesagt, das ganze ist von mir als
ein Service fuer die Community gedacht und nicht als allgemeiner
OSM-Downloadserver fuer die breite Masse. Wer den Anwendern seiner
Software sowas anbieten will, der sollte selbst Extrakte berechnen und
dabei eben auch die oben erwaehnte Filterung unnoetiger Daten einbauen.
Auf keinen Fall sollte Software an Endanwender verteilt werden, in die
irgendwelche Geofabrik-Downloadlinks fest eingebaut sind, denn es kann
durchaus sein, dass ich die Pfad-Struktur oder die Datenformate aendere.
Es kann sogar sein, dass ich das voellig unnoetig und absichtlich mal
mache ;)
> Ich weiß nicht wie viele XMLs ich bereits analysiert habe und so ganz
> schnell auf kleine aber nicht unwichtige Dinge und Fehlerchen aufmerksam
> geworden bin. Diese Option wird es dann ja in Zukunft nicht mehr geben.
Diese Aussage verstehe ich nicht. Die kleinen Fehlerchen, die es bislang
gab, waren entweder Fehler im Transportformat (z.B. falsches escaping
bei einem Unicode-Zeichen) oder in den Daten.
Fehler im Transportformat mag es beim Binaerformat genauso geben, aber
sie sind natuerlich anderer Art als Fehler im XML und es bedarf anderer
Mechanismen, sie zu debuggen (bislang hast Du Dich auch blind darauf
verlassen, dass bunzip2 schon richtig funktionieren wird und Dich nicht
beschwert, dass es schwierig ist, Fehler im komprimierten Datenstrom zu
debuggen). Fehler oder Unregelmaessigkeiten in den Daten gibt es jetzt
genauso wie frueher, und wer sie sucht, findet sie auch genauso.
Bye
Frederik
Mehr Informationen über die Mailingliste Talk-de