[Talk-de] Doppelte Wege - Untersuchung

Steffen Wolf wolf at informatik.uni-kl.de
Do Aug 13 17:05:11 UTC 2009


Hi Peter Körner,

> Steffen Wolf schrieb:
>> Aufwand ist ueberschaubar. Ist alles skriptbar, braucht aber Zeit. Vier
>> Minuten Germanien von der Geofabrik laden, gut zehn Minuten auspacken,
>> nochmal soviel zum Einlesen in mein Skript, dann eine Minute Analyse.

> ich mach das immer mit bzip2 über die pipe:

> bunzip2 < planet.osm.bz2 | some-tool

Ja, so aehnlich mach ich es auch.
 bzcat germany.osm.bz2 | script.pl

Mit Perl ziehe ich die IDs der Wege und Knoten aus dem XML-Strom. Dabei
verbraucht bzcat etwa 6min CPU, Perl 14min. Es schreibt dann auch gut
700MB ints auf die Platte, das koennte ich sparen. Ich hab letztens den
Code mal auf dieselbe Seite gelegt. Anregungen willkommen.

> man sogar das downloaden inlinen:
> wget -qO - http://download.geofabrik.de/osm/europe/germany/rheinland-pfalz.osm.bz2 | bunzip2 | less

Hey, das ist lustig! Da ich aber die OSM-Dateien noch fuer die
Verwandlung ins Garminformat brauche, werd ich's wohl erstmal nicht so
machen.

Das hier gaebe wirklichen Gewinn:

>> Ich koennte irgendwelche taeglichen Diffs einspielen, um die
>> Downloadmenge zu verringern. Und ich koennte eine bz2-xml-Einleseroutine
>> fuer das C-Programm gebrauchen.

Ich kann ja mal was zurechthacken, bislang sind naemlich die OSM-Dateien
vorhersehbar eingerueckt. Damit koennte ich an den entsprechenden
Stellen nach node oder way gucken, ohne das ganze XML parsen zu muessen.
Lesbarer wird der Code dadurch aber nicht.

cu,
 stw
-- 
> gibt es für Linux ein Textverarbeitungsprogramm, welches Dateien so
> abspeichert, daß man sie auch mit Windows Word bearbeiten kann?
/dev/urandom sollte den gewünschten Effekt haben.
 [Robin Socha in de.comp.os.linux.misc]




Mehr Informationen über die Mailingliste Talk-de