[Talk-de] Binary formate / planet reader shootout Was: REGEX in PERL wieder mal

Florian Lohoff f at zz.de
Sa Jun 12 11:34:18 UTC 2010


On Sat, Jun 12, 2010 at 11:10:39AM +0200, Frederik Ramm wrote:
> Ich fand dies hier spannend (ueber ein neues Binaerformat):
> 
> http://lists.openstreetmap.org/pipermail/dev/2010-April/019370.html
> 
> "an entire planet, including all metadata, can be read in about 12 
> minutes and written in about 50 minutes on a 3 year old dual-core machine"

So aehnliches zeugs habe ich auch probiert - wenn ich aber nur
die nodes mit allen metadaten (ohne tags) schreibe d.h. mit uid,
version, changeset, etc - dann habe ich nur fuer die nodes ~9GB ...

Das ist dann ebenfalls schon mit lat/lon als uint32 und
die anderen values als compressed integers ablege.

Bei den tags habe ich mir erstmal gedanken zum string dedupe gemacht
und die idee ist jetzt eben nicht die strings sondern string numbers
zu schreiben - Die dedupe string table ist auch nicht so gross das
man sie nicht im speicher halten kann.

Der Ansatz war sowas wie die TRAPI zu bauen, aber halt in schnell
beim importieren - moeglichst mehrere CPUs zu exploiten - Ich habe hier
kisten mit 16GB Ram und 8 Cores - und wenn ich mit trapi rumhampel
ist 1ne CPU und 60MB Ram in benutzung. Also ist mein Ansatz
zu versuchen auf solcher hardware den Planet komplett in wenigen
minuten bis stunden in den speicher lesen zu koennen so das alle
abfragen dann in memory laufen koennen.
Alternativ koennte man das jeweils in irgendwelche container
a 1GB oder so droppen und dann da mit mmap rumhampeln ...

Aber ich werde da bestimmt kein Java fuer anfassen ;)

Aber das design dokument ist spannend - ueber delta compression
fuer die node ids habe ich auch schon nachgedacht - koennte so einiges
bringen ...

Im moment ist das einfach nur nen bischen spielerei ...

Flo
-- 
Florian Lohoff                                                 f at zz.de
"Es ist ein grobes Missverständnis und eine Fehlwahrnehmung, dem Staat
im Internet Zensur- und Überwachungsabsichten zu unterstellen."
- - Bundesminister Dr. Wolfgang Schäuble -- 10. Juli in Berlin 
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : signature.asc
Dateityp    : application/pgp-signature
Dateigröße  : 827 bytes
Beschreibung: Digital signature
URL         : <http://lists.openstreetmap.org/pipermail/talk-de/attachments/20100612/c7d03d97/attachment.sig>


Mehr Informationen über die Mailingliste Talk-de