[Talk-de] api-download bei semikon-getrennten-values

Wolfgang wolfgang at ivkasogis.de
Di Okt 19 01:20:32 UTC 2010


Hallo,
Am Sonntag 17 Oktober 2010 01:35:42 schrieb M∡rtin Koppenhoefer:
> Am 16. Oktober 2010 23:56 schrieb Wolfgang <wolfgang at ivkasogis.de>:
> > 7. Es bleibt die Diskussion über das Semikolon.
> >
> > Mich hat die Implementation 5 Minuten und 3 Programmzeilen gekostet. Das
> > ist zugegebenermaßen nicht ganz fair. da die App neu ist. Wer eine
> > bessere Möglichkeit weiß, multiple Eigenschaften in den Daten so
> > abzubilden, dass es für den Mapper einfach anzuwenden ist, melde sich
> > bitte. Aber nicht mit dem üblichen Semikolon - Protest - Geheul, sondern
> > konstruktiv.
> 
> Damit beziehst Du Dich auf den "Entwicklungsteil", was aber allgemein
> von den anderen "Technikern" auf den Liste erwähnt wird ist, dass das
> Parsing dadurch deutlich länger dauern würde. Kommt aber sicher darauf
> an, ob das überhaupt ne Rolle spielt (Gesamtdauer), oder ob
> dreimalsolang von 1 Minute dann halt 3 Minuten sind.ohne
> 

Mal unabhängig von pro und contra Semikolon, ich habe mal testweise in ganz 
Hamburg in allen tags die Values mit 3 Semikolons auf 4 Werte erweitert 
(;1.Wert; 2. Wert; 3.Wert)

Das sind gut 600.000 Tags von gut 3.000.000 Zeilen, die diese osm-Datei zur 
Zeit hat.

Reine Laufzeit zum Parsen des Files, alle Tags eingelesen und zum Zugriff 
geordnet ohne weitere Vor- oder Nachverarbeitung:

Normales osm-File, 
Test auf Semikolon deaktiviert	1:19
Normales osm-File
mit Test auf Semikolon:			1:23
Mit 1.800.000 zusätzlichen Tags, 
abgetrennt durch Semikolon:	1:32

Das erscheint mir jetzt angesichts der Menge eigentlich nicht signifikant 
problematisch, insbesondere da man in der Praxis kaum von einer solchen 
"Übertaggung" auszugehen hat. Mehrfache Eigenschaften kommen vor, sie sind 
aber nicht die Regel. Mit etwas mehr Memory (4GB) würde der Unterschied 
vermutlich noch wesentlich geringer ausfallen, da das System am Ende der Tests 
bereits zu swappen beginnt.

Gleicher Test, aber Auslassen der fest zu den Objekten gehörenden 
Eigenschaften wie timestamp, nur Objekt und Tags:

0:39,3	0:39,8	0:47,9

Dabei reichte das Memory. Der Test auf das Semikolon ist praktisch zu 
vernachlässigen, und bei realistischen Anzahlen von Mehrfacheigenschaften ist 
das Semikolon kein zeitliches Problem.

Natürlich werden die Zahlen bei mehrfachen Testläufen noch etwas schwanken, 
ich habe hier keinen Laborrechner. Aber das Verhältnis zueinander wird sich 
kaum nennenswert verändern.

Gruß, Wolfgang




Mehr Informationen über die Mailingliste Talk-de