[Talk-de] Namefinder-Entwicklung

Sascha Silbe sascha-ml-gis-osm-talk-de at silbe.org
So Aug 24 19:15:37 UTC 2008


On Sun, Aug 24, 2008 at 06:55:36PM +0200, Tobias Wendorff wrote:

> Wird derzeit an einem neuen Namefinder geschrieben?
Ich habe den Kern für einen neuen Namefinder entwickelt (Source-Code in 
meinem Arch-Repository [1] unter osmsearch--devel--0.1), muß mich aber 
jetzt erstmal um andere Dinge (Studium, Geld verdienen) kümmern und 
kann deshalb nur noch selten dran arbeiten.

> Ich habe gerade sehr erfolgreich mit Phonetik und Fuzzy-Suche
> experimentiert und kann meine Ideen vielleicht einfließen
> lassen.
Du kannst gerne versuchen, das mit einzubauen. Achte allerdings auf den 
Speicherverbrauch: Der ist derzeit bei ca. 500MB für die Namen (+8GB 
virtuell für die Datenbank mit Ort+Typ). In einer ersten 
Implementierung habe ich std::vector<string> verwendet, das hat zu 1.3GB 
für die Namen geführt - und das war nur die lineare Abspeicherung für 
die Substring- und Regex-Suche, keine Hashtabellen für die exakte Suche 
(die von den jetzigen 500MB den größten Teil ausmachen).
Lange Rede kurzer Sinn: Es ist sehr leicht, bei Daten in diesen 
Größenordnungen (160MB allein nur für die Namen, ohne IDs, Pointer 
etc.) den Arbeitsspeicher zu füllen, insbesondere auf AMD64 (8 
Byte/Pointer). Der muß aber unbedingt ausreichen (Platte ca. Faktor 100 
langsamer).
Eine phonetische Suche wäre sehr interessant, bin schon gespannt drauf. 
:)
Wäre natürlich erstmal wichtiger, das Frontend zu schreiben, damit der 
Namefinder überhaupt benutzbar wird. Aber lieber ein Modul für 
phonetische Suche schreiben als überhaupt nichts daran machen - wenn 
der Suchkern tolle neue Sachen kann, ist auch der Anreiz höher, das 
Frontend zu schreiben und es findet sich dann vll. jemand, der das 
macht.


[1] http://sascha.silbe.org/arch/sascha-arch@silbe.org--2008

CU Sascha

-- 
http://sascha.silbe.org/
http://www.infra-silbe.de/
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : signature.asc
Dateityp    : application/pgp-signature
Dateigröße  : 481 bytes
Beschreibung: Digital signature
URL         : <http://lists.openstreetmap.org/pipermail/talk-de/attachments/20080824/b6f86b4c/attachment.sig>


Mehr Informationen über die Mailingliste Talk-de