[Talk-de] Namefinder-Entwicklung
Sascha Silbe
sascha-ml-gis-osm-talk-de at silbe.org
So Aug 24 19:15:37 UTC 2008
On Sun, Aug 24, 2008 at 06:55:36PM +0200, Tobias Wendorff wrote:
> Wird derzeit an einem neuen Namefinder geschrieben?
Ich habe den Kern für einen neuen Namefinder entwickelt (Source-Code in
meinem Arch-Repository [1] unter osmsearch--devel--0.1), muß mich aber
jetzt erstmal um andere Dinge (Studium, Geld verdienen) kümmern und
kann deshalb nur noch selten dran arbeiten.
> Ich habe gerade sehr erfolgreich mit Phonetik und Fuzzy-Suche
> experimentiert und kann meine Ideen vielleicht einfließen
> lassen.
Du kannst gerne versuchen, das mit einzubauen. Achte allerdings auf den
Speicherverbrauch: Der ist derzeit bei ca. 500MB für die Namen (+8GB
virtuell für die Datenbank mit Ort+Typ). In einer ersten
Implementierung habe ich std::vector<string> verwendet, das hat zu 1.3GB
für die Namen geführt - und das war nur die lineare Abspeicherung für
die Substring- und Regex-Suche, keine Hashtabellen für die exakte Suche
(die von den jetzigen 500MB den größten Teil ausmachen).
Lange Rede kurzer Sinn: Es ist sehr leicht, bei Daten in diesen
Größenordnungen (160MB allein nur für die Namen, ohne IDs, Pointer
etc.) den Arbeitsspeicher zu füllen, insbesondere auf AMD64 (8
Byte/Pointer). Der muß aber unbedingt ausreichen (Platte ca. Faktor 100
langsamer).
Eine phonetische Suche wäre sehr interessant, bin schon gespannt drauf.
:)
Wäre natürlich erstmal wichtiger, das Frontend zu schreiben, damit der
Namefinder überhaupt benutzbar wird. Aber lieber ein Modul für
phonetische Suche schreiben als überhaupt nichts daran machen - wenn
der Suchkern tolle neue Sachen kann, ist auch der Anreiz höher, das
Frontend zu schreiben und es findet sich dann vll. jemand, der das
macht.
[1] http://sascha.silbe.org/arch/sascha-arch@silbe.org--2008
CU Sascha
--
http://sascha.silbe.org/
http://www.infra-silbe.de/
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname : signature.asc
Dateityp : application/pgp-signature
Dateigröße : 481 bytes
Beschreibung: Digital signature
URL : <http://lists.openstreetmap.org/pipermail/talk-de/attachments/20080824/b6f86b4c/attachment.sig>
Mehr Informationen über die Mailingliste Talk-de