[Talk-ro] Import în masă a localităților (thread #2)

Ioan Indreias indreias at gmail.com
Fri Jun 12 10:50:22 BST 2009


Salut Eddy,
Am preluat ultima varianta a scriptului si de asemenea am adaugat in tool-ul
de parsare regulile de sed mentionate
aici<http://wiki.openstreetmap.org/wiki/User:Xybot/FixRomanianDiacritics>
pentru
ca diacriticile din fisierele sursa sunt de tip gresit (cel putin eu asa am
inteles).

Atasez fisierul sursa (csv) si fisierul output (osm) pentru judetul Alba -
pentru a obtine de la voi ultimele comentarii referitoare la acest import
(tot am amanat importul pana cand Vasile ne da OK-ul pentru ultima versiune
a surselor).

Referitor la codul postal am ales sa pun campul old_postal_code (la sugestia
lui alex "alea alea") pentru ca grupul addr:* se refera la cladiri (cel
putin eu asa am inteles), pentru cazul nostrul codul postal al unei
localitati (asta importam) ar fi fost trecut in campul postal_code

Referitor la suprascrierea datelor - am ales sa facem manual aceasta
operatie tocmai pentru a nu pierde date vechi (nu m-am gandit la history -
crezi ca e asa de importanta?). Vom trata fiecare caz in parte si vom tine
cont de comentariile tale.

Referitor la populatie - in fisierele sursa sunt incluse informatiile de la
ultimul recensamant (2002). Daca tu ai avut alta surse te rog sa o
mentionezi pentru a putea face medierea acestora.

Multumesc,
Nini.

2009/6/12 Eddy Petrișor <eddy.petrisor at gmail.com>

> indreias a scris:
> > Salut Eddy,
> >
> > Multumesc mult pentru script - l-am integrat in parser si totul pare
> > OK.
> > In urma testelor am adaugat si particula "Lui" la trecerea in
> > minuscule (ex. "Valea lui Mihai").
>
> Cred că ar fi bine să adaugi și "Cel" - Alexandru cel Bun, Stefan cel Mare
>
> > $line =~ s/ (Lui|De|Din|Spre|La|Si|Pe|Și|Prin|Dinspre|Cu) / \l$1 /g;
>
> Mă gândesc să adaug scriptul la un repo public. Eu am mai făcut câteva
> mici schimbări (după ce am mai citit un pic de documentație).
>
> > Astazi voi sterge datele introduse ieri (judetul Alba) si le voi re-
> > importa (in jurul orei 17:00). Sper ca Francisc sa aiba timp si sa
> > transmita mai multe detalii ref. la observatiile lui de ieri.
> >
> > Ref. la mediul meu de lucru (ca o scuza pentru mentiunea mea despre
> > diacritice...) lucrez cu cygwin pe o statie Windows si sunt total
> > neobisnuit sa lucrez cu diacritice. Nu ma pot schimab si nici nu vreau
> > sa pornesc o noua discutie pe aceasta tema - atata timp cat sursa are
> > diacritice si cu ajutorul tau si al colegilor de aici reusim sa
> > pastram informatia este excelent.
>
> Hmm, sunt tare curios dacă nu cumva în urma transformării ai ajuns sa ai
> chestii de genul:
>
> CâMpulung, PetreșTi, SăVâRșIn
>
> Adică nu cumva îți apare literă mare după oricare din diacritice?
>
> Dacă da, atunci ai nevoie de locale și probabil de noul script care are
> grijă să forțeze locala pe ro_RO.UTF-8 în script pentru a procesa corect
> datele.
>
> Noul script e atașat.
>
> --
> Regards,
> EddyP
> =============================================
> "Imagination is more important than knowledge" A.Einstein
>
> _______________________________________________
> Talk-ro mailing list
> Talk-ro at openstreetmap.org
> http://lists.openstreetmap.org/listinfo/talk-ro
>
>


-- 
Best regards,
Ioan (Nini) Indreias - indreias at gmail.com
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.openstreetmap.org/pipermail/talk-ro/attachments/20090612/a4918aab/attachment.html>
-------------- next part --------------
A non-text attachment was scrubbed...
Name: ab.csv
Type: application/octet-stream
Size: 87735 bytes
Desc: not available
URL: <http://lists.openstreetmap.org/pipermail/talk-ro/attachments/20090612/a4918aab/attachment.obj>
-------------- next part --------------
A non-text attachment was scrubbed...
Name: ab.v3.osm
Type: application/octet-stream
Size: 436707 bytes
Desc: not available
URL: <http://lists.openstreetmap.org/pipermail/talk-ro/attachments/20090612/a4918aab/attachment-0001.obj>


More information about the Talk-ro mailing list