[Talk-ro] Import în masă a localităților (thread #2)

Eddy Petrișor eddy.petrisor at gmail.com
Thu Jun 11 02:10:06 BST 2009


Eddy Petrișor a scris:
> indreias a scris:
>> Am inceput importul cu judetul Alba - http://www.openstreetmap.org/browse/changeset/1478008
>> Importul s-a facut prin JOSM, durata de upload pentru datele din Alba
>> (aprox. 700 de localitati) fiind de maxim 2 minute.
>>
>> Decizia de impartire sat/catun am facut-o pe baza numarului de
>> locuitori (sub 50 de locuitori am schimbat village cu hamlet).
>>
>> Observatii:
>> 1. Numele localitatilor este capitalizat, asa fiind prezent in
>> fisierul sursa de pe geo-spatial. A fost greu sa fac o regula de
>> transformare in caractere de tip lowercase pe urmatoarele motive:
>> a. diacritice (characterset: UTF-8)
>> b. probleme de tipul: "Timisul De Jos/Timisul de Jos/Timisul de jos"?
>> etc.
> 
> Nu văd care e problema.
> 
> Dacă se folosește UTF-8, care e problema? Jumate din ea e rezolvată. Tot
> ce ai nevoie e sa rulezi regulile de transformare într-un mediu
> localizat în ro_RO.UTF-8 pentru a te asigura că ordinea alfabetică e
> respectată (iar acest lucru funcționază pe Linux, stiu sigur că m-am
> ocupat pesonal să repar informațiile de localizare pentru limba română).
> 
> 
> Folosește scriptul atașat ca să corectezi numele localităților.
> 
> echo 'tImiȘul DE jOs' | ./correct_case.pl
> Timișul de Jos


Am mai făcut ceva modificări la script. Se pare că dintr-un motiv pe
care nu-l înțleg încă, pe â ăi pe î nu le considera caractere valide
pentru a fi parte dintr-un cuvânt.

Mai mult, am mai adăugat un pomelnic de prepoziții și conjuncții.

Din păcate se pare că atunci când încearcă să facă lowercase(Ș) o dă în
bară și pentru ca si conjuncția „și” să apară corect trebuie făcut un
artificiu si trecut prin sed rezultatul:


0 eddy at heidi ~/usr/src/osm/romanian-osm-corrections $ cat /tmp/test |
./correct_case.pl | sed -e 's# \(Și\) # \l\1 #g'
Strada Horia, Cloșca și Crișan
Strada Arcașilor
Strada Tătărași
Direcția Generală de Asistență Socială și Protecția Copilului
Strada Șincai Gheorghe
Cașin
Holdmann, Confort și Igienă
Holdmann, Confort și Igienă

0 eddy at heidi ~/usr/src/osm/romanian-osm-corrections $ cat /tmp/test
strada horia, cloșca și crișan
strada arcașilor
strada tătărași
direcția generală de asistență socială și prOTECȚia coPILului
sTRADA șINCAI gHEORGHE
Cașin
holdmann, confort ȘI igIEnă
hOLDMANN, cONFORT ȘI iGIENĂ



Noul script e atașat.

>> 2. In fisierul sursa codul postal este cel vechi si a fost introdus cu
>> tag-ul old_postal_code.
>>
>> 3. Avem planificat un utilitar care va identifica dublurile
>> (localitatile deja definite), urmand sa-l rulam in timp iar corectia
>> sa fie facuta manual, pentru a nu se pierde informatia introdusa deja.
>>
>> Daca feedback-ul vostru este pozitiv, voi continua upload-ul cu cate
>> un oras pe zi, incepand cu saptamana viitoare.


-- 
Regards,
EddyP
=============================================
"Imagination is more important than knowledge" A.Einstein
-------------- next part --------------
A non-text attachment was scrubbed...
Name: correct_case.pl
Type: text/x-perl
Size: 414 bytes
Desc: not available
URL: <http://lists.openstreetmap.org/pipermail/talk-ro/attachments/20090611/144c03e5/attachment.pl>
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 197 bytes
Desc: OpenPGP digital signature
URL: <http://lists.openstreetmap.org/pipermail/talk-ro/attachments/20090611/144c03e5/attachment.pgp>


More information about the Talk-ro mailing list