[Talk-ro] Importul automat al localităților - aproape terminat și prosibilele probleme
Eddy Petrișor
eddy.petrisor at gmail.com
Fri Aug 14 17:06:32 BST 2009
Salut,
După cum unii dintre voi probabil au observat, am cam terminat de
importat datele siruta pentru cam toate localitățile, cu mici
excepții:
- București - lipsește populația și nu există informații despre
sectoare - se rezolva ușor
- nodurile unde au existat duplicate (sau chiar multiple apariții) -
am cam șters duplicatele și am să le reimport
- Ocnele Mari, deși datele spun că ar fi un oraș, nu este prezent în
date - poate ne ajută Vasile cu chestia asta sau rezolvăm cu datele
existente (code_sup)
Probleme care au apărut sau de care ar trebui să fiți conștienți:
- densitatea datelor în Suceava m-a forțat să caut nodurile asociate
localităților într-o zonă de 6x6 km în jurul punctului din datele
siruta; din acest motiv unele localități din Suceava ar putea fi
duplicate; eu am corectat manual unele dintre acestea, dar n-ar strica
să se mai uite și altcineva să verifice
- noduri identice foarte apropiate geografic (~5 km distanță) -
există, se pare, localități apropiate cu același nume dar care sunt
entități diferite:
- în același județ (ex:
http://www.openstreetmap.org/?lat=44.79532&lon=24.42325&zoom=15&layers=B000FTF)
- în județe diferite (ex:
http://www.openstreetmap.org/?lat=44.5386&lon=23.988&zoom=13&layers=B000FTF)
- în România și în Moldova (ex:
http://www.openstreetmap.org/?lat=47.20332&lon=27.79115&zoom=16&layers=B000FTF)
Dacă observați fie localități din afara României cu cod Siruta, fie
localități din România cu un istoric în care e evident că se schimbă
codul siruta (siruta:code), încercați să reparați datele, iar dacă nu
reușiți, contacați-mă să rezolv problema.
- localități duplicate pentru că î și â nu sunt identice - există
localități care au în nume cel puțin un â/î care a fost scris cu î sau
i. Deoarece mi-am dat seama foarte târziu, aplicația de import nu e
îndeajuns de deșteaptă să își dea seama că
Vîrfurile/Vârfurile/Virfurile/Varfurile e același lucru; în consecință
este posibil să apară noduri duplicate. A se vedea a doua observație
pentru rezolvare.
- erori de ortografie - există uneori niște erori de ortografie care
au împiedicat identificarea corectă (ex: Mulfatlar în loc de
Murfatlar); rezolvarea e identică cu cea pentru punctul anterior
- spațiile nu sunt "contractate" la comparare - Am observat că "Sfântu
Gheorghe" era scris cu două spații între cele două cuvinte. Pe ăsta
l-am corectat eu, dar e posibil ca situația să se fi repetat și să fie
duplicate
Observații:
- În Câmpulung Moldovenesc există foarte multe clădiri cu
name=Building. Aceste etichete probabil trebuie șterse.
- Teoretic acum în planet-ul pentru România, orice nod care are
place=* ar trebui să aibă și un siruta:code. Orice nod care nu
respectă această condiție ar trebui verificat
- unerori lipsesc diacriticele în datele Siruta (ex. name_sup la
Sâmbăta de Sus) - dacă au existat anterior modificărilor făcute de
mine (cu utilizatorul ro-bot), readăugați-le
- pe repo.or.cz nu e codul cel mai nou - din pricina lipsei de spațiu
pe repo.or.cz nu am putut publica cel mai recent cod (modificări
pentru a modifica dimensiunea de 10x10 km în care se caută un nod și
ceva note pentru viitor); am să încerc și alte servicii dacă problema
nu se remediază
În concluzie, am terminat în linii mari importul, verificați, vă rog,
dacă sunt probleme.
--
Regards,
EddyP
=============================================
"Imagination is more important than knowledge" A.Einstein
More information about the Talk-ro
mailing list