[Talk-ro] [Finalizat] Detecție erori în codurile poștale

Strainu strainu10 at gmail.com
Tue Nov 19 08:11:42 UTC 2013


Salut,

Fiecare din liniile tabelului ăluia reprezintă o eroare. Nu toate sunt
erori în datele OSM, dar marea majoritate sunt. Trebuie deci
corectate, cel mai probabil manual, deoarece în multe situații trebuie
folosit bunul simț pentru a determina ce trebuie făcut.

De exemplu, dacă scrie acolo că nu a putut fi identificat orașul,
strada sau numărul în datele OSM, ar fi bine să fie adăugate
(bineînțeles, dacă se potrivește - probabil că Peștera Polovragi
http://www.openstreetmap.org/browse/node/304736181 nu are un număr,
deși apare în pagină ca având număr lipsă, deci nu trebuie făcut
nimic).

Dacă nu se potrivește orașul sau strada între OSM și datele de la
poștă, trebuie văzut care e forma corectă (inclusiv diacritice) și
pusă în OSM. Aici sunt probabil multe erori și în datele de la poștă,
de asta ziceam de folosirea bunului simț.

În fine, o ultimă categorie de erori e când nu corespunde numărul de
la OSM cu cel de la poștă sau codul poștal are un format greșit. În
cazul ăsta trebuie aproape sigur cunoscută zona, pentru a ști exact ce
număr e acolo și a putea determina codul poștal.

Într-un mail anterior dădusem câteva exemple de corecturi făcute de mine:

E1: http://www.openstreetmap.org/browse/changeset/18875399
E2, W3: http://www.openstreetmap.org/browse/changeset/18875478
W4: http://www.openstreetmap.org/browse/changeset/18875518 (aici era
numărul trecut la cod)
E4: http://www.openstreetmap.org/browse/node/1109599781

Puteți să le analizați și să vedeți cum am corectat problemele. Dacă
formatul paginii vi se pare confuz, puteți veni cu sugestii de
schimbare și îl adaptăm.

Sper că acum e un pic mai clar ce trebuie făcut cu intrările din
pagina asta. Dacă mai aveți întrebări, puneți-le.

Strainu


În data de 19 noiembrie 2013, 09:33, Razvan
<radulescu.razvan la gmail.com> a scris:
> Un pic de feedback ti-am da, dar sincer unii dintre noi nu prea se pricep
> sau nu au inteles prea bine exact cum vrei sa faci toata treaba asta.
> Probabil ca au mai citit mailul acesta si altii dar nu au venit cu un
> raspuns din varii motive, dar cel mai probabil ca nu stiu cum sa te ajute.
> Un rezumat pe scurt daca nu te superi cu ce ar trebui sa facem ar fi bine
> venit si poate ca se vor "baga " mai multi.
>
>
> On 19.11.2013 02:07, Strainu wrote:
>>
>> OK, am încărcat o versiune care parcurge toate codurile poștale. Din
>> păcate este enormă, aproape 1MB ca sursă, dar asta este. L-am setat să
>> se actualizeze o dată pe săptămână. Dacă găsiți erori false, vă rog
>> să-mi spuneți.
>>
>> Pasul următor este să gândesc aplicația pentru adăugat coduri poștale.
>> Voi veni cu un nou RFC pentru asta cât de curând. Un pic mai mult
>> feedback m-ar ajuta :)
>>
>> Multumesc,
>>     Strainu
>>
>> În data de 17 noiembrie 2013, 23:22, Strainu <strainu10 la gmail.com> a
>> scris:
>>>
>>> Am terminat de verificat Bucureștiul. Am observat că o parte din erori
>>> sunt în datele de la poștă, deci nu le luați de bune - verificați
>>> numele străzilor la primărie sau alte părți.
>>>
>>> Câteva observații despre numere: sunt prezentate sub forma [2, 4, 6] -
>>> adică o listă de numere (echivalentul lui 2-6). Dacă lista e lungă de 100
>>> de elemente, înseamnă că în datele de la poștă codul e până la
>>> sfârșitul străzii (e.g. 2-T). Pentru ca scriptul să nu dea eroare,
>>> trebuie
>>> ca fiecare din numerele de pe OSM să fie în lista de la poștă.
>>> E interesant că în unele cazuri nu se întâmplă asta
>>> complet - de exemplu în cazul hotelului Radisson Blu. Astea sunt însă
>>> situații rare, în general sunt trecute codurile corespunzătoare părții
>>> celeilalte a străzii.
>>>
>>> Mâine trec la restul României.
>>>
>>> Strainu
>>>
>>>
>>> În data de 15 noiembrie 2013, 14:06, Strainu <strainu10 la gmail.com> a
>>> scris:
>>>>
>>>> Când o să termin de scris codul o să încerc și să-l fac să ruleze
>>>> constant. Până atunci, e updatată când am ceva nou implementat.
>>>>
>>>> Strainu
>>>>
>>>> În data de 15 noiembrie 2013, 12:44, Filip Chirita Rares Cristian
>>>> <chirita.rares la gmail.com> a scris:
>>>>>
>>>>> Lista e updatata constant? Momentan m-am uitat la
>>>>> http://www.openstreetmap.org/browse/way/245844791 care are deja
>>>>> addr:city
>>>>> pus. Daca nu e updatata constant, nu inseamna ca eventual o sa devina
>>>>> foarte
>>>>> confuz care sunt gata si care nu?
>>>>>
>>>>> Rares
>>>>>
>>>>>
>>>>> 2013/11/13 Strainu <strainu10 la gmail.com>
>>>>>>
>>>>>> În data de 13 noiembrie 2013, 02:12, Filip Chirita Rares Cristian
>>>>>> <chirita.rares la gmail.com> a scris:
>>>>>>>
>>>>>>> Salut,
>>>>>>>
>>>>>>> Pot sa te rog sa ne dai si un exemplu de corectat? Poate mintea mea
>>>>>>> nu
>>>>>>> merge
>>>>>>> calumea momentan, dar nu imi dau seama de unde sa incep. Sa zicem
>>>>>>> pentru
>>>>>>> nodul asta: http://www.openstreetmap.org/browse/node/769289252 ce pot
>>>>>>> sa
>>>>>>> fac? Sa ma duc si sa pun addr:in_city = oras?
>>>>>>>
>>>>>>> Rares
>>>>>>
>>>>>> Mai trimisesem un mail de dimineață, dar s-a pierdut. Da, în principiu
>>>>>> trebuie adăugate datele lipsă, is_in:city sau addr:city. Uite câte un
>>>>>> exemplu pentru fiecare tip de eroare:
>>>>>>
>>>>>> E1: http://www.openstreetmap.org/browse/changeset/18875399
>>>>>> E2, W3: http://www.openstreetmap.org/browse/changeset/18875478
>>>>>> W4: http://www.openstreetmap.org/browse/changeset/18875518 (aici era
>>>>>> numărul trecut la cod)
>>>>>> E4: http://www.openstreetmap.org/browse/node/1109599781
>>>>>>
>>>>>> Sunt și unele pentru care nu se poate/nu e evident să corectezi, de
>>>>>> exemplu: http://openstreetmap.org/browse/node/610916914 Trebuie
>>>>>> analizat de la caz la caz.
>>>>>>
>>>>>> Strainu
>>>>>>
>>>>>>>
>>>>>>> 2013/11/13 Strainu <strainu10 la gmail.com>
>>>>>>>>
>>>>>>>> Update: Am terminat partea de scanare a codurilor din OSM și am pus
>>>>>>>> niște rezultate parțiale (scanare doar pentru addr:postcode pe
>>>>>>>> noduri)
>>>>>>>> la https://wiki.openstreetmap.org/wiki/Romanian_Postal_Codes
>>>>>>>>
>>>>>>>> Încă nu fac verificări cu datele de la poștă, sunt doar erori din
>>>>>>>> OSM.
>>>>>>>> De notat că am modificat un pic codurile de eroare pentru o mai bună
>>>>>>>> consecvență în notație:
>>>>>>>>              "E1": u"Nu pot extrage orașul din datele OSM",
>>>>>>>>              "E2": u"Nu pot extrage strada din datele OSM",
>>>>>>>>              "W3": u"Nu pot extrage numărul din datele OSM",
>>>>>>>>              "W4": u"Codul poștal e invalid, conține mai puțin de 6
>>>>>>>> cifre",
>>>>>>>>              "E4": u"Codul poștal e invalid (conține altceva decât 6
>>>>>>>> cifre)",
>>>>>>>>              "E5": u"Nu găsesc codul poștal în datele de la
>>>>>>>> date.gov.ro",
>>>>>>>>              "W6": u"Există greșeli în spellingul orașului",
>>>>>>>>              "E6": u"Orașul nu corespunde între OSM și date.gov.ro",
>>>>>>>>              "W7": u"Sunt greșeli în spellingul străzii",
>>>>>>>>              "E7": u"Strada nu corespunde între OSM și date.gov.ro",
>>>>>>>>              "E8": u"Numărul/blocul nu corespund între OSM și
>>>>>>>> date.gov.ro",
>>>>>>>>
>>>>>>>> Mi-au atras atenția câteva chestii:
>>>>>>>> * Sunt foarte multe erori E1, ceea ce înseamnă că nu se practică
>>>>>>>> punerea orașului în adresă. Știu că cineva a mai întrebat pe listă
>>>>>>>> dacă e chiar necesar și v-am spus atunci că e nevoie pentru căutări
>>>>>>>> după o anumită cheie. Uite că am dat chiar peste o asemenea situație
>>>>>>>> :) Poate la un moment dat voi face o căutare în zonă ca să detectez
>>>>>>>> orașul, dar deocamdată codurile respective nu vor fi verificare.
>>>>>>>> * Sunt câteva coduri poștale puse de Michael pe noduri din way-uri
>>>>>>>> cu
>>>>>>>> numere cu valoarea <unterschiedlich> (<diferite>, dacă nu mă înșală
>>>>>>>> traducerea automată). Michael, le pui manual sau le pune vreo
>>>>>>>> unealtă?
>>>>>>>> Dacă sunt manuale, care e rolul lor? Un nod reprezintă un număr,
>>>>>>>> deci
>>>>>>>> ar trebui să aibă un singur cod, nu?
>>>>>>>> * Ce alte câmpuri/informații ar mai fi util să pun?
>>>>>>>>
>>>>>>>> Spor la corectat :)
>>>>>>>>
>>>>>>>> Strainu
>>>>>>>>
>>>>>>>> În data de 11 noiembrie 2013, 13:24, Strainu <strainu10 la gmail.com> a
>>>>>>>> scris:
>>>>>>>>>
>>>>>>>>> Salut,
>>>>>>>>>
>>>>>>>>> Ca primă fază a importului codurilor poștale de la date.gov.ro, aș
>>>>>>>>> vrea să generăm o listă cu erori. Mai jos voi descrie procedura pe
>>>>>>>>> care vreau să o urmez, atât pentru a primi feedback, cât și pentru
>>>>>>>>> a
>>>>>>>>> o
>>>>>>>>> avea scrisă undeva.
>>>>>>>>>
>>>>>>>>> 1. Extrag toate nodurile și căile cu coduri poștale și încerc să
>>>>>>>>> extrag orașul, strada și numărul; dacă se poate, extrag și numele
>>>>>>>>> blocului. În cazul numerelor de casă  care nu sunt formate doar din
>>>>>>>>> cifre, iau primul număr din text dacă începe de la caracterul 0
>>>>>>>>> (adică
>>>>>>>>> "1A" și "1BIS" sunt "1", dar "A1" e eroare)
>>>>>>>>>   - pentru noduri folosesc "is_in:city" sau ""addr:city",
>>>>>>>>> "addr:street", respectiv "addr:housenumber"
>>>>>>>>>   - pentru căi folosesc "is_in:city", "name" sau "addr:street",
>>>>>>>>> respectiv "addr:housenumber" (dacă avem "addr:street")
>>>>>>>>>   - pentru coduri poștale folosesc "postal_code" sau
>>>>>>>>> "addr:postcode"
>>>>>>>>>
>>>>>>>>> 2. Pentru fiecare cod poștal, identific toate intrările din lista
>>>>>>>>> de
>>>>>>>>> la date.gov.ro și pentru fiecare dintre ele încerc să fac matching
>>>>>>>>> pe:
>>>>>>>>>   a. oraș; dacă reușesc, merg la b.; dacă nu reușesc, eroare E6.
>>>>>>>>>   b. stradă; dacă reușesc, merg la c.; dacă nu reușesc, eroare E8.
>>>>>>>>>   c. număr; dacă reușesc, succes; dacă nu reușesc, merg la d.
>>>>>>>>>   d. numele blocului; dacă reușesc, succes; dacă nu reușesc, eroare
>>>>>>>>> E10.
>>>>>>>>>
>>>>>>>>> Din descriere, complexitatea ar fi pătratică; practic, se poate
>>>>>>>>> optimiza mult aici.
>>>>>>>>>
>>>>>>>>> Tipurile de erori aruncate ar fi (E - eroare care nu poate fi
>>>>>>>>> evitată,
>>>>>>>>> W - eroare care poate fi evitată):
>>>>>>>>> E1. Nu pot extrage orașul din datele OSM
>>>>>>>>> E2. Nu pot extrage strada din datele OSM
>>>>>>>>> W3. Nu pot extrage numărul din datele OSM - asta e OK pentru
>>>>>>>>> străzi,
>>>>>>>>> iar pentru restul căilor și nodurilor pot verifica că nu mai există
>>>>>>>>> un
>>>>>>>>> alt cod pe strada respectivă
>>>>>>>>> W4. Codul poștal e invalid, conține 5 cifre: încerc să completez cu
>>>>>>>>> 0
>>>>>>>>> și verific dacă dau în E5
>>>>>>>>> E4. Codul poștal e invalid (conține altceva decât 6 cifre);
>>>>>>>>> E5. Nu găsesc codul poștal în datele de la date.gov.ro
>>>>>>>>> E6. Orașul nu corespunde între OSM și date.gov.ro
>>>>>>>>> W7. Sunt greșeli în spelling-ul orașului (de exemplu diacritice
>>>>>>>>> incorecte sau lipsă)
>>>>>>>>> E8. Strada nu corespunde între OSM și date.gov.ro
>>>>>>>>> W9. Sunt greșeli în spelling-ul străzii (de exemplu diacritice
>>>>>>>>> incorecte sau lipsă sau tip de stradă diferit)
>>>>>>>>> E10. Numărul/blocul nu corespund între OSM și date.gov.ro
>>>>>>>>>
>>>>>>>>>
>>>>>>>>> Întrebări deschise:
>>>>>>>>> I1. Mai sunt și alte moduri (chei) de a extrage informațiile din
>>>>>>>>> datele
>>>>>>>>> OSM?
>>>>>>>>> I2. La E1, merită să fac o căutare după limita administrativă care
>>>>>>>>> conține coordonatele respective înainte de a decreta eroare?
>>>>>>>>> I3. La W3, dacă avem mai multe segmente cu coduri diferite, e
>>>>>>>>> acceptabil ca fiecare bucată de stradă să aibă alt cod?
>>>>>>>>>
>>>>>>>>> Păreri, opinii?
>>>>>>>>>      Strainu
>>>>>>>>
>>>>>>>> _______________________________________________
>>>>>>>> Talk-ro mailing list
>>>>>>>> Talk-ro la openstreetmap.org
>>>>>>>> https://lists.openstreetmap.org/listinfo/talk-ro
>>>>>>>
>>>>>>>
>>>>>>>
>>>>>>>
>>>>>>> --
>>>>>>> Life is not the amount of times you breathe, is the moments that take
>>>>>>> your
>>>>>>> breath away.
>>>>>>>
>>>>>>> To all things comes an end. And to all things comes a beginning.
>>>>>>>
>>>>>>> Cred in inspirat, nu in expirat. in vise, nu in somn. In trait, nu in
>>>>>>> existat.
>>>>>>>
>>>>>>> _______________________________________________
>>>>>>> Talk-ro mailing list
>>>>>>> Talk-ro la openstreetmap.org
>>>>>>> https://lists.openstreetmap.org/listinfo/talk-ro
>>>>>>>
>>>>>> _______________________________________________
>>>>>> Talk-ro mailing list
>>>>>> Talk-ro la openstreetmap.org
>>>>>> https://lists.openstreetmap.org/listinfo/talk-ro
>>>>>
>>>>>
>>>>>
>>>>>
>>>>> --
>>>>> Life is not the amount of times you breathe, is the moments that take
>>>>> your
>>>>> breath away.
>>>>>
>>>>> To all things comes an end. And to all things comes a beginning.
>>>>>
>>>>> Cred in inspirat, nu in expirat. in vise, nu in somn. In trait, nu in
>>>>> existat.
>>>>>
>>>>> _______________________________________________
>>>>> Talk-ro mailing list
>>>>> Talk-ro la openstreetmap.org
>>>>> https://lists.openstreetmap.org/listinfo/talk-ro
>>>>>
>> _______________________________________________
>> Talk-ro mailing list
>> Talk-ro la openstreetmap.org
>> https://lists.openstreetmap.org/listinfo/talk-ro
>
>
>
> _______________________________________________
> Talk-ro mailing list
> Talk-ro la openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-ro



More information about the Talk-ro mailing list