<br><br><div class="gmail_quote">2009/6/19 Eddy Petrișor <span dir="ltr"><<a href="mailto:eddy.petrisor@gmail.com">eddy.petrisor@gmail.com</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

În data de 18 iunie 2009, 17:04, Ioan Indreias <<a href="mailto:indreias@gmail.com">indreias@gmail.com</a>> a scris:<br>

><br>

> Salut Eddy,<br>

<div class="im">> Daca ai fi citit tot thread-ul ai fi vazut ca nu am facut nicaieri mentiunea ca scriptul va detecta dublurile si doar dupa aceea va lua decizia de a introduce un nod nou sau nu.<br>

> Pasii au fost descrisi foarte clar (import + prelucrare manuala a dublurilor) si nu am gasit nicaieri mentiunea ta ca nu esti de acord cu ei. Din postarile tale am preluat toate sugestiile de imbunatatire a scriptului de parsare.<br>


<br>

<br>

</div>Probabil că nu am fost prea clar când am zis:<br>

<div class="im"><br>

> În concluzie, îmi mențin poziția de a cere ca pentru elementele care<br>

> există deja să se modifice acestea, nu să se ștergă și să se adauge alte<br>

> elemente.<br>

</div>[...]<br>

<div class="im">> Orice import de tipul ștergere+element nou cere să aducă probleme pe<br>

> termen lung.<br>

><br>

><br>

><br>

> Dacă consideri că e e prea dificil sau ai nevoie de ajutor în a<br>

> implementa corect, sigur o să găsești ajutor (deși am puțin timp liber,<br>

> probabil că am să fac un efort, dacă e nevoie).<br>

<br>

<br>

<br>

<br>

</div><div class="im">> Importul s-a facut cu JOSM-ul si nu am avut nici un alt tool de verificare a duplicatelor.<br>

> Eu pot sa ma opresc aici cu importul (Alba,Arad si Arges) si poti continua tu/altcineva cu o alta metoda - este OK<br>

> pentru mine. Eu doar am remarcat ca de la anuntul lui Vasile au trecut luni de zile fara sa se faca nici un import<br>

> si de aceea am initiat acest thread.<br>

> Cred ca problema de retorica tine de modul in care fiecare intelege sa faca observatiile proprii - in plus nu vreau<br>

> sa intru in polemica pe aceasta tema, nu e scopul acestui thread si nici nu cred ca ajuta pe nimeni continuarea in<br>

> acest sens a discutiilor.<br>

<br>

</div>Îmi cer scuze din nou dacă a părut că am avut intenția să jignesc pe cineva,<br>

sau am reușit să jignesc, deși nu am vrut asta.<br>

<div class="im"><br>

> Colegul meu Cristi a postat tool-ul de detectie a duplicatelor si in continuare consider ca nu s-a scapat nimic de<br>

> sub control (exista in jur de 160 de duplicate, cateva dintre ele existand de dinainte de acest import).<br>

<br>

</div>Da, detecția e făcută după ce s-a făcut deja importul, eu am pledat să<br>

se facă înainte de import, a.î. sa nu fie niciodată în OSM data<br>

duplicate ;-) .<br>

<br>

<br>

<br>

Eu mă gândisem la un algoritm de genul:<br>

<br>

<br>

================================================<br>

pentru fiecare nod de inserat<br>

  - fie POS poziția noului nod al localității N<br>

  - trage via API datele ce se alfă în proximitatea geografică a lui POS cu o<br>

    margine acceptabilă (aprox. 10km* cred că ar fi suficient); fie datele D<br>

  - caută în datele D un nod cu dediacritizat(name) = dediacritizat (N) care<br>

    este place=*; fie nodul vechi V<br>

    - dacă NU există, crează elementul nou; memorează nodul în LISTA_NOI<br>

    - dacă există doar unul, adaugă informațiile ce nu suprascriu date<br>

      exitente în V, iar datele cu conflict se adaugă în<br>

      'import-siruta-DATA:conflict:...';<br>

      - memorează că V exista (pentru a face update nu create în API) în lista<br>

        LISTA_ACT<br>

      - în câmpul 'name' se pune varianta din import (cu diacritice)<br>

    - dacă există MAI MULT de unul, memorează numele în LISTA_MULTI<br>

<br>

pentru fiecare nod din LISTA_NOI<br>

  - crează nodurile (via API)<br>

<br>

pentru fiecare nod din LISTA_ACT<br>

  - trimite noua versiune a nodului (via API)<br>

<br>

pentru fiecare nod din LISTA_MULTI<br>

  - afișează pentru rezolvare manuală prin intervenție umană<br>

<br>

<br>

================================================<br>

<br>

<br>

Desigur, folosirea listelor și trimiterea întârziată poate fi evitată, dacă se<br>

dorește (poate e chiar mai eficient), dar probabil că e mai utilă pentru o<br>

verificare înainte de modificarea datelor din API.</blockquote><div><br></div><div>Salut</div><div><br></div><div>Am considerat si noi o varianta de import cu detectie de duplicate inainte ca Nini sa inceapa importul si am ajuns la concluzia ca efortul asociat implementarii si testarii este mai mare decat beneficiul de a nu avea ceva duplicate pentru o perioada limitata.</div>

<div><br></div><div>Desigur, in conditiile in care doresti sa implementezi si sa folosesti algoritmul de mai sus pentru importul judetelor care au ramas ne-importate, cred ca nu e o problema - din ce stiu Nini a pus importurile judetelor ramase on-hold pana se inchide discutia de pe acest thread.</div>

<div><br></div><div>--</div><div>Cristi</div><div><br></div><div><br></div><div><br></div></div>