<div dir="ltr"><div dir="ltr"><div>Még mindig az adószámról beszélünk amúgy? Nekem annyira nem szívügyem, csak azt hittem ez egy példa volt amin keresztül szerettél volna valami bonyolultabbat kérdezni.</div><div dir="ltr"><br></div><div dir="ltr">On Mon, Dec 17, 2018 at 5:55 PM Imre Samu <<a href="mailto:pella.samu@gmail.com" target="_blank">pella.samu@gmail.com</a>> wrote:</div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr">>érdemes elolvasni a wiki oldalaikat: a ref:vatin:hu-ból nem származtatható a ref:vatin és fordítva sem mindig igaz. </div><div dir="ltr">>Az előbbi azért, mert nem kötelező EU közösségi adószámot igényelni, a másik irány pedig mert nem tudod az adónemet, </div><div dir="ltr">>bár az operator:addr-ban tényleg benne lehet a székhely ha feltüntette valaki, de ha csak az hiányzik az is plusz számolás.<br></div><div><br>Én egy jó kompromisszumnak tartanám az EU-s adószámot  - legalábbis az egy elég  fix ID ( első 8 számjegy )  -  a székhely és az Áfakör változhat.</div><div>A Magyarországon kiadott közösségi adószámok az országot azonosító ”HU” kódból, valamint a belföldi adószám első 8 számjegyéből állnak, a következőképpen: „HUxxxxxxxx.”.""</div><div><br></div><div>de ha maximalisták akarunk lenni, akkor meghajlok  :)</div></div></div></div></div></blockquote><div><br></div><div>Eredetileg én sem ragaszkodtam hozzá, de Kesztölcön felnyitották a szememet, hogy eddig álomvilágban éltem és meggyőztek a fenti érveléssel. Én is tévedhetek.</div><div><br></div><div>Ez nem feltétlenül maximalizmus kérdése, hanem egyszerűen nem lehet származtatni a kettőt egymásból, így nem redundánsak. A kettő közül a magyar adószámot triviális verifikálni: rá kell nézni a nyugtára/honlapra/cégtáblára/árlistára/stb. Az EU adószám ellenőrzéshez már kicsit izzadságszagú, ahhoz meg kell látogatni egy külsős oldalt és kézzel bepötyögni az adatokat, bár néha ez is fent van a hivatalos portálon (vicces esetben teljesen másik oldalán).</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div>Viszont  kellene egy adószám monitorozó rendszer, ami</div><div>-  kihajigálja az elavult / megváltozott adószámokat.  ( NAV publikus api ? )</div></div></div></div></div></blockquote><div><br></div><div>Esetleg a hivatalos weboldalról, cégközlönyből vagy az önkormányzati nyilvántartásból is lehet parszolni, bár utóbbi nem mindenhol frissül.</div><div><br></div><div>De előny, hogy adószám elavulás alapján tud következtetni egy POI életcilkus változásaira is: ha mondjuk felszámolás alá került a cég, akkor már FIXME, hogy él-e még a söröző.</div><div><br></div><div>Ezt minden esetre írjuk fel az OSM web crawler wishlistjére:</div><div>* ref:vatin*</div><div>* addr:*</div><div>* contact:*</div><div>* opening_hours<br></div><div>* start_date</div><div>* sport</div><div><br></div><div>Kisebb nehézség, hogy a valóságban sokszor úgy szűnnek meg sörözők, hogy újranyílik a helyükön a másik, és emiatt lecserélődik minden: adószám, honlap, néha a név és wifi is.</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div>-  ahol az EU adószám és amagyar adószám első 8 karaktere nem egyezik meg.   ( ez a könnyebbik rész )</div><div></div></div></div></div></div></blockquote><div><br></div><div>Akár meg is próbálhatná kijavítani: lookup egyik, utána lookup másik és melyik a frissebb, melyik passzol jobban a POI tulajdonságaihoz.</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div>Te milyen elenörzéseket végeznél még el ?</div></div></div></div></div></blockquote><div><br></div><div>Ha hiányzik az egyik, a másikból felviheti amennyiben létezik. Erre érdemes a botnak cache-et is fenntartania. Bár nem biztos, hogy ez a csek API-zható, mintha CAPTCHA-t kért volna ahol néztem.</div><div><br></div><div>Illetve mindkettőnek ellenőrizhetnénk a szintaxisát is - a ref:vatin:hu az utolsó számjegyei szempontjából is behatárolt.</div><div><br></div><div>Én végigjárnám a changset-eket is emellé és amennyiben a ref:vatin* régebbi mint az utolsó módosítása néhány kulcs mezőnek, mint az operator*/brand/internet_acces:ssid, akkor szintén bejeleznék. Ha az utóbbiakat később adták hozzá, akkor csak közepesen gyanús a pont.</div><div><br></div><div>Továbbá adatbázis szinten korrelálnám az operator* és ref:vatin* együttes előfordulásait, és az outlier-eket szintén be lehetne jelezni, a hiányzókat pedig fel lehetne ajánlani kitöltésre.</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div>Valószínüleg a licensz megjegyzésem  a Wikidata-ból történő OSM importra vonatkozott    </div></div></div></div></div></blockquote><div><br></div><div>Igen, arra utaltam.</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div>De bárki  ( mint 3rd party )   bármikor összefésülheti a Wikidata+OSM adatokat és egy weboldalon megjelenítheti.</div></div></div></div></div></blockquote><div><br></div><div>Ez eddig rendben van.</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div>  Csak az osm szeretne fehérebnél is fehérebb lenni.</div><div>( Ráadásul a Wikidata-ba mindenféle dolgokat beimportálnak ;   viszont az USA  és az EU egész máskép értelemzi az adatbázis jogot :  <a href="https://en.wikipedia.org/wiki/Sui_generis_database_right" target="_blank">https://en.wikipedia.org/wiki/Sui_generis_database_right</a> </div><div> A probléma ha jól értem, hogy hiába CC0-a a wikidata , az ide bekerülő rengeteg ( beimportált ) adata licensze nem CC0-a, vagy public domain )</div><div>)</div><div></div></div></div></div></div></blockquote><div><br></div><div>Nos pont ez az, hogy amit én felmérek nektek, odaadom teljesen tisztán. De ha onnan átlapátoljuk a wikidata-ba, utána ha meggondoljuk magunkat, már csak bottal lehet piszkálni ha vissza kellene hozni, főleg ha a wikidata-ban valaki hozzányúlt közben.</div><div><br></div><div>Aztán van itt még egy meghökkentő probléma amire nem is gondoltam eddig. Az idő múlásával megváltozhat a wikidata hozzárendelés, ezáltal a felmérés idejéhez képest teljesen új jelentést kapcsolva a ponthoz. Ennek során el is veszhet emiatt információ. Viszont ami a ponton van, az legalább mindig együtt marad. Egy friss példa:</div><div><div><br></div><div><a href="https://wiki.openstreetmap.org/w/index.php?title=Key:name&diff=next&oldid=1638798" target="_blank">https://wiki.openstreetmap.org/w/index.php?title=Key:name&diff=next&oldid=1638798</a><br></div><br class="m_-4597530636974338508gmail-Apple-interchange-newline"></div><div>Ez ritka vagy lehetetlen eseménynek hangzik, de így átgondolva a kulcsok evolúciója egy bizonyos számú kiterjesztés után gyakran elér egy szintet, amikor újabb jellemzők hozzáadása már nem lehetséges konfliktusok nélkül, és ilyenkor gyakorlatilag "forkolódik" a fogalom két, specializáltabb jelentésre ahol már megadhatók a korábban konfliktáló jellemzők is.</div><div><br></div><div>Máskor egyszerűen nem létezik még a felméréskor az adott tökéletesen specifikus wikidata fogalom, viszont egy tágabb jelentésben vagy egy "for all intents & purposes" ekvivalens jelentésre már létezik, így azt linkelik be. Ezután az évek alatt megszületik a specifikusabb fogalom is és nem minden jellemző migrálódik vagy migrálható át a kettő között. Vegyük észre, hogy a wikidata ID nem feltétlenül stabil UUID abban az értelemben ahogy mi szeretnénk.</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div>de mindenesetre - ez egy részlettéma.  </div><div>Ha ragaszkodsz a pluszmezőkhöz, akkor meghajlok.   ( viszont az életciklusuk monitorozására ( megszünt/változott) kellene valamit kitalálni, mert később beterit bennünket a sok változás.</div></div></div></div></div></blockquote><div><br></div><div>Igen, ez mindenképpen jogos előrelátás. Bár a fenti monitorozó ötletek amit sorolsz elég jól lefedik. Esetleg még szerkesztő/KeepRight validátort lehetne írni ami csipog mentés előtt ha eltér a kettő.</div><div><br></div><div>Ugyanúgy léteznek URL validátorok is, viszont ezt sem futtatják/nézik sokan, így tele van broken linkkel az OSM. Valamit lépni kellene abba az irányba, hogy az emberek szeressék QA-zni az OSM-et, illetve menjenek survey-re olyan pontokhoz ami survey_date (vagy mtime + source=survey) alapján mondjuk több mint egy éves. Lehetne valami mapping party szervező toolt írni ami ezt is figyelembe veszi.</div><div><br></div><div>Apropó, a többi élő contact:* crawling alapján a telefonszámot is lehetne frissíteni, bár ahhoz, hogy ez tökéletesen működjön, szükség volna belső állapotra szintén külső DB-ben (hogy melyik telefonszám melyik weboldalról származik, ha onnan).</div></div></div></div>