[Talk-cz] Adresy z RUIAN

Petr Vejsada osm na propsychology.cz
Úterý Únor 11 00:06:30 UTC 2014


Ahoj,

také jsem pilný a zdá se, že nástroj na nahrávání adres z RUIAN je hotov. 
Funguje tak, že se vybere oblast, pustí se SQL skript a za pár (desítek) minut 
je připravený changeset pro JOSM. K tomu z toho vypadnou varovací tabulky se 
seznamem míst, kde si to neporadilo a chce to lidský průzkum. Počet vět v 
těchto tabulkách je nepřímo úměrný kvalitě dat v RUIAN v dané oblasti ;-) 
Podle tabulek s problémy se pak dají patřičná místa pravit v JOSM před 
uploadem.

Potřebuji se domluvit na podobě dat.

Tyto tagy se zpracovávají:

addr:city - obec
addr:conscriptionnumber - číslo popisné
addr:housenumber - složenina, jak je popsaná na Wiki, tedy ev.<evidenční> či 
<popisné>/<orientační> atd,
addr:provisionalnumber - evidenční číslo
addr:streetnumber - číslo orientační
addr:place - část obce
addr:street - ulice
addr:postcode - PSČ

source:addr=cuzk:ruian
ref:ruian=<rn_adresni_misto.kod>

Na ostatní tagy nesahám, tedy nesahám ani na is_in, source, addr:country či 
další addr: či ne-addr:. Nesahám ani na souřadnice.

Algoritmus je osmiprůchodový, z toho 6 průchodů je na vlastní přiřazení a 
zbylé 2 jsou na generování varovných tabulek.

Zdrojáky tajné nejsou, je to 100% plpgsql/postgis, nicméně netvořil jsem to 
pro uživatele, ale pro sebe a tak kód odráží moji místní situaci - vyžaduje 
schema RUIAN, OSM APIDB (nikoli samotné API, jen databázové schema)  a Mapnik 
schema. Urcite by slo predelat pro snapshot schema, které má sympatický 
HSTORE, ale v tuto chvíli to tak není hlavně proto, protože snapshot schema 
nemám.

Pracuje to se všemi typy entit - s body, cestami/polygony i relacemi. Nalezne-
li entitu s adresou (což nalezne skoro vždy), upraví ji tak, že nahradí výše 
zmíněné tagy a ostatních si nevšímá. Nenalezne-li, vytvoří nový adresní bod se 
souřadnicemi z RUIAN, a to buď deiniční bod adresního místa, není-li, pak 
deiniční bod stavebního objektu, není-li tak st_centroid stavebního objektu. 
Není-li, tak nic; na parcelu už jsem nešel, mohlo by to být geometricky dost 
mimo.

Co se týká mazání, tak momentálně se nic nemaže. Pamatuji si, který den to 
zpracuje která data a může pak porovnávat s RUIAN a mazat by se mohlo tehdy, 
kdy se adresa smaže z RUIAN a zároveň bylo toto místo zpracováno.

Zásadní otázka č.1 - co s tagy addr:country a is_in? Možnosti jsou ponechat, 
mazat či nahrazovat. Jaký máte názor?

Zásadní otázka č.2 - zda do toho vůbec jít, tedy začít probírat celou 
republiku a pokud ano, co je třeba předtím udělat? O pravidlech pro importy 
ponětí mám a tak zahajuji diskusi s místní komunitou ;-).

Mojí motivací bylo a je hlavně to, že Nominatim ve stávajících datech moc 
hledat neumí, protože is_in ho vůbec nezajímá, takže hlavně přidat addr:place, 
sjednotit vše a snad tedy zlepšit. 

--
Petr, pv na propsychology.cz
>p<





Další informace o konferenci talk-cz