[Talk-cz] RUIAN a inkrementální aktualizace

"Petr Morávek [Xificurk]" petr na pada.cz
Neděle Srpen 10 18:56:00 UTC 2014


Ahoj,

mám nemilou zprávu pro vás, co pracujete s RUIAN (přes ruian2pgsql) a
provádíte inkrementální aktualizace - "nefunguje" to.

Petr Vejsada tu už na jaře psal, že má podezření, že nový import úplného
dumpu RUIAN dává jiný výsledek než postupně aktualizovaná databáze přes
změnové soubory. A já to bohužel teď musím potvrdit. A je to trochu
komplikovanější.

První problém byl v ruian2pgsql [1]. Původní algoritmus počítal s tím,
že pokud dojde k nějaké změně objektu, tak se vždy zvýší "id transakce",
což bohužel není pravda. Tento problém byl nedávno opraven... pokud
používáte ruian2pgsql a importujete změnové soubory, tak silně
doporučuju update na poslední dev verzi.

Jenže i tak byly indikace, že není vše úplně v pořádku - a opravdu není.
Mám tu dvě databáze:
1) Vznikla importem posledního úplného dump z konce července, konkrétně
soubory 20140731_OB_*_UKSH.xml.gz a 20140731_ST_UKSH.xml.gz.
2) Vznikla importem úplného dumpu z konce června a pak importem všech
změnových souborů z července, tj. soubory 20140630_OB_*_UKSH.xml.gz a
20140630_ST_UKSH.xml.gz a pak 26 souborů 201407*_ST_ZKSH.xml.gz.

A když porovnám výsledek obou cest, tak se dá najít opravdu velké
množství rozdílů. Konkrétně jsem se díval na stavební objekty. Některé
SO jsou jen v (1), některé jen v (2), jiné jsou sice v obou databázích,
ale jedna verze má neúplné údaje. Problematické SO jsem vystopoval do
zdrojových dat a chyba je už tam.

* SO 78153263 je v červencovém dumpu (20140731_OB_554791_UKSH.xml.gz),
ale není v dumpu z června ani žádném změnovém souboru.

* SO 78258294 je v červencovém dumpu (20140731_OB_576000_UKSH.xml.gz) -
tam má IdTransakce=648617 a IsknBudovaId=15680609010. V červnovém dumpu
není, ale je v jednom jediném změnovém souboru
(20140728_ST_ZKSH.xml.gz), ale tam nemá nastaveno IsknBudovaId a
IdTransakce=648063.

...

Na ostatní tabulky jsem nekoukal, ale je dost možné, že trpí podobným
problémem.

--

Informaci píšu primárně sem do talk-cz, protože to tu sledují jak
konzumenti dat, tak i zástupci ČÚZK. Chtěl bych poprosit pana Součka,
jestli by mě (nás) nasměroval, kam/jak/jestli tento problém reportovat,
případně jaké další detaily by bylo vhodné dodat.

--

Zdraví,
Petr Morávek aka Xificurk

[1] https://github.com/fordfrog/ruian2pgsql/issues/24




Další informace o konferenci talk-cz