[OSM-talk-be] import AGIV CRAB-data
Sander Deryckere
sanderd17 at gmail.com
Fri Oct 17 10:03:10 UTC 2014
Ik ben idd bezig met het onderzoeken welke tools we kunnen gebruiken om de
adressen te importeren, en nog belangrijker, te onderhouden. Gebaseerd op
scripts van Ben.
Momenteel zijn er drie pistes open.
*1.* De originele piste is gebruik maken van
http://addr.openstreetmap.fr/vlaanderen/. Deze tool kan éénmalig data als
CSV importeren. Daarna moeten mappers aanduiden welke straten compleet zijn
en welke niet. Het is hier onmogelijk om data te updaten zonder de
commentaren of classificatie te verliezen. Dus is deze tool enkel goed voor
de initiële import, en zijn er problemen voor het onderhoud.
Er is een script om de CRAB data naar een grote CSV te brengen, voor de
initialisatie. Verder zijn er geen scripts meer nodig en werkt de tool
volledig crowd-sourced.
*2.* Het genereren van wiki pagina's zoals:
http://wiki.osm.org/wiki/User:Sanderd17/AddrImport8840 (opmerking:
momenteel worden hier rechtstreeks CSV bestanden aangeboden, dus moet je de
open-data plugin van JOSM installeren om de wiki pagina te gebruiken).
Het doel bij deze is om éénmalig wiki pagina's te maken die verwijzen naar
automatisch gegenereerde CSV bestanden. Het update proces ziet er als volgt
uit:
- Download 1.6 GB data van AGIV, en pak het uit
- Download en run een python script om nieuwe CSV bestanden te maken
(tijd onbekend, genereren van 1 gemeente kost iets minder dan 1 uur, maar
door de DB structuur moet voor 1 gemeente ook de volledige DB gelezen
woden. Dus voor een volledig extract zou het lezen van de DB niet veel
langer duren)
- Upload de nieuwe CSV bestanden naar een git repo en bekijk de diff
t.o.v. de vorige versie
- Ga manueel alle wijzigingen van de diff gaan toepassen op de wiki
pagina's (de CSVs zijn per straat, dus kan je eenvoudig zien welke
bestanden nieuw, verwijderd of gewijzigd zijn om de correcte wiki lijnen
aan te passen).
Mappers moeten hier dus hun opmerkingen en status info ingeven op de wiki
pagina. Deze is zo gegenereerd dat het edits makkelijk maakt (geen tabellen
gebruikt b.v.). Updates zijn nu mogelijk, maar vereisen manuele tussenkomst
om de status ingegeven door mappers niet te verwijderen (ttz: enkel de
statusen te wijzigen van de straten die gewijzigd zijn).
Aangezien het runnen van het script tamelijk lang duurt denk ik niet dat we
kandidaten zullen hebben om het iedere week te runnen (toch niet voor jaren
aan een stuk). Ik heb er geen idee van hoe veel straten gewijzigde adressen
zullen hebben na een maand of twee, dus hoe zwaar het manuele
onderhoudswerk zal zijn.
Een ander nadeel is dat de aangeboden CSV diff files (die het verschil
tussen OSM en CRAB tonen) ook maar gegenereerd worden tijdens de update
(dus waarschijnlijk 1 keer per maand of 2). Dus als je in een gemeente aan
het mappen bent zijn de diffs op het einde van de maand niets meer waard,
en kan je ze niet gebruiken om je fouten op te sporen. Een spellingsfout in
de straatnaam maakt hier veel kans om ongezien te passeren.
*3.* On-th-fly vergelijking tussen OSM en CRAB:
sanderd17.github.io/8840.html. (Opmerking1: De pagina is enkel getest met
de meest recente versie van Firefox, en ik verwacht niet dat de pagina nu
al werkt op andere browsers. Opmerking2: ik heb de pagina nog niet werkende
gekregen met josm remotecontrol, dus momenteel kan je enkel .osm bestanden
downloaden).
Hier wordt de CRAB database omgevormd tot JSON bestanden per straat. De
webpagina gaat dan die JSON bestanden lezen, en vergelijken met data die
rechtstreeks van OSM komt via de overpass API (je moet dus even wachten tot
alle data gelezen is voor de pagina tevoorschijn komt). Voor een kleine
gemeente is de pagina verrassend snel. Dus verwacht ik niet dat het veel
problemen zal geven voor een stad.
Het update proces ziet er als volgt uit:
- Download 1.6 GB data van AGIV, en pak het uit
- Download en run een python script om nieuwe CSV bestanden te maken
(runtime is iets korter dan optie 2, omdat de OSM data nu niet moet gelezen
en vergeleken worden)
- Upload de nieuwe CSV bestanden naar een git repo of site
De voordelen van deze werkwijze zijn dat er geen manuele tussenkomst is om
de bestanden te updaten. Je moet geen diffs lezen, en het is zelfs niet
belangrijk dat de CRAB data onder versiecontrole staat. Het nadeel is dat
mappers ook geen manuele status kunnen toewijzen, en dus ook geen
opmerkingen kunnen geven.
*OPMERKINGEN:*
- De CRAB database bevat sommige adressen zonder coördinaten. Meestal is
dit omdat een bedrijf en een privé woning op hetzelfde perceel staan (soms
zelfs hetzelfde gebouw), maar een verschillende brievenbus hebben. Vaak,
maar niet altijd, zijn die alternatieve nummers zichtbaar op de brievenbus,
dus kunnen ze in OSM wel een positie krijgen als node. De tools behandelen
die adressen nog inconsistent. Zo zie je bijvoorbeeld bij de derde tool, in
de 14e Linistraat, dat er 1 missing adres is. Maar als je het OSM bestand
opent, dan zie je een leeg bestand. Dat is net omdat het ene missing adres
een adres zonder positie is in CRAB.
- Staar je niet blind op het kaartje van de eerste tool. Een kaartje
geeft een mooi overzicht, maar IMO werkt een lijst even goed. Het zou ook
mogelijk moeten zijn om een kaartje te hebben in de derde tool. Een kaartje
in een wiki pagina is iets moeilijker, maar een link naar umap is nog
altijd mogelijk.
- De automatische vergelijking (van tools 2 en 3) maakt nog geen gebruik
van afstanden. Het vergelijkt enkel welke objecten er met een bepaalde
straat en huisnummer getagged zijn in OSM, en welke er in CRAB zitten.
Controle op basis van afstand is moeilijk, omdat de CRAB positie vaak het
centrum van het perceel is, wat bij grote percelen (zoals bedrijven) wel
eens heel ver van het hoofdgebouw of de ingang kan liggen.
- CRAB data bevat niet altijd de officiële spelling van straatnamen. Zo
zijn er enkel straten met afkortingen (Zie G. Gezellestraat in CRAB, and
Guido Gezellestraat in OSM). Momenteel houdt de derde tool rekening met
afkortingen (en dit naar de tweede tool porten is niet moeilijk), maar
rekening houden met arbitraire spellingsverschillen is natuurlijk
onmogelijk. Dus zullen deze straten altijd als incompleet gemarkeerd worden
door de tools, tot iemand AGIV contacteert om de fout te melden (let op, de
versie op de straatnaamborden is ook niet de officiële spelling, de
officiële spelling kan enkel gevonden worden in gemeentedecreten).
We kunnen je natuurlijk niet weigeren om feiten te mappen. Toch niet als je
die feiten afkomstig zijn van een compatibele bron en ingegeven met een
correcte bronvermelding. Maar hou er rekening mee dat de data in de eerste
tool ondertussen wat verouderd is, en de andere tools volop in ontwikkeling
zijn, waardoor ik enkel mijn eigen gemeente geëxporteerd heb. Dus probeer
je edits lokaal te houden, en telkens een survey aan een import te koppelen.
Door een import aan een survey te koppelen krijg je ook een beter idee van
de kwaliteit van de CRAB data (op vlak van spelling en positie b.v.). Als
je probeert verschillende omgevingen in je buurt te mappen (platteland,
wijken, rijhuizen, appartementen, industrie, winkels, ...) dan zal je ook
een beter idee krijgen over dergelijke objecten het best getagged worden,
en waar CRAB data goed of slecht is.
Momenteel denk ik dat de derde werkwijze het meest succesvol zal zijn (als
dat importprobleem met JOSM opgelost wordt). Het is volledig onafhankelijk
van één persoon. Iedereen kan het script en de CRAB data downloaden en de
nodige bestanden genereren. De webpagina zelf bestaat uit pure JavaScript,
dus kan die op eender welke server (of zelfs lokaal) geïnstalleerd worden.
Buiten CRAB en OSM is er ook geen externe database nodig die moet
onderhouden worden.
Ik zou graag de mening hebben van andere mappers, over hoe automatisch of
manueel het onderhoud zou moeten gebeuren. En als iemand graag CSS
schrijft, dan is dat ook altijd welkom.
Groeten,
Sander
2014-10-17 6:43 GMT+02:00 Marc Gemis <marc.gemis at gmail.com>:
> Hallo Thomas,
>
> We hadden een volledig voorstel geschreven hoe we met de import zouden
> omgaan. De pagina's op de wiki en de site waarnaar je verwijst zijn daar
> een deel van. Jammer genoeg werd dit voorstel niet goedgekeurd op de
> import-mailing list (en dus ook niet door DWG). Het ging daarbij vooral
> over de updates en de controle van de correctheid van de gegevens. (die
> inderdaad meer dan eens te wensen overlaat).
> Momenteel wordt er achter de schermen weer druk gewerkt aan een verbeterde
> versie. Ben Abelshausen en Sander Derycke weten daar alles van.
>
> Dus met andere woorden: het mag nu niet.
>
> Wat ik wel doe is als ik twijfel aan mijn eigen nota's even controleren op
> de AGIV website of ik het bij het rechte eind heb.
>
> met vriendelijke groeten
>
> m
>
> On Thu, Oct 16, 2014 at 11:53 PM, Thomas <osm at aptum.nl> wrote:
>
>> Hi,
>>
>> Beginners question: what's the current state of affairs concerning the
>> import of the AGIV-CRAB-data?
>>
>> At http://wiki.openstreetmap.org/wiki/AGIV_CRAB_Import I read that there
>> will be a Team Approach. How I understand it, there is a consensus about
>> how to deal with the data. The page
>> http://addr.openstreetmap.fr/vlaanderen/ looks to be up and running. On
>> a very small scale imports seem to have started, but not by
>> {username}_crab-accounts, as is prescribed by the wiki.
>>
>> At
>> http://wiki.openstreetmap.org/wiki/WikiProject_Belgium/Using_AGIV_Crab_data
>> is explicedly stated: “Please do not use this procedure to upload data to
>> OSM until the Data Working Group (DWG) has approved it.”. Has this already
>> happened? The page hasn't been edited since November 2013.
>>
>> Eager to get started but apprehensive about the correct M.O. I thus
>> wonder how things are going.
>>
>> Thomas
>>
>> p.s. 't mag ook in 't Vlaams hoor; ik ben nog niet helemaal op de hoogte
>> van de etiquette op dit gebied... / Not sure about whether to write English
>> or Flemish...
>>
>> _______________________________________________
>> Talk-be mailing list
>> Talk-be at openstreetmap.org
>> https://lists.openstreetmap.org/listinfo/talk-be
>>
>>
>
> _______________________________________________
> Talk-be mailing list
> Talk-be at openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-be
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.openstreetmap.org/pipermail/talk-be/attachments/20141017/1d63c4d2/attachment.htm>
More information about the Talk-be
mailing list