[OSM-talk-nl] BAG en Top10NL PostGIS dumps van april 2015

Pander OpenTaal pander at opentaal.org
Wed Jun 10 12:45:58 UTC 2015


On 06/10/2015 01:03 AM, St Niklaas wrote:
> Hi Just,

Pander :)

>  
> Probleem BAG meldingen gaan naar het kadaster, die zijn echter wel
> gemeentelijk georienteerd. Zonder gemeente naam of code  sturen ze een
> melding als onbestelbaar retour, niet vriendelijk maar uitzoeken is
> nachtwerk.
>  
> Mvg
>  
> Nick

Ik heb mijn script nu zeer generiek gemaakt en deze rapporteert nu voor
alle interessante kolommen in de BAG-export:
- TSV-bestand met histogram van waarden
- TSV-bestand histogram van gebruikte karakters
en het maakt een CSV-bestand met de desbetreffende regels waar een fout
in zit.

De fouten heb ik aan dit bericht toegevoegd. Het zijn fouten in 179
adressen die voorkomen uit maar 7 fouten in straatnamen. Wie kan dat
doorzetten?

De TSV-bestanden zijn interessant als je statistische gegevens over
Nederlandse adressen wil hebben en BAG-export op fouten wil controleren.
Hieronder staat voor een aantal bestanden de eerste en de laatste vijf
regels met korte toelichting:



Meeste adressen per provincie zijn in Zuid-Holland en de minste in
Flevoland:
histogram_values_provincie.tsv
1867916	Zuid-Holland
1479784	Noord-Holland
1218314	Noord-Brabant
1003293	Gelderland
614422	Utrecht
...
346361	Friesland
303551	Groningen
250258	Drenthe
221034	Zeeland
183197	Flevoland



Meeste en minste adressen betreft gemeentes zijn:
histogram_values_gemeente.tsv
473108	Amsterdam
352579	Rotterdam
281475	's-Gravenhage
164292	Utrecht
114006	Eindhoven
...
2700	Haarlemmerliede en Spaarnwoude
2118	Renswoude
1466	Schiermonnikoog
1189	Vlieland
671	Rozendaal



In de namen van gemeentes komen de volgende karakters veel en zeer
zelden voor:
histogram_chars_gemeente.tsv
654	e
317	n
276	r
248	a
202	l
...
2	.
2	'
1	ú
1	â
1	,



Naast de gemeentes zijn er de woonplaatsen met aantal adressen:
histogram_values_woonplaats.tsv
473108	Amsterdam
318470	Rotterdam
281475	's-Gravenhage
145927	Utrecht
114006	Eindhoven
...
7	Ossenwaard
6	Breezanddijk
6	Idzega
5	Smallebrugge
5	Geelbroek



Ook deze hebben ongebruikelijke karakters:
histogram_chars_woonplaats.tsv
3597	e
1615	r
1590	n
1198	a
1190	o
...
4	û
2	2
1	1
1	é
1	ú



Als je de Postcodestaatsloterijwhatever belangrijk vindt denk maar eens
na of dit invloed heeft op jouw leven en of je moet verhuizen:
histogram_values_postcode.tsv
1192	3781PP
837	3896LD
821	1083HP
811	4325DM
792	6598LA
...
1	2743CH
1	7957ED
1	8064XM
1	3371SP
1	5091JK



De meeste postcodes bevatten een '1' en zeer zelden een 'U':
histogram_chars_postcode.tsv
304752	1
229836	2
212903	3
195599	5
177934	4
...
23	O
18	Q
7	Y
4	F
1	U



Meeste adressen hebben geen huisnummertoevoeging, maar als er die is, is
het meestal een '1' of '2' en zeer zelden lange toevoegingen, al kunnen
die wel complex zijn:
histogram_values_huisnummertoevoeging.tsv
8062787	
58224	1
52691	2
41433	H
39908	3
...
1	R348
1	A87
1	3329
1	k03I
1	18b



De meeste huisnummers zijn een '1', daarna een '2' en ga maar door. De
meest zeldzame zijn vrij lang. Die mensen kun je post sturen zonder
woonplaats, postcode of straatnaam. Dat laatste zou je ook over zeldzame
huisnummertoevoegingen kunnen zeggen:
histogram_values_huisnummer.tsv
245526	1
229318	2
197155	3
196194	4
189590	5
1	5269
1	4090
1	16524
1	5841
1	23010



Ik weet niet exact wat dit is maar er zijn 26294 nevenadressen in Nederland:
histogram_values_nevenadres.tsv
8599746	f
26294	t



Weet iemand wat dit voor informatie is? VBO=? STA=staplaats? LIG=ligplaats?
histogram_values_object_type.tsv
8599234	VBO
14963	STA
11843	LIG



De gewone man woont in de Dorpsstraat. Zou er iemand wonen in
Metrostation Wibautstraat? Is er een boerderij op de Weelhoekweg?
histogram_values_openbareruimte.tsv
27335	Dorpsstraat
22191	Kerkstraat
17289	Hoofdstraat
15106	Molenstraat
14611	Schoolstraat
...
1	Waldfeuchterweg
1	Metrostation Wibautstraat
1	Hilweg
1	Herschelpad
1	Weelhoekweg



Straatnamen kunnen dus ook ongebruikelijke karakters bevatten:
histogram_chars_openbareruimte.tsv
232432	e
183629	a
136113	r
124896	t
110114	n
...
1	,
1	î
1	Á
1	ñ
1	ř



Afijn, een hele berg data ter lering en vermaak. Stichting OpenTaal kan
aan de hand van deze statistieken beter beslissen welke namen, die we
via meerdere wegen bijgedragen gekregen hebben, op te nemen in de
Nederlandse spellingcontrole.

Wie is dé persoon die met de export van BAG regulier aan de slag gaat
voor OSM en andere open toepassingen? Graag zou ik mijn script willen
doneren die naast TSV en CSV ook kan rapporteren in HTML en XML. Op die
manier orden deze lijsten en statistische gegevens makkelijker ontsloten
aan iedereen die met adresinformatie te maken heeft.

Groeten,

Pander
-- 
Stichting OpenTaal
http://opentaal.org
http://twitter.com/opentaal
-------------- next part --------------
A non-text attachment was scrubbed...
Name: errors.csv
Type: text/csv
Size: 26440 bytes
Desc: not available
URL: <http://lists.openstreetmap.org/pipermail/talk-nl/attachments/20150610/fbf51356/attachment.csv>


More information about the Talk-nl mailing list