[OSM-talk-nl] BAG en Top10NL PostGIS dumps van april 2015
Pander OpenTaal
pander at opentaal.org
Wed Jun 10 12:45:58 UTC 2015
On 06/10/2015 01:03 AM, St Niklaas wrote:
> Hi Just,
Pander :)
>
> Probleem BAG meldingen gaan naar het kadaster, die zijn echter wel
> gemeentelijk georienteerd. Zonder gemeente naam of code sturen ze een
> melding als onbestelbaar retour, niet vriendelijk maar uitzoeken is
> nachtwerk.
>
> Mvg
>
> Nick
Ik heb mijn script nu zeer generiek gemaakt en deze rapporteert nu voor
alle interessante kolommen in de BAG-export:
- TSV-bestand met histogram van waarden
- TSV-bestand histogram van gebruikte karakters
en het maakt een CSV-bestand met de desbetreffende regels waar een fout
in zit.
De fouten heb ik aan dit bericht toegevoegd. Het zijn fouten in 179
adressen die voorkomen uit maar 7 fouten in straatnamen. Wie kan dat
doorzetten?
De TSV-bestanden zijn interessant als je statistische gegevens over
Nederlandse adressen wil hebben en BAG-export op fouten wil controleren.
Hieronder staat voor een aantal bestanden de eerste en de laatste vijf
regels met korte toelichting:
Meeste adressen per provincie zijn in Zuid-Holland en de minste in
Flevoland:
histogram_values_provincie.tsv
1867916 Zuid-Holland
1479784 Noord-Holland
1218314 Noord-Brabant
1003293 Gelderland
614422 Utrecht
...
346361 Friesland
303551 Groningen
250258 Drenthe
221034 Zeeland
183197 Flevoland
Meeste en minste adressen betreft gemeentes zijn:
histogram_values_gemeente.tsv
473108 Amsterdam
352579 Rotterdam
281475 's-Gravenhage
164292 Utrecht
114006 Eindhoven
...
2700 Haarlemmerliede en Spaarnwoude
2118 Renswoude
1466 Schiermonnikoog
1189 Vlieland
671 Rozendaal
In de namen van gemeentes komen de volgende karakters veel en zeer
zelden voor:
histogram_chars_gemeente.tsv
654 e
317 n
276 r
248 a
202 l
...
2 .
2 '
1 ú
1 â
1 ,
Naast de gemeentes zijn er de woonplaatsen met aantal adressen:
histogram_values_woonplaats.tsv
473108 Amsterdam
318470 Rotterdam
281475 's-Gravenhage
145927 Utrecht
114006 Eindhoven
...
7 Ossenwaard
6 Breezanddijk
6 Idzega
5 Smallebrugge
5 Geelbroek
Ook deze hebben ongebruikelijke karakters:
histogram_chars_woonplaats.tsv
3597 e
1615 r
1590 n
1198 a
1190 o
...
4 û
2 2
1 1
1 é
1 ú
Als je de Postcodestaatsloterijwhatever belangrijk vindt denk maar eens
na of dit invloed heeft op jouw leven en of je moet verhuizen:
histogram_values_postcode.tsv
1192 3781PP
837 3896LD
821 1083HP
811 4325DM
792 6598LA
...
1 2743CH
1 7957ED
1 8064XM
1 3371SP
1 5091JK
De meeste postcodes bevatten een '1' en zeer zelden een 'U':
histogram_chars_postcode.tsv
304752 1
229836 2
212903 3
195599 5
177934 4
...
23 O
18 Q
7 Y
4 F
1 U
Meeste adressen hebben geen huisnummertoevoeging, maar als er die is, is
het meestal een '1' of '2' en zeer zelden lange toevoegingen, al kunnen
die wel complex zijn:
histogram_values_huisnummertoevoeging.tsv
8062787
58224 1
52691 2
41433 H
39908 3
...
1 R348
1 A87
1 3329
1 k03I
1 18b
De meeste huisnummers zijn een '1', daarna een '2' en ga maar door. De
meest zeldzame zijn vrij lang. Die mensen kun je post sturen zonder
woonplaats, postcode of straatnaam. Dat laatste zou je ook over zeldzame
huisnummertoevoegingen kunnen zeggen:
histogram_values_huisnummer.tsv
245526 1
229318 2
197155 3
196194 4
189590 5
1 5269
1 4090
1 16524
1 5841
1 23010
Ik weet niet exact wat dit is maar er zijn 26294 nevenadressen in Nederland:
histogram_values_nevenadres.tsv
8599746 f
26294 t
Weet iemand wat dit voor informatie is? VBO=? STA=staplaats? LIG=ligplaats?
histogram_values_object_type.tsv
8599234 VBO
14963 STA
11843 LIG
De gewone man woont in de Dorpsstraat. Zou er iemand wonen in
Metrostation Wibautstraat? Is er een boerderij op de Weelhoekweg?
histogram_values_openbareruimte.tsv
27335 Dorpsstraat
22191 Kerkstraat
17289 Hoofdstraat
15106 Molenstraat
14611 Schoolstraat
...
1 Waldfeuchterweg
1 Metrostation Wibautstraat
1 Hilweg
1 Herschelpad
1 Weelhoekweg
Straatnamen kunnen dus ook ongebruikelijke karakters bevatten:
histogram_chars_openbareruimte.tsv
232432 e
183629 a
136113 r
124896 t
110114 n
...
1 ,
1 î
1 Á
1 ñ
1 ř
Afijn, een hele berg data ter lering en vermaak. Stichting OpenTaal kan
aan de hand van deze statistieken beter beslissen welke namen, die we
via meerdere wegen bijgedragen gekregen hebben, op te nemen in de
Nederlandse spellingcontrole.
Wie is dé persoon die met de export van BAG regulier aan de slag gaat
voor OSM en andere open toepassingen? Graag zou ik mijn script willen
doneren die naast TSV en CSV ook kan rapporteren in HTML en XML. Op die
manier orden deze lijsten en statistische gegevens makkelijker ontsloten
aan iedereen die met adresinformatie te maken heeft.
Groeten,
Pander
--
Stichting OpenTaal
http://opentaal.org
http://twitter.com/opentaal
-------------- next part --------------
A non-text attachment was scrubbed...
Name: errors.csv
Type: text/csv
Size: 26440 bytes
Desc: not available
URL: <http://lists.openstreetmap.org/pipermail/talk-nl/attachments/20150610/fbf51356/attachment.csv>
More information about the Talk-nl
mailing list