[OSM-talk-nl] NLExtract project

Just van den Broecke just at justobjects.nl
Tue Jan 24 11:49:18 UTC 2012


On 24-01-12 08:12, theun wrote:
>
>> Een andere gotcha waar ik bang voor was, nl. meertaligheid, zit ook in
>> Top10NL. Zie bestand 06west.gml.
>>
>
> Hi Frank, daar hoef je toch niet bang voor te zijn. Is juist een uitdaging.
Met "gotchas" bedoelde ik ook zaken die niet 123 evident zijn en op een 
later tijdstip als een duveltje opduiken (bijv. na 8 uur conversie). 
Bestudering van het basismodel en met name de XML schema's helpt al 
veel. Vandaar dat ik graag dit soort kennis wil bundelen waar het om 
conversies gaat. Puur tijdwinst ook door samenwerking.
>
>> <top10nl:GeografischGebied gml:id="nl.top10nl.103078931" >
>> <nen3610:identificatie>NL.TOP10NL.103078931</nen3610:identificatie>
>> <nen3610:objectBeginTijd>2008-11-24T00:00:00</nen3610:objectBeginTijd><nen3610:versieBeginTijd>2008-11-24T00:00:00</nen3610:versieBeginTijd>
>>
>> <top10nl:naam xml:lang="nl">Leeuwarden</top10nl:naam>
>> <top10nl:naam xml:lang="fy">Ljouwert</top10nl:naam>
>> <top10nl:typeGeografischGebied >plaats, bewoond
>> oord</top10nl:typeGeografischGebied>
>> <top10nl:labelPunt><gml:Point
>> srsName='urn:opengis:def:crs:EPSG::28992'><gml:pos
>> srsDimension="2">182596.785
>> 579147.489</gml:pos></gml:Point></top10nl:labelPunt>
>> <top10nl:brontype>top10vector</top10nl:brontype>
>> <top10nl:bronbeschrijving>TOP10vector 2004</top10nl:bronbeschrijving>
>> <top10nl:bronactualiteit>2004-01-01</top10nl:bronactualiteit>
>> <top10nl:bronnauwkeurigheid>2</top10nl:bronnauwkeurigheid>
>> <top10nl:dimensie>2D</top10nl:dimensie>
>> </top10nl:GeografischGebied>
>>
>> De naam "Leeuwarden" komt ook in het Fries voor, Ljouwert (met
>> xml:lang="fy").
Ook een leuke (uitdaging). NLExtract heeft hier op dit moment 3 
(configureerbare) opties voor:
1) niets doen: wordt char[] array in postgres (OGR_OPT_MULTIATTR leeg) 
(hier kan bijv GeoServer niet mee omgaan!)
2) genereer lijst in 1 enkele string  (-fieldTypeToString StringList)
3) genereer meerdere kolommen met ieder 1 waarde bijv. typeweg1, 
typeweg2 etc. (-splitlistfields) (kost aanzienlijk meer processing tijd)

Default is 2) -fieldTypeToString StringList, dan krijg je (net getest) 
bijv. dit in de kolom "naam":
(aantal,naam1,naam2,...)

(2:Wanswerd,Wânswert)
(2:Broeksterwoude,Broeksterwâld)
(1:Zuiderburen)
(2:Oosternijkerk,Easternijtsjerk)
(1:Driesumerterp)
(1:Suawoudsterveld)
(2:Warstiens,Warstiens)
(1:Olde Hôven)
(1:Quatrebras)
(1:De Brekken)
(2:Zwagerbosch,Sweagerbosk)
(1:Aldlân-Oost)
(1:Oudkerksteroudland)
(1:Zwagermieden)
(2:Lichtaard,Lichtaard)
(1:Holwerdermieden)
(2:Genum,Ginnum)
(1:De Kolken)
(1:Froskepôlle)
(2:Hantum,Hantum)
(2:Sijbrandahuis,Sibrandahûs)
(2:Damwoude,Damwâld)
(2:Hantumhuizen,Hantumhuzen)
(1:It Amelân)
(1:Ferwerderadeelsbuitendijkspolder)
(2:Hogebeintum,Hegebeintum)
(2:Blija,Blije)
(1:De Hem)
(1:De Hege Dyken)
(2:Heechterp,Heechterp)

In alle gevallen (1-3) valt echter de xml:lang waarde weg, dus weet je 
in principe niet wat welke taal heeft (volgorde hoeft m.i. niet perse 
nl,fy te zijn en indien 1 naam was dat nl of fy?)
>>
> Zo te zien kan je hier niet uithalen wat de officiële naam is. In
> Friesland Fryslân is bij ongeveer de helft van de benamingen de Friese
> versie de officiële naam en de andere helft de Nederlandse. Maar dat is
> denk ik wel weer uit de BAG te halen, die gebruikt voor zover ik gezien
> heb de officiële namen.
in de BAG zitten alleen straatnamen en woonplaatsnamen (geen 
gemeenten/provincies of gebieden als wijken/buurten). Van de straatnamen 
is in sommige gevallen ook de NEN:5825 verkorte naam aanwezig, indien 
naam groter 24 chars, maar dat is weer heel wat anders. Tenminste heb ik 
nog niet meertaligheid in BAG kunnen ontdekken.

(Voert deze discussie mogelijk te ver voor wat talk-nl beoogt,...., 
mogelijk aparte lijst?...)

Just
>
> Theun,
>
>
> _______________________________________________
> Talk-nl mailing list
> Talk-nl at openstreetmap.org
> http://lists.openstreetmap.org/listinfo/talk-nl










More information about the Talk-nl mailing list