[OSM-talk-nl] Carnaval Definitief

Stefan de Konink skinkie at xs4all.nl
Fri Jan 25 23:39:45 UTC 2008


-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA512

Martijn Verwijmeren schreef:
>>> Redelijk achterstevoren reactie.
>>>
>>> Jij bent degene die alles al in een database heeft zitten. Het is
>>> dus een kleine moeite voor je om te filteren welke namen dubbel
>>> zijn. Die laat je dus weg of doe je met de hand.
>> Iedereen heeft een database vol informatie...
> 
> Sorry, jij bent degene die dit onderwerp begon met "even door een
> database halen".

Ik zie dat je nog niet zo lang op de mailinglijst zit. En dat je, je nu
in discussies mengt waar de problemen op een compleet ander niveau
liggen dan jij denkt. Francisco van Jole heeft jaren geledes op Radio
Online gezegd dat sommige nieuwe leden communities verzieken door het
gebrek aan kennis.

Als ik zeg dat ik iets door een database ga halen, omdat als je dezelfde
operatie zou doe op een XML bestand danwel de OSM database je uren bezig
bent, heeft dat een achtergrond. Dat ik toevallig in het bezit ben van
een copy van de OSM database in een experimentele omgeving weten meer
mensen hier.

Het feit dat je spreekt oven een kleine moeite geeft weer aan dat je
niet weet waar je het over hebt. Immers de enige match die ik handmatige
heb gelegd is de relatie tussen een plaatsnaam in OSM en een carnavals
naam in Wikipedia. Buiten deze relatie is er niets beschikbaar en valt
er ook niet meer te filteren... wellicht is er nog op Nederland te
filteren op punt niveau, dan heb je het wel gehad.


Je hebt waarschijnlijk niet door dat dit een zoek actie betreft van
ongeveer 11GB aan data... want ik heb niet alleen Nederland in OSM zitten.


>>> Missende informatie kunnen mensen makkelijk toevoegen, foutieve
>>> informatie levert een slechte eerste indruk.
>> Wat een onzin :D Er is van te voren bekend welke nodes voorzien van
>> een naamkaartje, als 90% van de informatie juist is loop je wat
>> provincies af en ben je klaar.
>>
>> Aangezien het filteren van de informatie zo simpel is als het bestand
>> als CSV in lezen, en alleen towns oid nemen, denk ik niet dat je
>> helemaal op de hoogte bent wat het probleem is :)
> 
> Nu het nog in een lijstje staat is makkelijk herkenbaar waar de
> dubbelen zitten. Zowel voor een mens als een computer. Zodra je het
> in de kaart hebt gestopt is dat een stuk lastiger te zien. Je idee om
> te filteren op "town" gaat al bij mijn eerste voorbeeld (Alphen) mis.

Je ziet waarschijnlijk dat het attribuut 'place', town, city, etc.
bevat. En een referentie naar een bestaande node ID. Als jij op basis
van de data in Wikipedia kunt zeggen wat de join moet zijn om op de
juiste set uit te komen hoor ik het graag.

Zelf denk ik dat het iets sneller is om 522 puntjes langs te lopen op
een kaartje in Nederland even even te checken of het klopt.


> Als je naar een kaart zit te kijken is het ook meteen duidelijk of iets
> een carnavalsnaam of een standaard nederlandse naam is. Voor het
> herkennen van een foutieve carnavalsnaam in de kaart zul je echter over
> de kennis moeten beschikken wat de juiste naam is. Ik denk niet dat je
> veel OSM'ers kunt vinden die meer dan een handjevol carnavalsnamen uit
> hun hoofd kennen.

Het hele doel is om een carnavals kaart te maken, aangezien we alleen de
wikipedia data hebben, moeten we het daarmee doen. Filteren heeft niets
te maken met verifieren. Aangezien er een aantal 'namen' zelfs op 'wijk'
niveau werkt is alle informatie die je hier ziet netjes genoeg om mee
verder te gaan. De data set is gefiltert tot 522 punten op de kaart. Als
de Carnavals laag alleen de data bevat die we nu aanleveren kunnen we
dat dus heel snel opschonen en fixen.



Stefan
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v2.0.7 (GNU/Linux)
Comment: Using GnuPG with Mozilla - http://enigmail.mozdev.org

iD8DBQFHmnNBYH1+F2Rqwn0RChh5AJ4/BFuNfHo50irsLKWMforGu7jvbACfdQiv
Il9N5BfI2G2mv1kNRK/0VvA=
=b+sj
-----END PGP SIGNATURE-----




More information about the Talk-nl mailing list