[Talk-se] Ortnamnsimport från Lantmäteriets GSD-Terrängkartan

Fri Jan 17 20:35:33 UTC 2020

Hej Andreas, stort tack för feedback! Här är mina kommentarer.

> Exempelvis förekommer Hjortseryd två gånger, med en brytlinje mellan två
> kartblad mellan dem båda. Kommer sådana dubbletter kollas av?
Sådan koll kan jag enkelt lägga till i skriptet. Men ditt exempel med Hjortseryd
visar bara att det kan finnas två platser med samma namn på bara 1,16 km avstånd.

Här är varför.
Importsfilerna har tre noder med namn "Hjortseryd":
tx_07.osm: lat="56.706179333" lon="13.412860079"
tx_10.osm: lat="56.385103802" lon="15.291224794"
tx_10.osm: lat="56.374758939" lon="15.292829751"
En by ligger lång bortifrån andra, och två byar finns nära varandra.
Här är de på Terrängkartan.
Alla tre noder:  https://i.stack.imgur.com/2hKsL.png
De två nära:  https://i.stack.imgur.com/yWzRN.png

Trots att det verkligen är konstigt att man kallar två närliggande byar samma
namn, är de verkligen två enstaka gårdar, men sina egna gränser osv.
Även Ekonomiska kartan håller med detta: https://i.stack.imgur.com/NpZQw.png
Nu får man kanske inte kolla på icke-öppna data... Hur som helst, andra källor
tycker också att de är enstaka lika nämnda byar.
1. Eniro.se visar samma två byar som "Hjortseryd, ERINGSBODA".
2. Hitta.se visar dem som "Hjortseryd, Eringsboda" och "Hjortseryd, Ronneby".
   De har till och med olika postnummer.

Oavsett alla bevis kan det ändå bli ett enormt fel i namn, men alla partier verkar
tro på det.

> Detta har jag gjort genom att rita en farmyard runt gården och sätta
> name-tagg på denna. Dessa dubbletter måste det kontrolleras mot.
På detta har jag redan funderat. Det är enkelt att implementera (jag
utelämnar nu tekniska detaljer om hur), men frågan är om det verkligen behövs.
Jag har sett flera exempel när t ex ett bostadsområde har sitt namn på den
sträcka som omger det *samt* som en enstaka nod någonstans inuti. Det är vettigt
när områdets logiska center inte sammanfaller med dess geometriskt center. Till
exempel kan ett logiskt center finnas på ett torg medan det geometriska centret
kan hamna i ett skogsparti.

> Dessa bör antagligen städas bort, då de naturligtvis inte ska
> taggas som village eller liknande och datan troligen dubblerar sådant som
> ligger inlagt med boundary-taggar.

Jag har öppnat tx_01.osm för Stockholm och har laddat ner befintliga platser
(med Overpass-API) för samma område. Här är jämförelsen.

Befintliga data:  https://i.stack.imgur.com/BCQ4i.jpg
De flesta noderna är place=suburb, place=town, bara ett fåtal place=village.

Nya data:  https://i.stack.imgur.com/8DZn2.jpg
Hela filen innehåller endast place=isolated_dwelling, place=hamlet (småort),
place=locality och ett fall place=town. Inga place=village alls.
Småort är ett officiellt begrepp vilket jag tror är rimligt att använda även nära
stora städer: https://sv.wikipedia.org/wiki/Sm%C3%A5ort : "definieras som en
samlad bebyggelse med 50–199 invånare, där det är högst 150 meter mellan husen."
Om du kan förse mig med ett exempel där du tror etiketterna var felvalda då kan
jag försöka åtgärda detta.

> I Lund såg jag att "Norra Fäladen" radbrutits och detta gjort att datan av
> någon anledning blivit dubblerad, med en place-tagg med namn "Norra" och en
> med namn "Fäladen".
Orsaken till detta förklarades i importplanen. Eventuell radbrytning är åtgärdad
i skriptet, jag behöver lära det känna igen fler mönster. Det kommer jag att göra.

> "Gullåkra" har inte fått träff mot "Gullåkra by", trots att noderna är
> placerade nästan på varandra.
Jag har sökt i Internet, och det verkar att "Gullåkra by" inte är byns
officiella namn, däremot är "Gullåkra" det korrekta namnet. Importen kan
inte rätta mänskliga fel i befintliga data, men den kan hjälpa med att upptäcka
dem, precis som du har gjort.

> efter att ha tvättat den i områden de har hyfsad lokalkännedom så
> de kan bedöma datans lämplighet.
Hela poängen i vilken import finns i att man inte behöver personligen undersöka
en plats. Istället använder man information samlad av myndigheterna (för vilket
betalar man skatt för, bland annat). Värför spendera hundratals människaår ideella
arbete för att kartlägga samtliga ortnamn när Lantmäteriet redan har spenderat
massor tid och pengar på detta?

Det kommer säkert att förekomma enstaka fel i importdatan, men fördelar
överstiger betydligt nackdelar. Låt mig illustrera det med siffror.

Sveriges OSM-kartan har just nu ungefär 68000 noder med ortnamn. Lantmäteriets data
innehåller cirka 154000 ortnamn. Om vi föreställer oss att Lantmäteriet känner
samtliga ortnamn, betyder det att OSM-kartan saknar 86000 noder,
eller har 55% fel. Då räknar jag en utebliven nod som fel. Här struntar vi i
OSM:s befintliga stavfel, positionsfel osv., annars skulle förhållandet ha blivit
ännu värre.

När vi importerar nya noder kommer vi säkert introducera nya fel:
dubbletter, felstavningar osv. Låt oss föreställa oss att importen går såpass
dåligt att vi introducerar 1% fel på nya noder. Det betyder att vi lägger till
860 nya fel in i databasen.

Efter importen har vi således total 154000 noder i databasen varav 860 är felaktiga.
Det resulterande felförhållandet blir bara 0.6%.
Med andra ord, att riskera introducera få nya fel med importen är passande om
det förbättrar databasens täckning.

С наилучшими пожеланиями,
Григорий Речистов.
Med vänliga hälsningar,
Grigory Rechistov
With best regards,
Grigory Rechistov

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.openstreetmap.org/pipermail/talk-se/attachments/20200117/e7e25cca/attachment.htm>