<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii"><meta name=Generator content="Microsoft Word 14 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-reply;
        font-family:"Calibri","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri","sans-serif";}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=EN-US link=blue vlink=purple><div class=WordSection1><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>Jaakko,<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>Thank you for the explanation.  I will tweak my chunk sizes further next time.  I did so before, but they were still fairly large and took a few hours per upload.  Reducing them might take longer, but if that fixes duplication I will do that.  Thanks.<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>- Nick<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><b><span style='font-size:10.0pt;font-family:"Tahoma","sans-serif"'>From:</span></b><span style='font-size:10.0pt;font-family:"Tahoma","sans-serif"'> Jaakko Helleranta.com [mailto:jaakko@helleranta.com] <br><b>Sent:</b> Thursday, March 22, 2012 10:47 AM<br><b>To:</b> Marc Zoss<br><b>Cc:</b> Nick Chamberlain; Josh Doe; imports@openstreetmap.org; talk-us@openstreetmap.org<br><b>Subject:</b> Duplicates in data uploads (using JOSM) -- was: Re: [Imports] [Talk-us] Uploads to City of Salisbury, MD<o:p></o:p></span></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>"With previous large uploads I have experience the same behaviour resulting in massive dupes. So I guess it is not a conversion issue."<br clear=all><o:p></o:p></p><div><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal>I don't have experience with conversions nor (mass) imports -- but I _have_ had "massive dupes" problems a number of times when uploading larger amounts of data with JOSM over a bad connection. The problem has always been related to the combination of large uploads and bad connections where (if I understand right) the JOSM data upload connection gets a hick-up at some point and isn't able to finish the job -- and doesn't leave a note for itself where it was left of. Then, because of reasons I don't _exactly_ understand there's duplication of data on the next upload(s (attempts)). <o:p></o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal>My vague understanding is that this is due to at least the fact that JOSM uploads nodes first and only after that the information about ways (i.e. which nodes belong to which ways). And then when it hasn't gotten or confirmation for succesful uploads (or it hasn't recorded that to it's data file(?)) it considers the uploaded nodes to still be new at next upload(s (attempts)).<o:p></o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal>I feel that duplication sometimes happens also to partial uploads where the ways have uploaded, too, resulting in duplicate uploaded ways but I haven't documented this well enough to say this solidly.<o:p></o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal>If you have a bad connection / feel that this may be your problem it is a good idea to tweak the JOSM Advanced upload settings (Upload > Advanced tab: "Upload data in chunks of objects. Chunk size: ____", where ____ is your number of objects per chunk. I use 200 in with my Haitian connection.<o:p></o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal>Cheers,<o:p></o:p></p></div><div><p class=MsoNormal>-Jaakko<o:p></o:p></p></div><div><p class=MsoNormal><a href="http://osm.org/user/jaakkoh">http://osm.org/user/jaakkoh</a><o:p></o:p></p></div><div><p class=MsoNormal>--<o:p></o:p></p></div><div><p class=MsoNormal><a href="mailto:jaakko@helleranta.com" target="_blank">jaakko@helleranta.com</a> * Skype: jhelleranta * Mobile: +509-37-269154  *  <a href="http://go.hel.cc/MyProfile" target="_blank">http://go.hel.cc/MyProfile</a><o:p></o:p></p></div><p class=MsoNormal style='margin-bottom:12.0pt'><br><br><o:p></o:p></p><div><p class=MsoNormal>On Thu, Mar 22, 2012 at 8:28 AM, Marc Zoss <<a href="mailto:marczoss@gmail.com">marczoss@gmail.com</a>> wrote:<o:p></o:p></p><p class=MsoNormal>Nick and Josh<br><br>thanks for the clarification on your upload strategy. With previous large uploads I have experience the same behaviour resulting in massive dupes. So I guess it is not a conversion issue.<br><br>If you want me to commit the remove duplicates changeset, I can do so. But you will have to go through the data subsequently and check if the issues are resolved and no new ones emerged.<br><br>M<br><br>On 22.03.2012, at 14:12, Nick Chamberlain wrote:<br><br>> Josh and Marc,<br>><br>> Thank you!  I apologize that I'm unable to speak the OSM language as<br>> well as everyone, I'm working on it :)  I posted on the Salisbury,<br>> Maryland Import page that Josh created to give more detail about my<br>> uploads.<br>><br>> I didn't really think that I created so many duplicates, because I did a<br>> lot of things in JOSM before I actually chose to upload.  One thing I<br>> know for sure is that I didn't I upload until I was actually able to - I<br>> was getting a proxy error and the uploads were timing out when I<br>> attempted to upload the entire batch.  I assumed that these attempts<br>> were unsuccessful, which I might be wrong about and might have resulted<br>> in duplication.<br>><br>> I assumed that my successful attempts started, maybe @ 10901673, when I<br>> realized I needed to break the original shapefile up tabularly into<br>> percentiles and upload 10 segments of the building footprint dataset,<br>> one after the other.  These were all definitely successful, and were<br>> only done once per percentile.<br>><br>> Josh, where are you finding the list of changesets in the format you<br>> posted?  I can only figure out how to list them in my editor profile<br>> with my comments.<br>><br>> If you believe that the method you mention that removes the 71,000 nodes<br>> is the best approach, please feel free to do so.  I will also gladly<br>> manually fix the inner ring tagging issue as the data gets fixed.<br>> Please let me know what I can do to help.  I am also willing to share<br>> the .osm files and/or shapefiles if that will help.  Thanks.<br>><br>> - Nick<br>><br>> -----Original Message-----<br>> From: <a href="mailto:joshthephysicist@gmail.com">joshthephysicist@gmail.com</a> [mailto:<a href="mailto:joshthephysicist@gmail.com">joshthephysicist@gmail.com</a>] On<br>> Behalf Of Josh Doe<br>> Sent: Thursday, March 22, 2012 8:51 AM<br>> To: Marc Zoss<br>> Cc: <a href="mailto:imports@openstreetmap.org">imports@openstreetmap.org</a>; <a href="mailto:talk-us@openstreetmap.org">talk-us@openstreetmap.org</a>; Nick<br>> Chamberlain<br>> Subject: Re: [Imports] [Talk-us] Uploads to City of Salisbury, MD<br>><br>> On Thu, Mar 22, 2012 at 8:04 AM, Marc Zoss <<a href="mailto:marczoss@gmail.com">marczoss@gmail.com</a>> wrote:<br>>> I briefly downloaded all sby:bldgtype-tagged ways and relation of<br>> Maryland through the overpass-api. Then removed the ones having only a<br>> sby:bldgtype tag, run the validator and deleted the duplicated nodes and<br>> ways.<br>>> This would result in a changeset to remove the roughly 71'000<br>> duplicates nodes and ways.<br>>><br>>> If the area was edited since the import and reverting gets tricky,<br>> this might be the option to go, at least the result looks ok at the<br>> first glance.<br>>><br>>> Please also note that the conversion step seems to add a building=yes<br>> tag on on inner ring of building polygons () which is certainly bad<br>> tagging, despite the correct rendering (52 occurrences, so could be<br>> fixed manually).<br>><br>> Thanks for doing that, as that was the next step I was going to try. I<br>> posted some regarding the changesets here:<br>> <a href="http://wiki.openstreetmap.org/wiki/User_talk:Nick_SPW#Salisbury.2C_Maryl" target="_blank">http://wiki.openstreetmap.org/wiki/User_talk:Nick_SPW#Salisbury.2C_Maryl</a><br>> and_import<br>><br>> I think perhaps we should revert a subset of the changesets, such as the<br>> dangling nodes, and then use your method to handle the rest.<o:p></o:p></p><div><div><p class=MsoNormal>><br>> -Josh<br><br><br>_______________________________________________<br>Imports mailing list<br><a href="mailto:Imports@openstreetmap.org">Imports@openstreetmap.org</a><br><a href="http://lists.openstreetmap.org/listinfo/imports" target="_blank">http://lists.openstreetmap.org/listinfo/imports</a><o:p></o:p></p></div></div></div><p class=MsoNormal><o:p> </o:p></p></div></body></html>