<div dir="ltr">Hi Dave,<div><br></div><div>The detector needs to be "trained" on what a spam changeset looks like versus what a normal changeset looks like. Training really means programming the detector by example. </div><div><br></div><div>Once we have a good set of example changesets, going forward, it will find them on its own. </div><div><br></div><div>Rather than having me or Fredrick decide what is SPAM is or not, getting a diverse set of changeset from many people will insure that the algorithm is not biased relative to where the consensus is in the project. That is why I posed this to talk not dev. People that map are needed for this task.</div><div><br></div><div>Finally, this is just a software component. It will still need to be integrated into final end user tools. By doing the specialized machine learning code first, I am hoping to get some collaborators that are interested in integrating this into tools that everybody can use. But without the curated changeset list, it is going nowhere. Long term, hopefully it will get integrated into several tools... </div><div><br></div><div>Jason</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Mon, Mar 5, 2018 at 12:42 PM, Dave F <span dir="ltr"><<a href="mailto:davefoxfac63@btinternet.com" target="_blank">davefoxfac63@btinternet.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
  
    
  
  <div text="#000000" bgcolor="#FFFFFF">
    Struggling to understand this<br>
    If users are expected to send you changeset ids, how does it "detect
    spam"?<br>
    In what way are users informed of spammy changesets?<br>
    <br>
    DaveF<div><div class="h5"><br>
    <br>
    <div class="m_-8096459650299258698moz-cite-prefix">On 05/03/2018 14:06, Jason Remillard
      wrote:<br>
    </div>
    </div></div><blockquote type="cite"><div><div class="h5">
      <div dir="ltr">
        <div>Hi, <br>
          <br>
        </div>
        This weekend I put together a SPAM detector for OSM changesets.
        <br>
        <div><br>
          <a href="https://github.com/jremillard/osm-changeset-classification" target="_blank">https://github.com/jremillard/<wbr>osm-changeset-classification</a><br>
          <br>
        </div>
        <div>You don't need to be a developer to contribute, send over
          any SPAM'y changesets you come across via a github issue, a
          pull request, or even an email to me. I just need the
          changeset id. <br>
          <br>
        </div>
        <div>The code is currently hitting 99+% accuracy detecting the
          difference between 1500 random normal edits and 1500 sketchy
          changesets that Fredrick shared with the talk-us last last
          week. This is with zero tuning, so it looks like it will work
          well.<br>
          <br>
        </div>
        <div>Jason<br>
        </div>
      </div>
      <br>
      <fieldset class="m_-8096459650299258698mimeAttachmentHeader"></fieldset>
      <br>
      </div></div><span class=""><pre>______________________________<wbr>_________________
talk mailing list
<a class="m_-8096459650299258698moz-txt-link-abbreviated" href="mailto:talk@openstreetmap.org" target="_blank">talk@openstreetmap.org</a>
<a class="m_-8096459650299258698moz-txt-link-freetext" href="https://lists.openstreetmap.org/listinfo/talk" target="_blank">https://lists.openstreetmap.<wbr>org/listinfo/talk</a>
</pre>
    </span></blockquote>
    <br>
  </div>

<br>______________________________<wbr>_________________<br>
talk mailing list<br>
<a href="mailto:talk@openstreetmap.org">talk@openstreetmap.org</a><br>
<a href="https://lists.openstreetmap.org/listinfo/talk" rel="noreferrer" target="_blank">https://lists.openstreetmap.<wbr>org/listinfo/talk</a><br>
<br></blockquote></div><br></div>