<div dir="ltr">Great research Frederik!<div><br></div><div class="gmail_extra"><div><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div style="font-family:arial;font-size:small"><div><i>~~~~~~</i></div><div><i><b>Denis Carriere</b></i></div></div></div></div></div></div></div></div></div></div></div></div>
<br><div class="gmail_quote">On Wed, Jul 5, 2017 at 5:05 PM, Frederik Ramm <span dir="ltr"><<a href="mailto:frederik@remote.org" target="_blank">frederik@remote.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi,<br>
<br>
> These spam changes do not need that complexity to detect.<br>
<br>
I've done some numbers, maybe it helps.<br>
<br>
I counted all users that only ever commited one changeset with one edit<br>
inside. This number is 140352.<br>
<br>
Then I discarded those where the changeset comment was shorter than 50<br>
characters or where the content had been redacted long time ago, leaving<br>
me with 12173.<br>
<br>
Then I looked at the objects modified/created, and discarded all where<br>
the object had neither website, nor description, nor note tag. This left<br>
me with 3323 objects.<br>
<br>
Then I looked at the list and found a broad range of edits. Some, while<br>
having an advertising slant, seem a legit addition of someone's own<br>
business:<br>
<br>
user=Martin Merkur<br>
changeset=38362589<br>
comment=Our doors are always open.  Come and visit, taste our coffee,<br>
see what we do<br>
object=node <a href="tel:4103514010" value="+14103514010">4103514010</a><br>
addr:city=Berlin;addr:<wbr>housenumber=38;addr:postcode=<wbr>12435;addr:street=Elsenstraße;<wbr>amenity=cafe;cuisine=coffee_<wbr>shop;internet_access=no;name=<wbr>passenger<br>
coffee;note=<a href="https://www.facebook.com/PassengerEspresso/;opening_hours=7:30-15:00" rel="noreferrer" target="_blank">https://www.<wbr>facebook.com/<wbr>PassengerEspresso/;opening_<wbr>hours=7:30-15:00</a><br>
Uhr;smoking=outside;website=<a href="http://passenger-coffee.de" rel="noreferrer" target="_blank">pa<wbr>ssenger-coffee.de</a><br>
<br>
or<br>
<br>
user=otheryan<br>
changeset=13150739<br>
comment=Added in West Town Bikes as it is at the same address and has<br>
enough of its own activity that it needs to be recognized on the map.<br>
object=node 1585399965<br>
addr:housenumber=2459;addr:<wbr>postcode=60622;addr:street=W<br>
Division;name=Ciclo Urbano/West Town<br>
Bikes;shop=bicycle;website=<a href="http://ciclourbanochicago.com/" rel="noreferrer" target="_blank">htt<wbr>p://ciclourbanochicago.com/</a><br>
<br>
some look more SEO-y<br>
<br>
user=northcarolinahealth<br>
changeset=43324244<br>
comment=Updated Osborne Insurance Services at Raleigh, NC<br>
object=node 4474950186<br>
addr:city=Raleigh;addr:<wbr>housenumber=5316;addr:<wbr>postcode=27609;addr:state=NC;<wbr>addr:street=Six<br>
Forks Road;hours=Mon-Fri<br>
:8.00AM-6.00PM;name=Osborne Insurance<br>
Services;phone=919-845-9955;<wbr>suite=110;website=<a href="http://northcarolinahealth.org" rel="noreferrer" target="_blank">http://<wbr>northcarolinahealth.org</a><br>
<br>
or<br>
<br>
user=blakemanhart<br>
changeset=43027180<br>
comment=Updated State Farm - Blake Manhart at Springfield, VA<br>
object=node <a href="tel:4456153164" value="+14456153164">4456153164</a><br>
addr:city=Springfield;addr:<wbr>housenumber=8322;addr:<wbr>postcode=22152;addr:state=VA;<wbr>addr:street=Traford<br>
Ln #B;name=State Farm -<br>
Blake Manhart;Owner=Blake<br>
Manhart;phone=<a href="tel:703-992-9664" value="+17039929664">703-992-9664</a>;website=<a href="http://blakemanhart.com" rel="noreferrer" target="_blank">http://<wbr>blakemanhart.com</a><br>
<br>
I had a look at trying to automatically match website and user name; 457<br>
of them actually contain the user name in the web site. but that is a<br>
too coarse check. I fear that it might be necessary to look through the<br>
rest manually to detect the dodgy ones.<br>
<br>
Of the 3323, 208 have a highway tag. But here it bites me that I took<br>
everything that had either note or description or website, because some<br>
of the edits with highway=* are legit and have a description/note where<br>
the newbie mapper explained what they did. 170 of the 208 do have a<br>
website tag, and finally, they *all* seem dodgy. (Interestingly it was<br>
not all ways - some highway=traffic_signals too!)<br>
<br>
I've run a revert on these 170 but the majority had already been fixed<br>
by others!<br>
<br>
That leaves us with a good 3115 objects to investigate. Many do clearly<br>
violate our "no advertising" rules but then again we don't want to bee<br>
to harsh with the cycle shop owner who maybe oversteps the line.<br>
<br>
I've put my interim results here<br>
<br>
<a href="http://www.remote.org/frederik/tmp/username-in-url.csv" rel="noreferrer" target="_blank">http://www.remote.org/<wbr>frederik/tmp/username-in-url.<wbr>csv</a><br>
<br>
(for those where the username is in the URL) - do you think we should<br>
revert them all automatically? (Keep in mind many may have been reverted<br>
already - we'd only work on those where the spam version is still current.)<br>
<br>
and<br>
<br>
<a href="http://www.remote.org/frederik/tmp/other.csv" rel="noreferrer" target="_blank">http://www.remote.org/<wbr>frederik/tmp/other.csv</a><br>
<br>
for those where the username is not (fully) in the URL.<br>
<br>
Bye<br>
<span class="HOEnZb"><font color="#888888">Frederik<br>
<br>
--<br>
Frederik Ramm  ##  eMail <a href="mailto:frederik@remote.org">frederik@remote.org</a>  ##  N49°00'09" E008°23'33"<br>
<br>
______________________________<wbr>_________________<br>
Talk-us mailing list<br>
<a href="mailto:Talk-us@openstreetmap.org">Talk-us@openstreetmap.org</a><br>
<a href="https://lists.openstreetmap.org/listinfo/talk-us" rel="noreferrer" target="_blank">https://lists.openstreetmap.<wbr>org/listinfo/talk-us</a><br>
</font></span></blockquote></div><br></div></div>