<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">On Tue, May 12, 2015 at 4:47 PM, Daniel Koć <span dir="ltr"><<a href="mailto:daniel@koć.pl" target="_blank">daniel@koć.pl</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
That said the google approach would be to infer everything from text,<br>
social and web linking analysis:<br>
name=Fred's Bakery<br>
website=<a href="http://freds.example.org/" target="_blank">http://freds.example.org/</a> [1]<br>
</blockquote>
<br>
As we already have these informations, we could just ignore the rest and make a big software effort to recognize the meaning. But that would be hard problem, involving parsing the websites.</blockquote><div><br></div><div>I help run (through keepright) a job that loads those websites.  It's goal is to determine if the website still matches the node.</div><div>The problem is not a Google scale problem: it's far smaller.</div></div></div></div>