微软和Google如何让搜索引擎理解互联网

openkk 12年前
   <p> 搜索引擎爬虫抓取和索引了海量的网页内容,但内容的意义则是一无所知,它们并不能像人类那样区分同一个词的不同含义。它们抓取的只是网页中的单词,而不是语义。从一开始,搜索引擎本质上是匹配文本字符串。</p>    <p>     <a href="/misc/goto?guid=4958343322073223541">让字符串和语义匹配起来是搜索引擎公司努力实现的方向</a>,微软和 Google 正更新其搜索引擎:微软的 Satori 和 Google 的 Knowledge Graph 能提取出网页中的非结构性数据,创造一个互联网“名词”——人、位置、物及彼此关系——的结构性数据库。它们正部分实现雅虎研究院研究人员在 2009 年的一篇论文《<a href="/misc/goto?guid=4958343322875731853">A Web of Concepts</a>》(PDF)中提出的设想,论文定义了创造真正语义 Web 的三大关键要素:信息提取,链接和分析。微软和 Google 刚刚开始融入语义的力量:Satori 映射了 4 亿多实体,而 Knowledge Graph 达到了 5 亿,只是整个互联网的沧海一粟。</p>    <div id="come_from">    来自:     <a id="link_source2" href="/misc/goto?guid=4958343323684846789" target="_blank">Solidot</a>    </div>