DARPA宣布开源Memex搜索技术

cbgd 10年前

Memex 项目最早于 2014 年 2 月由美国国防部高级研究计划局（DARPA）发起。DARPA 于 2015 年 4 月 17 日宣布了 Memex 项目，并开源各个组件，使得政府等机构和个人可以进行高度定制化的搜索。Memex 搜索引擎的研究发起者 Chris White 表示，“互联网比人们想得要庞大得多。据统计分析，Google、微软 bing 以及雅虎搜索只收录了网络上大约5% 的内容。”“暗网”通常指互联网中无法被搜索引擎抓取到的部分（现在谷歌上已经能搜到一些暗网地址了）通常包含非法内容，包括不限于：色情、枪支弹药、毒品等。参与 Memex 项目的卡耐基梅隆大学教授 Jeff Schneider 之前表示，“该计划目前的重点是贩卖人口。但是用来研究人口贩运的算法也可以应用到其他领域。”

今年 2 月，美国国防部五角大楼的研究机构批准 Scientific American 新闻网对 Memex 进行了报道。美国国防部先进研究项目局的主管 Dan Kaufman 表示，“Memex 的理念简化来说就是——如何挖掘不易被发现的东西。”目前，DARPA 在 Apache 许可证下开源了 Memex 项目开发的工具。其中，大部分软件源代码托管在 GitHub 上。根据福布斯网站的公布，参与 Memex 项目的机构主要有：

Uncharted Software 开发了前端接口 TellFinder 和 DIG；
ArrayFire 公司开发了通过 GPU 加速计算和网页搜索的软件库 ArrayFile；
卡耐基梅隆大学开发了 TJBatchExtractor，用于在广告中提取名字、位置等数据信息；
Diffeo 公司开发了 Dossier Stack，主要负责分析用户的兴趣，为搜索结果的展示提供建议；
Hyperion Gray 公司的爬虫用来复制用户与网站的交互情况；
Jet Propulsion Laboratory 机构搭建了 ImageCat、FacetSpace、LegisGATE 和 ImageSpace 等四个组件，用于分析和操作图像和文字；
MIT 林肯实验室编写了 Text.jl、MITIE 和 Topic 三个自然语言处理工具；
纽约大学联合 JPL 和 Continuum 创建了 Topic 接口来帮组用户与爬虫进行交互；
Sotera Defense Solution 创造了 Data Wake，用于收集用户可以点击、可能点击或者已经点击过的链接；
SRI International 开发了 Hidden Service Forum Spider 暗爬虫，用于从暗服务中抓取内容；
斯坦福大学开发了 DeepDive，用于把文字和多媒体转变成为知识库，从而在不同人和组织之间创建连接关系。

通过这诸多机构的参与，Christ White 表示，他们想要动摇谷歌、雅虎和微软控制的搜索行业。不过，不论 Memex 的能力有多强大，其目的只是降低犯罪率，而不是侵犯大多数人的隐私。同时，它也有助于更好的理解互联网信息的庞大性。

来自: InfoQ

DARPA宣布开源Memex搜索技术

相关资讯