大数据处理方面的 7 个开源搜索引擎

jopen 12年前

大数据是一个包括一切的术语,指的是数据集很大很复杂,他们需要特别设计的硬件和软件工具。数据集通常是 T 或者更大级别。这些数据集从各种各样的来源创建，包括传感器,收集气象信息,公开可用的信息,如杂志、报纸、文章。还包括购买交易记录、网络日志、医疗记录、军事侦察、视频和图像档案和大规模的电子商务等等。

要分析这些数据需要专门的软硬件，本文介绍 7 个开源的搜索引擎适合用于大数据处理：

1. Apache Lucene

Lucene 是apache软件基金会一个开放源代码的全文检索引擎工具包，是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。 Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

特性：

索引过程:
- 在现在流行的硬件平台上每个小时可处理超过 150GB 的数据
- 内存占用小，只需 1MB 的堆内存
- 增量索引和批量索引速度一样快
- 索引大小约为文本索引的 20-30% 大小
- 静态索引修剪
</li>
搜索算法：
- 范围搜索 - 优先返回最佳结果
- 很多强大的查询类型：短语查询、通配符查询、近似查询、范围查询等
- 可单独针对某个字段查询
- 可单独根据某个字段排序
- 多索引搜索并合并搜索结果
- 允许同步更新索引和搜索
- 灵活的门面搜索、高亮显示、结果集的联合和分组
- 快速，低内存占用和容错
- 可插入式排名模型，包括 VSM 和 Okapi MB25
- 可配置的存储引擎
- 跨平台解决方案
  - 100% 纯 Java
  - 其他语言提供索引兼容的实现

大数据处理方面的 7 个开源搜索引擎

相关资讯