Lucene4.0 / Solr 4.0 的新特性
jopen 12年前
<p>Lucene 和 Solr 4.0 是一个非常重要的里程碑,包含大量的新特性以及性能的提升,本文主要介绍值得关注的一些改进。<br /> <br /> <strong>Lucene:</strong></p> <ul> <li><strong>ColumnStrideFields:</strong> DocValues 存储在每个文档中,每个文档的域可包含一个给定类型的值</li> <li><strong>Facet search</strong>, 这个功能已经包含在 Solr 中,现在 Lucene 也提供了</li> <li>通过 <strong>灵活的索引</strong> 用户可自行修改 fields, terms, docs 和 positions 在索引的编码方式</li> <li>增加了不同的相关排名系统</li> <li>增加了用于支持 append-only 文件系统的编码 (例如 Hadoop DFS).</li> <li>增加 DirectSpellChecker 可直接从 Levenshtein 自动字典检索校正</li> <li>文本词条使用 UTF-8 编码存储,而不再是 UTF-16</li> <li>大幅提升搜索时使用过滤器的性能</li> <li>FuzzyQuery 性能提升 100-200 倍</li> <li>增加索引统计,包括词条的关键字数等</li> <li>增加 RegexpQuery 正则表达式查询</li> </ul> <p><strong>Solr:</strong> </p> <p>Solr 4.0-alpha 包含更多 NoSQL 特性,适用于很多人将 Solr 做为数据存储解决方案。</p> <ul> <li>分布式索引设计,提供近乎实时的操作和 NoSQL 特性,如 realtime-get, 乐观锁和持续更新。</li> <li>高可用性,无单点故障</li> <li>集成 Apache Zookeeper 用于分布式协调、元数据集群以及配置存储</li> <li>发往集群节点中的更新操作将自动转到正确的分片以及复制到冗余节点</li> <li>发往任意节点的查询会自动执行全分布式搜索,提供负载均衡和故障自动迁移</li> <li>事务日志确保不会丢失任何一个未提交的文档</li> <li>Real-time Get ? 可快速获取文档的最新版本,无需提交或者打开一个新的 Searcher</li> <li>原子更新,可添加、删除、修改和增加已存在文档的字段值,无需再次传送整个文档</li> <li>Pivot Faceting ? 多层次约束每一个不同 field 的顶级约束。</li> <li>Pseudo-Join 功能? 可基于关联度来选择一组文档</li> <li>新的 Web 管理界面,支持 SolrCloud.</li> </ul> <p><strong>参考:</strong><br /> <a href="/misc/goto?guid=4958347180724822368" rel="nofollow" target="_blank">http://lucene.apache.org/core/4_0_0-ALPHA/changes/Changes.html</a><br /> <a href="/misc/goto?guid=4958186452675297062" rel="nofollow" target="_blank">http://lucene.apache.org/solr/</a></p>