Lucene的分析过程

jopen 12年前

回顾倒排索引的构建

注：详细文档->倒排索引的理论过程见词项词典及倒排记录表

分析操作的使用场景

1.如上，倒排索引的构建阶段

2.针对自由文本的查询阶段

QueryParser parser = new QueryParser(Version.LUCENE_36, field, analyzer);

Query query = parser.parse(queryString);

lucene的Analyzer接收表达式queryString中连续的独立的文本片段，但不会接收整个表达式。

例如：对查询语句"president obama" + harvard + professor，QueryParser会3次调用分析器，首先是处理文本“president obama”，然后是文本“harvard”，最后处理“professor”。

3.搜索结果中高亮显示被搜索内容时（即结果摘要-Snippets的生成），也可能会用到分析操作

剖析lucene分析器

抽象类Analyzer

Analyzer类是一个抽象类，是所有分析器的基类。

其主要包含两个接口，用于生成TokenStream（所谓TokenStream，后面我们会讲到，是一个由分词后的Token 结果组成的流，能够不断的得到下一个分成的Token。）。

接口：

1.TokenStream tokenStream(String fieldName, Reader reader)

2.TokenStream reusableTokenStream(String fieldName, Reader reader)

为了提高性能，使得在同一个线程中无需再生成新的TokenStream 对象，老的可以被重用，所以有reusableTokenStream 一说。