高效的Python全文搜索组件 Whoosh
fmms
13年前
<p>Whoosh 是一个纯python实现的全文搜索组件。Whoosh不但功能完善,还非常的快。<br /> <img title="whoosh_logo.png" border="0" alt="whoosh_logo.png" src="https://simg.open-open.com/show/09113632a752b54bbbe9febb6efae7e1.png" width="297" height="80" /></p> <p>Whoosh的作者是MattChaput,由Side Effects Software公司开发。项目的最初用于Houdini(Side Effects Software公司开发的3D动画软件)的在线帮助系统。Side Effects Software公司将该项目开源。</p> <p><strong>主要特性:</strong><br /> <br /> * 敏捷的API(Pythonic API)。<br /> * 纯python实现,无二进制包。程序不会莫名其妙的崩溃。<br /> * 按字段进行索引。<br /> * 索引和搜索都非常的快 -- 是目前最快的纯python全文搜索引擎。<br /> * 良好的构架,评分模块/分词模块/存储模块等各个模块都是可插拔的。<br /> * 功能强大的查询语言(通过pyparsing实现功能)。<br /> * 纯python实现的拼写检查(目前唯一的纯python拼写检查实现)<br /> <br /> 为啥选择Whoosh <br /> <br /> * 纯python实现,省了编译二进制包的繁琐过程。<br /> * python代码比java更容易读懂,而且用起来也更方便。(翻者注:这个容易引发口水)<br /> * 在很多时候易用性比单纯的最求速度更重要。<br /> <br /> Whoosh从其他的开源搜索引擎中获取了大量的灵感。 基础构建参考Lucene,使用KinoSearch的索引算法,部分评分算法来自Terrier,英文的词语态变化来自Minion.<br /> <br /> </p> <p><strong>项目主页:</strong><a href="http://www.open-open.com/lib/view/home/1325419211218" target="_blank">http://www.open-open.com/lib/view/home/1325419211218</a></p>