Python 中文分词库“Yaha

jopen 12年前

"哑哈"中文分词，更快或更准确，由你来定义。通过简单定制，让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha

基本功能：

精确模式，将句子切成最合理的词。
全模式，所有的可能词都被切成词，不消除歧义。
搜索引擎模式，在精确的基础上再次驿长词进行切分，提高召回率，适合搜索引擎创建索引。
备选路径，可生成最好的多条切词路径，可在此基础上根据其它信息得到更精确的分词模式。

可用插件：

正则表达式插件
人名前缀插件
地名后缀插件
定制功能。分词过程产生4种阶段，每个阶段都可以加入个人的定制。

附加功能：

新词学习功能。通过输入大段文字，学习到此内容产生的新老词语。
获取大段文本的关键字。
获取大段文本的摘要。
支持用户自定义词典

Algorithm

核心是基于查找句子的最大概率路径来进行分词。
保证效率的基础上，对分词的各个阶段进行定义，方便用户添加属于自己的分词方法(默认有正则，前缀名字与后缀地名)。
用户可自定义使用动态规划或Dijdstra算法得到最优的一条或多条路径，再次可根据词性(中科大ictclas的作法)等其它信息得获得最优路径。
使用“最大熵”算法来实现对大文本的新词发现能力，很适合使用它来创建自定义词典，或在SNS等场合进行数据挖掘的工作。
相比已存在的结巴分词，去掉了很消耗内存的Trie树结构，以及新词发现能力并不强的HMM模型(未来此模型可能当成一个备选插件加入到此模块)。

项目主页：http://www.open-open.com/lib/view/home/1376920089772

相关经验