"结巴"中文分词的C++版本:CppJieba
jopen
10年前
简介
CppJieba是"结巴"中文分词的C++版本
特性
- 源代码都写进头文件
src/*.hpp
里,include
即可使用。 - 支持
utf-8, gbk
编码,但是推荐使用utf-8
编码, 因为gbk
编码缺少严格测试,慎用。 - 内置分词服务
server/server.cpp
,在linux环境下可安装使用。 - 项目自带较为完善的单元测试,核心功能中文分词(utf8)的稳定性接受过线上环境检验。
- 支持载自定义用户词典。
- 支持
linux
,mac osx
操作系统。 - 支持
Docker
。
应用
关于CppJieba的跨语言包装使用
收到邮件询问跨语言包装(ios应用开发)使用的问题,这方面我没有相关的经验,建议参考如下python使用cppjieba的项目:
jannson 开发的供 python模块调用的项目 cppjiebapy , 和相关讨论 cppjiebapy_discussion .
NodeJieba
如果有需要在node.js
中使用分词,不妨试一下NodeJieba。
simhash
如果有需要在处理中文文档的的相似度计算,不妨试一下simhash。
exjieba
如果有需要在erlang
中使用分词的话,不妨试一下exjieba。
jiebaR
如果有需要在R
中使用分词的话,不妨试一下jiebaR。
libcppjieba
libcppjieba 是最简单易懂的CppJieba头文件库使用示例。
keyword_server
KeywordServer 50行搭建一个中文关键词抽取服务。
ngx_http_cppjieba_module
如果有需要在Nginx
中使用分词模块的话,不妨试一下ngx_http_cppjieba_module.
线上演示
http://cppjieba-webdemo.herokuapp.com/ (建议使用chrome打开)