登录
注册
首页
项目
经验
代码
文库
问答
博客
资讯
中文分词
(共
60
篇经验)
0
推荐
28K
浏览
新 GitHub 开放项目 FoolNLTK:一个便捷的中文处理工具包
近日 GitHub 用户 wu.zheng 开源了一个使用双向 LSTM 构建的中文处理工具包,该工具不仅可以实现分词、词性标注和命名实体识别,同时还能使用用户自定义字典加强分词的效果。机器之心...
Trudy77W
7年前
算法
中文分词
0
推荐
16K
浏览
10 行 Python 代码的词云
词云又叫文字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。
HelenWebber
8年前
Python
中文分词
Python开发
0
推荐
12K
浏览
全文搜索:分词不在需要,按句子索引即可
摘要:一般来说的全文搜索服务,大体是基于字和关键词的,基于语句的全文搜索服务是一个有意思的课题。以文字为最小节点,以语句为分枝,建立语义树,提供基于语义树的全文检索服务。通过对语句进行语义特征编...
jianxiake
8年前
数据库
中文分词
机器学习
0
推荐
30K
浏览
使用wukong全文搜索引擎
wukong,是一款golang实现的高性能、支持中文分词的全文搜索引擎。我个人觉得它最大的特点恰恰是不像ElasticSearch那样庞大和功能完备,而是可以以一个Library的形式快速集成...
zzsyg0306
8年前
搜索引擎
中文分词
分布式系统
0
推荐
33K
浏览
jieba 源码解析
jieba分词 是Python 里面几个比较流行的中文分词工具之一。为了理解分词工具的工作原理,以及实现细节对jieba进行了详细的阅读。
avqz2354
8年前
中文分词
Netty
网络工具包
马尔科夫模型
0
推荐
7K
浏览
Spring之AntPathMatcher
在做uri匹配规则发现这个类,根据源码对该类进行分析,它主要用来做类URLs字符串匹配;
TanyaBellew
8年前
Spring
中文分词
JEE框架
0
推荐
111K
浏览
直播弹幕审核系统和文本分析技术
作为深受二次元人士欢迎的互动方式,弹幕已经从原来的动漫网站 Acfun 和 bilibili 向各类视频和直播网站蔓延,但是弹幕存在大量低俗、色情、垃圾广告、谩骂的内容,数量极为庞大,变形变换极...
NorWheat
8年前
数据挖掘
中文分词
软件架构
多媒体处理
0
推荐
12K
浏览
11大Java开源中文分词器的使用方法和分词效果对比
学会使用11大Java开源中文分词器。
RozAlford
8年前
开源
Java
中文分词
Java开发
0
推荐
27K
浏览
ElasticSearch 分词篇:中文分词
在Elasticsearch中,内置了很多分词器(analyzers),但默认的分词器对中文的支持都不是太好。所以需要单独安装插件来支持,比较常用的是中科院 ICTCLAS的smartcn和IK...
xnrf3714
9年前
搜索引擎
中文分词
ElasticSearch
Elastic Search
0
推荐
98K
浏览
TF-IDF的原理与应用
TF-IDF(Term Frequency-Inverse Document Frequency),中文叫做词频-逆文档频率。在文本挖掘(Text Mining)和信息检索(Informatio...
sunzhe336
9年前
中文分词
0
推荐
33K
浏览
基于mmseg的cjk中文分词器
ecjkseg4es - ECJKSeg 基于mmseg,添加对最新版本的5.3.1 lucene 和 2.1.1 elastic search 分词插件的支持。
jopen
9年前
中文分词
0
推荐
13K
浏览
lucene简单入门
说lucene是Java界的检索之王,当之无愧。近年来elasticsearch的火爆登场,包括之前的solr及solr cloud,其底层都是lucene。简单了解lucene,对使用elas...
SteffenM01
9年前
搜索引擎
Lucene
中文分词
0
推荐
99K
浏览
11款开放中文分词引擎大比拼
在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第...
moonbigboy
9年前
中文分词
0
推荐
41K
浏览
漫话中文分词
美国小伙Tom在中国已经半年了,自认为中文已经不错,就想测试一下自己的水平到底有多高。于是,他收到了下面这样一份试题,请说出以下题目中两句话的区别在哪里:
AlysaB34
9年前
中文分词
0
推荐
11K
浏览
Pig + Ansj 统计中文文本词频
最近特别喜欢用Pig,有能满足大部分需求的内置函数(Built In Functions),支持自定义函数(user defined functions, UDF ),能load 纯文本、avr...
jopen
9年前
Java
Hadoop
中文分词
0
推荐
46K
浏览
IK分词器原理与源码分析
做搜索技术的不可能不接触分词器。个人认为为什么搜索引擎无法被数据库所替代的原因主要有两点,一个是在数据量比较大的时候,搜索引擎的查询速度快,第二点在于,搜索引擎能做到比数据库更理解用户。第一点好...
jopen
9年前
中文分词
0
推荐
37K
浏览
中文文本处理简要介绍
作为一个处理自然语言数据的团队,我们在日常工作中要用到不同的工具来预处理中文文本,比如 Jieba 和 Stanford NLP software 。出于准确性和效率的考虑,我们选择了Stanf...
jopen
9年前
中文分词
自然语言处理
0
推荐
16K
浏览
Lucene5学习之QueryParser-Query解析器
Lucene已经给我们提供了很多Query查询器,如PhraseQuery,SpanQuery,那为什么还要提供QueryParser呢?或者说设计QueryParser的目的是什么? Quer...
jopen
9年前
搜索引擎
Lucene
中文分词
0
推荐
31K
浏览
phpSplit - PHP 中文分词包
phpSplit 是一个基于php开发的中文分词库。 居于Unicode编码词典的php分词器 只适用于php5,必要函数 iconv 本程序是使用RMM逆向匹配算法进行分词的,词库需要特别编译...
jopen
9年前
中文分词
0
推荐
50K
浏览
NodeJieba "结巴"分词的Node.js版本
nodejieba - "结巴"中文分词的Node.js版本
jopen
9年前
中文分词
nodejieba
1
2
3
经验分享,提升职场影响力
投稿
热门问答
热门文档