0推荐
28K 浏览

新 GitHub 开放项目 FoolNLTK:一个便捷的中文处理工具包

近日 GitHub 用户 wu.zheng 开源了一个使用双向 LSTM 构建的中文处理工具包,该工具不仅可以实现分词、词性标注和命名实体识别,同时还能使用用户自定义字典加强分词的效果。机器之心...
Trudy77W 7年前   
0推荐
16K 浏览

10 行 Python 代码的词云

词云又叫文字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。
0推荐
12K 浏览

全文搜索:分词不在需要,按句子索引即可

摘要:一般来说的全文搜索服务,大体是基于字和关键词的,基于语句的全文搜索服务是一个有意思的课题。以文字为最小节点,以语句为分枝,建立语义树,提供基于语义树的全文检索服务。通过对语句进行语义特征编...
0推荐
30K 浏览

使用wukong全文搜索引擎

wukong,是一款golang实现的高性能、支持中文分词的全文搜索引擎。我个人觉得它最大的特点恰恰是不像ElasticSearch那样庞大和功能完备,而是可以以一个Library的形式快速集成...
0推荐
33K 浏览

jieba 源码解析

jieba分词 是Python 里面几个比较流行的中文分词工具之一。为了理解分词工具的工作原理,以及实现细节对jieba进行了详细的阅读。
0推荐
7K 浏览

Spring之AntPathMatcher

在做uri匹配规则发现这个类,根据源码对该类进行分析,它主要用来做类URLs字符串匹配;
0推荐
111K 浏览

直播弹幕审核系统和文本分析技术

作为深受二次元人士欢迎的互动方式,弹幕已经从原来的动漫网站 Acfun 和 bilibili 向各类视频和直播网站蔓延,但是弹幕存在大量低俗、色情、垃圾广告、谩骂的内容,数量极为庞大,变形变换极...
0推荐
12K 浏览

11大Java开源中文分词器的使用方法和分词效果对比

学会使用11大Java开源中文分词器。
RozAlford 8年前   
0推荐
27K 浏览

ElasticSearch 分词篇:中文分词

在Elasticsearch中,内置了很多分词器(analyzers),但默认的分词器对中文的支持都不是太好。所以需要单独安装插件来支持,比较常用的是中科院 ICTCLAS的smartcn和IK...
0推荐
98K 浏览

TF-IDF的原理与应用

TF-IDF(Term Frequency-Inverse Document Frequency),中文叫做词频-逆文档频率。在文本挖掘(Text Mining)和信息检索(Informatio...
sunzhe336 9年前   
0推荐
33K 浏览

基于mmseg的cjk中文分词器

ecjkseg4es - ECJKSeg 基于mmseg,添加对最新版本的5.3.1 lucene 和 2.1.1 elastic search 分词插件的支持。
jopen 9年前   
0推荐
13K 浏览

lucene简单入门

说lucene是Java界的检索之王,当之无愧。近年来elasticsearch的火爆登场,包括之前的solr及solr cloud,其底层都是lucene。简单了解lucene,对使用elas...
0推荐
99K 浏览

11款开放中文分词引擎大比拼

在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第...
moonbigboy 9年前   
0推荐
41K 浏览

漫话中文分词

美国小伙Tom在中国已经半年了,自认为中文已经不错,就想测试一下自己的水平到底有多高。于是,他收到了下面这样一份试题,请说出以下题目中两句话的区别在哪里:
AlysaB34 9年前   
0推荐
11K 浏览

Pig + Ansj 统计中文文本词频

最近特别喜欢用Pig,有能满足大部分需求的内置函数(Built In Functions),支持自定义函数(user defined functions, UDF ),能load 纯文本、avr...
jopen 9年前   
0推荐
46K 浏览

IK分词器原理与源码分析

做搜索技术的不可能不接触分词器。个人认为为什么搜索引擎无法被数据库所替代的原因主要有两点,一个是在数据量比较大的时候,搜索引擎的查询速度快,第二点在于,搜索引擎能做到比数据库更理解用户。第一点好...
jopen 9年前   
0推荐
37K 浏览

中文文本处理简要介绍

作为一个处理自然语言数据的团队,我们在日常工作中要用到不同的工具来预处理中文文本,比如 Jieba 和 Stanford NLP software 。出于准确性和效率的考虑,我们选择了Stanf...
0推荐
16K 浏览

Lucene5学习之QueryParser-Query解析器

Lucene已经给我们提供了很多Query查询器,如PhraseQuery,SpanQuery,那为什么还要提供QueryParser呢?或者说设计QueryParser的目的是什么? Quer...
jopen 9年前   
0推荐
31K 浏览

phpSplit - PHP 中文分词包

phpSplit 是一个基于php开发的中文分词库。 居于Unicode编码词典的php分词器 只适用于php5,必要函数 iconv 本程序是使用RMM逆向匹配算法进行分词的,词库需要特别编译...
jopen 9年前   
0推荐
50K 浏览

NodeJieba "结巴"分词的Node.js版本

nodejieba - "结巴"中文分词的Node.js版本
jopen 9年前   
1 2 3

经验分享,提升职场影响力

投稿

热门问答

    热门文档