0推荐
44K 浏览

中文分词的原理与实践

中文分词问题是绝大多数中文信息处理的基础问题,在搜索引擎、推荐系统(尤其是相关主题推荐)、大量文本自动分类等方面,一个好的分词系统是整个系统成功的关键。
jopen 9年前   
0推荐
36K 浏览

PHP 中文分词包:phpSplit

phpSplit 是一个基于php开发的中文分词库。
jopen 9年前   
0推荐
38K 浏览

Jieba分词Go语言版本:GoJieba

GoJieba 是 Jieba 分词的 Go 语言版本分词库。
jopen 9年前   
0推荐
70K 浏览

HanLP中文分词solr插件

HanLP中文分词solr插件 基于HanLP,支持Solr5.x,兼容Lucene5.x
xcxc 9年前   
0推荐
35K 浏览

CWSharp - .Net中英文分词组件

CWSharp 是 .Net 的中英文分词组件。
mmntt 9年前   
0推荐
45K 浏览

垂直搜索引擎中的分词系统

国内垂直领域的电商或者信息分享类应用都处于高速发展期,其对内容快速搜索的需求越来越强烈,对于能适应自己业务应用的搜索引擎解决方案也越来越 重视。同时,通用的可选开源搜索引擎框架或解决方案也越...
jopen 9年前   
0推荐
295K 浏览

中科院NLPIR中文分词java版

摘要:为解决中文搜索的问题,最开始使用PHP版开源的SCWS,但是处理人名和地名时,会出现截断人名地名出现错误。开始使用NLPIR分词,在分词准确性上效果要比SCWS好。本文介绍如何在windo...
jopen 9年前   
0推荐
150K 浏览

Spark + ansj 对大数据量中文进行分词

目前的分词器大部分都是单机服务器进行分词,或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢,相对spark来说代码书写较繁琐。本...
x286 9年前   
0推荐
75K 浏览

9大Java开源中文分词器的使用方法和分词效果对比

本文的目标有两个: 1、学会使用9大Java开源中文分词器 2、对比分析9大Java开源中文分词器的分词效果
yn6e 9年前   
0推荐
200K 浏览

自然语言处理:HanLP

HanLP是由一系列模型与算法组成的Java工具包,目标是促进自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
jopen 10年前   
0推荐
48K 浏览

词云可视化——中文分词与词云制作

近日在微博上大家都在问《个性化词云》制作方法。 下面简单介绍实现步骤和思路: 随着微博研究的深入,社会网络分析和可视化技术的需要,面临中文处理问题,开始钻研文本挖掘的问题,过去的...
jopen 10年前   
0推荐
175K 浏览

利用IKAnalyzer中文分词,计算句子相似度

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。独立于Lucene项目,同时...
jopen 10年前   
0推荐
34K 浏览

用MeCab打造一套实用的中文分词系统

MeCab是一套日文分词(形态分析)和词性标注系统(Yet Another Part-of-Speech and Morphological Analyzer), rick曾经在这里分享过MeC...
jopen 10年前   
0推荐
102K 浏览

NLP中的中文分词技术

随 着需求的变化和技术的发展,互联网企业对数据的分析越来越深入,尤其是自然语言处理处理领域,近几年,在搜索引擎、数据挖掘、推荐系统等应用方面,都向前 迈出了坚实的步伐。自然语言处理领域涉及的技术...
jopen 10年前   
0推荐
18K 浏览

"结巴"中文分词的iOS版本

结巴中文分词的 iOS 版本。
0推荐
62K 浏览

"结巴"中文分词的Node.js版本

NodeJieba只是CppJieba简单包装而成的node扩展,用来进行中文分词。
jopen 10年前   
0推荐
80K 浏览

"结巴"中文分词的C++版本:CppJieba

CppJieba是"结巴"中文分词的C++版本
jopen 10年前   
0推荐
56K 浏览

中文分词库:TextRank4ZH

TextRank4ZH 用于自动从中文文本中提取关键词和摘要,基于 TextRank 算法,使用 Python 编写。
jopen 10年前   
0推荐
111K 浏览

"结巴"中文分词的R语言版本:jiebaR

"结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型...
jopen 10年前   
0推荐
24K 浏览

Go中文分词:sego

词典用前缀树实现,分词器算法为基于词频的最短路径加动态规划。
jopen 10年前   
1 2 3

经验分享,提升职场影响力

投稿

热门问答

    热门文档