0推荐
62K 浏览

nltk-比较中文文档相似度

nltk同时也能处理中文的场景,只要做如下改动: 使用中文分词器(如我选用了结巴分词) 对中文字符做编码处理,使用unicode编码方式 python的源码编码统一声明为 gbk
jopen 10年前   
nltk  

经验分享,提升职场影响力

投稿

热门问答

    热门文档