中文分词第三方库

编辑：云鸦网络时间：2021-04-17 09:23

中文分词指的是中文在基本文法上有其特殊性而存在的分词。

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂得多、困难得多。

中文分词第三方库

1、jieba.NET
jieba.NET是 jieba 中文分词的 .NET 版本（C#实现）。当前版本为 0.37.1，基于 jieba 0.37，目标是提供与 jieba 一致的功能与接口，但以后可能会在 jieba 基础上提供其它扩展功能。当前主要提供分词、词性标注和关键词提取功能。

支持三种分词模式

精确模式：试图将句子最精确地切开，适合文本分析；

全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；

搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词,支持自定义词典.

2、Lucene
是apache软件基金会发布的一个开放源代码的全文检索引擎工具包，由资深全文检索专家Doug Cutting所撰写,它是一个全文检索引擎的架构，提供了完整的创建索引和查询索引，以及部分文本分析的引擎.

3、NLPIR汉语分词系统

主要功能包括中文分词；英文分词；词性标注；命名实体识别；新词识别；关键词提取；支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台。

中英文混合分词功能

自动对中文英文信息进行分词与词性标注功能，涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能。

关键词提取功能

采用交叉信息熵的算法自动计算关键词，包括新词与已知词。

新词识别与自适应分词功能

从较长的文本内容中，基于信息交叉熵自动发现新特征语言，并自适应测试语料的语言概率分布模型，实现自适应分词。

用户专业词典功能

可以单条导入用户词典，也可以批量导入用户词典。如可以定“举报信敏感点”，其中举报信是用户词，敏感点是用户自定义的词性标记。

技术知识

中文分词第三方库