如何使用python对中文txt文件分词？

对中文txt文件分词，无非就是2步—先读取txt文本数据，然后再分词，除了常见的jieba分词外，这里再介绍3种python分词中文分词包—分别是snownlp,thulac和pynlpir，最后再结合pyecharts以词云的方式显示最终分词结果，实验环境win10+python3.6+pycharm5.0，主要介绍如下:

为了方便演示，我这里新建了一个test.txt文件，里面复制了《白鹿原》的第一章内容，如下，下面的测试都围绕这个文件而展开：

snownlp：这个是国人开发的一个中文分词的包，受TextBlob启发而写，下面简单介绍一下这个包的安装和简单使用。

1.下载安装，这里直接输入命令”pip install snownlp”就行，如下：

2.测试代码如下，这里为了方便演示，我没有过滤掉停用词，直接做的分词、统计、最后词云显示最终统计结果，感兴趣的可以做个停用词列表过滤，很简单：

测试代码：

程序运行截图，打印的统计信息，如下：

词云显示的统计结果如下：

thulac：这个是清华大学实验室出的一个中文分词的包，基于人民日报分词语料库，支持同时分词和词性标注功能，使用起来也很简单，下面简单介绍一下这个包的安装和使用。

1.下载安装thulac，这里直接输入命令”pip install thulac”就行，如下：

2.测试代码如下，很简单，就几行代码，与snownlp类似：

程序运行结果如下，已经成功打印出分词统计结果：

词云显示结果如下，与snownlp类似：

pynlpir：这个包是北京市一个研究中心出的包，使用起来和上面2个包类似，也支持分词等功能，下面简单介绍一下这个包的安装和使用。

1.下载安装pynlpir，这里直接输入命令”pip install pynlpir”就行，如下：

2.测试代码如下，这里直接运行的话会提示错误—license过期，需要自己更新一下，到https://github.com/NLPIR-team/NLPIR/tree/master/License重新下载一下NLPIR.user文件，替换掉原来的NLPIR.user文件就行，代码如下：

程序运行截图如下，已经成功打印出统计结果：

词云结果显示如下：

至此，snownlp,thulac和pynlpir这3个包就介绍完毕了。总的来说，使用起来都挺简单多了，只要有一定的python基础，多加练习，很快就能入门的。对于自然语言处理来说，这3个包也可以作为一个基础工具来使用，为后面的研究做好分词等准备，网上也有这几个包的教程，可以查查，学习一下，希望以上分享的内容能对你有所帮助吧。

如何使用python对中文txt文件分词？http://t.jinritoutiao.js.cn/darYdy/

转载请注明：徐自远的乱七八糟小站 » 如何使用python对中文txt文件分词？

徐自远的乱七八糟小站涉及电子，网络，编程，软件使用，机械结构等等方面。

如何使用python对中文txt文件分词？

如何使用python对中文txt文件分词？

苏ICP备18041234号-1 苏公网安备 32021402001397号