【Mo 人工智能技术博客】用Python做中文分词与词云制作_火狐体育nba直播|火狐体育官方代理|火狐体育平台网页登录

火狐体育平台网页登录

news information

当前位置：

首页 >> 新闻资讯 >> 火狐体育官方代理 >> 【Mo 人工智能技术博客】用Python做中文分词与词云制作

【Mo 人工智能技术博客】用Python做中文分词与词云制作

来源:火狐体育nba直播 | 作者：火狐体育nba直播 | 发布时间：2023-12-04 19:19:45 | 44 次浏览： | 分享到:

在大数据时代，我们大家常常在媒体或者网站上看到各种各样的信息图。词云是文本大数据可视化的重要方式，可以将大段文本中的关键语句和词汇高亮展示。对于中文文本的可视化，我们应该先将中文文本进行分词；然后再将文本中的关键词做词云展示。本文将教大家怎么样去使用Python来做中文分词并制作词云，欢迎各位跟着教程一步步实现。

所谓分词即是将文本序列按完整的意思切分成一个一个的词儿，方便进行下一步的分析（词频统计，情感分析等）。而英文词与词自带空格作为分隔符，相比于中文分词要简单。这里我们以中文分词为例来介绍。Python 为咱们提供了 Jieba 库进行分词，接下来怎么样去使用 Jieba 库进行中午呢分词。

对于某些特别的名词，为了使得其切分时不被分开，我们大家可以选择在切分前强调一下这些名词。

text = Mo平台是一种支持模型开发与部署的人工智能建模平台。

分词结果: Mo平台是一种支持模型开发与部署的人工智能建模平台。

一些特殊的符号在切分之后会单独成词，这些词会影响我们之后的分析。这里我们大家可以使用一个标点符号库 stopwords.txt，将切分出来的特殊符号剔除掉；对于“了”，“的”这样长度为一的词，显然对我们分析文本没有一点帮助。处理的方法为将长度为1的词全部剔除掉。

清洗后的分词结果： Mo平台一种支持模型开发部署人工智能建模平台

在制作中文文本数据的词云之前，我们第一步要用上面介绍的方法将中文文本进行分词。

得到分词好的文本数据后，我们再使用 WordCloud 库制作词云。（注：由于 WordCloud 本身不支持中文字体，我们应该将下载的 simsun.ttf，作为指定输出字体。）

制作指定形状的词云的时候，我们应该先读入外部词云形状图片，这里个人会使用 imageio 库。

# 导入imageio库中的imread函数，并用这个函数读取本地图片，作为词云形状图片

Mo（网址：）是一个支持 Python的人工智能在线建模平台，能帮助你快速开发、训练并部署模型。

Mo人工智能俱乐部是由Mo的研发与产品团队发起、致力于降低人工智能开发与使用门槛的俱乐部。团队具备大数据处理分析、可视化与数据建模经验，已承担多领域智能项目，具备从底层到前端的全线设计开发能力。主要研究方向为大数据管理分析与人工智能技术，并以此来促进数据驱动的科学研究。