火狐体育平台网页登录
news information
EN
当前位置:
【Mo 人工智能技术博客】用Python做中文分词与词云制作
来源:火狐体育nba直播 | 作者:火狐体育nba直播 | 发布时间 :2023-12-04 19:19:45 | 44 次浏览: | 分享到:

  在大数据时代,我们大家常常在媒体或者网站上看到各种各样的信息图。词云是文本大数据可视化的重要方式,可以将大段文本中的关键语句和词汇高亮展示。对于中文文本的可视化,我们应该先将中文文本进行分词;然后再将文本中的关键词做词云展示。本文将教大家怎么样去使用Python来做中文分词并制作词云,欢迎各位跟着教程一步步实现。

  所谓分词即是将文本序列按完整的意思切分成一个一个的词儿,方便进行下一步的分析(词频统计,情感分析等)。而英文词与词自带空格作为分隔符,相比于中文分词要简单。这里我们以中文分词为例来介绍。Python 为咱们提供了 Jieba 库进行分词,接下来怎么样去使用 Jieba 库进行中午呢分词。

  对于某些特别的名词,为了使得其切分时不被分开,我们大家可以选择在切分前强调一下这些名词。

  text = Mo平台是一种支持模型开发与部署的人工智能建模平台。

  分词结果: Mo平台 是 一种 支持 模型 开发 与 部署 的 人工智能 建模 平台 。

  一些特殊的符号在切分之后会单独成词,这些词会影响我们之后的分析。这里我们大家可以使用一个标点符号库 stopwords.txt,将切分出来的特殊符号剔除掉;对于“了”,“的”这样长度为一的词,显然对我们分析文本没有一点帮助。处理的方法为将长度为1的词全部剔除掉。

  清洗后的分词结果: Mo平台 一种 支持 模型 开发 部署 人工智能 建模 平台

  在制作中文文本数据的词云之前,我们第一步要用上面介绍的方法将中文文本进行分词。

  得到分词好的文本数据后,我们再使用 WordCloud 库制作词云。(注:由于 WordCloud 本身不支持中文字体,我们应该将下载的 simsun.ttf,作为指定输出字体。)

  制作指定形状的词云的时候,我们应该先读入外部词云形状图片,这里个人会使用 imageio 库。

  # 导入imageio库中的imread函数,并用这个函数读取本地图片,作为词云形状图片

  Mo(网址:) 是一个支持 Python的人工智能在线建模平台,能帮助你快速开发、训练并部署模型。

  Mo人工智能俱乐部 是由Mo的研发与产品团队发起、致力于降低人工智能开发与使用门槛的俱乐部。团队具备大数据处理分析、可视化与数据建模经验,已承担多领域智能项目,具备从底层到前端的全线设计开发能力。主要研究方向为大数据管理分析与人工智能技术,并以此来促进数据驱动的科学研究。

上一篇:数据驱动的商业智能丨54直播:新声系列之热门洞见讲座第②期 下一篇:2023年中国AI行业概览