词云图制作 python
练了一段时间的词云图,就来和大家讲讲词云图制作的详细过程。
效果图
工具准备
- 1、python3
- 2、安装第三方库wordcloud
- 3、安装numpy、pillow库。
- 4、安装jieba库
- 5、安装matplotlib库
from wordcloud import WordCloud
import numpy as np
from PIL import Image
from matplotlib import colors
import collections
#这些都是需要使用的库
- 1
- 2
- 3
- 4
- 5
- 6
安装方法:我大多是借助pycharm中的setting直接安装。但是也有安装失败的,大家可以自行“c一下”
代码展示
# -*- coding: utf-8 -*-
import jieba
from wordcloud import WordCloud
import numpy as np
from PIL import Image
from matplotlib import colors
import collections
def chinese_jieba():
# 读取目标文本
with open(r'文本.txt', encoding='utf-8') as fp:
txt = fp.read()
fp.close()
wordlist_jieba = jieba.lcut(txt) # 将文本分割,返回列表
txt_jieba = " ".join(wordlist_jieba) # 将列表拼接为以空格为间断的字符串
return txt_jieba
def stopwords_read():
# 读取停用词,也可自己根据需求写入
stopwords_ = ['里', '拍']
with open('chinesestopwords.txt', 'r', encoding='utf-8') as f:
for line in f:
if len(line) > 0:
stopwords_.append(line.strip())
return stopwords_
def wordcloud_generate():
stopwords_ = stopwords_read()#读取停用词
txt = chinese_jieba()#读取文本
background_image = np.array(Image.open('椭圆背景.jpg'))#自定义背景轮廓
colormaps = colors.ListedColormap(['#871A84', '#BC0F6A', '#BC0F60', '#CC5F6A', '#AC1F4A']) # 自定义字体色,该系列是蓝紫色
wordcloud = WordCloud(font_path='simhei.ttf', # 字体
prefer_horizontal=0.99,#大部分都是横向排放
background_color='white', # 背景色
max_words=100, # 显示单词数
max_font_size=400, #最大字号
stopwords=stopwords_, # 过滤噪声词
mask=background_image,#背景轮廓
colormap=colormaps,#使用自定义颜色
collocations=False
).generate(txt)
image = wordcloud.to_image()
image.show() # 展示图片
wordcloud.to_file('词云图.jpg') # 保存图片
if __name__ == '__main__':
wordcloud_generate()
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
以上代码可直接运行
生成的图片可以去存放这个代码的文件夹下寻找
- 1
- 2
代码分析
-
基本运行条件:
首先是各种库都安装完毕;
其次将代码、目标文本、停用词文本、字体、背景图存放在同一个文件夹下(如果不存放在同一个文件夹下,就需要将代码中的资源引用路径改为绝对路径)如图:
-
文本
文本我是存储在txt文件中,具体信息来自微博上对智慧养老的关键字爬取,事实上,词云图也很好地体现了这一主题。 -
停用词
什么是停用词?
首先我们得清了解,在对文本进行分词后,可能会得到一些零散无用的词,有时候不利于文本主题的展现,比如“这个”,“那个”等,那么我们可以将这些词列入停用词中,图片上就不会展现这些词了。 -
词云图文字颜色
文字颜色有许多设置方法,这里采用自定义配色,这里送上我推荐的一些颜色集合供大家使用,经过我千挑万选,蛮好看的颜色
['#43045F', '#4E0362', '#C63264', '#FF9799', '#FFBAAB'] #紫色
['#7e9680', '#79616f', '#AE6378', '#D87F81', '#EAB595'] #杂色
- 1
- 2
- 其余参数
许多参数我在程序中均有注释,大家可以结合理解,根据自己的需要修改。 - 清晰度
如果是根据背景图片生成词云图,那么生成的词云图的清晰度是和背景图片一样的,背景图片是100100像素的,那么生成的词云图也是100100的,建议大家选取清晰度高的背景图片。