通过微信公众号推送 看到一遍很感兴趣的文章 现在由于大数据的流行 python语言也变得流行起来,通过python技术抓取网页数据,讲数据进行分析
这个例子是通过python将影评中的高频词汇提取出来 同图片显示
本人电脑配置 Windows10 + python 3.5.2
安装python pip ipython ipython notebook 等工具
IPython与IPython Notebook安装及使用 安装组件 参考本博客
http://blog.csdn.net/qq_37423198/article/details/76180905
运行 cmd 控制台输入ipython notebook 启动notebook
看到控制台输出一个浏览器的访问地址 选择地址 粘贴到浏览器打开
进入之后 新建python3 文件 下载好stopwords.txt simhei.ttf
文档要upload在 notebook 上
按照
https://segmentfault.com/a/1190000010473819
文章一步步的 Run 一下
编译到最后一步
# 用词云进行显示
wordcloud = WordCloud(font_path="simhei.ttf", background_color="white", max_font_size=80)
word_frequence = {x[0]: x[1] for x in words_stat.head(1000).values}
word_frequence_list1 = []
word_frequence_list2 = []
for key in word_frequence:
# temp = (key,word_frequence[key])
word_frequence_list1.append(key)
word_frequence_list2.append(word_frequence[key])
# word_dict
word_dict = zip(word_frequence_list1, word_frequence_list2)
word_dict = dict((name, value) for name, value in word_dict)
wordcloud = wordcloud.fit_words(word_dict)
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
最后一步代码要用这个 自己再根据报错调试一下
这个例子是通过python将影评中的高频词汇提取出来 同图片显示
本人电脑配置 Windows10 + python 3.5.2
安装python pip ipython ipython notebook 等工具
IPython与IPython Notebook安装及使用 安装组件 参考本博客
http://blog.csdn.net/qq_37423198/article/details/76180905
运行 cmd 控制台输入ipython notebook 启动notebook
看到控制台输出一个浏览器的访问地址 选择地址 粘贴到浏览器打开
进入之后 新建python3 文件 下载好stopwords.txt simhei.ttf
文档要upload在 notebook 上
按照
https://segmentfault.com/a/1190000010473819
文章一步步的 Run 一下
编译到最后一步
# 用词云进行显示
wordcloud = WordCloud(font_path="simhei.ttf", background_color="white", max_font_size=80)
word_frequence = {x[0]: x[1] for x in words_stat.head(1000).values}
word_frequence_list1 = []
word_frequence_list2 = []
for key in word_frequence:
# temp = (key,word_frequence[key])
word_frequence_list1.append(key)
word_frequence_list2.append(word_frequence[key])
# word_dict
word_dict = zip(word_frequence_list1, word_frequence_list2)
word_dict = dict((name, value) for name, value in word_dict)
wordcloud = wordcloud.fit_words(word_dict)
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
最后一步代码要用这个 自己再根据报错调试一下