利用python爬取微博热搜榜制作词云图 - 代码天地

利用python爬取微博热搜榜制作词云图

其他 2020-04-18 23:27:18 阅读次数: 0

import jieba
from lxml import etree
import urllib
import urllib.request
from wordcloud import WordCloud
import pandas as pd
from imageio import imread
import matplotlib.pyplot as plt

def getpage(url):
    req=urllib.request.Request(url)
    req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36")
    data=urllib.request.urlopen(req).read().decode('utf-8')
    return data

def getdata(data):
    html=etree.HTML(data)
    top_search=html.xpath('//td[@class="td-02"]/a[@href]/text()')
    return top_search

def cut_words(top_search):
    top_cut=[]
    for top in top_search:
        top_cut.extend(list(jieba.cut(top)))  #使用精确模式切割词汇
    return top_cut

if __name__=="__main__":
    url="https://s.weibo.com/top/summary?cate=realtimehot"
    top_search = getdata(getpage(url))
    all_words = cut_words(top_search)

    #定义停用词
    stop = ['的','你','了','将','为','例',' ','多','再','有','是','等','天','次']
    words_cut = []
    for word in all_words:
        if word not in stop:
            words_cut.append(word)
    word_count = pd.Series(words_cut).value_counts()
    back_ground = imread("E:\\python\\flower.jpg")
    wc = WordCloud(
                   font_path="C:\\Windows\\Fonts\\simhei.ttf", #设置字体
                   background_color="white",  #设置词云背景颜色
                   max_words=1000,  #词云允许最大词汇数
                   mask=back_ground,  #词云形状
                   max_font_size=200,   #最大字体大小
                   random_state=50  #配色方案的种数
                  )
    wc1 = wc.fit_words(word_count)  #生成词云
    plt.figure()
    plt.imshow(wc1)
    plt.axis("off")
    plt.show()
    wc.to_file("ciyun.png")

在这里插入图片描述

Legolas~

发布了113 篇原创文章 · 获赞 51 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_38883271/article/details/104497482

利用python爬取微博热搜榜制作词云图

爬取微博热搜榜

Python爬取新浪微博热搜榜

java爬虫爬取微博热搜榜

爬取微博热搜排行榜

python爬虫爬取微博知乎热搜榜

36行代码爬取微博热搜榜和要闻榜

Python网络爬虫-爬取微博热搜

Python网络爬虫之爬取微博热搜

用python爬取微博热搜数据并保存

微博热搜榜前20信息数据爬取进行数据分析与可视化

webMagic入门案例 -- 爬取微博热搜

爬取微博热搜Top25的数据

Python爬虫抓取微博热搜榜

使用Python爬取百度热搜榜

python制作词云图

python 爬取微博实时热搜，并存入数据库实例

Python定时爬虫爬取微博热搜数据 pyecharts动态图展示

利用Python爬取微博数据生成词云图片实例代码

利用 Pyecharts 制作词云图

python/wordcloud制作词云图

Python - 制作词云图 WorldCloud

python爬虫知乎热榜、微博热搜并发送邮件至邮箱

python爬取网页版优酷视频《我不是药神》的弹幕数据并制作词云图

爬取微博热搜榜单存入mysql并部署在云服务器上

爬取微博热搜数据进行数据分析与可视化处理

使用requests库和re库爬取微博热搜前十榜单

使用2句python代码获取微博热搜榜表格版

python入门爬虫之爬取百度首页的热搜榜

微博热搜排行榜前十

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)