python获取度娘热搜数据并保存成Excel

一、获取目标、准备工作

1、获取目标: 本次获取教程目标:某度热搜

2、准备工作

  • 环境python3.x
  • requests
  • pandas

       requests跟pandas为本次教程所需的库,requests用于模拟http请求,pandas用于数据处理(将结果保存为Excel)。

  • 在Chrome浏览器中打开需要请求的页面,然后F12打开浏览器的控制台。点击Network选择网络,然后再点击XHR。找到相应的XHR请求,就能获取到热搜数据接口了。

二、开始编码

  1. 导入所依赖的库
import requests
import pandas as pd
  1. 构造一个请求头:
browse_header = {
    
    
    "Accept": "application/json, text/plain, */*",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36",
    "Host": "top.baidu.com",
    "Referer": "https://top.baidu.com/board",
}
  1. 定义一个请求接口,即数据地址
url = "https://top.baidu.com/api/board?platform=wise&tab=realtime"
  1. 发送请求,由于接口返回的是JSON格式,所以这里一步到位,将响应结果也转成JSON格式。
json = requests.get(url, headers=browse_header).json()
  1. 注意:某度热搜有两种热搜,一个置顶热搜、一个普通热搜,所以我们得分开获取。
# 爬取置顶热搜
top_content_list = json['data']['cards'][0]['topContent']
# 爬取普通热搜
content_list = json['data']['cards'][0]['content']
  1. 然后再分别进行json解析,对应的字段(标题、排名、热搜指数、描述、链接地址)。
df = pd.DataFrame(  # 拼装爬取到的数据为DataFrame
	{
    
    
		'热搜标题': title_list,
		'热搜排名': order_list,
		'热搜指数': score_list,
		'描述': desc_list,
		'链接地址': url_list
	}
)
df.to_excel('百度热搜榜.xlsx', index=False)  # 保存结果数据

完成代码:

import requests
import pandas as pd

browse_header = {
    
    
    "Accept": "application/json, text/plain, */*",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36",
    "Host": "top.baidu.com",
    "Referer": "https://top.baidu.com/board",
}
url = "https://top.baidu.com/api/board?platform=wise&tab=realtime"
json = requests.get(url, headers=browse_header).json()

# 爬取置顶热搜
top_content_list = json['data']['cards'][0]['topContent']
print(top_content_list)
# 爬取普通热搜
content_list = json['data']['cards'][0]['content']
print(content_list)
title_list = []
order_list = []
score_list = []
desc_list = []
url_list = []
for top_item in top_content_list:
    title_list.append(top_item.get('word'))
    order_list.append("置顶")
    score_list.append(top_item.get("hotScore"))
    desc_list.append(top_item.get("desc"))
    url_list.append(top_item.get("url"))
index = 0
for content in content_list:
    index += 1
    title_list.append(content.get('word'))
    order_list.append(index)
    score_list.append(content.get("hotScore"))
    desc_list.append(content.get("desc"))
    url_list.append(content.get("url"))
df = pd.DataFrame({
    
    
    '热搜标题': title_list,
    '热搜排名': order_list,
    '热搜指数': score_list,
    '描述': desc_list,
    '链接地址': url_list
})
df.to_excel('百度热搜榜.xlsx', index=False)  # 保存结果数据

最后,查看一下获取到的数据:
在这里插入图片描述
一共31条数据(1条置顶热搜+30条普通热搜)。

三、总结

以上就是整个获取的数据,如果你们有其他数据需要用python获取的,欢迎在评论区留言。最后给你们推荐一个前端实用工具:JS加密工具

猜你喜欢

转载自blog.csdn.net/qq_43762932/article/details/131213248
今日推荐