Python知乎热门话题数据的爬取实战 - 代码天地

Python知乎热门话题数据的爬取实战

其他 2018-08-10 21:40:01 阅读次数: 0


import requests
from pyquery import PyQuery as pq

url = 'https://www.zhihu.com/explore'
headers = {
    'user-agent':
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
}

# 为了让网页能模拟浏览器的操作来设置一个headers获取网页源码
html = requests.get(url, headers=headers).text

# 初始化，使用pyQuery来把html放到解析库里进行解析
doc = pq(html)
# 进行pyquery解析（里面放的是css选择器参数）对class里有两个参数来进行解析
items = doc('.explore-feed.feed-item').items()

# 循环遍历筛选后的数据
for item in items:
    # 提取里面的问题
    question = item.find('h2').text()
    # 提取里面的作者
    author = item.find('.author-link-line').text()
    # 提取里面的回复的内容，这里注意一下，在内容的上面有一个textarea被hidden了
    answer = pq(item.find('.content').html()).text()
# 方法一
    # 文件的存储以txt文本存储
    file = open('explore.txt', 'a', encoding='utf-8')
    # 文件的写入
    file.write('\n'.join([question, author, answer]))
    # 每一个内容用特殊符号隔开
    file.write('\n' + '=' * 50 + '\n')
    # 文件的关闭
    file.close()

# 方式二
    # 简写的方法这样可以不用去关闭文件,系统已经封装好了关闭的方法
    with open('explore.txt', 'a', encoding='utf-8') as file:
        file.write('\n'.join([question, author, answer]))
        file.write('\n' + '=' * 50 + '\n')

猜你喜欢

转载自www.cnblogs.com/yunlongaimeng/p/9457424.html

Python知乎热门话题数据的爬取实战

Python知乎热门话题爬取

python爬虫：requests+pyquery实现知乎热门话题爬取

爬取微博热门话题

python爬虫实战（一）--爬取知乎话题图片

python爬虫实战（1）——爬取知乎热门回答图片

爬虫爬取知乎的话题

python爬取知乎话题：日常穿JK制服是一种怎样的体验？

pyspider爬虫爬取知乎的话题

python爬虫入门（2）爬取知乎某个热门主题

Python爬虫--爬取知乎

Python爬取知乎上的图片

Python爬取知乎文章（一）

python 爬取知乎图片

用python爬取知乎问答

python爬取知乎话题："日常穿jk制服是怎样一种体验？"下的所有图片

爬虫知乎上“发现”页面的“热门话题”部分，将其问题和答案统一保存成文本形式

【爬虫】Yhen手把手带你用python爬取知乎大佬热门文章

时下“996”热门话题

Python爬虫实列：新浪微博热门话题

Python项目实战:实现简单爬取知乎问题下的图片

python实战1.0——爬取知乎某问题下的回复

python爬虫实战（2）——爬取知乎热榜内容

爬虫实战之分布式爬取知乎问答数据

scrapy实战项目（简单的爬取知乎项目）

知乎live爬取

scrapy爬取知乎

用于爬取知乎某个话题下的精华问题中所有回答的爬虫

【Python数据分析】简单爬虫，爬取知乎神回复

Python爬取知乎专栏文章标题及URL

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)