用python爬取知乎问答 - 代码天地

用python爬取知乎问答

编程语言 2019-03-13 10:20:56 阅读次数: 0

本文实现爬取知乎发现页面的热门话题部分，将问题和答案同义保存为文本格式

网页爬取

用requests库进行爬取，注意要将头部信息的user-agent改为mozilla.

headers={'User-Agent':'Mozilla'}
url="https://www.zhihu.com/explore"
r=requests.get(url,headers=headers)
html=r.text

解析文本

使用pyquery进行文本解析

doc=pq(html)
items=doc('.explore-feed.feed-item').items()
for item in items:
    question=item.find('h2').text()
    author=item.find('.author-link-line').text()
    anwser=pq(item.find('.content').html()).text()

将结果保存至文件

    file=open('explore3.txt','a',encoding='utf-8')
    file.write('\n'.join([question,author,anwser]))
    file.write('\n'+'='*50+'\n')
    file.close()

完整代码

from pyquery import PyQuery as pq
import requests

headers={'User-Agent':'Mozilla'}
url="https://www.zhihu.com/explore"
r=requests.get(url,headers=headers)
html=r.text
doc=pq(html)
items=doc('.explore-feed.feed-item').items()
for item in items:
    question=item.find('h2').text()
    author=item.find('.author-link-line').text()
    anwser=pq(item.find('.content').html()).text()
    file=open('explore3.txt','a',encoding='utf-8')
    file.write('\n'.join([question,author,anwser]))
    file.write('\n'+'='*50+'\n')
    file.close()

运行结果

猜你喜欢

转载自blog.csdn.net/qq_38290604/article/details/88526680

用python爬取知乎问答

scrapy爬取知乎问答

简单爬取知乎网的问答

知乎问答图片爬取

Python 爬取知乎 9674 个问答，揭秘最受欢迎的 98 本书！

Python爬虫--爬取知乎

Python爬取知乎上的图片

Python爬取知乎文章（一）

python 爬取知乎图片

知乎live爬取

scrapy爬取知乎

Python爬取知乎专栏文章标题及URL

python爬取知乎（模拟登陆）

python requests 爬取知乎用户信息

爬取知乎Python中文社区信息

Python知乎热门话题数据的爬取实战

python：知乎发现页的爬取（问题，作者，回答）

python3 爬取知乎模拟登录

Python实现爬取知乎热榜

Python知乎热门话题爬取

Python爬虫对知乎问题下的图片进行爬取

Python爬取知乎单个问题下的回答

python爬虫7---爬取知乎文章

Python爬取知乎专栏文章并生成PDF

20行python代码——爬取知乎神回复

python小爬虫，爬取文章（知乎专栏）片段

Python爬虫系列（四）：爬取腾讯新闻&知乎

python爬取知乎热榜Top50

python爬取知乎热榜了解时事

通过scrapy，从模拟登录开始爬取知乎的问答数据

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)