python爬虫7---爬取知乎文章 - 代码天地

python爬虫7---爬取知乎文章

其他 2020-02-12 14:24:31 阅读次数: 0

项目目标

爬取一个知乎大v的文章“标题”、“摘要”、“链接”，并存储到本地文件。

import requests
import csv
#引用csv。
csv_file=open('articles.csv','w',newline='',encoding='utf-8')
#调用open()函数打开csv文件，传入参数：文件名“articles.csv”、写入模式“w”、newline=''。
writer = csv.writer(csv_file)
# 用csv.writer()函数创建一个writer对象。
list2=['标题','链接','摘要']
#创建一个列表
writer.writerow(list2)
#调用writer对象的writerow()方法，可以在csv文件里写入一行文字 “标题”和“链接”和"摘要"。

headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
url='https://www.zhihu.com/api/v4/members/zhang-jia-wei/articles?'
offset=0
#设置offset的起始值为0
while True:
    params={
        'include':'data[*].comment_count,suggest_edit,is_normal,thumbnail_extra_info,thumbnail,can_comment,comment_permission,admin_closed_comment,content,voteup_count,created,updated,upvoted_followees,voting,review_info,is_labeled,label_info;data[*].author.badge[?(type=best_answerer)].topics',
        'offset':str(offset),
        'limit':'20',
        'sort_by':'voteups',
        }
    #封装参数
    res=requests.get(url,headers=headers,params=params)
    #发送请求，并把响应内容赋值到变量res里面
    articles=res.json()
    print(articles)
    data=articles['data']
    #定位数据
    for i in data:
        list1=[i['title'],i['url'],i['excerpt']]
        #把目标数据封装成一个列表
        writer.writerow(list1)
        #调用writerow()方法，把列表list1的内容写入
    offset=offset+20
    #在while循环内部，offset的值每次增加20
    if offset > 40:
        break
csv_file.close()
#写入完成后，关闭文件就大功告成
print('okay')

knaha

发布了49 篇原创文章 · 获赞 7 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/knaha/article/details/103016229

python爬虫7---爬取知乎文章

python小爬虫，爬取文章（知乎专栏）片段

Python爬取知乎文章（一）

Python爬虫--爬取知乎

Python爬虫入门教程：知乎文章图片爬取器

新手爬虫教程：Python爬取知乎文章中的图片

Python爬虫新手教程：知乎文章图片爬取器

Python爬取知乎专栏文章标题及URL

Python爬取知乎专栏文章并生成PDF

Python爬虫对知乎问题下的图片进行爬取

Python爬虫系列（四）：爬取腾讯新闻&知乎

Python爬虫入门教程 25-100 知乎文章图片爬取器之一

Python爬虫入门教程 26-100 知乎文章图片爬取器之二

【爬虫】Yhen手把手带你用python爬取知乎大佬热门文章

爬虫爬取知乎的话题

Python爬取知乎上的图片

用python爬取知乎问答

python 爬取知乎图片

Python爬虫入门教程第二十二讲：知乎文章图片爬取器之二

Python爬虫入门教程第二十一讲：知乎文章图片爬取器之一

知乎登录js逆向及文章爬取js逆向

【Python数据分析】简单爬虫，爬取知乎神回复

【python爬虫自学笔记】-----爬取知乎图片并保存在本地

python爬虫实战（一）--爬取知乎话题图片

python爬虫入门（2）爬取知乎某个热门主题

使用python爬虫——爬取淘宝图片和知乎内容

python3编写网络爬虫22-爬取知乎用户信息

【python实现网络爬虫20】知乎热榜爬取

python爬虫：requests+pyquery实现知乎热门话题爬取

python爬虫爬取微博知乎热搜榜

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)