解析库的使用[爬取知乎发现] - 代码天地

解析库的使用[爬取知乎发现]

其他 2018-06-30 21:09:33 阅读次数: 0

使用XPath

 1 import requests
 2 import json
 3 from lxml import etree
 4 from urllib import parse
 5 
 6 url = 'https://www.zhihu.com/explore'
 7 headers = {
 8     'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
 9 }
10 html = requests.get(url, headers=headers).text
11 # 响应返回的是字符串，解析为HTML DOM模式 text = etree.HTML(html)
12 text = etree.HTML(html)
13 # 返回所有内容的结点位置
14 node_list = text.xpath('//div[@class="explore-feed feed-item"]')
15 items ={}
16 for node in node_list:
17     # xpath返回的列表，这个列表就这一个参数，用索引方式取出来
18     #问题
19     question = node.xpath('.//h2/a')[0].text.replace("\n","")
20     # 作者
21     author = node.xpath('.//*[@class="author-link-line"]/*')[0].text
22     #author = "".join(node.xpath('.//*[@class="author-link-line"]//text()')).replace("\n","")
23     # 回答
24     answer = node.xpath('.//*[@class="content"]')[0].text
25     #answer = "".join(node.xpath('.//*[@class="content"]/text()')).strip()
26     #answer = str(node.xpath('.//*[@class="content"]/text()'))[1:-1]
27 
28     items = {
29         "question" : question,
30         "author" : author,
31         "answer" : answer,
32     } 
33 
34     with open("explore.json", "a") as f:
35         #f.write(json.dumps(items, ensure_ascii = False).encode("utf-8") + "\n")
36         f.write(json.dumps(items, ensure_ascii = False) + "\n")

猜你喜欢

转载自www.cnblogs.com/wanglinjie/p/9248573.html

解析库的使用[爬取知乎发现]

pyquery爬取知乎发现

使用scrapy爬取知乎图片

requests + pyquery爬取知乎发现首页

python：知乎发现页的爬取（问题，作者，回答）

N0.4——用pyquery解析库爬取知乎explore页面

利用正则表达式和Request库爬取知乎发现页面的标题部分

知乎live爬取

scrapy爬取知乎

爬虫爬取知乎的话题

Scrapy 爬取知乎用户信息

Scrapy爬取知乎用户信息

知乎问题图片爬取

知乎用户爬取学习

Python爬虫--爬取知乎

Scrapy框架：爬取知乎

Python爬取知乎上的图片

Python爬取知乎文章（一）

scrapy爬取知乎问答

基于 webmagic 的知乎爬取[GitHub]

简单爬取知乎网的问答

python 爬取知乎图片

用python爬取知乎问答

知乎问答图片爬取

爬取知乎用户信息

爬取每则知乎日报

利用selenium爬取知乎图片

爬取知乎热榜

使用python爬虫——爬取淘宝图片和知乎内容

爬取知乎碰到的问题------------------4、使用redis时碰到的错误：redis.exceptions.ResponseError

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)