requests 抓取网站 - 代码天地

requests 抓取网站

其他 2019-08-18 17:54:43 阅读次数: 0

 1 import requests
 2 from requests.exceptions import RequestException
 3 import re
 4 import json
 5 
 6 def get_one_page(url):
 7     try:
 8         headers = {
 9             'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/'
10                 + '535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'
11         }
12         response = requests.get(url, headers=headers)
13         response.encoding = 'gb2312'
14         if response.status_code == 200:
15             return response.text
16         return None
17     except RequestException:
18         return None
19 
20 def parse_one_page(html):
21     pattern = re.compile(
22         '<li>.*?target.*?src="(.*?)".*?<h2>.*?title.*?>(.*?)</a>'
23         + '</h2>.*?</span><span>(.*?)</span>.*?>(.*?)</p>.*?</li>', re.S)
24     items = re.findall(pattern, html)
25     #print(items)
26     for item in items:
27         yield {
28             'image': item[0],
29             'title': item[1],
30             'type': item[2],
31             'introduction': item[3]
32         }
33 
34 def write_to_file(content):
35     with open('Yinghua.json', 'a', encoding='utf-8') as f:
36         f.write(json.dumps(content, ensure_ascii=False) + '\n')
37 
38 def main(page):
39     num = (page - 1) * 12 + 1
40     url = '×××page=' + str(page) + '×××'
41     html = get_one_page(url)    
42     #print(html)
43     for item in parse_one_page(html):
44         print(num)
45         print(str(item) + '\n')
46         item = str(num) + str(item)
47         write_to_file(item)
48         num += 1
49 
50 if __name__ == '__main__':
51     for i in range(1, 398):
52         main(page=i)

猜你喜欢

转载自www.cnblogs.com/lonelyWMW/p/11373116.html

requests 抓取网站

Requests库抓取数据

requests抓取以及Xpath解析

使用requests抓取网页内容

requests库访问网站

python爬虫——requests抓取某电影网站top100

python使用requests爬虫抓取美女图片网站图片

实战：如何通过python requests库写一个抓取小网站图片的小爬虫

requests使用cookie登录网站

爬虫原理与数据抓取----- Requests模块

Python的Requests的图片抓取和代理使用！

使用requests_html抓取数据

requests抓取二进制数据

网络数据抓取之requests模块

requests

requests：

requests简单爬取网站数据

Requests简单爬取婚恋网站

requests使用代理访问国外网站

requests库爬取需要登录的网站

requests----爬取虎嗅网站

初学requests+xpath爬取网站

pyhton requests请求https网站报错

python淘宝爬虫基于requests抓取淘宝商品数据

Python3使用Requests抓取网页乱码问题

[Python][爬虫03]requests+BeautifulSoup实例:抓取图片并保存

python使用selenium和requests.session登录抓取

Requests+正则表达式抓取豆瓣电影

python+requests+re匹配抓取猫眼上映电影信息

python requests 抓取one 首页推送文字和图片

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)