用Requests和正则表达式爬取豆瓣图书TOP250 - 代码天地

用Requests和正则表达式爬取豆瓣图书TOP250

其他 2018-11-01 22:47:19 阅读次数: 0

思路和上文大同小异。

import requests
from requests.exceptions import RequestException
import re
import json


headers = {'User-Agent':'Mozilla/5.0(Macintosh;Intel Mac OS X 10_11_4)AppleWebKit/537.36(KHTML,like Gecko)Chrome/52.0.2743.116 Safari/537.36'}
#提取单页内容，用try，except方便找bug
def get_one_page(url):
    try:
        
        response = requests.get(url, headers=headers)#传入headers参数
        if response.status_code == 200:
            return response.text
        return response.status_code
    except RequestException:#捕获这个类型的异常
        return None


def parse_one_page(html):#定义一个函数用来解析html代码
	#生成一个正则表达式对象

	pattern = re.compile('<table.*?href.*?title="(\S+)".*?</a>.*?class.*?>(.*?)</p>.*?rating_nums">(.*?)</span>.*?</table>',re.S)

			
	items = re.findall(pattern, html)
	
	
	#items是一个list,其中的每个内容都是一个元组
	#将杂乱的信息提取并格式化，变成一个字典形式
	for item in items:
		yield { #构造一个字典
			'title': item[0],
			'imf': item[1],
			'评分': item[2],

		}

def write_to_file(content):
    #json.dumps将dict转json字符串类型；显示中文所以open中加上encoding；注意换行
    with open('doubantop250.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')
        f.close



def main(offset):
	#url= 'http://maoyan.com/board/6?'
	url = 'https://book.douban.com/top250?start='+str(offset)
	html = get_one_page(url)
	global i
	for item in parse_one_page(html):#item是一个生成器
		print('No.',i,item)
		write_to_file(item)
		i=i+1


if __name__ == '__main__':
	i=1
	for j in range(10):
		main(j*25)

结果：
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/z714405489/article/details/83342382

用Requests和正则表达式爬取豆瓣图书TOP250

利用Requests库和正则表达式爬取豆瓣影评Top250

requests+正则表达式爬取豆瓣读书top250

基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！

利用requests和正则表达式爬取猫眼Top250电影

【初学python爬虫02】Python3用Requests+正则表达式爬取豆瓣电影Top250

python-对豆瓣的top250的爬取(利用正则表达式)

爬取豆瓣图书TOP250

爬取豆瓣电影Top250和和豆瓣图书

Python爬虫入门——2. 5 利用正则表达式爬取豆瓣电影 Top 250

python采用requests+bs4爬取豆瓣top250图书信息

用Requests和正则表达式爬取猫眼电影(TOP100+最受期待榜）

爬取豆瓣图书Top250并存入xls

【爬虫】爬取豆瓣图书TOP250

爬取豆瓣网图书TOP250的信息

使用requests爬取豆瓣电影top250

教你用Python爬取豆瓣图书Top250

爬虫教程——用Scrapy爬取豆瓣TOP250

用scrapy框架爬取豆瓣Top250电影

用Python爬取豆瓣Top250的电影标题

request+正则表达式，爬取豆瓣电影top100

Python—爬取豆瓣Top250（正则和Xpath比较）简单介绍Xpath

豆瓣Top250爬取

爬取豆瓣电影TOP250

爬取豆瓣top250

豆瓣TOP250爬取及分析

python爬取豆瓣Top250

python3.6 利用requests和正则表达式爬取猫眼电影TOP100

利用requests和正则表达式re爬取猫眼电影top100，并下载图片

【Python】Requests+正则表达式爬取猫眼电影TOP100

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)