小白学Python ——最终测试：爬取数据 - 代码天地

小白学Python ——最终测试：爬取数据

其他 2019-01-30 00:01:17 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/zhaoluwei/article/details/86529908

爬取一本三国演义：

import urllib.request

from bs4 import BeautifulSoup

import time

# 首先向第一个url发送请求，得到相应

url = 'http://www.shicimingju.com/book/sanguoyanyi.html'

headers ={

'User-Agent':' Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'

}

# 构建请求对象

request = urllib.request.Request(url=url, headers=headers)

# 发送请求得到响应

response = urllib.request.urlopen(request)

# 通过bs4进行解析响应

soup = BeautifulSoup(response.read(), 'html.parser')

print(soup)

# 解析内容，得到所有的章节标题还有每个章节的链接

oa_list = soup.select('.book-mulu > ul > li > a')

# print(oa_list)

# print(len(oa_list))

# 打开文件

fp = open('三国演义.txt', 'w', encoding='utf8')

# 循环遍历oa_list，以次得到每一个a的内容和herf

for oa in oa_list:

# 获取标题

title = oa.text

print('正在爬取--%s--....' % title)

# 获取每一个a的链接

herf = 'http://www.shicimingju.com' + oa['href']

# 构建请求对象

title_request = urllib.request.Request(url = herf,headers = headers)

# 发送请求，得到响应

title_response = urllib.request.urlopen(title_request)

#解析响应

title_soup = BeautifulSoup(title_response.read(),'html.parser')

# 解析获得内容

content = title_soup.select('.chapter_content')[0].text

# print(content)

# exit()

# 将title和content写入到文件中

fp.write(title + content)

print('结束爬取--%s--' % title)

time.sleep(2)

# 关闭文件

fp.close()

猜你喜欢

转载自blog.csdn.net/zhaoluwei/article/details/86529908

小白学Python ——最终测试：爬取数据

小白学 Python 爬虫（25）：爬取股票信息

小白学python-数据类型

【小白学Python】Python的基本数据类型(2)

小白学 Python 爬虫（16）：urllib 实战之爬取妹子图

python数据爬取

python爬取数据

使用Python+BI爬取数千条车厘子相关数据，最终发现了这些秘密

小白学 Python（2）：基础数据类型（上）

小白学 Python（15）：基础数据结构（集合）（下）

小白学 Python（3）：基础数据类型（下）

小白学 Python（10）：基础数据结构（列表）（下）

小白学 Python（13）：基础数据结构（字典）（下）

小白学 Python（9）：基础数据结构（列表）（上）

小白学 Python（11）：基础数据结构（元组）

小白学 Python（17）：基础数据类型（函数）（下）

小白学 Python（12）：基础数据结构（字典）（上）

小白学 Python（14）：基础数据结构（集合）（上）

小白学 Python 数据分析（2）：Pandas （一）概述

小白学 Python 数据分析（20）：pyecharts 概述

python小白爬取某东bra数据分析

【小白必看】Python爬取NBA球员数据示例

零基础/小白/python萌新也能学爬取静态网页信息并解析后存储在excel中/爬虫

小白学爬虫---爬取中国房价工资比

python 爬取12306数据

Python爬取网站数据

Python爬取HAProxy数据

python爬取json数据

python爬取github数据

python爬取疫情数据

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)