python爬虫三大解析数据方法：bs4 及爬小说网案例

其他 2018-11-17 07:51:26 阅读次数: 0

bs4 python独有可以将html文档转成bs对象，可以直接调用bs对象的属性进行解析

安装

pip install bs4

本地html Beautiful(“open(‘路径’)”,‘lxml’)
网络html Beautiful(‘网络数据’, ‘lxml’)

常用属性和方法

class_='class避免系统冲突加 _'!!!

from bs4 import BeautifulSoup

fp = open('本地.html')
soup = BeautifulSoup(fp, 'lxml')

# 标签名查找
print(soup.div)  # 只能找到第一个

# 获取标签的属性
print(soup.a.atters)  # 取a标签的所有属性
print(soup.a.atters['href'])  # 取a标签的href属性值

# 取内容
print(soup.p.string)  # 取当前标签的文本内容
print(soup.p.text)  # 标签下所有子文本内容
print(soup.p.get_text)

# find查找符合要求的第一个标签!
print(soup.find('a', class_='class避免系统冲突加 _'))
print(soup.find('a', id='XX'))

# find_all 同find 返回列表
print(soup.find_All('a'))
print(soup.find_All('a', limit=2))  # 只取前两个

# 选择器 >表示下面一级
print(soup.select('div > img')[0])  # div下直系img标签
print(soup.select('div img')[0])  # 空格可以表示多个层级

bs4爬小说网指定小说标题及内容

from bs4 import BeautifulSoup
import requests

url = 'http://www.shicimingju.com/book/sanguoyanyi.html'

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
}

def get_content(get_url):
    """获取章节内容"""
    content_data = requests.get(url=get_url, headers=headers).text
    soup_content = BeautifulSoup(content_data, 'lxml')
    div = soup_content.find('div', class_='chapter_content')
    con = div.text
    return con


data = requests.get(url=url, headers=headers).text
soup = BeautifulSoup(data, 'lxml')

# 取到 a标签对象()对象还可以继续调用 包含章节名和链接
a_list = soup.select('.book-mulu > ul > li > a')

with open('./三国演义.txt', 'w', encoding='utf-8') as f:
    for a in a_list:
        title = a.string
        content_url = a.attrs['href']  # 取a中的href属性
        content_url = 'http://www.shicimingju.com' + content_url
        content = get_content(content_url)
        f.write(title+':'+content+'\n\n\n\n')

猜你喜欢

转载自blog.csdn.net/weixin_42329277/article/details/84074824

python爬虫三大解析数据方法：bs4 及爬小说网案例

使用scrapy爬虫,爬取起点小说网的案例

运用scrapy爬虫,爬取17k小说网的案例-方法二

运用scrapy爬虫,爬取17k小说网的案例

网络爬虫-爬取顶点小说网指定小说

Python爬虫系列之小说网爬取

爬虫练习——爬取纵横小说网

Python的scrapy之爬取6毛小说网

python：免费看无广告小说之爬取全本免费小说网的小说

【Python3爬虫-爬小说】爬取某小说网小说1/2--利用网址顺序抓

spider爬虫练习，爬取顶点小说网，小说内容。

Python3爬取免费小说网小说

【Python从零到壹】使用XPath解析数据爬取起点小说网数据

python爬虫三大解析数据方法：xpath 及爬段子网案例

python爬虫爬取笔趣网小说网站过程图解

Python爬虫实例(一)——爬取某点小说网《庆余年》

Python3中BeautifulSoup爬取笔趣阁小说网

爬虫爬取小说网站

python 爬取小说网站实战

Python爬取小说网站

爬虫学习之7：使用XPATH爬取起点小说网小说信息(保存到EXCEL)

【Python3爬虫-爬小说】爬取某小说网小说2/2--利用下一页抓

python-Django 小说网

python爬虫三大解析数据方法：正则及图片下载案例

python爬虫，爬起点小说网小说

python爬虫学习（十一）bs4解析爬取三国演义

Python爬虫期末作业 | 爬取起点小说网作者和书名，并以Excel形式存储

Python3网络爬虫实战解析——静态小说网爬取（使用正则表达式解析）

python爬虫（1.爬盗版小说网站）

python爬虫，简单的爬取小说网站的阅读排名

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)