[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息

其他 2018-08-07 01:06:41 阅读次数: 0

一、前言

之前使用原生的 Python 库去爬取网页信息，经常要使用正则表达式，笔者记性不是很好，经常经常忘记相关符号及其作用。
后来使用著名的 Scrapy 框架去爬取信息，感觉太笨重了，特别是一个项目开发到一半，要引入爬虫功能，再使用 Scrapy，就不是那么友好了，其本身就是一个 Web Project。

近来使用一个和之前 Java 爬虫特别简单好使的 Jsoup 框架极其类似的 Beautiful Soup

[Java爬虫] 使用 Jsoup+HttpClient 爬取网站基本信息

引入也很简单：

# Python 2+
pip install beautifulsoup4

# Python 3+
pip3 install beautifulsoup4

使用 Python 爬虫体验当然是比 Java 要好，java开发有点 “做作” —— 每一步都极其格式化（面向对象），Python 则运用自如。

二、需求

现在要爬取 CSDN首页的今日推荐的文章 标题 及其 链接，

2.1.这是网页目标内容

这里写图片描述

2.2.这是网页目标内容对应的源码

这里写图片描述

三、实践

你猜需要多少行代码，没错，就这几行，就是这么牛逼

3.1.代码

from bs4 import BeautifulSoup
from urllib.request import urlopen
html = urlopen("https://www.csdn.net/").read().decode('utf-8')
soup = BeautifulSoup(html,"html.parser")
titles=soup.select("h3[class='company_name'] a") # CSS 选择器
for title in titles:
    print(title.get_text(),title.get('href'))# 标签体、标签属性

3.2.效果

这里写图片描述

四、小结

参考文献：
Beautiful Soup 中文文档
 BeautifulSoup 解析网页: 基础

猜你喜欢

转载自blog.csdn.net/larger5/article/details/81150647

[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息

Python Beautiful Soup 4

python3爬虫（二）-使用beautiful soup 读取网页

Python3 学习4：使用Beautiful Soup爬取小说

Python Beautiful Soup 4 模块

（十九）Python爬虫：Beautiful Soup的使用

Python 爬虫解析库的使用 --- Beautiful Soup

Python爬虫库-Beautiful Soup的使用

Python爬虫入门——Beautiful Soup库的使用

Python Beautiful Soup模块的使用

20181223 python 使用Beautiful Soup

Python爬虫--Beautiful Soup

一起学爬虫——使用Beautiful Soup爬取网页

一起学爬虫——使用Beautiful Soup爬取网页！

爬虫---Beautiful Soup 爬取图片

Python3网络爬虫：使用Beautiful Soup爬取小说

Python 爬虫入门教程，使用 Beautiful Soup 爬取某网站弹幕教程

【Python3 爬虫学习笔记】解析库的使用 4 —— Beautiful Soup 2

使用 Python 的 requests 和 Beautiful Soup 来分析网页

如何使用 Beautiful Soup 爬取网页内容？

python-bs4->Beautiful Soup的用法

python 之beautiful soup 4 warning

爬虫day 2 使用 beautiful soup / xpath

爬虫提取规则之Beautiful Soup的使用

爬虫笔记：Beautiful Soup 使用（六）

爬虫学习——（三）Beautiful Soup的使用

Python爬虫数据抽取(二)：解析库Beautiful Soup 4

python爬虫之Beautiful Soup库，基本使用以及提取页面信息

Python3爬虫从零开始：Beautiful Soup的使用

Python爬虫之Beautiful Soup解析库的使用（五）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)