【python爬虫系列】15.实战五爬取笑话大全 - 代码天地

【python爬虫系列】15.实战五爬取笑话大全

其他 2020-03-07 15:58:31 阅读次数: 0

BeautifulSoup4是爬虫必学的技能。BeautifulSoup最主要的功能是从网页抓取数据，Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐使用lxml 解析器。

爬取笑话大全：
冷笑话的页面：
1.寻找url规律：

http://xiaohua.zol.com.cn/lengxiaohua/1.html
http://xiaohua.zol.com.cn/lengxiaohua/2.html
http://xiaohua.zol.com.cn/lengxiaohua/3.html
可以看出url规律很简单，不过是从1到n迭代

2.Headers：
在这里插入图片描述
3.分析要求：
内容：

我们所需要的笑话都在p标签里

标题：

在这里插入图片描述

来源：
在这里插入图片描述

注意：我们可以利用.strip().replace(" ",'') 去除首位的空格和中间无用的空格

代码：

import requests
from bs4 import BeautifulSoup

headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36'}



for i in range(1,100):
	url='http://xiaohua.zol.com.cn/lengxiaohua/{}.html'.format(i)
	html=requests.get(url,headers=headers)
	text=html.text
	soup=BeautifulSoup(text,"lxml")
	lis=soup.select('.article-list li')
	for li in lis:
		title=li.select_one('.article-title a').text
		content=li.select_one('.summary-text ').text
		try:
			source=li.select_one('.article-source').text
		except:
			source="未知来源"
		print("标题："+title.strip().replace(" ",''))
		print("来源："+source.strip().replace(" ",''))
		print("内容: "+content.strip().replace(" ",''))

ZEVIN LI

发布了41 篇原创文章 · 获赞 39 · 访问量 3717

私信关注

猜你喜欢

转载自blog.csdn.net/AI_LINNGLONG/article/details/104711026

【python爬虫系列】15.实战五爬取笑话大全

爬虫小案例爬取笑话 xpath

Python爬取笑话存储在mysql里

Python爬虫案例：利用Python爬取笑话网

python 利用Beautifulsoup爬取笑话网站

【python实现网络爬虫（3）】最简单的网络爬虫（笑话大全网冷笑话标题爬取）

爬虫爬取幽默笑话

python爬虫（五）：实战【4. 爬亚马逊】

用lxml的xpath演示爬虫提取笑话集网页其中的标题，url，浏览数，日期，笑话内容

Python爬虫实战——爬取新闻数据（简单的深度爬虫）

Python网络爬虫实战项目大全！

Python爬虫实战：爬取代理IP

python爬虫实战——爬取腾讯新闻！

Python爬虫实战：爬取股票信息

Python爬虫 | 爬取环境新闻实战

【爬虫系列】Python爬虫实战--招聘网站的职位信息爬取

python爬虫系列（五）

【Python爬虫】爬虫实战

Python爬虫实战--使用python爬取网站数据

【python爬虫】15.Scrapy框架实战（热门职位爬取）

python爬虫--爬虫与反爬

Python爬虫之Scrapy框架系列（14）——实战ZH小说爬取【多页爬取】

Python网络爬虫实战项目大全 32个Python爬虫项目demo

Python爬虫实战入门五：获取JS动态内容—爬取今日头条

python爬虫（五）：实战【2. 爬创客实验室（requests + bs4）】

python爬虫（五）：实战【5. 使用正则爬亚马逊价格】

python爬虫（五）：实战【3. 使用正则来爬创客实验室】

Python爬虫实战之爬取QQ音乐之下载有版权的音乐(五)-1

「Python爬虫系列讲解」五、用 BeautifulSoup 爬取电影信息

python爬虫五：爬取小说，下载到本地

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)