硬货！！！Python爬虫入门笔记分享 - 代码天地

硬货！！！Python爬虫入门笔记分享

其他 2021-04-06 17:03:14 阅读次数: 0

爬虫四大步骤
1.获取页面源代码
2.获取标签
3.正则表达式匹配
4.保存数据

一.获取页面源代码
5个小步骤:
1.伪装成浏览器
2.进一步包装请求
3.网页请求获取数据
4.解析并保存
5.返回数据

在这里插入图片描述
Python学习资料领取+W.X:
xiaobei1152

代码:

在这里插入图片描述
2.获取标签

通过BeautifulSoup进一步解析页面源代码

在这里插入图片描述
Beautiful Soup 将复杂 HTML 文档转换成一个复杂的树形结构，每个节点都是 Python 对象,可分为四大对象种类,这里主要用到Tag类的对象,还有三种,有兴趣可以自己去深入学习~~

在这里插入图片描述
3.正则表达式匹配
先准备好相应的正则表达式,然后在上面得到的标签下手

在这里插入图片描述
4.保存数据
两种保存方式
1.保存到Excel里

在这里插入图片描述
结果文件:

在这里插入图片描述
2.保存到数据库

在这里插入图片描述
愉快爬虫:

遵守 Robots 协议，但有没有 Robots 都不代表可以随便爬，可见下面的大众点评百度案；
限制你的爬虫行为，禁止近乎 DDOS的请求频率，一旦造成服务器瘫痪，约等于网络攻击；
对于明显反爬，或者正常情况不能到达的页面不能强行突破，否则是 Hacker行为；
最后，审视清楚自己爬的内容，以下是绝不能碰的红线（包括但不限于）：作者：张凯强
来源：知乎
著作权归作者所有。

猜你喜欢

转载自blog.csdn.net/Care0527/article/details/109779828

硬货！！！Python爬虫入门笔记分享

python机器学习入门笔记分享

python学习笔记分享(三十三)网络爬虫(1)

python学习笔记分享(十七)图形用户界面入门

python爬虫Scrapy框架笔记分享12-Splash 的使用

python爬虫Scrapy框架笔记分享14-分布式

python爬虫Scrapy框架笔记分享10-Spider 下载中间件(Middleware)

python学习笔记分享(三十三)网络爬虫(2)正则表达式

python学习笔记分享(三十九)网络爬虫(6)进程，线程简介

python学习笔记分享 EasyGui(一)

python学习笔记分享(十五)文件

python学习笔记分享(十四)集合

python学习笔记分享(十三)字典

python学习笔记分享(十二)递归

python学习笔记分享(三)补充

python学习笔记分享(三)

python学习笔记分享(二)

python学习笔记分享(八)序列

【黑马网课笔记分享】Python

最近时间空闲，整理的一些Python入门级笔记分享给大家！

orangleliu 的笔记分享

Django 笔记分享

笔记分享

线程笔记分享

CCNA笔记分享

python学习笔记分享(二十三)python学习笔记分期补充(一)

python学习笔记分享(二十四)python学习笔记分期补充(二)

python学习笔记分享(三十六)网络爬虫(4)selenium实战之爬取豆瓣流浪地球影评

python学习笔记分享(三十八)网络爬虫(5)解析网页的三种常用方法与数据存储

ROS机器人入门笔记分享

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)