Python爬虫1：爬虫原理、网页构造与第一个爬虫程序 - 代码天地

Python爬虫1：爬虫原理、网页构造与第一个爬虫程序

其他 2020-04-10 10:28:26 阅读次数: 0

Python爬虫1：爬虫原理、网页构造与第一个爬虫程序

本部分介绍15篇爬虫及文本分析的相关文章，基本上学完就可以处理部分爬虫和文本。
第一讲有三个内容，包括1 爬虫原理、2 网页构造、3 第一个爬虫程序。

1.爬虫原理
（1）网络连接
网络连接像是在自助饮料售货机上购买饮料一样：购买者只需选择所需饮料，投入硬币（或纸币），自助饮料售货机就会弹出相应的商品。网络连接也正是如此，如下图所示，本机电脑（购买者）带着请求头和消息体（硬币和所需饮料）向服务器（自助饮料售货机）发起一次Requests请求（购买），相应的服务器（自助饮料售货机）会返回本机电脑相应的HTML文件作为Response（相应的商品）。
在这里插入图片描述
（2）爬虫流程
了解网络连接的基本原理后，爬虫原理就很好理解了。网络连接需要电脑一次Requests请求和服务器端的Response回应。爬虫也是需要二件事：
（1）模拟电脑对服务器发起Requests请求。
（2）接收服务器端的Response的内容并解析提取所需信息。
但互联网网页错综复杂，一次的请求和回应不能够批量获取网页的数据，这时就需要设计爬虫的流程，主要运用到两种爬虫所需的流程：多页面和跨页面爬虫流程。（示意图如下）
在</div></body></html>

猜你喜欢

转载自blog.csdn.net/wjyxld/article/details/105277706

Python爬虫1：爬虫原理、网页构造与第一个爬虫程序

python爬虫1：第一个爬虫

python 爬虫《百炼成佛》爬虫入门（爬虫介绍）第一个爬虫程序

Python爬虫入门——2. 1 我的第一个爬虫程序

第一个Python爬虫

Python 第一个爬虫

python第一个爬虫

python篇-第一个爬虫程序

python第一个爬虫程序

第一个python程序：爬虫下载课件

Python爬虫之第一个爬虫

Python网络爬虫学习笔记——第一个爬虫程序

第一Python第一个爬虫项目

Python 2: 第一个网络爬虫：下载网页

Python 3: 第一个网络爬虫：下载网页—指定内容

Python第一个爬虫，简单爬起网页中超链接

我的第一个成功的爬虫程序

重写第一个爬虫程序

第一个get请求的爬虫程序

纪念跑通的第一个爬虫程序

爬虫笔记（一）——第一个爬虫

第一个简单的爬虫

第一个爬虫

我的第一个爬虫

第一个scrapy爬虫

第一个爬虫与测试

第一个爬虫及测试

第一个爬虫测试

第一个爬虫脚本

第一个爬虫==

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)