python网络爬虫（一，抓取网页的含义和URL基本构成） - 代码天地

python网络爬虫（一，抓取网页的含义和URL基本构成）

编程语言 2018-05-10 10:02:43 阅读次数: 1

1，网络爬虫的定义

网络爬虫（Web Spider），把互联网比作一张蜘蛛网，Spider就是在这张蜘蛛网上面爬来爬去的蜘蛛。Spider从网站的某一个页面开始读取网页内容，找到这个网页的链接地址，然后通过这个链接地址找下一个网页内容，这样一直循环直到将整个网站的所有网页抓取完为止。

2，浏览网页的过程

浏览器中输入“www.baidu.com”后，向服务器发送了一次请求，把服务端的文件抓取过来，浏览器再进行解析、展现出来给我们看。HTML是一种标记语言，用标签标记内容并加以解析和区分。

3，URI的理解

我们通常看到的是类似“www.baidu.com”这样的是URL，这样在浏览器里面输入的字符串。

那么URI是什么呢？Web上每种资源，如html文档、图像、视频、程序等都是一个通用资源标识符（Universal Resource Identifier，简称URI）进行定位。

URI分为三个部分组成：

①，访问资源的命名机制

②，存放资源的主机名

③，资源自身的名称，由路径表示。

比如：http://xiaojingjing.iteye.com/admin/blogs/new ，这个就是URI。我们可以这样解释：

①，这是通过http协议访问的资源

②，位于主机xiaojingjing.iteye.com上

③，通过路径“/admin/blogs/new”来访问

4,URL的理解

URL是URI的一个子集，它是Uniform Resource Locator的缩写，意思是“统一资源定位符”。

可以说URL是Internet上描述信息资源的字符串，采用URL可以用统一的格式来描述各种信息资源，包括文件、服务器地址和目录等，主要用在www客户端和服务器程序上。

URL分为三个部分组成：

①请求协议（或称为服务方式）

②存放该资源主机的IP地址，有时候也包括端口号。

③主机资源的具体位置，如目录和文件名等。

爬虫最重要的处理对象是URL，它根据URL地址取得所需要的文件内容，然后对它进一步处理。因此，准确的理解URL对理解网络爬虫至关重要。

猜你喜欢

转载自xiaojingjing.iteye.com/blog/2257517

python网络爬虫（一，抓取网页的含义和URL基本构成）

[Python]网络爬虫（一）：抓取网页的含义和URL基本构成

爬虫第一章：抓取网页的含义和URL基本构成

[Python3.x]网络爬虫（一）：利用urllib通过指定的URL抓取网页内容

python网络爬虫（1）静态网页抓取

Python3网络爬虫基本操作(二)：静态网页抓取

【转载】Python3网络爬虫(一)：利用urllib进行简单的网页抓取

Python3网络爬虫(一)：利用urllib进行简单的网页抓取

网页爬虫抓取URL简单实现

python网络爬虫及数据抓取（一）

Pyhon网络爬虫学习笔记—抓取本地网页（一）

Python 爬虫教程 4 - 网页的构成

Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页

Java网络爬虫-2 抓取指定URL网页数据以及解析

网络爬虫(网络蜘蛛)之网页抓取

Python3 爬虫（一）-- 简单网页抓取

Python爬虫学习笔记一：简单网页图片抓取

Python爬虫小白教程（一）—— 静态网页抓取

java算法-网络爬虫抓取网页并保存

Python爬虫对网页URL的分析

python网络爬虫抓取图片

Python爬虫1：简单抓取网页

Python爬虫之网页图片抓取

【Python爬虫】批量抓取网页上的视频

Python爬虫抓取+分析+提取网页信息

python爬虫-- 抓取网页、图片、文章

Python写爬虫——抓取网页并解析HTML

Python爬虫从端到端抓取网页

python3爬虫(三)--抓取单个网页的文章标题以及其链接和抓取单个网页图片

由零开始学习python爬虫，抓取网页图片、文章的基本操作！

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)