第2章 网络爬虫基础

  1. HTTP 基础术语
  2. HTTP 请求过程
  3. 网页的基础知识
  4. 爬虫的基本原理
  5. 会话和Cookies
  6. 代理的基本原理

  

1. HTTP 基础术语

(1) URI 和 URL:URI用于标记一个网络资源,URL则表示这个网络资源的访问地址,详细说明
(2) 超文本:普通的一段文字叫做文本,如果给这段文字加上超链接,那么就叫做超文本,HTML 就是超文本标记语言
(3) HTTP:全称是 Hyper Text Transfer Protocol ,超文本传输协议,是用于从网络传输超文本数据到本地浏览器的传送协议
(4) HTTPS:是以安全为目标的 HTTP 通道,简单讲就是 HTTP 的安全版,通过它传输的内容都是经过 SSL 加密的

2. HTTP 请求过程

    

猜你喜欢

转载自www.cnblogs.com/pzk7788/p/10512338.html