【归纳】爬虫基础知识 - 代码天地

【归纳】爬虫基础知识

其他 2019-04-07 15:31:25 阅读次数: 0

HTTP基本原理

URL：网址，用于唯一定位并访问网络资源
超文本：文本+标签，HTML就是典型的超文本
HTTP：超文本传输协议，HTTPS是HTTP的安全版
HTTP请求过程：
- 在开发者模式下访问任意网址（如www.baidu.com），即可看到HTTP交互过程
- 完整的客户端请求包含请求方法、请求头和请求体
- 常见的请求方法：GET, POST
请求头（Request Headers）中的重要信息（当然还有很多其他内容，具体百度）：
- Cookie：标识了用户的会话信息，服务器通过Cookie来识别用户及其状态信息
- Referer：标识这个请求是从哪个页面发来的，服务器可通过该信息进行来源统计及防盗链处理
- User-Agent：简称UA，包含客户端的操作系统、浏览器等信息，爬虫访问时如果不伪装好UA，将很容易被服务器识别出来
请求体：
- POST的请求体为表单信息，GET的请求体为空
- 爬虫如果要构造POST请求，需要在请求头中使用正确的Content-Type，具体见《实战》P84表2-2：Content-Type和POST提交数据方式的关系
服务器的响应包含三个部分：响应状态码，响应头，响应体
- 常见的响应状态码：200-正常响应，404-未找到页面，500-服务器内部错误，etc.
响应体：包含服务器响应的正文内容，如HTML代码，图片的二进制数据等

网页基础

网页的组成包括：HTML、CSS和JavaScript

猜你喜欢

转载自www.cnblogs.com/lokvahkoor/p/10665486.html

【归纳】爬虫基础知识

python基础知识归纳

线程基础知识归纳

基础知识 - 爬虫

爬虫基础知识

爬虫的基础知识

爬虫_基础知识

C#核心基础知识归纳

多线程基础知识归纳总结

基础知识点归纳

SQL基础知识归纳总结

《统计学》基础知识归纳

机器学习基础知识整理归纳

JAVA基础知识归纳（二）

JAVA基础知识归纳（一）

python爬虫基础知识

Python爬虫：基础知识

爬虫必备基础知识

爬虫基础知识五

爬虫基础知识一

爬虫的基础知识（壹）

爬虫基础知识（玖）

爬虫基础知识（叁）

爬虫基础知识（肆）

爬虫基础知识（柒）

爬虫基础知识（捌）

爬虫基础知识（陆）

爬虫基础知识（伍）

爬虫基础知识回顾

爬虫------爬虫基础知识小结

今日推荐

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

周排行

使用Redis中间件解决商品秒杀活动中出现的超卖问题（使用Java多线程模拟高并发环境）

野指针及c++指针使用注意点

redis 3.0　新特性

(翻译)火狐操作系统javascript API

微信小程序开发入门

mysql数据查询之五子句(where、group by、having、order by和limit)

Codeforces Round #517 Div. 1翻车记

在caffe 中实现Generative Adversarial Nets（二）

企业级漏洞扫描工具

java byte数组与String互转

每日归档

更多

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)