【归纳】爬虫基础知识

HTTP基本原理

  • URL:网址,用于唯一定位并访问网络资源
  • 超文本:文本+标签,HTML就是典型的超文本
  • HTTP:超文本传输协议,HTTPS是HTTP的安全版
  • HTTP请求过程:
    • 在开发者模式下访问任意网址(如www.baidu.com),即可看到HTTP交互过程
    • 完整的客户端请求包含请求方法、请求头和请求体
    • 常见的请求方法:GET, POST
  • 请求头(Request Headers)中的重要信息(当然还有很多其他内容,具体百度):
    • Cookie:标识了用户的会话信息,服务器通过Cookie来识别用户及其状态信息
    • Referer:标识这个请求是从哪个页面发来的,服务器可通过该信息进行来源统计及防盗链处理
    • User-Agent:简称UA,包含客户端的操作系统、浏览器等信息,爬虫访问时如果不伪装好UA,将很容易被服务器识别出来
  • 请求体:
    • POST的请求体为表单信息,GET的请求体为空
    • 爬虫如果要构造POST请求,需要在请求头中使用正确的Content-Type,具体见《实战》P84表2-2:Content-Type和POST提交数据方式的关系
  • 服务器的响应包含三个部分:响应状态码,响应头,响应体
    • 常见的响应状态码:200-正常响应,404-未找到页面,500-服务器内部错误,etc.
  • 响应体:包含服务器响应的正文内容,如HTML代码,图片的二进制数据等

网页基础

  • 网页的组成包括:HTML、CSS和JavaScript

猜你喜欢

转载自www.cnblogs.com/lokvahkoor/p/10665486.html