Python3--爬虫基础知识和软件准备(一)

1、python版本
air@airfull:~$ python --version

Python 3.6.5 :: Anaconda, Inc.

1、什么是爬虫

模拟客户端(浏览器)发送网络请求,获取响应,按照规则提取数据的程序

  • 照着浏览器发送一模一样的请求,获取和浏览器一模一样的数据

2、爬取的数据去哪儿了

呈现出来:展示在网页上,或者是展示在app上(百度新闻)
进行分析:从数据中寻找一些规律

3、需要的软件和环境

1、Python3
2、Anaconda

4、浏览器的请求

  • url
    • 在chrome中点击 检查 ,点到 network
    • url = 请求的协议(https:)+网站的域名(www.baidu.com)+资源的路径(img/)+ 参数

5、浏览器的URL地址与爬虫URL地址获取信息的不同

  • 浏览器的URL地址对应的响应有:当前URL对应的响应+JS+CSS+图片等
  • 其中,elements的内容与爬虫获取对应的地址的响应不同(无JS、CSS等),以实际获取的数据为准
  • 当前URL地址对应的响应在network中找到URL地址,点击response

6、HTTP与HTTPS

  • HTTP:超文本传输协议,以明文的方式传输不安全,快速
  • HTTPS:HTTP+SSL(安全套接字层),在传输前进行加密,接收端接收后再次解密,安全,较慢

7、请求头 request headers

GET /img/baidu_85beaf5496f291521eb75ba38eacbd87.svg HTTP/1.1  #请求行,get方法、post方法
Host: www.baidu.com #域名
Connection: keep-alive #常连接,不用每次都进行三次握手、四次挥手
Pragma: no-cache #无缓存
Cache-Control: no-cache
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)  Chrome/67.0.3396.99 Safari/537.36 #用户代理
Accept: image/webp,image/apng,image/*,*/*;q=0.8
Referer: https://www.baidu.com/
Accept-Encoding: gzip, deflate, br
Accept-Language: zh-CN,zh;q=0.9
Cookie: BIDUPSID=074F651E45385005E6287E2F5D838943; BAIDUID=EEE11FBD38DB6F7C3A323B33D85A061A:FG=1; PSTM=1530489540; BD_UPN=12314353; BDUSS=BPOERSU2RoMnFJY25UOUR3Wkgzc3JyYzg1ek5NYmlSMzczVkRiZHQyNzFQR0ZiQVFBQUFBJCQAAAAAAAAAAAEAAADdOHc7yP2437TzyqbQ1gAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAPWvOVv1rzlbT1; ispeed_lsm=0; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; locale=zh; H_PS_645EC=26aeypihHuPLixmHYzN8K0ygpN4wY1GBDMMD2kJZv%2FPv%2FjCxqjmZaCKZAhfLr8FlbGHv; BD_HOME=1; H_PS_PSSID=1445_21115_22073; sugstore=0 #缓存
  • 对方服务器通过user-agent识别当前请求对方资源的是什么浏览器或者是个爬虫
  • cookies:用来存储用户信息的,每次请求会被携带上发送给对方的浏览器
    - 要获取登陆后才能访问的页面
    - 对方的服务器会通过cookies判断我们是不是一个爬虫

8、请求体

get方法没有请求体,get把数据放到了请求体中
post方法才有请求体,用以携带大量数据,常用于用户登录注册,传输大文本

猜你喜欢

转载自blog.csdn.net/c_air_c/article/details/80904907
今日推荐