数据爬取——requests库

学习路径
北京理工大学的国家精品课程(中国大学MOOC)

Python网络爬虫与信息提取

requests库的安装
win平台:以管理员身份运行”cmd“,执行
pip install requests

运行环境:Python 3.6.8(IDLE)

测试Requests库是否安装成功
在这里插入图片描述
status_code —— 状态码
乱码了,这个是因为编码格式不对造成的,但你的requests库安装成功了,恭喜你。

Requests库有7个主要方法
这些概念不太想记,自己也不是很懂

  1. get()方法
    上面那段程序已经用过这个方法了,这个就是发送一个请求,得到一个响应。具体看图
    在这里插入图片描述
    顺便了解了一下url,就是万维网的地址标识(单指此处)
    这个截个图,以后应该会用到
    在这里插入图片描述

Requests库的2个重要对象

  1. Request
  2. Response(包含爬虫返回的内容)
    Response对象的属性
    在这里插入图片描述
    乱码问题解决
    理解Response的编码
    在这里插入图片描述
    在这里插入图片描述

理解Requests库的异常
(这个图表备自己以后翻阅记忆)
在这里插入图片描述
在这里插入图片描述

爬取网页的通用代码框架
网络连接有风险,异常处理很重要

#爬取网页的通用代码框架

import requests
import time

def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))


猜你喜欢

转载自blog.csdn.net/qq_41685741/article/details/114401229