对于简单爬虫的补充(汉字转码)

在上一篇提到,接口地址可能有许多参数,但是如果我们将c或者python换成汉字会怎样?

这个时候直接拼接url方法将不适用,所以我们引入字典作为参数

para_dic = {
    "kw":"还珠格格",
    'pn':0
}

进行抓取数据

url = "http://tieba.baidu.com/f"

response = requests.get(url,params=para_dic)

print(url)

print(response)

这里有两个小知识点

在爬取某些网站时候,可能会遇到编码的问题  ,我们请求时用到的是utf-8编码

而此时的编码不符合网站的编码,所以可以使用response.encoding来获取网页

界面的编码

响应头部的字符编码

      print(response.encoding)   #指的是网页上编码

查看响应状态码

      print(response.status_code)

猜你喜欢

转载自blog.csdn.net/weixin_44303465/article/details/89566632
今日推荐