requests使用技巧

1. 获取网站源代码

response = requests.get("http://www.baidu.com")
# 获取网站源代码
print(response.text)

2. 打印网站的响应头

print(response.headers)
# 打印状态码 200表示正常访问了百度
print(response.status_code)

3. 添加响应头(写一个爬虫首先就是学会设置请求头header,这样才可以伪装成浏览器)

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
response = requests.get("http://www.baidu.com",headers = headers)

# 打印状态吗
print(response.status_code)

4. 抓取图片并保存(response.content返回为十六进制,以二进制写入到文件中)

# 抓取图片信息
response = requests.get("https://www.baidu.com/img/bd_logo1.png?where=super")
# 获取响应体的二进制格式
print(response.content)
# 将图片写入文件
with open("1.gif","wb") as f:
    f.write(response.content)

5. 解决JS渲染问题(Ajax动态加载问题)

from selenium import webdriver
# 模拟浏览器
driver = webdriver.Chrome()
driver.get("http://m.weibo.com")
driver.get("http://www.taobao.com")
# 获取解决JS渲染问题后的源代码(解决Ajax问题)
print(driver.page_source)

猜你喜欢

转载自blog.csdn.net/hanxia159357/article/details/82284632