1.概念、工具和HTTP

2.requests模块的学习

安装
- pip install requests
发送get,post请求，获取响应
- response = requests.get(url)　
- response = requests.post(url,data={请求体的字典})　
- ②response.text:如果出现乱码，在前面加一行response.encoding = "utf-8"
- ①response.content.decode("utf-8")　-----解码或者改成gbk解码　　　
发送带header的请求
- headers = {"User-Agent":"xxx","Referer":"xxx",}
- response = requests.post(url,data={请求体的字典},headers= headers)　
- response = requests.get(url,headers= headers)
- response.request.url
- response.request.headers
- response = requests.post(url,data={请求体的字典},headers= headers,timeout=3)---需要加异常捕获　
retrying模块学习----重试
- pip install retrying----安装
- from retrying import retry
- @retry(stop_max_attempt_number=3)-------装饰器，执行几次　　　
cookie相关的请求　
- cookie放在headers里面
- cookie存成字典，用requests.get(url,cookies=cookie_dict)

json--数据交换格式
- json.loads(json字符串)：json转str
- json.dumps(python字典):str转json字符串（文件写入）
- json.dumps(ret,ensure_ascII=False):数据直接显示中文，不再以ASCII码方式显示
主要逻辑
1. start_url
2. 发送请求，获得响应
3. 提取数据
4. 保存
5. 构造下一页url地址，循环2-5步
Xpath:提取数据
- /html/a:选择标签
- //:任意节点开始
- //div[@class="xxx"]：选择某个值
- a/@class:选择class的值
- a/text():获取a下的文本
- a//text():获取a下的所有文本
lxml
- pip install lxml
- from lxml import etree
- element = etree.HTML("html字符串")
- element.xpath("")