爬虫原理和数据抓取

1.网络爬虫,就是模拟客户端发送网络请求,接收请求相应,一种按照一定的规则,自动地抓取互联网信息的程序
也就是说:只要是浏览器能做的事,原则上,爬虫都能做
2.爬虫分为通用爬虫(通常指搜索引擎的爬虫)
聚焦爬虫(针对特定网站的爬虫)
3.http:超文本传输协议,默认端口号是80
https:http+ssl(安全套接子层),默认端口号:443
https比http更安全,但是性能更低
4.ascii编码是一个字节,而unicode编码通常是2个字节
utf-8是unicode实现方式之一
5.requests的作用:发送网络请求,返回相应数据
6.response.text和response.content的区别
response.text
类型:str
解码类型:根据http头部对相应的编码做出有根据
如何修改编码方式:response.encoding="gbk"
response.content
类型:bytes
解码类型:没有指定
如何修改编码方式:response.content.deocde("utf-8")

猜你喜欢

转载自www.cnblogs.com/qinyr0725/p/10528058.html