爬虫基础1

## jupyter的使用\n",
"- 1 jupyter的安装\n",
" - pip install jupyter\n",
"- 2 jupyter的使用\n",
" - 创建txt/文件夹/终端/python3\n",
"- 3 jupyter的快捷键\n",
" - 创建cell: a或b\n",
" - 删除cell:dd\n",
" - 使用tab补全\n",
" - 执行cell: shift+enter\n",
" - 代码或markdown模式切换: y或m\n",
" - 查看帮助信息: shift+tab"

## 爬虫\n",
"- 爬虫的概念: 通过编写程序模拟浏览器操作,让其在互联网上爬取/获取数据的过程\n",
"- 爬虫的分类:\n",
" - 通用爬虫: 获取一整张页面的数据(是游览器\"抓取系统\"的一个重要组成部分)\n",
" - 聚焦爬虫:爬取页面中指定的内容(必须建立在通用爬虫的基础上)\n",
" - 增量式爬虫: 通过监测网站数据的更新情况, 只爬取最新的数据\n",
"\n",
"- 反爬机制: 通过技术手段阻止爬虫程序进行数据的爬取(大概7种)\n",
"- 反反爬策略: 破解反爬机制的过程\n",
"\n",
"- request(请求头信息)\n",
" - User-Agent: 请求载体的身份标识\n",
" - connection: close 每当访问完数据之后就立即断开\n",
"- response(响应头信息)\n",
" - content-type: 服务器的响应数据类型\n",
"\n",
"- 爬虫的合法性\n",
" - 咱们做爬虫必须要合法\n",
" \n",
"- robots协议(文本协议robots.txt)\n",
"\n",
"- 协议: 服务器与客户端之间制定的一个规则\n",
"\n",
"- HTTP/HTTPS\n",
"\n",
"- 数据加密的方式:\n",
" - 对称密钥加密: 客户端对请求数据进行加密,将加密信息和密钥一并发送给服务器端\n",
" - 非对称密钥加密: 服务端创建密钥对,将公钥发送给客户端,客户端使用公钥对数据进行加密,服务器端用私钥进行解密\n",
" - 证书密钥加密: 服务器端发送给客户端的公钥,进行第三方机构(权威)进行认证,没有认证的公钥,客户端拒接"
]

猜你喜欢

转载自www.cnblogs.com/youhongliang/p/12172984.html