爬虫基础1 - 代码天地

爬虫基础1

其他 2020-01-09 19:01:00 阅读次数: 0

## jupyter的使用\n",
"- 1 jupyter的安装\n",
" - pip install jupyter\n",
"- 2 jupyter的使用\n",
" - 创建txt/文件夹/终端/python3\n",
"- 3 jupyter的快捷键\n",
" - 创建cell: a或b\n",
" - 删除cell：dd\n",
" - 使用tab补全\n",
" - 执行cell: shift+enter\n",
" - 代码或markdown模式切换: y或m\n",
" - 查看帮助信息: shift+tab"

## 爬虫\n",
"- 爬虫的概念: 通过编写程序模拟浏览器操作，让其在互联网上爬取/获取数据的过程\n",
"- 爬虫的分类:\n",
" - 通用爬虫: 获取一整张页面的数据(是游览器\"抓取系统\"的一个重要组成部分)\n",
" - 聚焦爬虫：爬取页面中指定的内容(必须建立在通用爬虫的基础上)\n",
" - 增量式爬虫: 通过监测网站数据的更新情况, 只爬取最新的数据\n",
"\n",
"- 反爬机制: 通过技术手段阻止爬虫程序进行数据的爬取(大概7种)\n",
"- 反反爬策略: 破解反爬机制的过程\n",
"\n",
"- request(请求头信息)\n",
" - User-Agent: 请求载体的身份标识\n",
" - connection: close 每当访问完数据之后就立即断开\n",
"- response（响应头信息）\n",
" - content-type: 服务器的响应数据类型\n",
"\n",
"- 爬虫的合法性\n",
" - 咱们做爬虫必须要合法\n",
" \n",
"- robots协议(文本协议robots.txt)\n",
"\n",
"- 协议: 服务器与客户端之间制定的一个规则\n",
"\n",
"- HTTP/HTTPS\n",
"\n",
"- 数据加密的方式:\n",
" - 对称密钥加密: 客户端对请求数据进行加密，将加密信息和密钥一并发送给服务器端\n",
" - 非对称密钥加密: 服务端创建密钥对,将公钥发送给客户端，客户端使用公钥对数据进行加密，服务器端用私钥进行解密\n",
" - 证书密钥加密: 服务器端发送给客户端的公钥，进行第三方机构(权威)进行认证，没有认证的公钥，客户端拒接"
]

猜你喜欢

转载自www.cnblogs.com/youhongliang/p/12172984.html

一、爬虫基础（1）

爬虫基础（1）

网络爬虫基础1

爬虫基础---1

python爬虫基础（1）

爬虫基础1

1，爬虫入门之爬虫基础了解

爬虫基础篇1---爬虫原理

Python爬虫实战 | (1) 爬虫基础

爬虫基础（1）什么是网络爬虫

网络爬虫---HTTP基础（1)

python爬虫基础（1：概述）

爬虫基础部分概念1

爬虫基础(1):urllib库

python爬虫（1） - 基础简介

pyhton爬虫开发基础#1——前端基础

python爬虫1---HTML基础

GlidedSky爬虫网站练习基础1

python爬虫1：基础知识

Python网络爬虫学习手记（1）——爬虫基础

爬虫（1）——爬虫前奏

python爬虫-基础入门-爬取整个网站《1》

爬虫基础-1-爬取小说资源

Python网络爬虫第1章Python基础

python爬虫新手速成教学--基础篇1

下载及安装 Anaconda3 爬虫基础-1

1、关于python爬虫的基础介绍和学习

爬虫基础（1）HTTP基本原理

爬虫初阶（六）—— Scrapy框架（1）scrapy的基础概念

爬虫游戏基础1 http://glidedsky.com

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)