爬虫学习笔记1 - 代码天地

爬虫学习笔记1

其他 2020-01-29 21:17:33 阅读次数: 0

目录

原理
步骤
必备基础知识
几个重要概念
- get请求和post请求的区别

原理

通过编程向网络服务器请求数据（HTML表单），然后解析HTML，提取出自己想要的数据。哇~
（为何有种相见恨晚的赶脚？？）

就是发送GET请求，获取HTML
解析HTML获取数据

步骤

根据url获取HTML数据
解析HTML，获取目标信息
存储数据
重复第一步

必备基础知识

python基础知识，随便找个博客或者看官方文档都行，我在datacamp上面又看了一遍
HTML语法格式，这个可以参考一下尚硅谷的谷粒学院那个老师讲的，真的觉得老师讲的思路清晰，他后面讲python全栈也很清晰，b战上有的，名字忘记了,姓李。

基础知识可以参考一下崔庆才老师的官方博客，基本知识点都提到了，就是不太深，但是作为入门够了.

几个重要概念

url：统一资源定位符==请求的协议(http/https) + 网站的域名 + 资源的路径 + 参数
举个例子：https://blog.csdn.net/pleasecallmewhy/article/details/8922826

这个链接的中文释义就是，可以https这个协议访问的资源，位于主机blog.csdn.net上，存在主机的这个/pleasecallmewhy/article/details/8922826位置上
就可以深刻理解统一资源定位符的概念了

HTTP：超文本传输协议
- 以明文的形式传输
- 效率更高，但不安全
HTTPS：HTTP + SSL(安全套接子字层)
- 传输之前数据先加密，之后解密获取内容
- 效率较低，但是安全
- HTTP协议之请求
  - 1.请求行
  - 2.请求头
User_Agent:用户代理：对方服务器能够通过user_agent知道当前请求对方资源的是什么浏览器
Cookie：用来存储用户信息的，每次请求会被携带上发送给对方的浏览器
要获取登录后才能访问的页面
对方的服务器会通过Cookie来判断我们是一个爬虫
请求体（get没有，post有）
携带数据
HTTP协议之响应
- 1.响应头
- Set-Cookie:对方服务器通过该字段设置cookie到本地
- 2.响应体
- url地址对应的响应

get请求和post请求的区别

①get请求无请求体，post有
②get请求把数据放到URL地址中
③post请求change用于登录注册
④post请求携带的数据量比get请求大，多，常用于传输大文本

因此第一阶段的学习目标

1.request库
2.beautifulsoup库

从知乎找到了一张图，我感觉很详细

猜你喜欢

转载自www.cnblogs.com/gaowenxingxing/p/12241367.html

爬虫学习笔记（1）

爬虫学习笔记1

学习python爬虫笔记(1)

python 爬虫学习笔记（1）

Python 爬虫学习笔记1

Python爬虫学习笔记 - 1

网络爬虫学习笔记 1

python爬虫学习笔记1

Python 开发简单爬虫学习笔记1

商业爬虫学习笔记day1

python网络爬虫学习笔记（1）

Python爬虫学习笔记（Selenium（1））

爬虫学习笔记----day1

爬虫框架Scrapy学习笔记-1

python学习笔记之爬虫 -1- 初识爬虫

python爬虫学习笔记_初识网络爬虫_1

python爬虫学习笔记2：实例学习1

Python爬虫（入门+进阶）学习笔记 1-1 什么是爬虫？

Python 爬虫笔记1

爬虫笔记（1）

Scrapy爬虫笔记——1

8.13 爬虫笔记1

python爬虫笔记1

爬虫学习笔记（1）-- 利用Python从网页抓取数据

python爬虫学习笔记1：requests库及robots协议

小白的py爬虫学习笔记_1_2

Python爬虫-学习笔记(1) ———— 爬豆瓣电影资源

爬虫学习笔记第1章 - 开发环境配置

Python学习笔记--Python 爬虫入门 -18-1 Scrapy

Python的学习笔记DAY6---爬虫（1）

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)