Python爬虫前奏 - 代码天地

Python爬虫前奏

其他 2019-03-20 09:36:34 阅读次数: 0

版权声明：个人博客网站：https://cunyu1943.github.io/，欢迎访问留言交流，转载请注明出处！ https://blog.csdn.net/github_39655029/article/details/83900661

网络爬虫

定义
通过模拟人请求网站的行为，然后能够自动请求网页并将数据抓取下来，再使用一定规则将其中我们所需要的有价值的数据提取出来存储，以便我们进行分析；
分类
- 通用爬虫
  搜索引擎抓取系统的一个重要组成部分，主要将网页抓取下来，形成一个互联网的内容备份镜像；
- 聚焦爬虫
  面向特定需求的网络爬虫，与通用爬虫的区别在于它能够在对网页抓取的同时对有价值的内容进行筛选，以满足我们对数据的需求；

http&https

http
HyperText Transfer Protocol，超文本传输协议，一种发布和接收HTML页面的方法，默认端口80；
https
Hypertext Transfer Protocol Secure，http协议的加密版，在http下加入SSL层，默认端口443；

URL

定义
Uniform Resource Locator，统一资源定位符；
组成：scheme://host:port/path/?query-string=xxx#anchor，除开英文字母、数字和部分符号外，其他都是%+16进制码进行编码；
- scheme：访问协议，常为http、https及ftp；
- host：主机/域名；
- port：端口号；
- path：查找路径；
- query-string：查询字符串；
- anchor：锚点，用于前端的页面定位；

常见请求方式

get
只需要从服务器获取数据，而不会对服务器资源产生影响时所使用的方式；
post
向服务器发送数据如登陆操作、上传文件等，会对服务器资源产生影响时所采用的方式；

常见请求头参数

Cookie
由之前服务器通过Set-Cookies设置的一个HTTP协议；
Referer
表示浏览器之前访问的页面，可以认为是之前访问页面的链接将浏览器带到当前页面；
User-Agent
浏览器的身份表示字符串；

响应状态码

urllib库

Python中常用的一个网络请求库，可用于模拟浏览器的行为，向指定服务器发送请求，同时也可以向服务器请求数据，然后将服务器返回的数据保存，这是Python3中自带的一个库，直接可以使用，不需要再安装；

总结

本文总结了学习Python爬虫所需要的一些基础知识，通过学习，你将对爬虫的定义以及一些网络知识有所了解，为接下来进一步学习Python爬虫做好准备；

猜你喜欢

转载自blog.csdn.net/github_39655029/article/details/83900661

python爬虫--爬虫前奏

python网络爬虫前奏

Python爬虫前奏

[Python] 1.爬虫-爬虫前奏

Python网络爬虫之爬虫前奏

爬虫前奏

python学习笔记4---（python网络爬虫-爬虫前奏）

爬虫（1）——爬虫前奏

爬虫前奏(一)

爬虫前奏——网络请求

爬虫前奏——代理ip的使用

网络爬虫之前奏002

网络爬虫之前奏001

前奏

15.爬虫之前奏部分

Python——装饰器之前奏

网络爬虫前奏之实例爬取京东商品004

网络爬虫前奏之图片的爬取006

网络爬虫前奏之盗亦有道003

网络爬虫前奏之实例百度搜索005

linux前奏

django前奏

TypeScript前奏

【Python爬虫】爬虫实战

Python的爬虫与反爬虫

Python爬虫：爬虫demo

【python爬虫】初识爬虫

（爬虫）Python爬虫01

（爬虫）Python爬虫02

python爬虫

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)