day01 - 爬虫基础知识 - 代码天地

day01 - 爬虫基础知识

其他 2020-03-31 20:42:18 阅读次数: 0

一、爬虫介绍
网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

总之
只要是浏览器能做的事情，原则上，爬虫都能够做

二、分类

通用爬虫
通常指搜索引擎的爬虫
聚焦爬虫
针对特定网站的爬虫
流程

三、通用搜索引擎局限性
通用搜索引擎所返回的网页里90%的内容无用。
图片、音频、视频多媒体的内容通用搜索引擎无能为力
不同用户搜索的目的不全相同，但是返回内容相同
四、ROBOTS协议
网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。
例如
https://www.taobao.com/robots.txt
五、HTTP和HTTPS
HTTP
超文本传输协议，默认端口号:80
HTTPS
HTTP + SSL(安全套接字层)，默认端口号：443
状态码
200：成功
302：临时转移至新的url
307：临时转移至新的url
404：not found
500：服务器内部错误
浏览器发送HTTP请求的过程

六、str和bytes之间的相互转化
str 使用encode方法转化为 bytes
bytes通过decode转化为str

发布了30 篇原创文章 · 获赞 0 · 访问量 277

私信关注

猜你喜欢

转载自blog.csdn.net/qq_36334897/article/details/105098828

day01 - 爬虫基础知识

day01 Python基础知识

day01 - Linux基础知识

爬虫day01

python爬虫 day01

网络爬虫day01

day01 学习爬虫

JAVA基础day01 JAVA基础day01

java基础_day01

Python基础day01

day01(pyhon基础)

ptyhon 基础- day01

JAVA基础day01

Python基础_day01

Shell基础-DAY01

python基础（_day01）

Java基础-Day01

Python基础——day01

day01 pathon基础

day01 pyhon基础

day01 python基础

Linux基础：Day01

plus基础_day01

Vue 基础 day01

Python基础-day01

React 基础 day01

HTML 基础 day01

CSS 基础day01

mysql基础day01

day01（java基础知识）学习笔记

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)