爬虫的一些基本知识（1） - 代码天地

爬虫的一些基本知识（1）

其他 2018-08-03 17:38:41 阅读次数: 0

完成一个爬虫的制作的基本过程

分析需求：就是我们需要在网页中爬取什么内容。
分析网站：根据需求在网站上找到相应的资源。
获取源码：requests包来获取，注意返回的response的各个属性的类型、编码。
匹配资源：用正则表达式匹配目的资源的url。
存储资源：将获取的资源以正确的格式存放。

2. 与爬虫有关的基础知识

正则表达式

正则表达式的基本符号

- - ^ :必须以 ^ 之后的字符为开头，如 ^a 表示必须以a为开头。
  - $ :必须以 $ 之前的字符为结尾，如 3$ 表示必须以数字3为结尾。
  - . :代表任意字符，换行符除外，若后面加入re.S则也能代表换行符。
  - * :表示 * 之前的字符可以重复任意多次。+ :表示 + 前面的字符可以重复至少一次
  - + :表示 + 之前的字符可以重复至少一次。
  - ? :匹配前面的字符0或1次，也表示非贪婪模式。一般跟 .*? 组合使用。
  - {x} :表示限定该符号之前的字符可以重复的次数为 x 次
  - {x,} :表示限定该符号之前的字符可以重复的次数大于等于x次。
  - {x,y} :表示限定该符号之前的字符可以重复的次数为大于等于 x 次而小于等于 y 次。
  - | :表示或，用于有多种表示方式的时候，如 a|b 表示可能出现a,b两种情况，任意一个满足即可匹配。
  - [ ] :表示 [ ] 内的内容任意一个满足即可匹配。
  - \ : 将普通字符转化为特殊字符或者解除特殊字符的功能。
  - \s :代表空格。
  - \S :代表非空格。
  - \w :代表匹配任意Unicode字符。
  - \W :不为 \w 即可。
  - \d :代表数字
  - [\u4E00-\u9FA5] :代表汉字，如果要匹配一串汉字，则中间不能有空格。
  - ( ) :作为子内容提取，一般我们需要留下的内容要放到括号里，比如我们要从一串字符串中提取数字，则(\d+)

2.贪婪模式与非贪婪模式

贪婪模式：匹配尽可能多的字符，不声明的情况下默认为贪婪模式。
非贪婪模式：匹配尽可能少的字符。

编码格式

ASCII

计算机存放数据以及处理数据都是用的二进制0和1，所以最先出现的编码格式为ASCII码，该码只能表示128个字符

GB2312

用ASCII编码处理中文是不够的，因为中文有6000多个汉字，于是中国在ASCII编码的基础上进行了扩展制定了GB2312编码，用两个字节表示一个汉字。

GBK

是对GB2312编码的简单扩展。

GB18030

由于中国是多民族国家，许多民族有其自己的文字，所以在GB2312的基础上进行了扩展，制定了GB18030编码。

Unicode

由于世界上的每个国家都制定了自己的编码标准，所以ISO为了方便，制定了Unicode编码（字符集），将全世界上的所有符号都放了进来，Unicode为定长编码，采用的是16位比特编码。

UTF

这样有可能浪费内存资源，于是UTF编码出现了，采用每次用8位或者16位比特进行传输，分别为UTF-8和UTF-16

encode( )跟decode( )方法

这两个函数都是字符串的函数，字符串在python中是用Unicode编码的，所以在做编码转换的时候，要将Unicode作为中间编码，先将其他编码decode成Unicode编码，再将Unicode编码encode成目标编码

decode( ) : 将其他类型的编码转换成Unicode编码。如str1.decode('gb2312') 表示将gb2312类型编码的字符串解码为Unicode类型。

encode( ) : 将Unicode类型的编码编码成其他类型的编码。入str1.encode('gb2312') 表示将Unicode类型的字符串str1编码为gb2312

requests包

requests.get(url，params) :最常用的一个方法，获取网页源代码，返回一个response对象，该对象里面有多种属性，state_code,url,content,headers等等，可以调用显示。

暂且整理这部分基础知识。

猜你喜欢

转载自blog.csdn.net/Noob_coder_JZ/article/details/79837537

爬虫的一些基本知识（1）

MySQl的一些基本知识（1）

ps的一些基本知识

python —— 一些基本知识

CEF一些基本知识

vxworks一些基本知识

线程的一些基本知识

vscode 一些基本知识

vue的一些基本知识

一些金融的基本知识

JavaScirpt 一些基本知识

python爬虫（三）温习爬虫一些基本知识

git基本操作与一些基本知识

1.关于Spring Cloud的一些基本知识

RedHat Linux 上的一些基本知识

信号与槽的一些基本知识点

关于数据库的一些基本知识

关于数组的一些基本知识点

关于Pthon的一些基本知识（3）

关于Python的一些基本知识（2）

关于File的一些基本知识

GAN网络的一些基本知识（杂记）

核心网一些基本知识

Hibernate入门前的一些基本知识概念

JAVA一些基本知识总结

学习ARM的一些基本知识，个人整理

行列式的一些基本知识

MySQl的一些基本知识（2）

【面试】功能测试面试的一些基本知识

群论基本知识及一些重要定理

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)