Python3爬虫1-请求库

其他 2018-12-06 15:32:03 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/x15696576570/article/details/84844504

获取网页源代码是爬虫的第一步，在Python中最常用的就是urllib和request两个库了。

urllib库介绍

先说一下python版本变化前后的区别，这个曾给我带来不小的麻烦。

在Python2中，有内置的urllib、urllib2两个库，urllib 侧重于 url 基本的请求构造，urllib2侧重于 http 协议请求的处理。
而在Python3中，已经不存在urllib2这个库了，统一为urllib。urllib作为Python3的标准库，基本上涵盖了基础的网络请求功能。它包含如下四个模块：
1. request：它是最基本的HTTP请求模块用来模拟发送请求；
2. error：异常处理模块，用来捕获异常自定义处理方式，保证程序不会意外终止；
3. parse：提供URL的处理方式，如拆分、解析、合并等；
4. robotparser：用于处理网站的robots.txt文件，规范爬虫。
另外有一个扩展的urllib3，在urllib上增加了连接池等功能，两者互相都有补充的部分。urllib3是服务于升级的http 1.1标准，拥有高效 http连接池管理及 http 代理服务的功能库，从 urllib 到 urllib2和urllib3是顺应互联应用升级浪潮的，这股浪潮从通用的网络连接服务到互联网网络的头部应用：支持长连接的 http 访问，网络访问不断的便捷化。

使用Python3的urllib库

参考简书Python网络请求urllib和urllib3详解

requests库介绍

urllib库很全，但也有很多不方便之处。为了更加方便的实现请求头构造、Cookies等功能，Python中有更强大的request库。

使用request库

还是参考简书【Requests】优雅到骨子里的网络请求库，因为他写得真的很好。

源代码有了，但需要正确的解析过滤才能称得上数据。

猜你喜欢

转载自blog.csdn.net/x15696576570/article/details/84844504

Python3爬虫1-请求库

python3爬虫(1)--urllib请求库使用

《 Python3 网络爬虫开发实战》学习笔记1-爬虫基础

Python3爬虫（四）请求库的使用requests

python3爬虫（一）：请求库之requests

Python3爬虫（一）：请求库之urllib

Python3 网络爬虫（请求库的安装）

Python3网络爬虫-请求库的安装

【Python3网络爬虫开发实战】 1-开发环境配置

python3爬虫-1

Python3爬虫1

Python3教程-1-初识Python

python3 常用爬虫库安装

python3 爬虫常用库

Python3爬虫urllib库的使用

【Python3 爬虫学习笔记】解析库的使用 1 —— 使用XPath 1

【Python3 爬虫学习笔记】解析库的使用 3 —— Beautiful Soup 1

python3网络爬虫学习——基本库的使用（1）

【Python3 爬虫学习笔记】基本库的使用 8—— 正则表达式 1

【Python3 爬虫学习笔记】解析库的使用 8 —— 使用pyquery 1

Python3入门到精通九：进阶1：MySQL数据库操作（爬虫存储）

python3 爬虫

python3爬虫

Python3的tkinter库教程1

【python爬虫自学笔记】-----python3 requests库用法

python3自学笔记1-交互环境与基本语法

Python3爬虫（七）解析库的使用之pyquery

python3爬虫（一）requests库的学习

python3 爬虫入门之Urlib库的基本使用

python3爬虫（二）：解析库之Beautiful Soup

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)