Python 爬虫学习笔记1 - 代码天地

Python 爬虫学习笔记1

其他 2018-12-28 08:18:02 阅读次数: 0

urllib模块:
urllib.requests: 打开和读取urls
urllib.error: 包含urllib.requests 产生的常见错误，使用try捕捉
urllib.parse: 包含即系url方法
urllib.robotparse: 解析robots.txt文件

网页编码问题解决：
chardet 可以自动检测页面文件的编码格式，可能有误

urlopen的返回对象：
geturl: 返回请求对象的url
info: 返回请求对象的meta信息
getcode: 返回http code

request.data:
访问网络的两种方法：
get：利用参数给服务器传递信息，参数为dict，然后用parse编码
post：一般向服务器传递参数使用，把信息自动加密处理，如果想使用post信息，需要使用data参数
使用post，意味着http的请求头可能需要修改
一旦更改请求方法，需要注意其他请求头部信息相适应

request.Request

urllib.error: 没网，服务器连接失败，不知道指定服务器， OS.error子类一般对应网络出现问题，包括URL问题

HTTPError 对应的HTTP请求的返回码的错误，是URLError的一个子类

UserAgent 用户代理，属于heads一部分，服务器通过UA判断访问者身份使用时可以复制，也可以web抓包
设置方式： heads ， add_header

猜你喜欢

转载自www.cnblogs.com/chickenwrap/p/10188393.html

学习python爬虫笔记(1)

python 爬虫学习笔记（1）

Python 爬虫学习笔记1

Python爬虫学习笔记 - 1

python爬虫学习笔记1

Python 开发简单爬虫学习笔记1

python网络爬虫学习笔记（1）

Python爬虫学习笔记（Selenium（1））

python学习笔记之爬虫 -1- 初识爬虫

python爬虫学习笔记_初识网络爬虫_1

Python 爬虫笔记1

python爬虫笔记1

Python学习笔记--Python 爬虫入门 -18-1 Scrapy

python爬虫学习笔记2：实例学习1

Python——爬虫学习1

python 爬虫学习1

python爬虫学习1

[Python]爬虫学习1

Python爬虫学习笔记

[Python学习笔记]爬虫

爬虫学习笔记（1）-- 利用Python从网页抓取数据

python爬虫学习笔记1：requests库及robots协议

Python爬虫-学习笔记(1) ———— 爬豆瓣电影资源

Python的学习笔记DAY6---爬虫（1）

python学习笔记分享(三十三)网络爬虫(1)

Python爬虫的小白学习笔记1-批量下载图片

Python爬虫（入门+进阶）学习笔记 1-1 什么是爬虫？

Python爬虫（入门+进阶）学习笔记 1-2 初识Python爬虫

python高级爬虫笔记(1)

python高级爬虫笔记(1)

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)