requests 库 & robots 协议 - 代码天地

requests 库 & robots 协议

其他 2018-09-28 14:17:14 阅读次数: 0

版权声明：猪小哥 https://blog.csdn.net/food_for_thought/article/details/82880999

import requests


# ===通用代码框架
def get_html_text(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()  # 如果状态不是200，引发HTTP——error异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"


'''
response对象的属性
属性                            说明
r.status_code           HTTP请求的返回状态，200表示连接成功，404表示失败 
r.text                  HTTP响应内容的字符串形式，即，url对应的页面内容 
r.encoding              从HTTP header中猜测的响应内容编码方式 
r.apparent_encoding     从内容中分析出的响应内容编码方式（备选编码方式） 
r.content               HTTP响应内容的二进制形式
'''

'''
requests库的七个常用方法
方法                          说明 
requests.request()      构造一个请求，支撑以下各方法的基础方法 requests.get()获取HTML网页的主要方法，对应于HTTP的GET 
requests.head()         获取HTML网页头信息的方法，对应于HTTP的HEAD 
requests.post()         向HTML网页提交POST请求的方法，对应于HTTP的POST 
requests.put()          向HTML网页提交PUT请求的方法，对应于HTTP的PUT 
requests.patch()        向HTML网页提交局部修改请求，对应于HTTP的PATCH 
requests.delete()       向HTML页面提交删除请求，对应于HTTP的DELETE
requests.get()          获取HTML网页的主要方法，对应于HTTP的GET 
'''

 # 测试一百次requests需要多长时间
 n = 0
 url = 'http://www.baidu.com'
#while n < 100:
     get_html_text(url)
     print(get_html_text(url))
     n += 1

'''
====网络爬虫的尺寸
网页  requests
网站  scrapy
全网  定制开发

====网络爬虫引发的问题
性能骚扰 
法律风险 
隐私泄露

====robots协议
Robots Exclusion Standard，网络爬虫排除标准
==作用：
网站告知网络爬虫哪些页面可以抓取，哪些不行
==形式：
在网站根目录下的robots.txt文件
# *代表所有，/代表根目录 
User‐agent: *  
Disallow: / 
'''

猜你喜欢

转载自blog.csdn.net/food_for_thought/article/details/82880999

requests 库 & robots 协议

网络爬虫：Requests库&&Robots协议

python爬虫学习笔记1：requests库及robots协议

Python爬虫学习（一）使用requests库和robots协议

[python爬虫]Requests-BeautifulSoup-Re库方案--robots协议与Requests库实战

urllib库:分析Robots协议

robots协议

站长爬虫协议robots

爬虫Robots协议

爬虫分类及robots协议

robots 协议介绍

Robots协议（摘）

08_Robots协议

爬虫分析Robots协议

robots协议介绍：

6,Robots协议

爬虫：Robots协议及位置

robots.txt协议

爬虫的Robots协议

1_Robots协议

requests--基于http协议的网络库

芝麻HTTP：分析Robots协议

网络爬虫--Robots协议(7)

python网络爬虫——robots协议

python 网络爬虫的Robots协议

PJzhang:robots协议的实际场景

XCTF篇：Robots 协议【简述】

python爬虫--02 robots协议

2_Robots协议的使用

爬虫系列爬虫的Robots协议请求库之requests库解析库beautifulsoup 爬取汽车之家新闻搭建免费代理池验证码破解模拟自动登录网站 xpath路径 selenium简介与安装 selenium的使用 Scrapy 架构介绍 scrapy 框架的安装与启动 scrapy项目架构与配置文件 Scrapy中response属性以及内容提取爬取数据并解析 Scrapy 持久化

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)