Python爬虫学习(持续更新) - 代码天地

Python爬虫学习(持续更新)

其他 2018-09-02 19:53:28 阅读次数: 0

当服务器通过request的header中的用户信息防止爬取时，修改header改为一个浏览器就好

import requests
from bs4 import BeautifulSoup
kv={'user-agent':'Mozilla/5.0'}
r=requests.get("http://python-requests.org/en/master/",headers=kv)
r.encoding=r.apparent_encoding
print(r.encoding)
soup=BeautifulSoup(r.text,'html.parser')
print(soup.prettify())

你也许经常想为 URL 的查询字符串(query string)传递某种数据。如果你是手工构建 URL，那么数据会以键/值对的形式置于 URL 中，跟在一个问号的后面。例如， httpbin.org/get?key=val。 Requests 允许你使用 params 关键字参数，以一个字符串字典来提供这些参数。举例来说，如果你想传递 key1=value1 和 key2=value2 到 httpbin.org/get ，那么你可以使用如下代码：

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get("http://httpbin.org/get", params=payload)

例如百度搜索的关键字

import requests
from bs4 import BeautifulSoup
kz={'wd':'ACMICPC'}
r=requests.get("http://www.baidu.com/s",params=kz)
print(r.status_code)
print(r.url)
r.encoding=r.apparent_encoding
print(r.text)

爬取谷歌的logo

import requests
path = 'D:/123.jpg'
url='https://www.google.com.hk/images/branding/googlelogo/2x/googlelogo_color_272x92dp.png'
r = requests.get(url)
with open(path,'wb') as f:
	f.write(r.content)
f.close()

其中content是response的一个内容，将返回内容用二进制的形式返回

其中requests类也可以看作response类的一个子类

猜你喜欢

转载自blog.csdn.net/Gipsy_Danger/article/details/81082516

Python爬虫学习(持续更新)

Python爬虫学习代码（持续更新中）

python爬虫笔记-持续更新

爬虫学习记录 ----持续更新

python 学习持续更新

python爬虫之反爬虫与反反爬虫持续更新

Python爬虫个人总结持续更新

python爬虫入门案例，持续更新

Python Tensorflow学习(持续更新)

持续更新：Python学习笔记

Python Flask学习持续更新.......

Python学习目录 - 持续更新

python爬虫scrapy项目详解（关注、持续更新）

python爬虫scrapy项目详解（关注、持续更新）！

Python爬虫的一些小技巧（持续更新中~）

Python包学习笔记（持续更新）

python学习笔记（持续更新中）

python细节（持续更新）

python入门（持续更新）

Python: 语法(持续更新)

python基础(持续更新)

Python[持续更新]

Python复习（持续更新）

python教程（持续更新）

Python基础（持续更新）

python网络爬虫（3）python2在python3上的变动处理（持续更新）

reids学习（持续更新）

scala 学习持续更新

学习框架（持续更新）

STL 学习（持续更新）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)