python模拟浏览器爬取数据 - 代码天地

python模拟浏览器爬取数据

编程语言 2018-07-27 10:08:02 阅读次数: 0

在爬取某财经网站数据时由于没有设置Header信息，直接被封掉了ip

后来设置了Accept、Connection、User-Agent三个参数后换了个ip登录，成功请求到几次数据后又被封掉ip

最后老老实实把所有header信息都加上后请求（其实还少了一个cookie），现在请求了几十次还没被封 (ಥ﹏ಥ)

代码如下

#coding=utf-8
import requests
from bs4 import BeautifulSoup

headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
        'Accept-Encoding':'gzip,deflate,sdch',
        'Accept-Language':'en,zh-CN;q=0.8,zh;q=0.6',
        'Cache-Control':'max-age=0',
        'Host':'www.xxx.com',   #此处为财经网的主页
        'Connection':'keep-alive',
         'Upgrade-Insecure-Requests':'1',
        'Content-Type':'application/x-www-form-urlencoded',
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36'
    }
response = requests.get("http://www.xxxxxx.com", headers=headers) #请求的地址
soup = BeautifulSoup(response.content, 'html.parser')  #返回的html信息用soup解析
print(response.status_code)  #请求状态码
print(soup.prettify())　　#以格式输出html

猜你喜欢

转载自blog.csdn.net/huaidan1469/article/details/81195591

python模拟浏览器爬取数据

模拟浏览器爬取

spynner模拟浏览器爬取链接

scrapy模拟浏览器翻页爬取智联

简单的模拟浏览器爬取网页和图片

python爬虫之selenium模拟浏览器爬取淘宝美食

使用python利器selenium工具模拟浏览器运行并爬取淘宝商品信息

Python使用标准库urllib模拟浏览器爬取网页内容

python爬虫+网页点击事件+selenium模拟浏览器，爬取选股宝内容

Python爬虫模拟浏览器的headers、cookie，爬取淘宝网商品信息

8.爬取动态数据——模拟浏览器（Selenium入门到实战）

Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取

python的selenium爬取过程不出浏览器

python 利用火狐浏览器爬取内容

利用chrome浏览器爬取数据

Selenium+phanmJs 操作浏览器爬取数据

通过selenium直接驱动浏览器爬取数据

python爬虫 requests+lxml爬取前程无忧网之模拟浏览器登录

python练习7：对爬取有道翻译的二次改进之模拟浏览器行为

Python数据爬虫学习笔记（12）爬取腾讯视频评论数据（Fiddler抓包+浏览器伪装）

爬虫：模拟浏览器对网站内容进行爬取

使用scrapy框架+模拟浏览器方法实现爬取智联的职位信息

反爬虫模拟浏览器——实现银行信息爬取

使用Java编写程序模拟浏览器，爬取防爬虫网站的信息

爬虫CASE01：反爬策略之使用随机user-agent模拟浏览器的网页爬取

使用scrapy框架,用模拟浏览器的方法爬取京东上面膜信息,并存入mysql,sqlite,mongodb数据库

用python2和python3伪装浏览器爬取网页

Python爬虫+requests+伪装浏览器爬取小说入门总结

Python项目实战:爬虫学习,利用selenium浏览器来爬取

python项目实战:利用selenium+浏览器爬取淘宝商品信息

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)