只能在浏览器正常访问后的一段之间才能用爬虫爬取

其他 2019-05-03 17:44:45 阅读次数: 0

依然是爬取五等分的花嫁漫画。在爬取时发现需要获得的某个数据只能在浏览器正常打开后才能获取，否则获得的是空数据。

折腾了cookie也没有用。想啊想，看啊看，试啊试，最终还是没有解决问题

又去参考了前辈的代码，加了header中的referer终于解决了问题。

headers = {
        'Referer':
            'https://www.dm5.com/manhua-bianfuxia-fuzhizuiqian'
        }

现在还是不明白为什么。先贴个关于referer的解释（发现这个单词竟然早期拼错，然后沿用下来了。我就觉得试referrer）

HTTP Referer是header的一部分，当浏览器向web服务器发送请求的时候，一般会带上Referer，告诉服务器我是从哪个页面链接过来的，服务器基此可以获得一些信息用于处理

参考文章：

爬取动漫屋网站

猜你喜欢

转载自www.cnblogs.com/roadwide/p/10805666.html

只能在浏览器正常访问后的一段之间才能用爬虫爬取

前端页面当浏览器缩小后右侧会有一段空白

浏览器如何运行一段JavaScript代码

只能用手机浏览器访问，限制PC访问

网页只能在微信内置浏览器中访问

Javascript限制网页只能在微信内置浏览器中访问

爬虫---------scrapy------浏览器爬取（）

添加一段代码，让你的网站在微信QQ提示使用浏览器访问

【解决】网站运行一段时间后就无法访问，重启Tomcat才能恢复

SecureCRT访问本地虚拟机linux系统需要等待一段时间才能正常连接

限制网页只能在微信浏览器打开

一段判断多种浏览器类型及版本号的脚本代码

随机一段字符串，浏览器点击复制

模拟浏览器爬取

Kubernetes Dashboard不能用谷歌浏览器登录，只能用火狐浏览器登录的问题。

解决开启Gzip压缩后某些浏览器访问不正常

web网站css，js更新后客户浏览器缓存问题，需要刷新才能正常展示的解决办法

python爬虫之selenium模拟浏览器爬取淘宝美食

python爬虫+网页点击事件+selenium模拟浏览器，爬取选股宝内容

爬虫：模拟浏览器对网站内容进行爬取

Python爬虫+requests+伪装浏览器爬取小说入门总结

反爬虫模拟浏览器——实现银行信息爬取

Python项目实战:爬虫学习,利用selenium浏览器来爬取

使用Java编写程序模拟浏览器，爬取防爬虫网站的信息

爬虫：爬取以太坊区块链浏览器数据

Python爬虫模拟浏览器的headers、cookie，爬取淘宝网商品信息

爬虫CASE01：反爬策略之使用随机user-agent模拟浏览器的网页爬取

只能在微信浏览器打开的链接，如何查看源码

JavaScript 限制只能在微信浏览器中打开

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)