问题解决：爬取京东商品信息返回网址而不显示内容 - 代码天地

问题解决：爬取京东商品信息返回网址而不显示内容

其他 2020-10-30 12:25:32 阅读次数: 0

文章目录

1.爬取原页面

这里要爬取的原页面如下图：
在这里插入图片描述

2.错误代码

不知道各位小伙伴是不是和我一样使用的是如下图的代码呢？

import requests
url = "http://item.jd.com/2967929.html"
try:
    r = requests.get(url)
    r.raise_for_status()
    print(r.status_code)
    r.encoding = r.apparent_encoding
    print(r.text[:1001])
except:
    print("爬取异常")

我用以上代码得到的结果是这样的

在这里插入图片描述
只有一个网址，而并没有和预想的一样会显示内容，这是什么原因呢，我们来分析。

3.错误分析

使用IDLE交互式环境进行错误分析

（1）查看状态码和编码方式

在这里插入图片描述
通过状态码和编码方式的查看我们发现好像并没有任何问题，这时候就要考虑是不是京东对爬虫做了user-agent限制呢

（2）输出提交给京东的头部信息

在这里插入图片描述
通过输出头部信息，我们发现，在提交给京东的信息中，我们很诚实的告诉了京东所使用的爬虫获取信息，由于京东对爬虫做了来源审查，所以我们并不能查看爬取的内容

（3）解决办法

既然找到了错误原因，那么相应的解决办法也就显而易见了，我们只需要使用字典构建一个构造一个键值对，更改下头部信息。将上述user-agent中的内容改成任意浏览器即可。

headers = {
    
    "User-Agent": "Mozilla/5.0"}

Mozilla/5.0表示提交访问的可能是火狐、Google等任意浏览器，它是标准的浏览器的身份标识字段。

4.完整代码

import requests
url = "http://item.jd.com/2967929.html"
headers = {
    
    "User-Agent": "Mozilla/5.0"}
try:
    r = requests.get(url, headers=headers)  #因为京东有user-agent限制所以要加入头部信息
    r.raise_for_status()
    print(r.status_code)
    r.encoding = r.apparent_encoding
    print(r.text[:1001])
except:
    print("爬取异常")

输出内容如下图，我们可以看到已经能够正常爬取内容了

在这里插入图片描述
本篇完，如有错误欢迎指出~

猜你喜欢

转载自blog.csdn.net/weixin_44578172/article/details/109302571

问题解决：爬取京东商品信息返回网址而不显示内容

java京东商品信息爬取

爬取京东商品信息

爬取京东商城商品信息

Java爬虫爬取京东商品信息

爬取京东手机商品信息

Python爬虫-爬取京东商品信息

python爬虫—selenium爬取京东商品信息

day03爬取京东商品信息

爬取京东商品信息并保存到MongoDB

爬取京东商城某件商品信息

爬虫之selenium爬取京东商品信息

selenium+lxml爬取京东商品信息

Python爬虫爬取淘宝，京东商品信息

Python爬取京东商品信息（方式①）

Python基于BeautifulSoup爬取京东商品信息

Selenium 爬取京东商品信息并分页保存

java爬虫，爬取京东商品信息，基于selenium

Selenium介绍--实例爬取京东商品信息与图片

python爬虫——selenium爬取京东商品信息

关于Swagger的@ApiModel 返回内容注释不显示问题解决方案

爬虫爬取淘宝商品信息

Python爬取淘宝商品信息

爬取淘宝商品信息

爬取某东商品信息

解决爬取京东商品时只显示前30个商品的问题

【爬虫】Scrapy配合Selenium爬取京东动态加载的商品信息

python 爬虫实战项目--爬取京东商品信息（价格、优惠、排名、好评率等）

Scrapy框架基于crawl爬取京东商品信息爬虫

爬取京东的商品信息，并保存至CSV文件中（类）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)