使用爬虫遇到的一些问题 - 代码天地

使用爬虫遇到的一些问题

编程语言 2018-09-05 17:21:24 阅读次数: 0

本博客会记录博主在使用爬虫过程中遇到的问题，不断更新，希望以后再遇到这些问题的时候，可以快速解决。

1、在爬取和讯博客的时候发现阅读数和评论数无法正常读取。通过抓包工具抓取到了阅读数和评论数的URL，但是复制到浏览器上打开发现一片空白。在抓包工具Raw里发现，有一项Refere，后面将此项加到headers信息里，数据可以正常显示出来了。代码如下：

import urllib.request

url='http://click.tool.hexun.com/click.aspx?articleid=116367158&blogid=19050645'

data={

"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36",
"Referer":"http://27783968.blog.hexun.com/116367158_d.html",

}

request=urllib.request.Request(url,headers = data)
data=urllib.request.urlopen(request).read().decode("utf-8","ignore")
print(data)

此次难点在于不熟悉urllib库是如何添加更多的请求信息到heagers里，在以上代码中，data里还可以添加更加多的请求，比如cookie等信息，记录此次代码的目的在于熟悉urllib.request.Reques的用法

猜你喜欢

转载自blog.51cto.com/wuliu92/2170753

使用爬虫遇到的一些问题

关于使用scrapy爬虫框架遇到的一些问题

使用Apache HttpClient遇到的一些问题

使用PHP时遇到的一些问题

Docker使用时遇到的一些问题札记

使用secureCRT遇到的一些问题

ofbiz 使用 oracle 开发遇到的一些问题

使用AMBER中遇到的一些问题

关于使用thymeleaf时遇到的一些问题

springboot 使用中遇到的一些问题

使用android studio遇到的一些问题

使用idea遇到的一些问题

Android Studio使用中遇到的一些问题

在使用SOUI做项目遇到的一些问题

Eclipse使用Git时遇到的一些问题

在使用oracle中遇到的一些问题

使用Ctex中遇到的一些问题

powerdesigner使用遇到的一些问题

使用Kettle遇到的一些问题

关于使用java Optional遇到的一些问题

关于Android Studio使用遇到的一些问题

使用gdb调试内核遇到的一些问题

Docker使用中遇到的一些问题

使用Eclipse、Tomcat遇到的一些问题

使用material design组件遇到的一些问题

IDEA中使用lombok遇到的一些问题

使用vue iview遇到的一些问题

使用Oracle时遇到的一些问题

NestedScrollView使用中遇到的一些问题总结

使用Eureka中遇到的一些问题

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)