今日头条图片爬取(一) - 代码天地

今日头条图片爬取(一)

其他 2018-08-30 22:45:59 阅读次数: 0

万年老掉牙的头条街拍爬取，不过用来练习还是可以的，也有很多资料查询

1.获取总页面的代码

在头条的右上角搜索选项内搜索街拍，我们看见街拍首页了，然后看看是不是js加载的发现还真是，头条全部都是js加载的，这里可以用Toggle JavaScript(Chrome插件)，这个可以去Chrome的插件网上下载，就是点一下js部分就会被禁止执行，方便点
点击右上角黄色插件

2.找js请求

F12打开开发者选项
在XHR中就一个请求，点进去一看发现就是我们想要的，再看看headers

Query String Parameters是构成url请求的数据，就是url的？后面的数据
码出代码

    def get_bhtml(self,keyword,offset): #获取总页面的代码
        data = {  #为了方便更改所以变成字典样式
            "offset": offset,
            "format": "json",
            "keyword": keyword,
            "autoload": "true",
            "count": 20,
            "cur_tab": 1,
            "from": "search_tab"
        }
        url = 'https://www.toutiao.com/search_content/?'+urlencode(data)#urlencode用于把自典变成url形式
        response = requests.get(url,headers=self.headers).text

        return response  #返回页面的代码

3.获取详情页的url

打开刚才的到的请求看看

data的第二个字典是我们想要东西的第一个，share_url就是我们要的详情页的url，似乎大功告成，但是头条还有ajax，我们不可能只爬他刚加载的部分
ajax的爬取
打开F12，然后不断往下翻，就多出来几个请求

offset的作用看出来了

也就offset变了
代码

 def get_xurl(self,html): #传入总页面的网页代码
        url = re.compile('"share_url": "(.*?)",')
        urls = url.findall(html,re.S)
        url_list = [i for i in urls]

        return url_list  #返回各个详情页的url的列表

猜你喜欢

转载自blog.csdn.net/qq_35680144/article/details/81875916

今日头条图片爬取(一)

python爬取今日头条图片

今日头条图片爬取(二)

爬取今日头条

今日头条的爬取

今日头条图片爬取和下载

爬取今日头条街拍图片

今日头条的街拍图片的简单自动爬取

爬取今日头条图片，可以输入页数

用Ajax爬取今日头条图片

用Ajax爬取今日头条图片集

利用Ajax爬取今日头条------街拍图片

python爬虫-爬取今日头条街图片

爬虫—分析Ajax爬取今日头条图片

使用ajax爬取今日头条街拍图片

今日头条街拍图片爬取

小白学爬虫——爬取今日头条里的图片（一）

爬取今日头条短视频

nodejs 爬取动态网页以今日头条街拍图片为例

python爬虫练习--爬取今日头条街拍图片

practice之Python爬取今日头条图片（正则表达式）

【python爬虫自学笔记】（实战）------爬取今日头条街拍图片

python3 爬虫学习日志之爬取今日头条街拍图片

今日头条图片ajax异步加载爬取，并保存至mongodb，以及代码写法的改进

小白学爬虫——爬取今日头条里的图片（三）

小白学爬虫——爬取今日头条里的图片（二）

Python爬虫实战——爬取今日头条美女图片

Python爬虫学习笔记（实例：爬取今日头条街拍页面文章中的图片）

python3 网络爬虫开发实战爬取今日头条街拍图片

今日头条图片

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)