Python爬虫(JS逆向) 抓取POCO图片/Json数据处理/保存本地详细案例


前言

之前搞的一个站,最近重新整理了一下,写篇文章记录,也可以给需要的小伙伴参考学习。(篇章中若有讲解不对的地方欢迎评论区指正


目标网站:​​​​​​颇可网 - 领先的时尚摄影平台,摄影视频,摄影爱好者分享作品和技巧首选,个人空间

一、分析页面

首先进入页面后确定我们要抓取的目标

打开页面后发现该网站是采用懒加载的方式加载图片的。

ps:懒加载就是当页面被请求时,只加载可视区域的图片,其它部分的图片则不加载,只有这些图片出现在可视区域时才会动态加载这些图片,从而节约了网络带宽和提高了初次加载的速度。

但是这些咱先不管它,打开f12抓包,看看这些图片都在哪。小技巧,先打开f12,然后清空之后再点击下一页,由于该网页是懒加载,所以我们只需要往下滑即可。

抓到包之后接下来开始进入主题了

二、逆向过程

2.1 分析参数

简单看一眼头部信息和传入的参数,直接请求数据肯定是行不通的,是有反爬手段的。

先看看头部信息和传入的参数吧(重点在这Form Data表单数据

把它复制出来然后刷新对比一下可以总结出其中比较重要的数据的含义。

"ctime" : 时间戳      (利用python可以自己生成

”length“ : 想要加载的张数  (也可以理解为我们想要爬取的数量 

”sign_code“  :加密参数    (最重要的一个

"works_category": 照片类型的参数(检验了一下就是主页面上照片分类,往后分别是123...

2.2 sign_code值

    我们这里直接用全局搜索的方法找到加密的位置,只有一个js文件,我们直接点击进去看看

 一进来就可以看到sign_code加密的位置了,在13479和13490两个位置下个断点刷新看看它是如何生成的。

分析一下这几行js代码 

var o = JSON.stringify(e)    # 只是把o转换成字符串的一个操作而已,o经过多次检验,就是文章上面写道的prama参数

("param":{"start":20,” length":20,"works_category":"1","time_point":1641981023})
n = t("poco_" + o + "_app");  #经过t函数加密一段字符串
n = n.substr(5, 19);    # 取加密后数据的其中一截当作sign_code值

定位到这里之后凭经验看到这儿应该就是加密的位置了,我们可以试着把这一整个函数扣下来,在本地运行看看是否能产生出我们想要的sign_code值。

2.3 扣代码

以下是扣出的完整js代码,最后手动写了个调用函数

function r(n, t) {
        var r = (65535 & n) + (65535 & t)
          , e = (n >> 16) + (t >> 16) + (r >> 16);
        return e << 16 | 65535 & r
    }
    function e(n, t) {
        return n << t | n >>> 32 - t
    }
    function u(n, t, u, o, c, f) {
        return r(e(r(r(t, n), r(o, f)), c), u)
    }
    function o(n, t, r, e, o, c, f) {
        return u(t & r | ~t & e, n, t, o, c, f)
    }
    function c(n, t, r, e, o, c, f) {
        return u(t & e | r & ~e, n, t, o, c, f)
    }
    function f(n, t, r, e, o, c, f) {
        return u(t ^ r ^ e, n, t, o, c, f)
    }
    function i(n, t, r, e, o, c, f) {
        return u(r ^ (t | ~e), n, t, o, c, f)
    }
    function a(n, t) {
        n[t >> 5] |= 128 << t % 32,
        n[(t + 64 >>> 9 << 4) + 14] = t;
        var e, u, a, h, g, d = 1732584193, l = -271733879, v = -1732584194, s = 271733878;
        for (e = 0; e < n.length; e += 16)
            u = d,
            a = l,
            h = v,
            g = s,
            d = o(d, l, v, s, n[e], 7, -680876936),
            s = o(s, d, l, v, n[e + 1], 12, -389564586),
            v = o(v, s, d, l, n[e + 2], 17, 606105819),
            l = o(l, v, s, d, n[e + 3], 22, -1044525330),
            d = o(d, l, v, s, n[e + 4], 7, -176418897),
            s = o(s, d, l, v, n[e + 5], 12, 1200080426),
            v = o(v, s, d, l, n[e + 6], 17, -1473231341),
            l = o(l, v, s, d, n[e + 7], 22, -45705983),
            d = o(d, l, v, s, n[e + 8], 7, 1770035416),
            s = o(s, d, l, v, n[e + 9], 12, -1958414417),
            v = o(v, s, d, l, n[e + 10], 17, -42063),
            l = o(l, v, s, d, n[e + 11], 22, -1990404162),
            d = o(d, l, v, s, n[e + 12], 7, 1804603682),
            s = o(s, d, l, v, n[e + 13], 12, -40341101),
            v = o(v, s, d, l, n[e + 14], 17, -1502002290),
            l = o(l, v, s, d, n[e + 15], 22, 1236535329),
            d = c(d, l, v, s, n[e + 1], 5, -165796510),
            s = c(s, d, l, v, n[e + 6], 9, -1069501632),
            v = c(v, s, d, l, n[e + 11], 14, 643717713),
            l = c(l, v, s, d, n[e], 20, -373897302),
            d = c(d, l, v, s, n[e + 5], 5, -701558691),
            s = c(s, d, l, v, n[e + 10], 9, 38016083),
            v = c(v, s, d, l, n[e + 15], 14, -660478335),
            l = c(l, v, s, d, n[e + 4], 20, -405537848),
            d = c(d, l, v, s, n[e + 9], 5, 568446438),
            s = c(s, d, l, v, n[e + 14], 9, -1019803690),
            v = c(v, s, d, l, n[e + 3], 14, -187363961),
            l = c(l, v, s, d, n[e + 8], 20, 1163531501),
            d = c(d, l, v, s, n[e + 13], 5, -1444681467),
            s = c(s, d, l, v, n[e + 2], 9, -51403784),
            v = c(v, s, d, l, n[e + 7], 14, 1735328473),
            l = c(l, v, s, d, n[e + 12], 20, -1926607734),
            d = f(d, l, v, s, n[e + 5], 4, -378558),
            s = f(s, d, l, v, n[e + 8], 11, -2022574463),
            v = f(v, s, d, l, n[e + 11], 16, 1839030562),
            l = f(l, v, s, d, n[e + 14], 23, -35309556),
            d = f(d, l, v, s, n[e + 1], 4, -1530992060),
            s = f(s, d, l, v, n[e + 4], 11, 1272893353),
            v = f(v, s, d, l, n[e + 7], 16, -155497632),
            l = f(l, v, s, d, n[e + 10], 23, -1094730640),
            d = f(d, l, v, s, n[e + 13], 4, 681279174),
            s = f(s, d, l, v, n[e], 11, -358537222),
            v = f(v, s, d, l, n[e + 3], 16, -722521979),
            l = f(l, v, s, d, n[e + 6], 23, 76029189),
            d = f(d, l, v, s, n[e + 9], 4, -640364487),
            s = f(s, d, l, v, n[e + 12], 11, -421815835),
            v = f(v, s, d, l, n[e + 15], 16, 530742520),
            l = f(l, v, s, d, n[e + 2], 23, -995338651),
            d = i(d, l, v, s, n[e], 6, -198630844),
            s = i(s, d, l, v, n[e + 7], 10, 1126891415),
            v = i(v, s, d, l, n[e + 14], 15, -1416354905),
            l = i(l, v, s, d, n[e + 5], 21, -57434055),
            d = i(d, l, v, s, n[e + 12], 6, 1700485571),
            s = i(s, d, l, v, n[e + 3], 10, -1894986606),
            v = i(v, s, d, l, n[e + 10], 15, -1051523),
            l = i(l, v, s, d, n[e + 1], 21, -2054922799),
            d = i(d, l, v, s, n[e + 8], 6, 1873313359),
            s = i(s, d, l, v, n[e + 15], 10, -30611744),
            v = i(v, s, d, l, n[e + 6], 15, -1560198380),
            l = i(l, v, s, d, n[e + 13], 21, 1309151649),
            d = i(d, l, v, s, n[e + 4], 6, -145523070),
            s = i(s, d, l, v, n[e + 11], 10, -1120210379),
            v = i(v, s, d, l, n[e + 2], 15, 718787259),
            l = i(l, v, s, d, n[e + 9], 21, -343485551),
            d = r(d, u),
            l = r(l, a),
            v = r(v, h),
            s = r(s, g);
        return [d, l, v, s]
    }
    function h(n) {
        var t, r = "";
        for (t = 0; t < 32 * n.length; t += 8)
            r += String.fromCharCode(n[t >> 5] >>> t % 32 & 255);
        return r
    }
    function g(n) {
        var t, r = [];
        for (r[(n.length >> 2) - 1] = void 0,
        t = 0; t < r.length; t += 1)
            r[t] = 0;
        for (t = 0; t < 8 * n.length; t += 8)
            r[t >> 5] |= (255 & n.charCodeAt(t / 8)) << t % 32;
        return r
    }
    function d(n) {
        return h(a(g(n), 8 * n.length))
    }
    function l(n, t) {
        var r, e, u = g(n), o = [], c = [];
        for (o[15] = c[15] = void 0,
        u.length > 16 && (u = a(u, 8 * n.length)),
        r = 0; 16 > r; r += 1)
            o[r] = 909522486 ^ u[r],
            c[r] = 1549556828 ^ u[r];
        return e = a(o.concat(g(t)), 512 + 8 * t.length),
        h(a(c.concat(e), 640))
    }
    function v(n) {
        var t, r, e = "0123456789abcdef", u = "";
        for (r = 0; r < n.length; r += 1)
            t = n.charCodeAt(r),
            u += e.charAt(t >>> 4 & 15) + e.charAt(15 & t);
        return u
    }
    function s(n) {
        return unescape(encodeURIComponent(n))
    }
    function C(n) {
        return d(s(n))
    }
    function A(n) {
        return v(C(n))
    }
    function m(n, t) {
        return l(s(n), s(t))
    }
    function p(n, t) {
        return v(m(n, t))
    }
    function b(n, t, r) {
        return t ? r ? m(t, n) : p(t, n) : r ? C(n) : A(n)
    };


function getsign(o){
    n = b("poco_" + o + "_app");
    n = n.substr(5, 19);
    return n  
}

 

 测试之后在本地上是可以运行成功的,并且拿到了我们想要的加密数据,到这里其实差不多已经完成了百分之九十了,接下来就是请求数据并且抓取的部分了。

三、 请求数据,处理Json数据以及把图片保存到本地

3.1 引入库

import requests  # 请求数据
import time     # 生成时间戳
import execjs   # 第三方类库来执行js语句

3.2 生成时间戳和参数

time_point = int(time.time())
o = '{"start":0,"length":20,"works_category":"1","time_point":'+str(time_point)+'}'
with open('D:/poco.js', 'r', encoding='utf-8') as f:   # 读取扣下来保存到本地的js代码
    js_data = f.read()
js_obj = execjs.compile(js_data)
sign_code = js_obj.call('getsign',o)  # 第一个参数是函数名,第二个是传入的参数
# print("sign_code")

这里的length参数是请求的数据量,我只抓取了20张,可以根据自己的需求更改。以及works_category参数同样根据自己的需求更改。

3.3 发起请求

​
# 把sign_code和时间戳拼接到传入的参数中
data = {
    'req': '{"version":"1.1.0","app_name":"poco_photography_web","os_type":"weixin","is_enc":0,"env":"prod","ctime":'+str(int(time.time()*1000))+',"param":{"start":0,"length":20,"works_category":"1","time_point":'+str(time_point)+'},"sign_code":"'+str(sign_code)+'"}',
    'host_port': 'https://photo.poco.cn'
}

由于数据是json格式,我们要的图片地址在data下的list下的img中

json数据格式可以这样拿,代码如下

response = requests.post(url,headers=headers,data=data).json()['data']['list']
for i in response:
    img = i['img']
    urls = 'http:' + str(img)   # 进行简单拼接成url格式

 利用for循环把请求的图片保存到本地

    with open(f'D:/POCO图库/img{num}.jpg', 'wb') as f:
        print('正在下载第{}张'.format(num))
        f.write(content)

大功告成辽

四、附上完整代码

# _*_ coding:UTF-8 _*_
# @Software : PyCharm
import requests
import time
import execjs


time_point = int(time.time())
o = '{"start":0,"length":20,"works_category":"1","time_point":'+str(time_point)+'}'
with open('D:/poco.js', 'r', encoding='utf-8') as f:
    js_data = f.read()
js_obj = execjs.compile(js_data)
sign_code = js_obj.call('getsign',o)
# print(sign_code)

url = 'https://web-api.poco.cn/v1_1/rank/get_homepage_recommend_list'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'Referer': 'https://photo.poco.cn/?classify_type=1&works_type=medal',
    'Origin': 'https://photo.poco.cn'
}
data = {
    'req': '{"version":"1.1.0","app_name":"poco_photography_web","os_type":"weixin","is_enc":0,"env":"prod","ctime":'+str(int(time.time()*1000))+',"param":{"start":0,"length":20,"works_category":"1","time_point":'+str(time_point)+'},"sign_code":"'+str(sign_code)+'"}',
    'host_port': 'https://photo.poco.cn'
}

response = requests.post(url,headers=headers,data=data).json()['data']['list']
num = 1
for i in response:
    img = i['img']
    urls = 'http:' + str(img)
    content = requests.get(urls).content
    with open(f'D:/POCO图库/img{num}.jpg', 'wb') as f:
        print('正在下载第{}张'.format(num))
        f.write(content)
    num += 1

print('完')


总结

吐槽一下最新版的谷歌浏览器(劝大家最好还是用旧版本会比较稳定),日常闪退,调试js的时候闪退,还好这个网站加密的地方并没有很深。

中途扣出来的js代码试图在谷歌浏览器运行发现会报错,说我的方法未定义,应该是个bug,后来换去360极速浏览器可以正常运行。

 还是那句话,本篇文章只适用于学习,不做用于任何商业用途,做一个友好的爬虫

PS:如果觉得本篇本章对您有所帮助,欢迎关注、评论、点赞,谢谢!

猜你喜欢

转载自blog.csdn.net/JiaconLi/article/details/122491504