Python进阶必备之JS逆向-某榜某博数据采集

辣条开源篇:《Python进阶必备之JS逆向-某榜某博数据采集》

对应视频教程:《→→→Python进阶必备之JS逆向←←←》

希望大家多多支持辣条,感激不尽,对应教程的课件+源码也都在文末我的个人名片拿即可,看到视频教程还有文案希望多多三连支持,个辣条顶起来啊~

在这里插入图片描述
ps:本文仅供参考学习,辣条希望大家加油冲冲冲 @TOC

工具准备

开发工具:pycharm
开发环境:python3.7, Windows10
使用工具包:requests,execjs,md5

采集目标地址

在这里插入图片描述

项目需求分析

今日需求获取某榜上面的博主信息,首先区分我们的数据是静态数据还是动态数据,在浏览器页面鼠标右击点击查看网页源代码,进行搜索你想要的数据,能搜索到就是静态,搜索不到就行动态数据,很明显我们的数据是动态数据
image.png
动态数据我们需要通过抓包的方式进行获取,鼠标右击点击检查,点击网络点击xhr,就是我们所说的动态数据,刷新我们的页面,找到我们想要的数据信息
在这里插入图片描述

明确我们的数据之后,点击标头,第一栏就是我们的请求网址,拿到我们url地址,发送网络请求,请求方法是post说明我们需要携带参数发送请求

data = {
    'end': '2022-07-23',
    'rank_name': '个人认证',
    'rank_name_group': '',
    'start': '2022-07-23',
    # 加密的数据
    'nonce': '8679b4d79',
    'xyz': '6262bb37e2060b2443b9b508d8760552'
}
url = 'https://www.newrank.cn/xdnphb/main/v1/weibo_day/rank'
# 发送请求 浏览器  代码
response = requests.post(url, data=data)
print(response.text)

可以很明显看到我们的数据nonce和xyz是一个加密的数据,需要对着两个参数进行逆向,首先在全局进行搜索我们加密的文件
image.png
在不确定文件的时候,可以一个个点击进行搜索,我们当前的文件是第一个双击打开文件,点击左下角大括号进行美化,在当前文件搜索对应关键字,定位到准确的js代码位置,
image.png
nonce是有j函数生成的,xyz是d函数进行加密生成的 ,先解决nonce,去查看j函数,看看他是做了什么操作,打上断点进行调试
image.png
可以看出来是生成一个9位数的随机字符,我们直接拿到当前的代码段补js环境

function j() {
        for (var a = ["0", "1", "2", "3", "4", "5", "6", "7", "8", "9", "a", "b", "c", "d", "e", "f"], b = 0; b < 500; b++)
            for (var c = "", d = 0; d < 9; d++) {
                var e = Math.floor(16 * Math.random());
                c += a[e]
            }
        return c
    }

// console.log(j())

nonce解决,回过头在看xyz函数,加密的数据是h,h是我们生成的post需要传递的数据拼接起来在加上nonce的值,调用d函数得到加密的数据,
image.png
当我们不清楚数据是如何加密的时我们可以找一个加密的平台来进行尝试,看看能不能匹配到我们想要的结果
image.png
当前加密为md5加密,那我们可以直接通过Python代码来完成

简易源码分享

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# @File  :   数据采集.py    
# Author :   柏汌  

import requests   # 发送网络请求的工具包
import execjs     # js执行工具包
from hashlib import md5


with open('dddd.js', 'r')as f:
    js_code = f.read()
js = execjs.compile(js_code)
nonce = js.call('j')
# print(nonce)
data = {
    
    
    'end': '2022-07-23',
    'rank_name': '个人认证',
    'rank_name_group': '',
    'start': '2022-07-23',
    # 加密的数据
    'nonce': nonce,
}
h = '/xdnphb/main/v1/weibo_day/rank?AppKey=joker&end={}&rank_name={}&rank_name_group=&start={}&nonce={}'.format(data['end'], data['rank_name'], data['start'], data['nonce'])
xyz = md5(h.encode()).hexdigest()
print(xyz)
data['xyz'] = xyz
# 获取到地址  静态数据  动态数据的区分
url = 'https://www.newrank.cn/xdnphb/main/v1/weibo_day/rank'
# 发送请求 浏览器  代码
response = requests.post(url, data=data)
print(response.text)


猜你喜欢

转载自blog.csdn.net/AI19970205/article/details/126256608