声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢!
问题描述:
搜了下网上关于巨潮网页的数据获取爬虫好像跟我写的不一样,可能我没仔细看,应为我以前拿的也是财务数据以及其他信息,但是他请求头上有个加密参数mcode,话不多说直接开撸代码。
解决方案:
1.抓下请求,这里主要4个参数 scode:股票代码 sign和rtype为组合获取总共16个接口(0-3*0-3),mcode为请求的加密参数,每个mcode有效时间大概两分钟左右。
2.然后直接搜mcode,一般都是第一个链接,直接点进去,格式化再搜mcode,可以看到mcode是由indexcode.getResCode()方法生成的,所以我们只要找到这个方法的入口,就能找到mcode的生成方法。
3.控制台输出看看有没有这个方法,果然有,继续点进去。
4.可以看到使用了window.JSonToCSV.missjson方法,并传入时间戳生成的。
5.我们来扣下这个函数,改写一下就可以。
function get_mcode(input) {
var keyStr = "ABCDEFGHIJKLMNOP" + "QRSTUVWXYZabcdef" + "ghijklmnopqrstuv" + "wxyz0123456789+/" + "=";
var output = "";
var chr1, chr2, chr3 = "";
var enc1, enc2, enc3, enc4 = "";
var i = 0;
do {
chr1 = input.charCodeAt(i++);
chr2 = input.charCodeAt(i++);
chr3 = input.charCodeAt(i++);
enc1 = chr1 >> 2;
enc2 = ((chr1 & 3) << 4) | (chr2 >> 4);
enc3 = ((chr2 & 15) << 2) | (chr3 >> 6);
enc4 = chr3 & 63;
if (isNaN(chr2)) {
enc3 = enc4 = 64;
} else if (isNaN(chr3)) {
enc4 = 64;
}
output = output + keyStr.charAt(enc1) + keyStr.charAt(enc2)
+ keyStr.charAt(enc3) + keyStr.charAt(enc4);
chr1 = chr2 = chr3 = "";
enc1 = enc2 = enc3 = enc4 = "";
} while (i < input.length);
return output;
}
};
6.然后pyexecjs执行下就可以得到加密参数了,源码也贴出来了。
# -*- coding: utf-8 -*-
import time
import execjs
def get_mcode():
js_str = '''
function mcode(input){
var keyStr = "ABCDEFGHIJKLMNOP" + "QRSTUVWXYZabcdef" + "ghijklmnopqrstuv" + "wxyz0123456789+/" + "=";
var output = "";
var chr1, chr2, chr3 = "";
var enc1, enc2, enc3, enc4 = "";
var i = 0;
do {
chr1 = input.charCodeAt(i++);
chr2 = input.charCodeAt(i++);
chr3 = input.charCodeAt(i++);
enc1 = chr1 >> 2;
enc2 = ((chr1 & 3) << 4) | (chr2 >> 4);
enc3 = ((chr2 & 15) << 2) | (chr3 >> 6);
enc4 = chr3 & 63;
if (isNaN(chr2)) {
enc3 = enc4 = 64;
} else if (isNaN(chr3)) {
enc4 = 64;
}
output = output + keyStr.charAt(enc1) + keyStr.charAt(enc2) + keyStr.charAt(enc3) + keyStr.charAt(enc4);
chr1 = chr2 = chr3 = "";
enc1 = enc2 = enc3 = enc4 = "";
} while (i < input.length);
return output
}
'''
input = str(int(time.time()))
js = execjs.compile(js_str) # 编译执行js代码
jschl_answer = js.call('mcode', input) # 调用函数
return jschl_answer