R语言完成中国裁判文书网最新爬虫

版权声明:本人博文一律不许转载,如发现转载,需负法律责任 https://blog.csdn.net/qq_38984677/article/details/82344981

2018-09-25脚本可用。估计没有人用R来写【中国裁判文书网】的爬虫程序,那我就吃螃蟹啦

传送:Python与R协同完成【中国裁判文书网】文书内容爬取,该网站的爬虫分析过程参考我7月初写的博文

反爬措施对比:1.JavaScript library更新;2.限制返回条数;3.模拟的浏览器报头信息必须有Cookie;4.文书ID加密,需要解密出明文才能拼接download url;5.翻页时RunEval参数会变化

文书ID解密:文书ID是通过单击调用Navi函数计算得到(其实得到的是一个url链接),传入两个参数(文书ID+keyword),参数keyword的入参为""(感觉在挖坑),参数文书ID的入参是http://wenshu.court.gov.cn/List/ListContent 表单参数POST提交后的json格式response值

onick="javascript:Navi("DcKOwrkBw4BACMKAVsOSw7MvfcO3HylpwqEAOlPDgwc2Dm7Du0pgw6PCpcKPSgbCgcKxbMOTwr7ChH7CjcOew63ClgAcwrPCgzF3fhJ+woAHw5lURsOVwqFWwpTDicKAK8OnNMOFw7zDhGrDuHpRwqBHecKnMjDDqMKUJsOBwrA8W8Kxw5MOU8O5w7fCmMKRU8Oaw7IPwrTCoBzDi8KrQcOJIsO7w6M/U2fCrcO6wrvDicOvLHQkwo/ChyfDrsOpw7pbw5LDsMKsw5LDugA=","")"

Navi函数如下(可将该函数的返回值改为url,直接得到一个访问链接;也可对url进行改造,得到一个文书下载接口):

function Navi(id, keyword) {
    var unzipid = unzip(id);
    try {
        var realid = com.str.Decrypt(unzipid);
        if (realid == "") {
            setTimeout("Navi('" + id + "','" + keyword + "')", 1000);
        } else {
            var url = "/content/content?DocID=" + realid + "&KeyWord=" + keyword;
            openWin(url);
        }
    } catch (ex) {
        setTimeout("Navi('" + id + "','" + keyword + "')", 1000);
    }
}

--2018-09-16更新:

中国裁判文书网在9月14日晚上做了更新,这次是更新了getkey函数,我们只需对getkey做一点点修改即可使用

        设置getkey函数的入参为gg,增加一个函数如下:

	function getCookie(str) {
	return gg;	
	};

--适用的法律法规信息也需要同步提取出来

猜你喜欢

转载自blog.csdn.net/qq_38984677/article/details/82344981
今日推荐