Python爬取中国裁判文书网 - 代码天地

Python爬取中国裁判文书网

其他 2019-01-30 05:00:50 阅读次数: 0

需要获取的数据：2018年上海市的刑事案件接下来进入实战讲解。

第一步，观察换页之后的网页地址变化规律。打开中国裁判文书网2018年上海市刑事案件的第一页，在换页时，如下图中的地址，发现网址是完全不变的，这种情况就是属于隐藏，使用抓包分析进行爬取。

第二步，查找变化字段。从Fiddler中可以找到，获取某页的文书数据的地址：http://wenshu.court.gov.cn/Li...

可以发现没有对应的网页变换，意味着中国裁判文书网换页是通过POST进行请求，对应的变化数据不显示在网址中。通过F12查看网页代码，再换页操作之后，如下图，查看ListContent，其中有几个字段需要了解：

Param:检索条件

Index:页码

Page:每页展示案件数量

...

重要的是最后三个字段（vl5x,number,guid）该如何获取？首先，guid即uuid，叫全球唯一标识，是利用python中的uuid随机生成的字段。其次是number字段，找到ListContent上面的GetCode请求，恰好其Response中包含了number字段的值。而GetCode又是通过POST请求的，发现请求的字段只要guid这一项,那么问题便迎刃而解。

最后，难点在于vl5x字段如何获取？打开Fiddler，在换页操作后，查看ListContent中的vl5x的值，并在此次ListContent之前出现的数据包中的TextView里寻找这个字段或值，一般的网站可以很容易找到，但中国裁判文书网是政府网站，反爬策略非常高明，寻找的过程需要极高的耐心。

事实上，中国裁判文书网的vl5x字段可以从某个js包中获得，获取的方式是通过getKey()函数。从网页源代码中找到getKey()函数的js代码，由于代码是packed状态，用unpacked工具，将其进行解码，后利用js界面美观工具可以方便理解。

但无关紧要，只需直接将getKey()函数s代码复制到unpack_js.html中，就可以解出vl5x字段的值，其中需要用到Cookie中的vjkl5字段值。需要注意提前下载好base64.js和md5.js，并在unpack_js.html加载。

第三步，以下是中国裁判文书网爬虫完整代码：

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/86679006

Python爬取中国裁判文书网

对爬取中国裁判文书网的分析

Python与R协同完成【中国裁判文书网】文书内容爬取

对爬取中国裁判文书网分析续篇1

爬取裁判文书网（破解guid）

基于RSelenium爬取中国裁判文书网文书数据

中国裁判文书网

python3.6.4爬取裁判文书网----------基本js逆向解析----玉米都督

中国裁判文书网爬虫分析

破解＂中国裁判文书网＂App加密过程

R语言完成中国裁判文书网最新爬虫

python3.6.4爬取裁判文书(20180925最新更新)详情页docid---------------------玉米都督

Python爬取中国天气网天气

Python爬取中国天气网

中国裁判文书下载：selenium路线

裁判文书网DocId解密接口

裁判文书网爬虫Docid解密思路

反爬虫破解——裁判文书网

百万裁判文书爬取（持续更新中）：Error:11004、状态码200但是返回None——自己坑自己的步骤

2018-10-09中国裁判文书网爬虫vl5x和DocID分析

python 爬虫爬取中国天气网数据

Python爬取中国天气网中的苏州天气

Python爬取中国天气网指定城市天气

python爬虫实战之爬取中国农药网

Python爬取中国天气网天气数据

python爬取中国天气网天气图标

python 爬虫爬取中国新闻网

中国裁判网-爬虫-2018.09.28

裁判文书网APP采集思路-失败案例

基于Node.js的裁判文书网爬虫分析

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)