追踪分析12306验证码的奥秘 (ainusers原创)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/AinUser/article/details/100577882
前言:
    由于做计算机视觉需要用到一批图形数据,12306验证码又是出了名的
    所以决定写一个定时爬虫下载一批数据

    爬虫呢,有很多方案,request发请求,一种是解析请求返回值,第二种是解析读取页面元素
    scrapy框架只是更加完善,归根结底还是这两种思想
第一步:
    先给大家看下12306的请求连接和响应参数

第二步:
    本想着根据上面的图片的返回值,和图片的访问链接做比对
    我想着能够直接获取到图片的访问地址,然而没想到

第三步:
    比对两者链接,链接太长了,昨天在线比对的时候,网站都无响应了几次,今天早上才可以

第四步:
    通过比对发现,12306的图片,经过了处理的,他妹的(小声比比)

第五步:
    先分析下请求连接地址,看一下哪些地址是动态的,这也是爬虫的基本思路
    
    查看源代码,从引入的js文件中查找的
    (https://kyfw.12306.cn/otn/resources/js/login_new.js)

第六步:
    查看验证码拼接代码

最后这是为啥呢?原因留给你们思考思考

猜你喜欢

转载自blog.csdn.net/AinUser/article/details/100577882