爬虫真的无所不能爬！病毒样本照样爬取下来！恶意软件分析！ - 代码天地

爬虫真的无所不能爬！病毒样本照样爬取下来！恶意软件分析！

其他 2018-05-12 20:37:13 阅读次数: 0

---恢复内容开始---

只有MD5的超链接可以点，点进去看看，

我写这个的爬虫的目的是下载样本，只关心样本的下载地址，并不关心其他的信息。

现在我们可以理清下思路：

获取每一页的网页源码
解析当前页的每一个md5对应的详细信息链接
在详细信息页面解析下载地址。

提取规则

先从第一页开始爬起

scrapy支持xss选择器和css选择器，一般是用哪个比较方便就用哪个。

对应链接的xpath选择器为 //td/a/@href ,

下一页的链接的xpath选择器为 //a[contains(text(),'Next')]/@href

登陆

之前写爬虫的时候，是可以直接通过post登陆的，而我开始写这篇文章的时候开始加上了google的ReCaptcha验证码。

只能换种方式使用selenium来登陆Malwr.得到登陆后的cookie后，我们就可以用这个cookie开始下载样本了。

FilesPipeline是从file_urls中拿到下载地址然后开始下载文件，因此我们还需要Item.py定义一个file_urls.

解析下载地址，将解析到的下载链接列表放入item的file_urls,返回item。pipeline会file_urls拿到链接开始调用get_media_requests下载文件

---恢复内容结束---

猜你喜欢

转载自www.cnblogs.com/sm123456/p/9029772.html

爬虫真的无所不能爬！病毒样本照样爬取下来！恶意软件分析！

基于Python爬取天眼查网站的企业信息!Python无所不能！

python爬虫25 | 爬取下来的数据怎么保存？ CSV 了解一下

python爬虫26 | 把数据爬取下来之后就存储到你的MySQL数据库。

无所不能的深度学习？

将新浪新闻首页所有新闻爬取下来

利用Python实现扫描日志关键字！Python真的无所不能！

Python真的无所不能，没有做不到的！OpenCV加Docker实时目标检测

分享7个python案例，python真的无所不能且容易上手（带源码）

推荐7个python案例，python真的无所不能且容易上手（带教程）

【实战】下载歌曲只能开绿钻？NoNoNo, Python爬虫，无所不能。

都说Python是无所不能的！手机APP数据就能逃出我爬虫的魔爪吗？

无所不能的人生信条

Python真的无所不能！连黑客技术都要用它！你知道要用哪些技术吗

第三篇，将爬虫爬取下来的列表数据转换为字符串形式存入数据库中

python爱奇艺VIP视频爬虫爬取下载

Python 爬虫简单实现（爬取下载链接）

python爬虫入门 ✦ 爬取下载网易云音乐

python爬虫-梨视频-短视频爬取下载（原创）

Python爬虫爬取下载美国科研网站数据

我将实时疫情数据爬取下来并做了展示

python爬取下来的json数据中中文是十六进制的，解决方案

用excel存储爬取下来的数据的一种思路

Dagger2源码分析（二）：Java无所不能的反射在Android中需要熟练的知识

深受公众期望，区块链是“无所不能” 的吗？

Python--汇率兑换功能实现!无所不能的Python！

Android 无所不能的 hook，让应用不再崩溃

让工作自动化起来！无所不能的Python

Python爬虫实践-网易云音乐！没有版权又如何！照样爬取！

恶意软件与反病毒

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)