论文学习：On Training Robust PDF Malware Classifiers

论文题目：On Training Robust PDF Malware Classifiers

来源：29th USENIX Security Symposium 2020

链接：https://www.usenix.org/conference/usenixsecurity20/presentation/chen-yizheng

文章目录

知识点

参考https://blog.csdn.net/Shall_ByeBye/article/details/106883218

文章内容

指出目前有能够轻易逃避恶意PDF文件的检测器的方法，且目前的模型都是一味的追求高检测准确率和低误判率。本文通过加入鲁棒性属性，训练出一种强鲁棒性的恶意PDF检测模型，相比于一般检测模型具有更强的鲁棒性，面对一般的逃逸攻击具有更好的检测效果。

本篇工作针对PDF恶意软件提出了新的鲁棒训练方法。本篇工作采用Verifiably Robust Training，利用有效PDF必须能被解析为树结构的特点，提出了一种针对PDF树结构的新距离指标，并借助这种距离指标指定了两类鲁棒属性，子树插入和删除。只要攻击者符合鲁棒属性，再强的攻击者也无法产生可逃避分类器检测的变种。比如，指定鲁棒属性为插入1棵子树，任何通过插入1棵子树生成的PDF恶意软件变种都无法逃避检测。

难点：

①过往研究表明，训练恶意软件分类器时，若训练集中有对抗性的样本，训练出来的模型的FP率会很高。

解决：提出新的指标来衡量PDF文件结构树，从而降低模型的FP率。（好扯）

②传统流行的用于恶意PDF检测的算法并不适用于训练一个具有强鲁棒性的分类器，例如随机森林。

扫描二维码关注公众号，回复： 11857051 查看本文章

解决：使用神经网络来训练一个强鲁棒性的分类器。（强行）

③为了评估本文提出的模型的鲁棒性，使用7种攻击分别对12个基线模型进行攻击测试。

创新点：

①：尽管现在在机器学习领域有很多性能指标去衡量模型的好坏，但没有一个适合用于评估一个专门检测自适应对抗攻击的模型的鲁棒性。专门提出一种新的指标去衡量PDF文件以降低模型的FPR

作者发现，所有能保留恶意功能的PDF恶意软件变种，都必须满足正确的PDF语法，即可以被解析为树结构。为了能够系统，高效的生成变种，攻击者必然使用子树插入和子树删除操作恶意软件生成变种。只要分类器对这两种操作有鲁棒性，那么它对逃避攻击也就有了鲁棒性。
作者据此提出了子树距离作为距离指标：两个PDF软件的子树距离，即它们根节点下不同子树的数量。无论在x的根节点下插入1棵怎样的子树，x与生成的变种x˜的子树距离都是1。这样可以更好的限制鲁棒区域，降低FPR.
借助子树距离的限制，作者指定了子树距离为1时，子树插入和子树删除两种基础鲁棒属性。

鲁棒属性具体是：对恶意软件进行任意子树插入（删除）操作生成的子树距离为1的变种，分类器不会将其分类为良性。这些属性都可以推广到子树距离为N的情况。**

器不会将其分类为良性。这些属性都可以推广到子树距离为N的情况。**