【论文阅读】DEPIMPACT：反向传播系统依赖对攻击调查的影响（USENIX-2022）

Fang P, Gao P, Liu C, et al. Back-Propagating System Dependency Impact for Attack Investigation[C]//31st USENIX Security Symposium (USENIX Security 22). 2022: 2461-2478.

攻击调查、关键边、入口点

开源：GitHub - usenixsub/DepImpact

1. 摘要

观察到：（1）与POI事件高度相关的依赖关系通常表现出与不太相关的依赖关系不同的属性集（例如，数据流和时间）;（2）POI事件通常与几个攻击条目（例如，下载文件）有关。

基于此，我们提出了DEPIMPACT，一个识别依赖图（即子图）关键组件的框架，通过(1)为边分配判别依赖权重，以区分代表攻击序列的关键边和不太重要的依赖关系，(2)将依赖影响从POI事件向后传播到入口点，(3)对排名靠前的入口节点进行前向因果分析，过滤掉前向因果分析中没有发现的边。

DARPA TC数据集的评估表明，DEPIMPACT可以显着将大型依赖图(1,000,000条边)减少到一个小图( 234条边)。

2. 引言

两个关键观察结果：

创建和执行恶意有效负载的关键边攻击序列通常隐藏在许多非关键边(例如，执行无关系统活动的事件)中，与非关键边相比，关键边通常表现出一组不同的属性，并且与这些属性中的POI事件更相关。例如，从可疑IP读取数据并将数据写入恶意脚本文件的关键边将具有与脚本文件大小相似的数据量。
POI事件通常由几个源(称为攻击实体)引起。这些攻击实体表示为导致POI事件的攻击序列的入口点，并隐藏在依赖图中许多其他不相关的入口节点(即没有传入边的节点)中。

三个主要挑战和应对方案：

因果关系分析可能会识别出超过一千个入口节点，手动检查这些边和入口节点以识别关键边和攻击条目通常是不可行的
- 依赖权重计算：分析每个边的多个特征(包括时间、数据流量和节点度)来捕获关键边和非关键边之间的差异，采用一种基于线性判别分析(Linear Discriminant Analysis, LDA)的判别特征投影方案]，根据特征计算权重分数。
单一特性在应对多种攻击场景时是有限的（边的数据量并不总是可用）
- 依赖影响反向传播和入口节点排名：采用加权得分传播方案，该方案将POI事件中的节点的依赖关系影响沿边向后传播到所有入口节点
现有技术也尝试识别关键边，但它们主要依赖于启发式规则，这会导致信息丢失、侵入式系统更改
- 关键组件识别的前向因果分析:在对入口节点进行排序后，对排名靠前的入口节点进行前向因果分析，生成一个前向依赖图。前向图和原后向依赖图之间的重叠部分准确地保留了与POI事件和攻击条目高度相关的节点和边，称为关键组件。

执行可疑脚本mal.sh从远程主机192.1.1.254下载恶意文件mal。然后将该文件移动到user/mal并重命名为user/file.txt。给定一个将文件重命名为user/file.txt的POI事件，代表攻击序列的关键边和攻击表项(192.1.1.254,mal.sh)用深黑色表示。

评估：

结合杀伤链和CVE
先前的研究中使用的7次攻击、3次多主机入侵、DARPA TC中的5个攻击案例
收集了约一亿个系统审计事件、DRAPA的5000万个事件
在不丢失任何临界边的情况下，产生的关键组件的大小有~ 234条边，比原始依赖图的大小(~ 100万条边)小~ 4611倍
与其他四种最先进的因果关系分析技术(CPR， ReadOnly， PrioTracker和NoDoze)的比较表明，效率至少提高了72倍
6分钟内完成攻击分析

3. 系统设计

3.1 依赖图生成

简而言之，反向因果分析将POI事件添加到队列中，并重复查找队列中符合条件的边/事件的传入边(即边的源节点的传入边)的过程，直到队列为空。

这样构建的时间复杂度能接受吗？

3.2 依赖性权重计算

**合并边：**如果两个节点之间的边的时间差小于给定的阈值，DEPIMPACT将合并这些边。我们尝试了不同的合并阈值，并选择了10s

特征提取：

数据流相关性：数据量越一致，相关性越高。 $f_{S(e)}=1/(\mid s_e-s_{e_s}\mid+\alpha)$
事件相关性：在相对同一时间出现的边缘更有可能是相关的。 $f_{T(e)}=\ln(1+1/\mid t_e-t_{e_s}\mid)$
浓度比：汇聚点出边与入边的数量之比，我们想要给予从多个反向路径可以到达的节点更高的权重。 $f_{C(e)}=OutDegree(v)/InDegree(v)$

**计算权重：**基于线性判别分析(Linear Discriminant Analysis, LDA)的判别特征投影方案

边聚类：采用multikmeans++聚类算法按是否可能包含关键边将边分为两组
判别特征投影：LDA找到最优的投影平面，使同一组中的投影点彼此接近，不同组中的投影点彼此远离。（这个向量就是权重）

**归一化：**对于一个边，我们通过源节点所有出边的权值之和来标准化它的投影权值。 $W_e=W_{e_{UN}}/\sum_{e^{\prime}\in outgoingEdge(u)}W_{e_{UN}^{\prime}}$ 。保证了(1)任何节点的依赖影响不超过其子节点的最大依赖影响，(2)任何节点的依赖影响不超过POI事件中节点的依赖影响

3.3 关键组件识别

依赖影响反向传播：POI的影响值为1.0，不断反向迭代，当两次迭代的差值小于某一阈值则结束。 $DI_{u}=\sum_{v\in childNodes(u)}DI_{\nu}*W_{e(u,v)}$

入口节点排名：分为三类，每个类别选一个排名最高的入口节点

文件入口节点：除系统库外没有传入边的文件节点
网络入口节点：父节点均为系统库的进程节点
进程入口节点：没有入边的网络节点

从排名靠前的入口节点开始，执行前向因果关系分析，直到到达POI事件。将向后依赖关系图和向前依赖关系图的重叠部分标识为输出的关键组件。