Paper “A Multimodal Deep Learning Method for Android Malware Detection Using Various Features” 个人概要

这是第一篇提出用“多模态深度学习(multimodal deep learning)”对安卓恶意软件检测的文章。

背景:

安卓系统的使用非常地广泛,所以不法分子分喜欢在安卓系统做文章,所以对malware进行检测是非常有必要的。

已经被提出的方法:

           优点:可以在应用的非执行状态对其进行检测,并且内存开销小。

  1.  The static analysis (静态分析):静态分析是根据 syntactic features (句法特点) 在软件未运行时对其进行检测的。
  2. The dynamic analysis(动态分析):动态分析是根据 semantic features (语义特征)在软件运行时对其进行检测的

           优点:可以较好的解决一些恶意软件的诸如代码加密或打包而导致检测难的问题。 

多模态深度学习原理及优点简述:

这篇文章假定是以动态分析为模糊恶意软件进行检测的,重点发展了一种基于静态分析的方法去区分恶意软件和良性应用。

以前的技术只使用了恶意代码的十分有限的特征信息,而该论文提出的框架可以有效利用恶意代码的大量特征信息。这种特征向量生成技术的强大之处是能基于存在和基于相似方法对恶意软件和良性软件之间作出判别,尽管恶意软件中有许多与良性软件相似的特征。此外,该框架使用一个分类模型,该模型根据分类的重要性暗示分类的程度。 

是由多种初始神经网络组成的。比如:一个initial neural network提取声音的特征,另一个 initial neural network 用来提取口型的特征,共同组成了对一个人演讲时的特征的提取。

框架概述:

  • 向量生成

 1. 先使用七种特征 :

- String feature 字符串特征

- Method opcode feature 法操作码特征

- Method API feature 方法API特征方

- Shared library function opcode feature 共享库功能操作码特征

- Permission feature 权限特征 

- Component feature  组件特征

- Environmental feature (prefined feature) 环境特征 

 2. 生成对应的特征向量之后permission/component/predefined setting feature vectors合并为一个特征向量。

 3. 最后把这五个特征向量放入分类模型中。 

  •  The framework conducts four major processes for the detection

 1.raw data extraction process

 2.feature extraction process

 3.feature vector generation process

    被提取的特征会被分为七类特征向量,之后特征向量又会被分为两类:

1) existence-based feature vectors :由恶意代码中已存在的特征,包含 string, permission, component and environmental feature vectors

2)similarity-based feature vectors :由于恶意特征数据库相似的特征组成, method API and shared library function feature vectors (方法操作码、方法API和共享库函数特征向量是基于相似度的特征向量)。

 4. detection process

将 permission feature vector, the component feature vector, and the environmental feature vector 三种向量合并为一个向量。

特征(上述七种特征,每一种都包含着多种信息):

各种的特征有助于表示出一个应用的特点。虽然environment feature这样的没有与malicious activity产生直接的联系,不过以有助于对一个应用特点的定义。(其实就是鉴别其实良性还是恶意软件

特征的重要性:(深度学习算法可以对一个未知样例进行判断并将其分类为恶意软件还是良性应用,深度学习算法生成神经网络模型,通过改变每个神经元的权重来达到最佳的分类精度,而每个神经元的权重需要根据特征来修)

另记:特征需要转化为特征向量对神经网络进行输入。

限于个人水平和不赘述的理念,本文到此为止。

猜你喜欢

转载自blog.csdn.net/weixin_43655282/article/details/89367060