入侵探测器学习

本文档改编自纸张基于成本的数据挖掘建模和评估应用于 欺诈和入侵检测:来自 Salvatore J. Stolfo,Wei Fan,Wenke Lee,Andreas Prodromidis和Philip K. Chan 的JAM项目结果。 
  
 

入侵探测器学习

检测网络入侵的软件可以保护计算机网络免受未经授权的用户的攻击,包括内部人员。入侵检测器学习任务是构建一个预测模型(即分类器),能够区分“坏”连接,称为入侵或攻击,以及“良好”的正常连接。

1998年DARPA入侵检测评估计划由麻省理工学院林肯实验室制作和管理。目的是调查和评估入侵检测的研究。提供了一组待审计的标准数据,其中包括在军事网络环境中模拟的各种入侵。1999 KDD入侵检测竞赛使用该数据集的一个版本。

林肯实验室建立了一个环境,可以为局域网(LAN)获取9周的原始TCP转储数据,模拟典型的美国空军局域网。他们操作局域网就好像它是一个真正的空军环境一样,但却充满了多次攻击。

原始训练数据是来自七周网络流量的大约4千兆字节的压缩二进制TCP转储数据。这被处理成大约500万条连接记录。同样,两周的测试数据产生了大约200万条连接记录。

连接是在一些明确定义的时间开始和结束的TCP分组序列,在这些时间之间,数据在一些明确定义的协议下流入和流出源IP地址到目标IP地址。每个连接都标记为正常或作为攻击,只有一种特定的攻击类型。每个连接记录包含大约100个字节。

攻击分为四大类:

  • DOS:拒绝服务,例如syn flood;
  • R2L:远程计算机的未授权访问,例如猜测密码;
  • U2R:未经授权访问本地超级用户(root)权限,例如各种“缓冲区溢出”攻击;
  • 探测:监视和其他探测,例如端口扫描。

重要的是要注意,测试数据不是来自与训练数据相同的概率分布,并且它包括不在训练数据中的特定攻击类型。这使任务更加真实。一些入侵专家认为,大多数新型攻击都是已知攻击的变种,已知攻击的“签名”足以捕获新的变种。数据集包含总共24种训练攻击类型,仅在测试数据中包含14种类型。 
  
 

衍生的功能

Stolfo等。定义了更高级别的功能,有助于区分正常连接和攻击。有几类派生特征。

“相同主机”功能仅检查过去两秒内与当前连接具有相同目标主机的连接,并计算与协议行为,服务等相关的统计信息。

类似的“相同服务”功能仅检查过去两秒内与当前连接具有相同服务的连接。

“相同主机”和“相同服务”功能一起称为连接记录的基于时间的流量功能。

一些探测攻击使用比两秒大得多的时间间隔扫描主机(或端口),例如每分钟一次。因此,连接记录也按目标主机排序,并且使用100个连接到同一主机而不是时间窗口的窗口构建功能。这产生了一组所谓的基于主机的流量特征。

与大多数DOS和探测攻击不同,似乎没有在R2L和U2R攻击记录中频繁出现的顺序模式。这是因为DOS和探测攻击涉及在很短的时间内与某些主机的许多连接,但是R2L和U2R攻击嵌入在数据
包的数据部分 中,并且通常仅涉及单个连接。

用于自动挖掘分组的非结构化数据部分的有用算法是一个开放的研究问题。Stolfo等。使用领域知识添加在数据部分中查找可疑行为的功能,例如失败的登录尝试次数。这些功能称为“内容”功能。

下面的三个表格给出了为连接记录定义的一组功能的完整列表。比赛数据集的数据模式以机器可读的形式提供。 
  
 


功能名称 描述  类型
持续时间  连接的长度(秒数)  连续
协议类型  协议的类型,例如tcp,udp等。  离散的
服务  目的地的网络服务,例如http,telnet等。  离散的
src_bytes  从源到目标的数据字节数  连续
dst_bytes  从目标到源的数据字节数  连续
旗  连接的正常或错误状态  离散的 
土地  如果连接来自/到同一主机/端口,则为1; 否则为0  离散的
wrong_fragment  “错误”片段的数量  连续
紧急  紧急包的数量  连续

功能名称 描述  类型
热  多少“热门”指标 连续
num_failed_logins  失败的登录尝试次数  连续
登录  1如果成功登录; 否则为0  离散的
num_compromised  “受损”条件的数量  连续
root_shell  1,如果获得root shell; 否则为0  离散的
su_attempted  1如果尝试“su root”命令; 否则为0  离散的
num_root  “root”访问次数  连续
num_file_creations  文件创建操作的数量  连续
num_shells  shell提示数量  连续
num_access_files  访问控制文件的操作次数  连续
num_outbound_cmds ftp会话中的出站命令数  连续
is_hot_login  如果登录属于“热门”列表,则为1; 否则为0  离散的
is_guest_login  1如果登录是“客人”登录; 否则为0  离散的

功能名称 描述  类型
计数  在过去两秒内与当前连接相同主机的连接数  连续
  注意:以下功能涉及这些相同主机连接。  
serror_rate  有“SYN”错误的连接百分比  连续
rerror_rate  有“REJ”错误的连接百分比  连续
same_srv_rate  连接到同一服务的百分比  连续
diff_srv_rate  连接到不同服务的百分比  连续
srv_count  在过去两秒内与当前连接相同服务的连接数  连续
  注意:以下功能涉及这些相同的服务连接。  
srv_serror_rate  有“SYN”错误的连接百分比  连续
srv_rerror_rate  有“REJ”错误的连接百分比  连续
srv_diff_host_rate  连接到不同主机的百分比  连续 

转载于:https://my.oschina.net/thomas2/blog/3060112

猜你喜欢

转载自blog.csdn.net/weixin_34378045/article/details/91918276