Exploring the Ecosystem of Malicious Domain Registrations in the .eu TLD

摘要
研究点的提出

相关工作

论文内容
数据集
实验内容

campaign 识别
insights into malicious campaigns
自动campaign识别

聚类算法

创新

讨论

2017 RAID

摘要

本研究广泛审查了14个月的注册数据，以识别**.eu TLD**中存在的大规模恶意活动。我们探索精心设计的网络犯罪实体的生态系统和运作方式，这些实体经常注册大量域名以供一次性恶意使用。虽然这些恶意域名是短命的，但通过合并注册人信息，我们确定至少80.04％的域名可以被纳入20个不同持续时间和强度的大型活动系列中。我们进一步报告了该业务运营方面的见解，并观察其中的流程仅部分自动化。最后，我们应用事后群集流程来验证活动系列识别流程，并自动对TLD区域中的恶意注册进行生态系统分析。

研究点的提出

黑名单只能在发生滥用事件后进行报道，攻击者采用hit-and-run策略可以抵御黑名单，攻击者在攻击后丢弃域名并且注册新域名——耗费经济，这种方法需要重复且经常自动化的域名注册。为了混淆他们的动作，攻击者通常使用仿冒的登记信息；

大量的恶意域名以及注册过程自动化和货币化的事实表明，需要对网络犯罪分子的运作方式有深刻见解，以产生有效的对策。

大多数的恶意域名由少量的恶意者注册：80.04%的恶意等记者其实是20个campaigns
18.23%恶意域名没有在黑名单内
恶意域名注册过程只是部分自动化
通过利用聚类算法可以自动化和再现生态系统分析。在我们的实验中，由聚集聚类形成的30个最大的聚类包含91.48％的黑名单活动注册。这些群集展示了与手动识别的campaigns的清晰映射

论文内容

识别分析恶意campaigns、实现自动识别campaign的方式

数据集

在2015.4.1 - 2016.3.31 识别了824121 .eu 域名登记
**基本的登记信息 **域名、登记日期、登记者
**联系信息 ** 登记人的公司名、姓名、语言、邮箱地址、电话、传真、邮箱地址、邮件账户、邮件提供商
**名称服务器 ** 负责解析域中的条目。我们通过解析NS记录和添加IP地理位置数据来丰富名称服务器数据及其地理位置

每个域名在被登记的一个月内进行监控，在我们的数据集中最后一次注册后4个月再次检查所有域。

黑名单：

dbl.spamhaus.org blacklist21：botnet C&C domains, malware domains, phishing domains, and spam domains
multi.surbl.org blacklist 20：
Google’s Safe Browsing list 7

824121中，2.53%最后在黑名单上。20870个等级被用来网络犯罪
在这里插入图片描述
恶意 & 所有每周份额

其中93.68%恶意域名用来垃圾邮件、2.09%恶意软件基础设施，0.57%不期望的软件，3.22%钓鱼活动

72.93%恶意域名在登记后5天被标记、98.57%的恶意注册在第一个月的黑名单中列出

实验内容

campaign 识别

恶意行为不会以孤立或分散的方式发生——评估了是否可以在域名注册之间识别这些模式以及这些注册在多大程度上发生

在登记上存在强的相关性，识别了20个不同的campaigns

Q1:如何识别？
campaingns：重复、自动注册恶意域名

在这里插入图片描述

时间序列，如果campaign导致高度集中的恶意注册，则该时间范围内的大量注册应该相互关联——检查在该时间跨度中发生的所有恶意注册以找到注册数据中的共同特征（电子邮件地址，地址信息，注册商，注册人名称等中的重复值或不同模式）。

在这里插入图片描述
可视化不同特征的相关性，找到恶意campaigns构成基准，应用到所有数据集上手动聚类；无匹配则为新的聚类

Q2: 观测campaign现象？

生存期长
有很强的活动规律（C19）
发现.eu注册数据中发现的大部分恶意注册
19.3%未知的滥用域名

20类时间规律

Q3:campaign选择标准？
19.3%恶意登记没有出现在黑名单上的原因？

黑名单的覆盖率
没有被滥用
加阳性

在这里插入图片描述
c 05, c 11，c 15

Transitive attribution 传递属性集 评估不完整黑名单和非活动恶意域的流行程度：检查误报（电话号码（没有使用元素））——如果注册人的电话号码与列入黑名单的电话号码相同，我们会将该域名视为恶意广告系列的一部分，并认为该域名尚未被滥用，或未被黑名单接收

攻击者可能利用WHOIS信息使用一个合法的.eu 域名的注册信息利用到自己的注册上

传递属性集实验：

测量传递属性域的注册时间与其关联的黑名单域之间的时间间隔：恶意注册（具有相同的电话号码）发生在传递归属注册的60秒内。我们认为攻击者几乎不可能观察到新的注册（这是.eu区域中的非公开信息），查询其WHOIS数据，然后在该时间间隔内进行类似的注册。
如果这些联系方式已经被污染，攻击者就不会利用良性注册人的信息。在这方面，我们筛选出在先前注册后注册的其余域名中的965个，同一电话号码已被列入黑名单。最后，我们咨询了一个电话号码验证工具[22]，并识别其余229个域中的189个的无效电话号码。我们假设恶意行为人在尝试模仿合法注册人时，不会使用无效的电话号码窃取注册人的详细信息。最后，我们观察了3,212（98.77％）过渡性归属域的三个指标之一，并得出结论认为这种归属是合理的。

c 15 分析 经过电话号码验证发现30.6%仍然误报：分析，大多是荷兰语，相同的单词频繁利用——明显模式，手动进行验证

**经过手动验证 ** 查询DNS记录、访问网站、黑名单、搜索引擎、email

**总结 ** 20698登记，16704被黑名单列出，3252次登记与传递属性集相关，552手动验证，但是还有190（0.92%假阳性）

需要insights

insights into malicious campaigns

**滥用的类型 ** 93.68% spam

cross-campaign 特征 不同的campaigns共有的特征：
c03、04、20 从名称生成注册人的电子邮件地址，后跟数字后缀
c5、11: 明显的字符后+数字后缀
c7、9、13、14 非欧洲的街道地址+欧洲国家

在这里插入图片描述

**登记并非全都是自动的 ** 时间符合人类活动时间，恶意注册比所有注册更加波动

工作时间，假期
在这里插入图片描述

恶意行为者可能故意模仿正常的注册模式以避免被发现。
在假期期间，当潜在受害者在网上不太活跃时，对新恶意域的需求可能会降低。
网络犯罪活动可以像任何其他企业一样进行管理，因此同样容易受到休假期的影响。

在这里插入图片描述
其中注册字段对于同一注册人而言在单个广告系列中的排版方式不同；名称字段填写不一致的注册人名称，导致姓名模式，如姓氏姓氏或名字名字姓氏

**适应性的注册策略 **
在这里插入图片描述

自动campaign识别

主要是重复注册人和名称服务器详细信息

聚类算法

层次聚类算法，通过迭代合并彼此最接近的两个聚类来工作；完整的连接标准来确定簇之间的距离

**特征选择 ** 域名长度、注册员.、姓名, 街道、城市、区域、国家、zip 代码、电话号码、邮件账户、邮件服务商、名称服务器域名、地理位置

欧几里德距离度量来计算两个实例之间的距离，one-hot编码

**聚类停止标准 ** 使用3手动分析标签，计算"V-measure"(以统计表示群集和活动之间的映射);432个蔟，homogeneity 0.9， completeness score 0.86

**结果 ** 80％的域位于39个最大的簇中，而227个簇的长尾仅包含5个或更少的注册，前30个聚类代表位于20个手动识别的广告系列中的列入黑名单的91.48％。

在这里插入图片描述
使用聚类执行自动检测时，与手动识别（例如聚类16）相比，我们实现了更清楚的相似性的更详尽的识别。然而，自动方法难以检测更高级的相似性模式（例如，c15）。在未来的工作中，可以将更复杂的技术（例如n-gram）集成到聚类算法中，以检测更高级的相似性模式。

创新

深入对824121个注册的.eu 域名进行分析，从WHOIS+黑名单结合分析，挖掘注册信息的相关性，从时序上对特征进行发现，分析黑名单上未出现、假阳性的原因。

恶意域名的用途分布
注册信息的规律性
算法自动聚类
自动聚类+手动聚类的综合分析（通过自动发现更深入的相关性）
自动广告系列识别是一种可行的策略，为扩大黑名单的范围提供了参考

讨论

不仅仅关注.eu domain，同一注册商跨多个TLD进行批量注册，通常可以通过下载区域文件和WHOIS数据来获取此数据。

不足：

主要内容是具有恶意意图的域名
手动和自动识别都依赖于注册数据中的模式。恶意行为者可以通过不断使用不同的注册数据和模式来利用这种依赖性
一些注册商为其客户提供匿名服务，将注册人联系信息模糊到注册管理机构

我的喵喵找不到了

发布了68 篇原创文章 · 获赞 2 · 访问量 6176

私信关注