Python XML的解析与创建

常见的XML编程接口有DOM和SAX，这两种接口处理XML文件的方式不同，当然是用是用场合也不同。
Python有三种方法解析XML：

SAX（不常用）
DOM
ElementTree

SAX（simple API for XML）

Python标准库中包含SAX解析器，SAX是用的是事件驱动模型，通过在解析XML过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件。
解析的基本过程：
读到一个XML开始标签，就会开始一个事件，然后事件就会调用一系列的函数去处理一些事情，当读到一个结束标签时，就会触发另一个事件。所以，我们写XML文档入如果有格式错误的话，解析就会出错。
这是一种流式处理，一边读一边解析，占用内存少，可以处理一些大的文件，但是把大文件读到缓存中缓存起来就比较难，这样就会影响效率。

DOM（Document Object Model）

将XML数据在内存中解析成一个树，通过对树的操作来操作XML。
由于DOM是将XML读取到内存，然后解析成一个树，如果要处理的XML文本比较大的话，就会很耗内存，所以DOM一般偏向于处理一些小的XML，（如配置文件）比较快，

ElementTree（Object Model）

ElementTree就像一个轻量级的DOM，具有方便而友好的API。代码的可用性好、速度快、消耗内存少。可以认为是对DOM的改进。

XML解析基本思路是

现将xml文档内容一次性全部读入内存并解析成树结构，然后拿到这个树结构的根结点，然后我们就可以通过调用解析XML的一些函数来操作这个树了，也就是操作xml文档数据。

xml.dom解析xml

文件对象模型（Document Object Model，简称DOM），是W3C组织推荐处理可扩展语言的标准编程接口。
一个 DOM 的解析器在解析一个 XML 文档时，一次性读取整个文档，把文档中所有元素保存在内存中的一个树结构里，之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构，也可以把修改过的内容写入xml文件。
下面是一个简单的xml文档实例（book.xml）：

<?xml version="1.0" encoding="utf-8" ?>
<!--this is a test about xml.-->
<booklist type="science and engineering">
    <book category="math">
        <title>learning math</title>
        <author>张三</author>
        <pageNumber>561</pageNumber>
    </book>
    <book category="Python">
        <title>learning Python</title>
        <author>李四</author>
        <pageNumber>600</pageNumber>
    </book>
</booklist>

使用Python的xml.dom.minidom模块来解析这个xml文件：

#!/usr/bin/python
#coding=utf-8
import xml.dom.minidom
from xml.dom.minidom import parse #从xml.dom.minidom模块引入解析器parse

#minidom解析器打开xml文档并将其解析为内存中的一棵树
DOMTree = xml.dom.minidom.parse(r"C:\book.xml")
#获取xml文档对象，就是拿到树的根
booklist = DOMTree.documentElement
if booklist.hasAttribute("type") : 
  #判断根节点booklist是否有type属性，有则获取并打印属性的值
  print "Root element is", booklist.getAttribute("type")

#获取booklist对象中所有book节点的list集合
books = booklist.getElementsByTagName("book")
print "book节点的个数：", books.length

for book in books :
  print "*******************book*******************"
  if book.hasAttribute("category") :
    print "category is", book.getAttribute("category")

  #根据结点名title拿到这个book结点下所有的title结点的集合list。
  #[0]表示第一个title标签，因为一个<book>...</book>之间可能会
  #定义多个title标签 
  title = book.getElementsByTagName('title')[0]
  print "Title is", title.childNodes[0].data

  author = book.getElementsByTagName('author')[0]
  print "author is", author.childNodes[0].data

  pageNumber = book.getElementsByTagName('pageNumber')[0]
  print "pageNumber is", pageNumber.childNodes[0].data

执行结果：

Root element is science and engineering
book节点的个数： 2
*******************book*******************
category is math
Title is learning math
author is 张三
pageNumber is 561
*******************book*******************
category is Python
Title is learning Python
author is 李四
pageNumber is 600

由于xml的标签、属性都是程序员自已定义的，所以一个标签下可以出现多个同名的标签，就像上面的的标签或者是像下面这样：

<booklist type="science and engineering">
    <book category="math">
        <title>learning math</title>
        <title>title test</title>
        <author>张三</author>
        <pageNumber>561</pageNumber>
    </book>
</booklist>

上面解析xml的程序中，getElementsByTagName()函数返回的是同一父节点下所有同级（即兄弟节点）节点中相同标签的集合（就像上面的两个标签一样），这是一个list对象，所以可以使用list序列所有操作。这个时候，我们可以通过索引去拿相应的节点，也可以使用节点名称去拿相应的节点，推荐第二种方法，准确。也可以通过循环遍历整个返回的list。

xml.dom模块解析xml的部分API函数

minidom.parse()

函数原型：

扫描二维码关注公众号，回复： 3436457 查看本文章

parse(file, parser=None, bufsize=None)
    Parse a file into a DOM by filename or file object.

函数作用是使用parse解析器打开xml文档并将其解析为一个DOM文档，也就是内存中的一棵树。

doc.documentElement
获取xml文档对象，就是拿到树的根。
doc.toxml()

函数原型：

toxml(self, encoding=None) method of xml.dom.minidom.Document instance

返回xml的文本内容。如：

>>> DOMTree.toxml('utf-8')
'<?xml version="1.0" encoding="utf-8"?><!--this is a test about xml.--><booklisttype="science and engineering">\n    <book category="math">\n        <title>learning math</title>\n        <author>\xe5\xbc\xa0\xe4\xb8\x89</author>\n        <pageNumber>561</pageNumber>\n    </book>\n    <book category="Python">\n
<title>learning Python</title>\n        <author>\xe6\x9d\x8e\xe5\x9b\x9b</author>\n        <pageNumber>600</pageNumber>\n    </book>\n</booklist>'

如果我们只知道xml文件名，不知道里面的内容，就可以使用这个函数查看。

node.hasAttribute()

函数原型：

hasAttribute(self, name) method of xml.dom.minidom.Element instance

判断某个节点node是否存在某个属性，存在返回True，否则返回False。如：

if booklist.hasAttribute("type") :

注：这里用的实例是book.xml文档中的。下同

node. getAttribute()
原型：

getAttribute(self, attname) method of xml.dom.minidom.Element instance

获取节点node的某个属性的值。如：

print "Root element is", booklist.getAttribute("type")

node.getElementsByTagName()

原型：

getElementsByTagName(self, name) method of xml.dom.minidom.Element instance

获取XML文档中节点对象集合。如：

books = booklist.getElementsByTagName("book")

表示获取booklist节点下所有节点名为book组成的对象集合，这是一个list，因此list所有的操作都可以用于它。

node.childNodes
返回node下所有子节点组成的list。如查看节点下的子节点：

>>> books[0].childNodes
[<DOM Text node "u'\n        '">, <DOM Element: title at 0x2830988>, <DOM Text node "u'\n        '">, <DOM Element: author at 0x2830708>, <DOM Text node "u'\n        '">, <DOM Element: pageNumber at 0x28307c8>, <DOM Text node "u'\n    '">]

从结果看出，列表中第一个元素是books[0]这个标签下一个文本子节点（默认就是有的），里面存的是该节点的值，此处由于是一个父节点，没有设置值，所以为回车符。
如：

print author.childNodes
[<DOM Text node "u'\u674e\u56db'">]

由于叶子节点下没有子节点了，所以只返回了该叶子节点默认的文本子节点。
这样就算我们不知道原xml文档结构怎样，就可以使用这个函数来一层层的查看xml文档中的节点。

node.childNodes[index].data

获取节点的值。如：

print "Title is", title.childNodes[0].data

node .hasChildNodes()

判断节点node下是否有叶子节点，如有返回True，否则返回False，但是需要注意的是，每个节点都默认有一个文本叶子节点，所以只要标签后有值，就会返回True，只有当标签后没值时才会返回False。如：

print author.hasChildNodes()

原xml文件中author标签下没有子标签，但是有值，所以返回结果是True。下面的情况就会返回False：

<author></author>

有了这个函数，我们可以在不知道xml文档结构的情况下操作xml文档了。

如果还想使用其他的函数，可以使用dir()或help()函数查看各个类拥有的方法和属性。