python解析xml的方法与批量修改xml的内容

python中解析xml文件有三种常见的方法：一是xml.dom.*模块，她是W3C DOM API的实现；二是xml.sax.*模块，它是SAX API，这个模块牺牲了便捷性来换取速度和内存占用，SAX是一个基于事件的API，它可以“在空中”处理庞大数量的文档，不用完全加载进内存；三是xml.etree.ElementTree模块，它提供了轻量级的Python式API，相对于DOM来说，ET快了很多。

1、xml.etree.ElementTree

ElementTree生来就是为了处理XML，它在Python标准库中有两种实现：一种是纯Python实现的，如xml.etree.ElementTree，另一种是速度快一点的xml.etree.cElementTree。注意：尽量使用C语言实现的那种，因为它速度更快，而且消耗的内存更少。

2、xml.dom.*

文件对象模型（Document Object Model，简称DOM），是W3C组织推荐的处理可扩展置标语言的标准编程接口。一个 DOM 的解析器在解析一个XML文档时，一次性读取整个文档，把文档中所有元素保存在内存中的一个树结构里，之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构，也可以把修改过的内容写入xml文件.

3、xml.sax.*

        SAX是一种基于事件驱动的API，利用SAX解析XML牵涉到两个部分：解析器和事件处理器。其中解析器负责读取XML文档，并向事件处理器发送事件，如元素开始跟元素结束事件；而事件处理器则负责对事件作出相应，对传递的XML数据进行处理。python中使用sax方式处理xml要先引入xml.sax中的parse函数，还有xml.sax.handler中的ContentHandler。常使用在如下的情况下：一、对大型文件进行处理；二、只需要文件的部分内容，或者只需从文件中得到特定信息；三、想建立自己的对象模型的时候。
ContentHandler类方法介绍
（1）characters(content)方法
        调用时机：从行开始，遇到标签之前，存在字符，content的值为这些字符串。从一个标签，遇到下一个标签之前，存在字符，content的值为这些字符串。从一个标签，遇到行结束符之前，存在字符，content的值为这些字符串。标签可以是开始标签，也可以是结束标签。
（2）startDocument()方法文档启动的时候调用。
（3）endDocument()方法解析器到达文档结尾时调用。
（4）startElement(name, attrs)方法
        遇到XML开始标签时调用，name是标签的名字，attrs是标签的属性值字典。
（5）endElement(name)方法遇到XML结束标签时调用。

以上内容参考博客：http://www.jb51.net/article/63780.htm

使用dom对三个节点内的内容进行修改并保存修改的内容：

import os  
import os.path  
import xml.dom.minidom

dirRoot = "存放原始xml文件的文件夹的名字"
dirRootNew = "存放修改后的xml文件的文件夹的名字"
for parent,dirnames,filenames in os.walk(dirRoot):
    #eg：'000001.xml','000002.xml',........
    print(filenames)
    for filepath in filenames:
        #eg:000001.xml
        print(filepath)
        xmlPath = os.path.join(parent,filepath)
        #eg:F:/ObjectDetection/mstardata/test_AAA2/test_AAA2_xml/000001.xml
        print(xmlPath)
        xmlName = os.path.splitext(filepath)
        #eg；000001
        print(xmlName[0])
        dom = xml.dom.minidom.parse(xmlPath)
        root = dom.documentElement
        folder = root.getElementsByTagName('folder')
        file_name = root.getElementsByTagName('filename')
        xmlPath = root.getElementsByTagName('path')
        n0 = folder[0]
        print(n0.firstChild.data)
        p0 = file_name[0]
        print(p0.firstChild.data)
        x0 = xmlPath[0]
        print(x0.firstChild.data)
        stringName = xmlName[0] + '.jpg'
        print(stringName)
        stringPath = 'F:/ObjectDetection/mstardata/test_AAA2/test_AAA2_ps/'+stringName
        n0.firstChild.data = 'VOC2007'
        p0.firstChild.data = stringName
        x0.firstChild.data = stringPath
        print(n0.firstChild.data)
        print(p0.firstChild.data)
        print(x0.firstChild.data)
        
        #保存修改到xml文件中
        with open(os.path.join(dirRootNew,filepath),'w') as fh:  
            dom.writexml(fh)  
            print('写入name/pose OK!')

扫描二维码关注公众号，回复： 2964351 查看本文章

python解析xml的方法与批量修改xml的内容

猜你喜欢