python爬虫(四)-------------------xml解析模块之DOM模型

from xml.dom import minidom

'''
DOM 把整个XML读入内存,解析为树,即生成DOM树
因此占用内存大,解析慢,不适合处理大型文本,因为大文本往往是为了少量的数据生成一个很大的DOM树在内存中,效率低
优点是可以任意遍历树的节点
'''

doc = minidom.parse(r'xmlfilepath.xml')  # 读入
root = doc.documentElement  # 拿根节点,一般先找根节点,然后根据根节点再找其他节点
# print(dir(root))
#print(root.nodeName)
books = root.getElementsByTagName('book')
#print(type(books))
for book in books:
    titles = book.getElementsByTagName('title')
    print(titles)
    print(titles[0])
    print(titles[0].childNodes)
    print(titles[0].childNodes[0])
    print(titles[0].childNodes[0].nodeValue)
    #break


<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>
	<book>
		<title lang="eng">Harry Potter</title>
		<price>29.99</price>
	</book>
	<book>
		<title lang="eng">Learning XML</title>
		<price>39.95</price>
	</book>
</bookstore>

猜你喜欢

转载自blog.csdn.net/qq_41228218/article/details/88960516
今日推荐