Python XML 解析 – ElementTree vs SAX 和 DOM

在本文中，我们将介绍Python中的XML解析技术，并重点比较ElementTree、SAX和DOM这三种常用的XML解析方法。XML（eXtensible Markup Language）是一种用于存储和传输数据的标记语言，广泛用于互联网和数据交换领域。

阅读更多：Python 教程

1. ElementTree

ElementTree是Python标准库中的一个模块，提供了一种简单而高效的方式来解析和操作XML文档。它将XML文档转换成一个树状结构，树中的每个元素都是一个节点，可以通过查找和遍历节点来获取和修改XML数据。

下面是一个使用ElementTree解析XML文档的简单示例：

import xml.etree.ElementTree as ET

# 加载XML文档
tree = ET.parse("books.xml")

# 获取根节点
root = tree.getroot()

# 遍历所有书籍节点并打印标题和作者
for book in root.findall("book"):
    title = book.find("title").text
    author = book.find("author").text
    print("标题：", title)
    print("作者：", author)

通过调用ET.parse()函数加载XML文档并将其解析为一个树对象。使用getroot()方法获取XML文档的根节点，然后可以使用find()和findall()方法查找和遍历节点。

ElementTree提供了一系列方法来查询和操作XML节点，例如find()、findall()、iter()等。我们可以使用这些方法来获取节点的属性、子节点、文本等信息，并且可以对节点进行新增、修改和删除操作。

2. SAX（Simple API for XML）

SAX是一种基于事件驱动的XML解析技术，它通过顺序读取XML文档并触发事件来解析文档。相比于ElementTree，SAX适用于处理大型XML文档，因为它不会将整个文档加载到内存中，而是一边读取一边解析，以节省内存资源。

下面是一个使用SAX解析XML文档的简单示例：

import xml.sax

# 定义事件处理器
class BookHandler(xml.sax.ContentHandler):
    def __init__(self):
        self.current_data = ""
        self.title = ""
        self.author = ""

    # 元素开始事件处理方法
    def startElement(self, tag, attributes):
        self.current_data = tag

    # 元素结束事件处理方法
    def endElement(self, tag):
        if self.current_data == "title":
            print("标题：", self.title)
        elif self.current_data == "author":
            print("作者：", self.author)
        self.current_data = ""

    # 内容事件处理方法
    def characters(self, content):
        if self.current_data == "title":
            self.title = content
        elif self.current_data == "author":
            self.author = content

# 创建解析器
parser = xml.sax.make_parser()

# 关闭命名空间支持
parser.setFeature(xml.sax.handler.feature_namespaces, 0)

# 设置事件处理器
handler = BookHandler()
parser.setContentHandler(handler)

# 解析XML文档
parser.parse("books.xml")

首先，我们需要定义一个继承自ContentHandler的事件处理器类，并重写相应的事件处理方法。在startElement()方法中，我们记录当前处理的元素名称；在endElement()方法中，我们根据不同的元素名称打印相应的数据；在characters()方法中，我们将元素内容保存到相应的变量中。

然后，我们创建解析器并设置相关的特性和事件处理器。最后，调用parse()方法解析XML文档。解析器会根据文档的结构触发相应的事件，我们在事件处理器中可以执行相应的操作。

3. DOM（Document Object Model）

DOM是一种将XML文档转换成树状结构的解析技术，它将整个文档加载到内存中，并允许用户通过操作树节点来对XML文档进行增删改查操作。相比于SAX，DOM适用于较小的XML文档，因为它需要加载整个文档到内存中，占用较多的系统资源。

下面是一个使用DOM解析XML文档的简单示例：

import xml.dom.minidom

# 加载XML文档
dom = xml.dom.minidom.parse("books.xml")

# 获取根节点
root = dom.documentElement

# 遍历所有书籍节点并打印标题和作者
books = root.getElementsByTagName("book")
for book in books:
    title = book.getElementsByTagName("title")[0].childNodes[0].data
    author = book.getElementsByTagName("author")[0].childNodes[0].data
    print("标题：", title)
    print("作者：", author)

首先，我们使用parse()函数加载XML文档，并通过documentElement属性获取根节点。

然后，利用根节点的getElementsByTagName()方法获取所有的书籍节点，并遍历每个节点来获取标题和作者信息。注意，getElementsByTagName()方法返回的是一个节点列表，我们需要通过索引和childNodes属性获取具体的文本内容。

DOM提供了一系列方法来查询和操作XML节点，例如getElementsByTagName()、getAttribute()、childNodes等。我们可以使用这些方法来获取节点的属性、子节点、文本等信息，并且可以对节点进行新增、修改和删除操作。

4. 比较与选择

ElementTree：适用于中小型XML文档的解析和操作，提供了简单和高效的API，易于使用和理解，但不支持事件驱动。
SAX：适用于大型XML文档的解析，以事件驱动的方式解析文档，节省内存资源，但需要手动实现事件处理器，稍微复杂一些。
DOM：适用于较小的XML文档的解析和操作，以树状结构表示文档，可以方便地遍历和操作节点，但占用较多的系统资源。

根据实际需求和XML文档的大小，我们可以选择合适的解析方法来解析和操作XML数据。

总结

本文介绍了Python中的三种常用XML解析方法：ElementTree、SAX和DOM。ElementTree提供了简单和高效的API，适用于中小型XML文档的解析和操作；SAX以事件驱动的方式解析大型XML文档，节省内存资源；DOM将整个XML文档加载到内存中，方便遍历和操作节点。根据实际需求和XML文档的大小，我们可以选择合适的解析方法来处理XML数据。