XML DOM 是将 XML 解析为内存树状结构的编程接口,以 document 为根节点,包含 Element、Text、Attribute 等节点类型,支持遍历、查询、增删改操作,适用于中小型文档但需注意内存占用和手动序列化。

XML 文档对象模型(DOM)是一种将 XML 文档解析为内存中树状结构的编程接口,让程序能以面向对象方式访问、修改和操作 XML 数据。它把整个 XML 文档看作由节点组成的层次化树,每个元素、属性、文本甚至注释都对应一个节点,开发者可通过标准 API 遍历、查询、增删或更新这些节点。
DOM 树结构:从根到叶子的层级关系
XML DOM 树以 document 对象为根节点,向下逐级展开。常见节点类型包括:
- Element 节点:对应 XML 中的标签,如
<book></book>、<author></author>,可拥有子节点和属性 - Text 节点 :包裹元素内的纯文本内容,如
<title>Java 编程 </title>中的“Java 编程” - Attribute 节点 :属于 Element 节点的附属信息,如
<book id="b001"></book>中的id="b001" - Document 节点:整个 XML 文档的入口点,是所有其他节点的父节点
- Comment、ProcessingInstruction 等节点 :分别对应
<!-- 注释 -->和<?xml-stylesheet …… ?>等特殊内容
注意:空白换行和缩进在某些解析器中也会生成 Text 节点,处理时需用 node.getNodeType() == Node.TEXT_NODE 并配合 trim() 判断是否为空白。
核心节点操作:获取、创建与修改
DOM 提供统一方法操作任意节点,不依赖具体标签名:
- 查找节点 :用
getElementsByTagName("name")返回 NodeList;getElementById("id")需文档含 DTD 或 XML Schema 声明 ID 类型属性 - 访问关系 :通过
parentNode、childNodes、firstChild、nextSibling等属性遍历树;推荐用getChildNodes()后过滤 Node.ELEMENT_NODE 类型,避开文本 / 空白节点干扰 - 创建节点 :
createElement("tag")、createTextNode("text")、createAttribute("attr"),再用appendChild()或insertBefore()挂载到目标位置 - 修改内容 :Element 节点调用
setAttribute("k","v")设属性;Text 节点改值用nodeValue = "new text"或setTextContent("new")
注意事项与实用技巧
DOM 适合中小型 XML 文档的随机访问,但有明显约束:
- 整个文档必须一次性加载进内存,大文件易引发 OutOfMemoryError
- 节点对象长期持有引用可能导致内存泄漏,操作完及时置 null(尤其在循环或长生命周期对象中)
- 修改 DOM 不会自动同步回原始 XML 文件,需用
Transformer类序列化输出 - 不同语言实现略有差异——Java 中常用 W3C DOM 标准,JavaScript 中 XML DOM 与 HTML DOM 共享部分接口但行为更严格
基本上就这些。DOM 本身不复杂,但节点类型多、关系细,实际用时盯住“节点类型判断”和“父子关系维护”两个关键点,就能稳住操作逻辑。