XML文件太大内存不足怎么办流式解析方案

核心解法是采用流式解析（SAX或StAX）避免全量加载，内存占用稳定；SAX基于回调、轻量只读，需拼接characters；StAX为拉模式更灵活，支持按需读取；预处理可先分块再解析；还需禁用DTD、关闭命名空间感知、及时清理缓存。

XML文件太大导致内存不足，核心解法是避免一次性加载整个文档到内存，改用流式解析（SAX 或 StAX），边读边处理，内存占用稳定在常量级。

SAX（Simple API for XML）是基于回调的推模式解析器，不构建DOM树，适合只读、顺序处理大XML。Java中用red”>org.xml.sax包即可，无需额外依赖。

StAX（Streaming API for XML）是Java内置的拉模式解析器（javax.xml.stream），比SAX更直观，支持跳过无关节点、部分回退（有限）、按需读取。

用XMLInputFactory创建XMLStreamReader
循环调用next()或nextTag()，用getEventType()判断当前是START_ELEMENT、CHARACTERS还是END_ELEMENT
遇到START_ELEMENT时检查getLocalName()，匹配后读子元素或属性，处理完立即丢弃引用

若原始XML结构规整（如大量同级<record></record>包裹数据），可先用流式方式按行/标签边界分割成小文件或片段，再逐个解析。

即使流式解析，细节不当也会隐式吃内存：

禁用DTD和外部实体（防止XXE），设置factory.setFeature("http://apache.org/xml/features/disallow-doctype-decl", true)
关闭命名空间感知（如不需要）：factory.setNamespaceAware(false)，提升速度
不要在handler里长期缓存节点内容；用完即清，尤其characters返回的char[]别直接保存
大文件建议配合InputStream而非File，便于加gzip解压（如XML是.gz压缩的）

基本上就这些。流式不是万能，但对GB级XML，SAX/StAX是可靠选择；关键在“不建树、不回溯、不缓存”，逻辑清晰了，内存压力自然下来。