如何用Java流式API处理大XML文件 StAX API入门

大XML文件不宜用DOM解析因其会全量加载内存易OOM；StAX采用拉取式迭代，按需读取、内存稳定，通过XMLStreamReader逐事件处理，支持边读边转换对象，但需注意编码匹配和不可回退特性。

DOM会把整个XML加载进内存构建成树形结构，文件稍大（比如超过100MB）就容易触发OutOfMemoryError。对日志、ETL、批量导出等场景，你真正需要的往往只是提取其中某些字段或过滤部分记录——StAX正是为此设计：它像“拉取式迭代器”，按需读取，内存占用稳定在几MB级别。

Java内置javax.xml.stream.XMLStreamReader是处理大XML的主力。它不自动解析嵌套结构，但给你完全的控制权：逐个事件推进（START_ELEMENT、CHARACTERS、END_ELEMENT等），跳过无关节点，只处理关心的标签。

假设XML中有一组Alice28，你想转成User对象并写入数据库。关键不是“解析完再处理”，而是“见到就初始化，见到就提交”：

StAX默认按UTF-8读取，若XML声明为却用UTF-8流打开，会乱码甚至抛XMLStreamException。务必用InputStreamReader显式指定编码：

正确写法：new InputStreamReader(fileInputStream, "GBK")

另外，StAX不支持“回退”。一旦next()跳过某个事件，无法倒回去。所以逻辑判断要前置——比如想跳过注释，应在next()后立刻检查isStartElement()，而不是先做一堆操作再回头验证。