Java SAX解析器怎么用 SAX逐行读取XML文件教程

Java SAX解析器是基于事件驱动的流式解析器，不逐行读取也不加载整个XML到内存，通过重写DefaultHandler的startElement、endElement和characters等方法处理标签开始、结束及文本内容。

Java SAX（Simple API for XML）解析器不是“逐行读取”，而是基于事件驱动的流式解析，它不加载整个XML到内存，适合处理大文件。核心是实现 ContentHandler 接口（常用的是继承 DefaultHandler），在标签开始、结束、文本内容出现时触发回调。

准备：添加依赖与基础结构

SAX 是 JDK 自带的，无需额外依赖。只需创建一个继承 DefaultHandler 的处理器类，并重写关键方法：

startElement()：遇到开始标签时调用（可获取标签名、属性）
endElement()：遇到结束标签时调用（可判断标签闭合）
characters()：遇到标签内文本时调用（注意：可能被分多次调用，需拼接）
startDocument() / endDocument()：文档开始/结束时各调用一次

写一个简单的 SAX 处理器

例如解析如下 XML 片段：

Java 编程
张三

对应处理器可这样写：

立即学习“Java免费学习笔记（深入）”；

定义字段如 currentTag 记录当前标签名，content 暂存文本
在 startElement 中记录 qName，检查是否为 "book" 并读取 id 属性
在 characters 中把字符数组转字符串并追加到 content（注意过滤空白和换行）
在 endElement 中根据 currentTag 判断是否该提取数据，比如 "title" 结束时保存标题值

启动解析：用 SAXParserFactory 和 SAXParser

代码结构简洁：

调用 SAXParserFactory.newInstance() 获取工厂
用 newSAXParser() 创建解析器实例
调用 parse(File, DefaultHandler) 或 parse(InputStream, DefaultHandler) 启动解析
捕获 SAXException 和 IOException

不需要手动控制“行”或“光标”，SAX 自动按 XML 结构触发事件 —— 所谓“逐行”其实是误解，它按元素生命周期响应，效率高但不保留文档结构。

注意事项与常见坑

SAX 是只读、单向、不可回退的。几个关键点要留意：

characters() 可能被多次调用：长文本会被分片传入，不能直接用每次的 chars 数组，必须累积
空白和换行也算字符事件：标签间的缩进、回车都会触发 characters()，建议用 String.trim().isEmpty() 过滤
无法修改或写入 XML：SAX 只用于读取；如需生成或修改，用 DOM、StAX 或 JAXP Transformer
线程不安全：每个解析任务应使用独立的 Handler 实例

基本上就这些。用熟了你会发现，SAX 不复杂但容易忽略细节，尤其是文本拼接和空白处理。