Pandas的read_xml函数怎么用 读取XML到DataFrame

9次阅读

pandas 官方不提供 read_xml 函数,因其核心未内置 XML 解析能力;替代方案包括安装第三方库 pandas-read-xml 或用 xml.etree.ElementTree 手动解析后转为 DataFrame。

Pandas 的 read_xml 函数怎么用 读取 XML 到 DataFrame

Pandas 没有 read_xml 函数——这是最常被误查的点,官方 pandas(截至 2.2.x)** 根本不提供原生 XML 解析能力 **。

为什么 找不到 read_xml

因为 pandas 核心不内置 XML 解析器,也不维护 read_xml。你看到的可能是:

  • 第三方库(如 pandas-read-xml)伪造的 API 兼容层
  • 旧文档 / 博客错误引用(混淆了 read_htmlread_json
  • IDE 自动补全误导(基于字符串匹配或过时 stub)

替代方案:用 pandas-read-xml

这是目前最接近“read_xml”语义的成熟方案,需单独安装:

pip install pandas-read-xml

它返回标准 DataFrame,支持常见 XML 结构(扁平列表、嵌套属性、重复节点)。关键参数:

  • iterparse:指定重复节点路径(如 "//item"),决定行级粒度
  • namespaces:处理带命名空间的 XML(如 {"ns": "http://example.com/ns"}
  • attrs_onlyelems_only:控制提取属性还是子元素

简单示例(XML 内容含多个 ):

import pandas_read_xml as pdx  df = pdx.read_xml("books.xml", iterparse="book") print(df[["title", "author", "price"]])

不用第三方库?用 标准库 + pandas 手动解析

若不能引入新依赖,用 Python 原生 xml.etree.ElementTree 提取数据,再喂给 pd.DataFrame

  • 适合结构简单、可控的 XML(如 配置文件、导出报表)
  • 避免 lxml 等额外 C 依赖
  • 注意:手动处理嵌套、空值、类型转换(XML 全是字符串)

最小可行示例:

import xml.etree.ElementTree as ET import pandas as pd  root = ET.parse("data.xml").getroot() rows = [] for item in root.findall("record"):     rows.append({"id": item.get("id"),         "name": item.find("name").text if item.find("name") is not None else None,         "score": float(item.find("score").text) if item.find("score") is not None else None,     }) df = pd.DataFrame(rows)

容易踩的坑

无论用哪种方式,这几个问题高频出现:

  • XML 编码 错误(如 GBK 文件没声明 encoding="gbk")→ 报 UnicodeDecodeError
  • 路径写错(iterparse="item" 但实际标签是 )→ 返回空 DataFrame
  • 混合内容(文本 + 子节点)未处理 → .text 取到 None 或截断内容
  • 命名空间没声明 → find("ns:title") 失败,必须用 find(".//ns:title", ns)

真正用起来,XML 的结构随意性远高于 JSON 或 CSV,别指望一键导入;先用 ET.parse().getroot() 打印结构,再决定 iterparse 路径或手写提取逻辑。

星耀云
版权声明:本站原创文章,由 星耀云 2025-12-26发表,共计1443字。
转载说明:转载本网站任何内容,请按照转载方式正确书写本站原文地址。本站提供的一切软件、教程和内容信息仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。
text=ZqhQzanResources