如何在 Go 中使用 Gokogiri 将 XML 文本节点安全转换为字符串

2次阅读

本文详解如何通过 Gokogiri 库正确提取 HTML 文本节点内容并转为 Go 字符串，重点解决 []xml.Node 切片中单个节点的 Content() 调用方法、边界处理及常见陷阱。

本文详解如何通过 gokogiri 库正确提取 html 文本节点内容并转为 go 字符串，重点解决 `[]xml.node` 切片中单个节点的 `content()` 调用方法、边界处理及常见陷阱。

在使用 Gokogiri 解析 HTML 并提取文本内容时，一个常见误区是误将 Search() 返回的 []xml.Node 切片当作单个节点直接调用字符串方法。如问题所示，res[i].Search(“…//text()”) 返回的是 文本节点切片（即使 HTML 中只有一个 <h4> 标签），而 xml.Node 类型本身不提供 String() 方法——其标准内容获取接口是 Content()。

postTitleRes, _ := res[i].Search("a[contains(@class,'post-name-link')]//text()") if len(postTitleRes) > 0 {title := postTitleRes[0].Content()     fmt.Println("Extracted title:", title) // e.g. "#80 Martian Landscape" }

postTitleRes, _ := res[i].Search("a[contains(@class,'post-name-link')]//text()") var titleParts []string for _, node := range postTitleRes {     if content := node.Content(); content != "" {titleParts = append(titleParts, content)     } } fullTitle := strings.TrimSpace(strings.Join(titleParts, "")) fmt.Println("Full title:", fullTitle) // e.g. "#79 MARTIAN terrain"

? 注意：//text() 会分别匹配 <strong> 内外的文本节点（如 #79 MARTIAN terrain 被拆为 #79 和 MARTIAN terrain），因此拼接后需 strings.TrimSpace 清理首尾空格。

永远检查切片长度：postTitleRes[0] 在空结果时 panic，务必 if len(postTitleRes) > 0。
Content() 返回 string，非 []byte：无需额外 string(…) 转换。
避免 Text() 方法混淆 ：Gokogiri 的 xml.Node.Text() 返回的是 节点自身及其所有子节点的合并文本（类似 DOM textContent），但对纯文本节点效果与 Content() 一致；而 Content() 更精准对应当前节点原始值。
编码一致性：确保 HTTP 响应 Body 已按网页 <meta charset> 正确解码（Gokogiri 默认尝试 UTF-8，若页面为 ISO-8859-1 需先用 golang.org/x/net/html/charset 转换）。

package main  import ("fmt"     "io"     "net/http"     "strings"     "github.com/moovweb/gokogiri")  func main() {     resp, err := http.Get("http://psiupuxa3.webflow.io/")     if err != nil {panic(err)     }     defer resp.Body.Close()      page, err := io.ReadAll(resp.Body)     if err != nil {panic(err)     }      doc, err := gokogiri.ParseHtml(page)     if err != nil {panic(err)     }     defer doc.Free()      posts, err := doc.Search("//div[@class='post']")     if err != nil {panic(err)     }      for i := range posts {titleNodes, err := posts[i].Search("a[contains(@class,'post-name-link')]//text()")         if err != nil || len(titleNodes) == 0 {continue // 跳过无标题的 post}          var parts []string         for _, node := range titleNodes {             if s := node.Content(); s != "" {parts = append(parts, s)             }         }         filename := strings.TrimSpace(strings.Join(parts, ""))         if filename != "" {fmt.Printf("✓ Filename-ready: %qn", filename)             // 后续可：downloadImageAndSave(filename + ".jpg", ……)         }     } }

掌握 Content() 在 xml.Node 上的正确使用，配合切片边界检查与文本清洗，即可稳健地将 HTML 文本节点转化为可用于文件命名、数据存储或进一步处理的 Go 字符串。

发表于：后端

近一天内