如何在 Go 中检测 JSON 输入中的重复键

3次阅读

如何在 Go 中检测 JSON 输入中的重复键

go 标准库 的 `encoding/json` 不支持重复键检测,但可通过基于事件的流式解析器(如 `garyburd/json`)实现:遍历 json 令牌时维护对象键哈希表 ,遇重复键立即返回错误。

在 Go 中,标准 encoding/json 包默认采用“后写覆盖”策略处理重复键——即同一对象中多次出现的相同键,仅保留最后一个值,且不报错、不告警。这与 Python 的 json.loads(object_hook=…) 可定制化行为不同,也不同于 Python 中通过 object_pairs_hook 实现有序字典或重复键拦截的能力。

要实现 重复键检测并主动报错 ,核心思路是绕过完整结构反序列化,改用 事件驱动(SAX-style)的流式解析器,逐个读取 JSON 令牌(token),并在解析过程中动态跟踪嵌套层级与当前对象的已见键集合。

推荐使用 github.com/garyburd/json(注意:该项目已归档,但代码稳定、轻量、无外部依赖,仍广泛用于需精细控制的场景)。它提供类似 bufio.Scanner 的接口,按需生成 json.Object、json.String、json.Number、json.Name 等事件,非常适合构建自定义验证逻辑。

以下是一个生产就绪的重复键检测函数示例:

package main  import ("fmt"     "github.com/garyburd/json"     "io"     "strings")  type context struct {kind json.Kind     keys map[string]struct{} // 使用空结构体节省内存}  func ValidateDuplicateKeys(r io.Reader) error {scanner := json.NewScanner(r)     var stack []context      for scanner.Scan() {kind := scanner.Kind()          switch kind {case json.Object, json.Array:             // 进入新对象或数组,压入上下文             stack = append(stack, context{                 kind: kind,                 keys: make(map[string]struct{}),             })         case json.End:             // 遇到结束标记(} 或 ]),弹出栈顶             if len(stack) == 0 {return fmt.Errorf("mismatched closing token: no matching start")             }             stack = stack[:len(stack)-1]         case json.Name:             // 仅当栈非空且顶层为对象时,才检查键名             if len(stack) > 0 && stack[len(stack)-1].kind == json.Object {key := string(scanner.Name())                 if _, exists := stack[len(stack)-1].keys[key]; exists {// 构造可读路径(可选增强)path := buildJSONPath(stack)                     return fmt.Errorf("duplicate key %q at path %s", key, path)                 }                 stack[len(stack)-1].keys[key] = struct{}{}             }         // 其他类型(string/number/bool/null)无需特殊处理         }     }      if err := scanner.Err(); err != nil {         return fmt.Errorf("parse error: %w", err)     }      if len(stack) != 0 {return fmt.Errorf("unclosed JSON structure: %d unclosed levels", len(stack))     }      return nil }  // buildJSONPath 是一个辅助函数,用于生成类似 "root.y.z" 的路径提示(可选)func buildJSONPath(stack []context) string {if len(stack) == 0 {return "root"}     // 简化版:实际中可结合 Name() 和索引信息构建精确路径     return "root" // 生产环境建议扩展为支持路径追踪}  func main() {     // 示例:含嵌套重复键的非法 JSON     input := strings.NewReader(`     {         "x": 10,         "y": {             "z": 1,             "z": 2   // ← 重复键},         "z": [1,2,3]     }`)      if err := ValidateDuplicateKeys(input); err != nil {fmt.Printf("❌ Validation failed: %vn", err) // 输出:duplicate key "z" at path root.y     } else {fmt.Println("✅ Valid JSON: no duplicate keys found")     } }

关键设计说明

  • 栈式上下文管理:每个 {对应一个 context 入栈,记录该对象内已见键;} 出栈,确保嵌套对象独立校验;
  • 零分配键集:使用 map[string]struct{} 而非 map[string]bool,更省内存;
  • 错误定位友好:可轻松扩展 buildJSONPath 函数,结合 scanner.Name() 和栈深度生成结构化路径(如 “data.items.0.id”);
  • 健壮性保障:显式检查 scanner.Err() 和未闭合结构,避免静默失败。

⚠️ 注意事项

  • garyburd/json 已归档,不接受新特性,但其 API 稳定、无依赖、性能优异,适合嵌入式或高可靠性场景;
  • 若需长期维护或社区支持,可评估替代方案如 github.com/tidwall/gjson(只读)或 github.com/mitchellh/mapstructure(配合自定义解码器),但需自行实现事件循环;
  • 对于“保持原始顺序”的需求(即 Go 中的有序 map),标准 map 无序,可改用 []struct{Key, Value interface{}} 切片 + 自定义 UnmarshalJSON 方法,或直接使用 garyburd/json 扫描时按序收集 键值对

综上,Go 虽无内置 object_hook,但通过流式解析器 + 栈式状态机,不仅能精准捕获重复键,还可灵活支撑有序解析、路径追踪、部分解码等高级 JSON 处理场景。

星耀云
版权声明:本站原创文章,由 星耀云 2026-01-07发表,共计2577字。
转载说明:转载本网站任何内容,请按照转载方式正确书写本站原文地址。本站提供的一切软件、教程和内容信息仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。