SQL 表分片路由的核心是精准定位数据分片,关键在于基于确定性、可逆的分片键(如 user_id)设计路由规则,常用哈希取模、范围分片和复合路由三种方式,需兼顾均匀性、扩容平滑性与查询效率。

SQL 表分片 路由 的核心,是让查询或写入请求能准确落到对应的数据分片(Shard)上,避免全分片扫描。关键不在于“分多少片”,而在于“怎么知道某条数据该去哪片”。路由规则必须与分片键(Sharding Key)强绑定,且具备确定性、可逆性、低冲突和易维护性。
明确分片键,拒绝多键模糊路由
分片键是路由的唯一依据,通常是业务中高频查询、高基数、稳定不变的字段,如 user_id、order_no 或 tenant_id。一旦选定,所有 DML 操作(INSERT/UPDATE/DELETE/SELECT WHERE)都必须携带该键,否则无法精准定位分片。
- 避免用时间字段(如 create_time)做分片键——范围查询易跨片,且冷热不均
- 禁止在同一条 SQL 中混用多个潜在分片键(比如同时带 user_id 和 shop_id),系统无法自动判断主从关系
- 若业务确需多维度查询,优先通过冗余字段(如在订单表里冗余 user_id)或全局索引补足,而非动摇路由根基
哈希取模:简单可靠,但注意扩容平滑性
对分片键做一致性哈希或普通哈希后取模,是最常用路由方式。例如:shard_id = hash(user_id) % 8,将数据均匀打散到 8 个库 / 表。
- 普通取模适合分片数长期固定场景;扩容需双写 + 迁移,停机或灰度成本高
- 一致性哈希(如 Ketama)更适合动态扩缩容,新增节点只影响邻近虚拟节点数据,迁移量可控
- 哈希函数必须是确定性的(如 MD5 转整型、FNV-1a),严禁使用带随机因子或时钟依赖的算法
范围分片:适配时间 / 地理等天然有序场景
当分片键本身具有明显顺序特征(如日期、区域 编码),可用范围映射直接路由。例如:2024-01 → shard_01,2024-02 → shard_02。
- 需预定义好范围边界(如按月 / 按省 / 按 ID 段),并维护一张轻量路由元数据表或配置中心规则
- 范围查询(如“查 2024 年全部订单”)天然命中连续分片,但跨范围 JOIN 或非范围条件(如 WHERE status=1)可能需广播查询
- 务必预留“溢出分片”或自动分裂机制,防止某段数据暴增导致单片过载
复合路由:多级拆分下的嵌套定位
超大规模系统常采用“库级分片 + 表级分片”两级结构,路由规则需分步计算。例如:先按 tenant_id % 4 确定 DB,再按 order_id % 16 确定 TABLE。
- 两级键可不同(如租户 ID 分库,订单 ID 分表),但必须保证组合后全局唯一且无歧义
- SQL 解析层需支持嵌套表达式提取,如解析 WHERE tenant_id = 1001 AND order_id = 987654321 并分别代入两级公式
- 避免三级及以上深度嵌套,会显著增加解析开销和运维复杂度
基本上就这些。路由规则不是越复杂越高级,而是越清晰、越少例外、越容易被 SQL 解析器读懂,就越稳定可靠。