SQL报表数据倾斜问题_分桶均衡策略

sql报表数据倾斜本质是某些键值数据量远超其他，导致计算任务集中；分桶是从存储层预防倾斜最直接有效的手段，需选高基数键、合理设桶数并配合命中分桶键的查询写法。

SQL报表数据倾斜问题_分桶均衡策略

SQL报表出现数据倾斜，本质是某些键值的数据量远超其他，导致计算任务集中在少数节点，拖慢整体响应。分桶（Bucketing）不是万能解药，但它是从存储层就控制分布、预防倾斜最直接有效的手段之一。

分桶键若基数太低，比如只有几个固定状态码或枚举值，再设128个桶也只用上3–5个，数据必然扎堆。真实案例中，用 status（仅0/1/2）做分桶键，32个桶实际只写入3个Tablet，查询并行度形同虚设。

单靠 user_id 仍可能倾斜——头部用户行为记录占总量70%，哈希后还是打到同一桶。这时可叠加扰动因子，让同一用户的数据分散到多个桶。

桶太少，并行度上不去；桶太多，小查询要扫一堆空桶，元数据开销反而上升。没有固定公式，但有实用参考线：

单表日增1亿行以上 → 建议64–256桶
集群计算节点数在10–30台 → 桶数尽量接近节点数的整数倍（如16、32、64）
StarRocks中，每个Tablet默认副本数为3，桶数 × 副本数 ≈ 总Tablet数，需确保不超过集群元数据承载能力（一般单BE建议≤1000 Tablet）

建好分桶表，不代表查询自动受益。必须让WHERE或JOIN条件命中分桶键，引擎才能跳过无关桶。