SQL 窗口函数 ROW_NUMBER 与 RANK 的去重与排名场景选择

row_number严格顺序编号无重复,rank相同值并列且跳号;需唯一序号用row_number,需并列名次用rank,order by为强制项,where不能直接过滤窗口函数结果。

SQL 窗口函数 ROW_NUMBER 与 RANK 的去重与排名场景选择

ROW_NUMBER 和 RANK 在相同值时行为完全不同

核心区别就一条:ROW_NUMBER 严格按顺序编号,相同值也绝不重复;RANK 遇到相同值会并列,然后跳过后续序号。比如三行值都是 100,ROW_NUMBER 给 1/2/3,RANK 给 1/1/1,下一行直接是 4。

常见错误现象:RANK 返回的“4”让你误以为前面只有 3 条数据,其实可能是 3 条并列第 1 名,中间没第 2、3 名——这在分页或取 Top N 时容易漏掉真实排名靠前的记录。

使用场景判断依据:

  • 要唯一编号(比如分页时每条记录必须有不同序号),用 ROW_NUMBER
  • 要体现“并列名次”(比如成绩榜、销售排行榜),用 RANK
  • 如果并列后不想跳号(即 1/1/3/4),得换 DENSE_RANK,不是本文重点但常被混淆

ORDER BY 是窗口函数的强制依赖项

不写 ORDER BYROW_NUMBER()RANK() 都会报错(主流数据库如 PostgreSQL、SQL Server、MySQL 8.0+ 均如此)。这不是可选项,是语义必需:没有排序依据,根本无法定义“第几”。

容易踩的坑:

  • 只写 ORDER BY 但没加 PARTITION BY,结果是全表统一排名,不是按组排名
  • ORDER BY 中混用 NULLS FIRSTNULLS LAST(PostgreSQL/Oracle 支持,MySQL 不支持),导致跨库迁移时出错
  • 对字符串字段用 ORDER BY name 排名,但没考虑大小写或空格影响,导致 ‘Apple’ 和 ‘apple’ 被分到不同名次

示例(安全写法):

SELECT name, score, ROW_NUMBER() OVER (ORDER BY score DESC, name ASC) AS rn FROM students;

WHERE 不能直接过滤窗口函数结果

你不能写 WHERE rn (假设 <code>rnROW_NUMBER 别名),因为窗口函数在 SQL 执行顺序中晚于 WHERE。直接这么写会报错:column "rn" does not exist

正确做法只有两个:

  • 用子查询或 CTE 包一层,再在外部加 WHERE
  • FILTER(仅 PostgreSQL)或 CASE WHEN 做条件聚合,但不适用于排名过滤

性能提示:CTE 不一定优化执行计划,尤其大表时,ROW_NUMBER 仍需全量排序再截断。如果只要 Top 10,LIMIT 10 配合索引往往更快——但注意:LIMIT 不保证稳定性(无 ORDER BY 时结果随机),而 ROW_NUMBER + 子查询能确保逻辑一致。

MySQL 8.0+ 和旧版兼容性断层明显

MySQL 5.7 及更早版本根本不支持窗口函数,强行写 ROW_NUMBER() 会报错:FUNCTION your_db.ROW_NUMBER does not exist。这不是语法错,是版本硬限制。

升级到 MySQL 8.0 后还要注意:

  • ROW_NUMBER 等函数必须带括号,哪怕没参数:ROW_NUMBER(),写成 ROW_NUMBER 会解析失败
  • MySQL 对 ORDER BY 中表达式支持较弱,比如 ORDER BY UPPER(name) 可能触发临时表或文件排序,影响排名性能
  • 分区键(PARTITION BY)字段若无索引,大表上 RANK() OVER (PARTITION BY category ORDER BY sales) 可能极慢

真实迁移案例中,最常被忽略的是:开发用 MySQL 8.0 测试通过,上线后因生产库仍是 5.7,整个报表查询直接崩掉。