Linux磁盘调度算法_性能影响因素说明【技巧】

最直接查当前调度算法的方式是读取/sys/block/设备名/queue/scheduler，如cat /sys/block/sda/queue/scheduler显示[noop] deadline cfq；NVMe设备返回none属正常，因其由硬件自行调度。

最直接的方式是读取 /sys/block/设备名/queue/scheduler，它会显示当前激活的调度器，以及所有可用选项（括号里标出的是当前选中项）：

cat /sys/block/sda/queue/scheduler [noop] deadline cfq

注意：sda 要替换成你实际的磁盘设备名（可用 lsblk 查看）。如果看到多个设备，比如 sda 是 SSD、sdb 是 HDD，它们可以且应该配置不同调度器。

常见错误现象：执行 cat /sys/block/nvme0n1/queue/scheduler 却返回 none 或空——这是正常的，NVMe 设备默认不启用内核 I/O 调度器（由硬件控制器自行调度），强行写入会报错 Invalid argument。

Deadline 的核心不是“快”，而是“不饿死”：它为每个读请求设 500ms 截止时间、写请求设 5s 截止时间，确保事务不会卡在队列尾部无限等待。这对 MySQL 的 innodb_flush_log_at_trx_commit=1 场景尤其关键。

读超时太短（如设成 100ms）：频繁触发截止时间强制调度，反而打乱顺序合并，吞吐量下降
写超时太长（如设成 30s）：可能掩盖底层磁盘响应异常，让监控误判为“正常排队”
机械盘上启用 Deadline 后 iostat -x 显示 await 波动变大？这是正常行为——Deadline 主动放弃长等待请求去服务新请求，await 均值失真，应重点关注 %util 和 r/s/w/s

Noop 就是纯 FIFO 队列，不做排序、不计算截止时间，CPU 占用几乎为零。对 NVMe 或 SATA SSD 效果明确，但遇到某些老款 RAID 卡（如 LSI MegaRAID 9260）时可能适得其反：

RAID 卡固件本身有调度逻辑，若内核再用 Noop，等于放弃请求合并机会，小 IO 碎片加剧
实测发现：某 Dell R720 搭载 PERC H710P + 4×SSD RAID10，用 Noop 后随机写 IOPS 下降 18%，改用 deadline 反而更稳
判断依据：运行 iostat -x 1，若 avgrq-sz 长期低于 8（即平均请求小于 4KB），说明上层没做有效合并，此时 Noop 不一定是最佳选择

CFQ 按进程分队列、按时间片轮转，听起来很理想。但在 Docker/Kubernetes 场景下，问题来了：

同一个宿主机上跑 20 个 nginx 容器，它们的进程 UID 相同（默认都用 root 或 101），CFQ 会把它们视作“一个进程”，结果一个容器突发流量就能吃掉全部 I/O 带宽
使用 cgroups v1 时，可通过 blkio.weight 限制，但 v2 默认关闭 blkio controller，需手动启用：systemctl set-property --runtime -- system.slice "IOWeight=100"
更现实的做法：在容器密集型服务器上，直接切到 deadline，用应用层限流（如 Nginx 的 limit_req）替代内核级公平性

真正影响调度效果的，从来不是算法名字，而是你的硬件拓扑、I/O 模式、以及是否混淆了“调度器该管什么”和“该由谁来管”。比如日志刷盘慢，先看 vm.dirty_ratio 是否堵住 writeback，而不是急着换调度器。