Linux磁盘调度算法_性能影响因素说明【技巧】

8次阅读

最直接查当前调度算法的方式是读取 /sys/block/ 设备名 /queue/scheduler,如 cat /sys/block/sda/queue/scheduler 显示[noop] deadline cfq;NVMe 设备返回 none 属正常,因其由硬件自行调度。

Linux 磁盘调度算法_性能影响因素说明【技巧】

怎么查当前用的是哪个调度算法

最直接的方式是读取 /sys/block/ 设备名 /queue/scheduler,它会显示当前激活的调度器,以及所有可用选项(括号里标出的是当前选中项):

cat /sys/block/sda/queue/scheduler [noop] deadline cfq

注意:sda 要替换成你实际的磁盘设备名(可用 lsblk 查看)。如果看到多个设备,比如 sda 是 SSD、sdb 是 HDD,它们可以且应该配置不同调度器。

常见错误现象:执行 cat /sys/block/nvme0n1/queue/scheduler 却返回 none 或空——这是正常的,NVMe 设备默认不启用内核 I/O 调度器(由硬件控制器自行调度),强行写入会报错 Invalid argument

Deadline 为什么 适合数据库,但别乱设超时值

Deadline 的核心不是“快”,而是“不饿死”:它为每个读请求设 500ms 截止时间、写请求设 5s 截止时间,确保事务不会卡在队列尾部无限等待。这对 MySQL 的 innodb_flush_log_at_trx_commit=1 场景尤其关键。

  • 读超时太短(如设成 100ms):频繁触发截止时间强制调度,反而打乱顺序合并,吞吐量下降
  • 写超时太长(如设成 30s):可能掩盖底层磁盘响应异常,让监控误判为“正常排队”
  • 机械盘上启用 Deadline 后 iostat -x 显示 await 波动变大?这是正常行为——Deadline 主动放弃长等待请求去服务新请求,await 均值失真,应重点关注 %utilr/s/w/s

Noop 在 SSD 上真省 CPU,但 RAID 卡要小心

Noop 就是纯 FIFO 队列,不做排序、不计算截止时间,CPU 占用几乎为零。对 NVMe 或 SATA SSD 效果明确,但遇到某些老款 RAID 卡(如 LSI MegaRAID 9260)时可能适得其反:

  • RAID 卡固件本身有调度逻辑,若内核再用 Noop,等于放弃请求合并机会,小 IO 碎片加剧
  • 实测发现:某 Dell R720 搭载 PERC H710P + 4×SSD RAID10,用 Noop 后随机写 IOPS 下降 18%,改用 deadline 反而更稳
  • 判断依据:运行 iostat -x 1,若 avgrq-sz 长期低于 8(即平均请求小于 4KB),说明上层没做有效合并,此时 Noop 不一定是最佳选择

CFQ 的“公平”在容器环境里容易失效

CFQ 按进程分队列、按时间片轮转,听起来很理想。但在 Docker/Kubernetes 场景下,问题来了:

  • 同一个宿主机上跑 20 个 nginx 容器,它们的进程 UID 相同(默认都用 root 或 101),CFQ 会把它们视作“一个进程”,结果一个容器突发流量就能吃掉全部 I/O 带宽
  • 使用 cgroups v1 时,可通过 blkio.weight 限制,但 v2 默认关闭 blkio controller,需手动启用:systemctl set-property --runtime -- system.slice "IOWeight=100"
  • 更现实的做法:在容器密集型服务器上,直接切到 deadline,用应用层限流(如 Nginx 的 limit_req)替代内核级公平性

真正影响调度效果的,从来不是算法名字,而是你的硬件拓扑、I/O 模式、以及是否混淆了“调度器该管什么”和“该由谁来管”。比如日志刷盘慢,先看 vm.dirty_ratio 是否堵住 writeback,而不是急着换调度器。

星耀云
版权声明:本站原创文章,由 星耀云 2025-12-31发表,共计1516字。
转载说明:转载本网站任何内容,请按照转载方式正确书写本站原文地址。本站提供的一切软件、教程和内容信息仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。
text=ZqhQzanResources