Linux系统负载异常排查教程_load过高问题分析

Linux负载高不等于CPU高，需结合运行队列、I/O等待和D状态进程综合判断；load值反映单位时间运行或不可中断睡眠态进程均值，>逻辑核数即存在争用，长期>2倍需立即排查；D状态进程是常见主因，可用ps、/proc/PID/stack定位；I/O瓶颈看iostat -x的await、%util与avgqu-sz；还需排查内存不足、内核bug及cgroup限制。

Linux系统负载过高，不等于CPU使用率高，需从运行队列、I/O等待、不可中断状态进程三方面综合判断。直接看top或htop里的%CPU容易误判，关键要看uptime或cat /proc/loadavg输出的三个数字（1/5/15分钟平均负载），再结合vmstat、iostat、ps等工具定位根因。

看懂load值到底代表什么

Load值反映的是单位时间内处于运行态或不可中断睡眠态（D状态）的平均进程数。比如单核CPU上load=3，意味着平均有3个进程在争抢CPU或等待磁盘I/O，其中2个大概率在排队。注意：load高 ≠ CPU满，可能是大量进程卡在磁盘读写、NFS挂载、锁竞争或内核态等待中。

load值 > CPU逻辑核数，说明系统存在资源争用
load长期高于CPU核心数×2，需立即排查
对比uptime和mpstat -P ALL 1，若CPU空闲率高但load飙升，基本可排除纯CPU瓶颈

快速定位D状态进程（最常见诱因）

D状态进程无法被信号中断，通常卡在内核I/O路径（如坏盘、NFS超时、RAID重建、cgroup限制、ext4 journal阻塞）。它们不消耗CPU，却持续计入load，是load虚高主因。

执行ps aux | awk '$8 ~ /D/ { print $0 }'列出所有D状态进程
重点检查其WCHAN列（内核等待函数），常见如nfsservd、ext4_journal_start、call_rwsem_down_read_failed
用cat /proc//stack查看该进程内核调用栈，确认卡在哪个驱动或子系统

检查I/O延迟与存储瓶颈

即使没有D状态进程，高I/O等待（%iowait）也会推高load。但要注意：%iowait在现代内核中统计口径有变化，不能单独依赖它；更可靠的是看iostat -x 1中的await（平均I/O响应时间）、%util（设备忙时百分比）和avgqu-sz（平均队列长度）。

await > 10ms（SSD）或> 50ms（HDD）表明I/O响应变慢
%util接近100%且avgqu-sz持续>4，说明设备已饱和
用lsof +D /path或pidstat -d 1定位高I/O进程

排查其他隐蔽因素

部分场景下load升高与常规资源无关，需针对性验证：

内存严重不足：触发直接回收或OOM Killer前，进程频繁进入D状态等待内存页释放，查free -h、cat /proc/meminfo | grep -i "oom|commit"
内核bug或驱动异常：如某些网卡驱动在高包量下导致软中断堆积，用cat /proc/interrupts观察CPU间中断分布是否严重不均
cgroup资源限制：容器或systemd服务配置了CPUQuota或MemoryLimit，进程被节流后排队，查systemctl show | grep -i limit