Linux高负载如何排查_从基础到进阶全流程讲透【教程】

Linux高负载需结合load average与CPU核心数判断，load持续高于核心数表明过载，wa高或id低指向IO瓶颈，再分CPU、IO、内存三路排查并定位具体进程。

Linux高负载不是单看CPU使用率高就下结论，关键得看load average和CPU核心数的关系。比如8核机器，load长期高于8，才说明任务排队严重；若load是12但CPU idle还剩40%，大概率是IO卡住了，而不是算力不够。

执行uptime或top，重点读这行：

load average: 9.59, 4.75, 1.92

三个值分别代表1/5/15分钟平均负载。对照CPU核心数判断：

同时观察%Cpu(s)里的wa（IO等待）和id（空闲）。wa持续>20%或id接近0，基本可锁定IO瓶颈。

根据top中wa、us、sy占比，走不同路径：

CPU高 + load高：用top -Hp [PID]找高耗线程，再printf "%x" [TID]转十六进制，最后jstack [PID] | grep -A 20 "0x..."定位Java热点代码；非Java进程可用perf top -p [PID]
CPU低 + load高：重点查IO。运行iostat -xz 1看%util是否持续100%、await是否飙升；再用iotop直接看到底哪个进程在狂刷磁盘
内存吃紧连带load高：跑free -h看available是否告急；vmstat 1里若si/so不为0，说明在疯狂swap；dmesg | grep oom查有没有被OOM killer干掉的进程

除了top默认按CPU排序，还有更准的招：

查IO大户：pidstat -d 1（每秒输出各进程读写KB）
查网络连接数暴增：ss -s看total established是否异常高，再ss -tulnp | awk '{print $7}' | sort | uniq -c | sort -nr揪出监听端口最多的进程
查打开文件过多：lsof -nPl | awk '{print $2}' | sort | uniq -c | sort -nr | head -10
查内核级资源争用：slabtop看dentry/inode缓存是否暴涨，常因大量小文件操作引起

找到根因后，别只重启了事：

如果是Java应用CPU高，用jstat -gcutil [PID] 1000看GC是否频繁；结合jmap -histo [PID]查对象堆积
如果是磁盘IO高，检查调度器：cat /sys/block/sda/queue/scheduler，SSD建议用none或kyber，HDD可用deadline
系统级调优可临时生效：echo 10 > /proc/sys/vm/swappiness降低swap倾向；ulimit -n 65535防文件句柄耗尽
长期方案要考虑业务逻辑优化，比如把高频时间戳转字符串改成预计算缓存，避免单次请求做上万次重复转换

基本上就这些。排查讲究顺序：先看load和CPU关系，再分IO/CPU/内存三路并进，最后落到具体进程和代码。不复杂但容易忽略wa和r队列长度这两个关键信号。