Linux高负载如何排查_深度讲解提升系统稳定性【教学】

Linux系统负载高≠CPU满载，它表示“运行+等待运行”进程的平均数；需结合CPU核心数（如8核）判断：负载超8需关注，超16须紧急排查，若负载5但CPU使用率仅30%则多为I/O瓶颈。

Linux系统负载高，不等于CPU跑满了——它反映的是“正在运行 + 等待运行”的进程总数平均值。真正要稳住系统，得先分清是CPU真忙、磁盘在拖后腿、内存快见底，还是网络或内核调度出了问题。

看懂负载数字和CPU核心数的关系

用 uptime 或 cat /proc/loadavg 查三个负载值（1/5/15分钟），再用 nproc 或 grep -c processor /proc/cpuinfo 知道逻辑CPU个数。比如8核机器，负载长期超过8就说明排队进程变多；超过16就得马上查；但若负载5而CPU使用率才30%，大概率是I/O卡住了，不是CPU不够用。

快速定位瓶颈在哪一类资源

按顺序执行这几个命令，别跳步：

top —— 按 1 看各CPU核负载，按 P 排序看CPU占用最高的进程
iostat -x 1 —— 关注 %util（接近100%表示磁盘饱和）、await（单次IO等待毫秒数，超10ms需警惕）、r/s w/s（读写IOPS是否突增）
free -h —— 看 available 是否持续偏低；再配合 ps -eo pid,ppid,cmd,%mem –sort=-%mem | head 找吃内存大户
df -h && df -i —— 磁盘空间满或inode耗尽，都会导致大量进程卡在不可中断状态（D状态），直接推高负载
ss -s —— 看 total established 和 timewait 数量，连接数爆炸或TIME_WAIT堆积过多也会抬升负载

深入一层：揪出具体线程或Java应用热点

如果是Java服务负载高，别只盯着进程级CPU：

用 top -Hp [PID] 找到最耗CPU的线程ID（LWP）
转成十六进制：printf “%xn” [LWP]
导出堆栈：jstack [PID] | grep -A 20 “0x[hex]”，直接定位到锁竞争、死循环或低效时间格式化等典型问题
更省事可用 show-busy-java-threads.sh（开源脚本），一键输出TOP 10繁忙线程及对应代码行

别漏掉内核和日志里的关键线索

很多高负载不是业务代码导致的，而是系统层异常：

dmesg -T | tail -30 —— 查OOM killer是否杀过进程、是否有硬件报错或驱动异常
journalctl -S “2 hours ago” | grep -i “error|warn|throttle” —— 看最近两小时有无内核警告、存储链路重试、NFS挂起等
vmstat 1 5 —— 关注 cs（上下文切换次数）是否异常高，过高说明进程/线程频繁抢CPU，可能由锁争用或轮询引起
slabtop —— 内核内存泄漏时，某些slab缓存会持续增长，拖慢整个系统响应

基本上就这些。排查不是靠猜，而是按“负载现象 → 资源维度 → 进程粒度 → 线程/代码”逐层收窄。工具只是眼睛，关键在理解每个指标背后的真实含义。