Linux连接数过高处理_系统参数优化说明【技巧】

TIME_WAIT堆积等问题是内核参数未适配业务的信号，需用ss、netstat、cat命令定位瓶颈，再针对性调优文件描述符、TCP队列、TIME_WAIT和缓冲区参数，避免盲目扩容或误用废弃参数。

TIME_WAIT 堆积、新连接超时、accept() 队列溢出、Too many open files 错误——这些不是“流量大了就该扩容”的借口，而是内核参数没对齐业务场景的明确信号。Linux 默认配置面向通用桌面/轻量服务，不调参直接跑百万连接，等于让 8 核 CPU 背着 32GB 内存跑马拉松还穿拖鞋。

查清瓶颈在哪，别一上来就改 `/etc/sysctl.conf`

盲目调大所有参数反而可能引发内存耗尽或连接紊乱。先用三行命令定位真实瓶颈：

ss -s：看全局 socket 统计，重点关注 tcp 行的 inuse、orphan、tw（TIME_WAIT 数）
netstat -s | grep -i "listen.*drops|embryonic"：若输出非空，说明 SYN 队列已满，tcp_max_syn_backlog 或 somaxconn 不足
cat /proc/sys/net/ipv4/ip_local_port_range：若范围窄（如 32768 60999），短连接密集时端口几秒就耗尽

特别注意：ss -ntp state syn-recv 能实时抓到卡在 SYN_RECV 的半连接——这是 SYN Flood 或队列过小的铁证，不是应用层问题。

文件描述符：进程级和系统级必须双开

每个 TCP 连接占用 1 个文件描述符（fd），ulimit -n 限制单进程上限，fs.file-max 限制全系统上限。二者缺一不可，且 systemd 服务还额外受 DefaultLimitNOFILE 约束。

临时生效（仅当前 shell 及子进程）：
```
ulimit -n 1048576
```

永久生效（所有用户）：

echo "* soft nofile 1048576" >> /etc/security/limits.conf
echo "* hard nofile 1048576" >> /etc/security/limits.conf

（注意：需重启用户 session 或重连 SSH）

修复 systemd 服务被截断的问题：
```
echo "DefaultLimitNOFILE=1048576" >> /etc/systemd/system.conf
systemctl daemon-reload
```
（否则即使 limits.conf 设了，systemctl start nginx 启的服务仍卡在 65536）

⚠️ 坑点：改完 limits.conf 不重连终端，ulimit -n 仍显示旧值；fs.file-max 过大会挤占内核内存，建议设为 内存(GB) × 100000（16GB 内存 → 1600000）。

TCP 连接队列与 TIME_WAIT 控制：别碰 `tcp_tw_recycle`

tcp_tw_recycle 在 4.12+ 内核已被彻底移除，且 NAT 环境下必然丢包——它不是优化项，是历史包袱。真正可用的是：

net.ipv4.tcp_tw_reuse = 1：允许复用 TIME_WAIT socket 发起新连接（仅客户端有效，如代理、HTTP 调用方）
net.ipv4.tcp_fin_timeout = 30：把默认 60s 缩短，加速 FIN_WAIT_2 状态释放（服务端适用）
net.core.somaxconn = 65535 和 net.ipv4.tcp_max_syn_backlog = 65535：防止 accept() 队列和 SYN 队列溢出（必须与应用层 listen(fd, backlog) 参数匹配）
net.ipv4.ip_local_port_range = 1024 65535：扩大客户端端口池，避免短连接端口枯竭

⚠️ 坑点：tcp_tw_reuse 依赖 tcp_timestamps = 1（默认开启），但若你关了时间戳（tcp_timestamps = 0），它就完全失效；somaxconn 修改后，某些老服务（如早期 Nginx）需 reload 才读取新值。

缓冲区与内存：别只盯着数字，要看带宽 × 延迟

盲目设 net.core.rmem_max = 16777216（16MB）可能浪费内存，也可能不够。关键公式：理想接收缓冲区 ≈ 带宽(bps) × RTT(s) ÷ 8。例如 1Gbps 带宽 + 10ms RTT → 理想缓冲区 ≈ 1.25MB。

推荐配置（IDC 内网高带宽低延迟场景）：

net.core.rmem_default = 262144
net.core.wmem_default = 262144
net.core.rmem_max = 4194304
net.core.wmem_max = 4194304
net.ipv4.tcp_rmem = 4096 262144 4194304
net.ipv4.tcp_wmem = 4096 262144 4194304

必须开启：net.ipv4.tcp_window_scaling = 1（支持 >64KB 窗口）、net.ipv4.tcp_sack = 1（快速重传）

最后提醒一句：所有 sysctl 参数修改后，务必执行 sysctl -p 生效；但若涉及 net.ipv4.tcp_tw_* 类参数，已有连接不受影响，只作用于新建连接——所以压测前一定要清空旧连接，否则你以为调优成功了，其实只是缓存还在撑着。

查清瓶颈在哪，别一上来就改 /etc/sysctl.conf

文件描述符：进程级和系统级必须双开

TCP 连接队列与 TIME_WAIT 控制：别碰 tcp_tw_recycle

缓冲区与内存：别只盯着数字，要看带宽 × 延迟

查清瓶颈在哪，别一上来就改 `/etc/sysctl.conf`

TCP 连接队列与 TIME_WAIT 控制：别碰 `tcp_tw_recycle`