Linux 服务器公网访问间歇性失败主因是 conntrack 表溢出、NAT 规则错配及云安全组与本地防火墙策略冲突;需检查 conntrack 状态、调整 nf_conntrack_max 和超时参数,校验 DNAT/SNAT 链顺序与条件,并比对云安全组与 iptables 规则一致性。

Linux 服务器公网访问间歇性失败,通常不是单一原因导致,而是 防火墙 策略、NAT 配置、连接跟踪状态或网络设备协同问题共同作用的结果。重点排查方向应聚焦在 iptables/nftables 连接跟踪超时 、SNAT/DNAT 规则匹配不一致、以及 云平台安全组与本地防火墙叠加限制 三方面。
检查 conntrack 连接跟踪表溢出或老化时间过短
Linux 内核通过 conntrack 维护连接状态,若并发连接数高或超时设置不合理,会导致新连接被丢弃,表现为“有时通、有时不通”。常见于长连接空闲后重连失败、HTTP 短连接突发高峰等场景。
- 运行 conntrack -S 查看当前连接数、哈希桶使用率及丢失(insert_failed)计数;若 insert_failed 持续增长,说明连接跟踪表已满或分配失败
- 检查当前设置:sysctl.net.netfilter.nf_conntrack_max(默认常为 65536),结合业务并发量评估是否需调大
- 调整老化时间可缓解:例如缩短 TCP ESTABLISHED 超时(避免大量半死连接占位),执行
echo ‘net.netfilter.nf_conntrack_tcp_timeout_established = 432000’ >> /etc/sysctl.conf && sysctl -p
验证 iptables/nftables 的 NAT 规则链顺序与匹配逻辑
DNAT(端口 映射)和 SNAT(源地址转换)若规则位置错误、条件过于宽泛或未加 state 模块限制,容易造成回包路径异常或连接被误 DROP,引发间歇性中断。
- 确认 DNAT 是否仅作用于 PREROUTING 链,且目标端口、协议、入接口(如 eth0)明确;避免用 -s 0.0.0.0/0 匹配所有源,导致内部流量也被重定向
- 检查 POSTROUTING 中的 SNAT/MASQUERADE 是否遗漏或重复;云环境通常无需手动 SNAT,但若启用了自定义网关或多网卡 路由,必须确保回程路径对称
- 临时清空 NAT 表测试:iptables -t nat -F(注意备份规则),再逐条添加并观察访问稳定性
比对云平台安全组、主机防火墙与路由策略一致性
公有云(如 阿里云 、 腾讯 云、AWS)中,安全组是第一道过滤层,其规则优先级高于实例内 iptables。若两者策略冲突(如安全组放行 80 端口但 iptables DROP),或路由表存在非对称路径,就会出现概率性丢包。
- 登录云控制台,确认安全组入方向规则明确允许目标端口 + 源 IP 段,并检查“应用到哪些实例”是否覆盖当前 ECS
- 在服务器上运行 iptables -L -n -v 和 iptables -t nat -L -n -v,比对实际生效规则与预期是否一致;注意 systemd 服务(如 firewalld)可能动态刷新规则
- 使用 tcpdump -i any port 80 抓包,分别在 eth0 和 lo 接口查看请求是否到达、响应是否发出,定位丢包发生在哪一环节
排除中间网络设备的会话老化与限速行为
企业出口网关、运营商 NAT 设备或负载均衡器常设较短的 TCP 空闲超时(如 300 秒)或连接数限制。当客户端长时间无数据交互,设备主动清除会话,后续数据包因无对应映射而被丢弃。
- 在客户端和服务端同时抓包,对比 SYN/SYN-ACK 是否成对出现;若服务端收到 SYN 却未回复 SYN-ACK,大概率是中间设备拦截或连接跟踪失效
- 启用 TCP keepalive:在服务端程序或系统级配置中开启(如 sysctl net.ipv4.tcp_keepalive_time=600),维持长连接活性
- 若使用 ELB/NLB/ALB 等云负载均衡,检查其空闲超时设置(通常默认 60~4000 秒),确保大于 后端 服务的 keepalive 时间