[转帖]TIME_WAIT 过多导致的问题

time,wait,导致,问题 · 浏览次数 : 0

小编点评

## 优化系统网络参数的排版说明 **背景:** * 秒杀业务会有持续并发连接的情况问题。 * 业务项目会有交叉部署的情况,某个服务的TIME_WAIT 网络连接数过多,导致其他应用不可用。 **解决方案:** * 基于三个层面考虑优化系统网络参数: 1. **开启 SYN Cookies** 2. **开启 TCP 连接重用** 3. **调整 SYN队列长度** **具体参数调整:** 1. **net.ipv4.tcp_syncookies = 1**:开启 SYN Cookies,可以处理少量SYN攻击,但默认值为 0,关闭。 2. **net.ipv4.tcp_tw_reuse = 1**:开启重用,允许将TIME-WAIT sockets重新用于新的TCP连接。 3. **net.ipv4.tcp_tw_recycle = 1**:开启 TCP 连接中TIME-WAIT sockets的快速回收,可防止资源浪费。 4. **net.ipv4.tcp_fin_timeout = 1200**:设置 TCP 连接的 FIN 超时时间为 1200 秒,可以防止连接被中断。 5. **net.ipv4.ip_local_port_range = 1024 65000**:定义用于向外连接的端口范围,默认情况下很小,改为 1024 到 65000,可以减少 TIME_WAIT 套接字数量。 6. **net.ipv4.tcp_max_syn_backlog = 8192**:设置 SYN队列长度为 8192,可以容纳更多等待连接的网络连接数。 7. **net.ipv4.tcp_max_tw_buckets = 5000**:设置系统同时保持TIME_WAIT套接字的最大数量,默认值为 180000,改为 5000,可以减少 TIME_WAIT 套接字数量。 **权衡考虑:** * **业务可用性 vs 成本:** 需要根据实际需求进行权衡,例如,开启 SYN Cookies 的收益可能不如开启 TCP 连接重用,但能提升性能。 * **防患未然:** 建议预先监控系统网络状态,设置上限阈值,触发告警以及时发现并处理网络问题。 **其他建议:** * 对于Squid,可以考虑根据实际需求调整 TIME_WAIT 套接字的最大数量,避免其被大量的TIME_WAIT 套接字拖死。

正文

https://www.cnblogs.com/byfboke/p/14431176.html

 

背景:由于秒杀业务需求,会有持续并发连接的情况

问题:鉴于成本问题,业务项目会有交叉部署的情况,某个服务的TIME_WAIT 网络连接数过多,导致了其他应用不可用

解决:基于三个层面考虑

1>调优系统网络参数

/etc/sysctl.conf配置调优:

net.ipv4.tcp_syncookies = 1 表示开启SYN Cookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭;
net.ipv4.tcp_tw_reuse = 1 表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭;
net.ipv4.tcp_tw_recycle = 1 表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭。
net.ipv4.tcp_fin_timeout 修改系默认的 TIMEOUT 时间
vi /etc/sysctl.conf
net.ipv4.tcp_keepalive_time = 1200 
#表示当keepalive起用的时候,TCP发送keepalive消息的频度。缺省是2小时,改为20分钟。
net.ipv4.ip_local_port_range = 1024 65000 
#表示用于向外连接的端口范围。缺省情况下很小:32768到61000,改为1024到65000。
net.ipv4.tcp_max_syn_backlog = 8192 
#表示SYN队列的长度,默认为1024,加大队列长度为8192,可以容纳更多等待连接的网络连接数。
net.ipv4.tcp_max_tw_buckets = 5000 
#表示系统同时保持TIME_WAIT套接字的最大数量,如果超过这个数字,TIME_WAIT套接字将立刻被清除并打印警告信息。
默认为180000,改为5000。对于Apache、Nginx等服务器,上几行的参数可以很好地减少TIME_WAIT套接字数量,但是对于 Squid,效果却不大。此项参数可以控制TIME_WAIT套接字的最大数量,避免Squid服务器被大量的TIME_WAIT套接字拖死。

注意:HTTP 协议 1.1 版规定 default 行为是 Keep-Alive,也就是会重用 TCP 连接传输多个 request/response
可以通过web服务(nginx、tomcat等)去定义http协议的版本,逻辑:客户在页面点击后,请求传到web服务上,三次握手完成后建立socket连接,前端与后端互相传输数据,四次挥手。完成一次稳定可靠的数据传输
按照这个逻辑来讲,http协议的版本号是由web服务去定义的,所以在web服务配置指定http协议版本号就可以了。

2>权衡业务可用性跟成本的权重,考虑将应用分开部署,或者做一个高可用容灾方案

利用nginx第三方健康检查模块:upstream_check_module  做一个高可用反代故障冗余

(详细可参照:https://blog.csdn.net/pcn01/article/details/105182600/)

3>防患于未然,预先监控,设置上限阈值,触发告警

与[转帖]TIME_WAIT 过多导致的问题相似的内容:

[转帖]TIME_WAIT 过多导致的问题

https://www.cnblogs.com/byfboke/p/14431176.html 背景:由于秒杀业务需求,会有持续并发连接的情况 问题:鉴于成本问题,业务项目会有交叉部署的情况,某个服务的TIME_WAIT 网络连接数过多,导致了其他应用不可用 解决:基于三个层面考虑 1>调优系统网络

[转帖]TIME_WAIT 过多导致的问题

https://www.cnblogs.com/byfboke/p/14431176.html 背景:由于秒杀业务需求,会有持续并发连接的情况 问题:鉴于成本问题,业务项目会有交叉部署的情况,某个服务的TIME_WAIT 网络连接数过多,导致了其他应用不可用 解决:基于三个层面考虑 1>调优系统网络

[转帖]TIME_WAIT连接过多解决办法

问题起因: 自己开发了一个服务器和客户端,通过短连接的方式来进行通讯,由于过于频繁的创建连接,导致系统连接数量被占用,不能及时释放。看了一下18888,当时吓到了。 现象: 1、外部机器不能正常连接SSH 2、内向外不能够正常的ping通过,域名也不能正常解析。 问题排查: 通过 netstat -

[转帖]性能案例-Linux下解决time_wait连接过多(Linux内核优化)

一、性能测试的主要概念和计算公式 系统吞度量要素: 一个系统的吞度量(承压能力)与request对CPU的消耗、外部接口、IO等等紧密关联。 单个reqeust 对CPU消耗越高,外部系统接口、IO影响速度越慢,系统吞吐能力越低,反之越高。 系统吞吐量几个重要参数:QPS(TPS)、并发数、响应时间

[转帖]内核 TCP 参数调优

https://cloud.tencent.com/developer/article/1993859?areaSource=&traceId= Linux系统下,TCP连接断开后,会以 TIME_WAIT 状态保留一定时间,然后才释放端口。当并发请求过多时,会产生大量 TIME_WAIT 状态连接

【转帖】SQUID TIME_WAIT值过高引起的服务器被拖慢

https://www.diewufeiyang.com/post/895.html 查看TCP的连接状态值: # netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}' vi /etc/sysctl.conf 添加如

[转帖]关于线上环境CLOSE_WAIT和TIME_WAIT过高

https://www.cnblogs.com/Bozh/p/3752476.html 运维的同学和Team里面的一个同学分别遇到过Nginx在线上环境使用中会遇到TIME_WAIT过高或者CLOSE_WAIT过高的状态 先从原因分析一下为什么,问题就迎刃而解了。 首先是TIME_WAIT: 理解一

[转帖]高性能网络 | 你所不知道的TIME_WAIT和CLOSE_WAIT

https://zhuanlan.zhihu.com/p/528747315 你遇到过TIME_WAIT的问题吗? 我相信很多都遇到过这个问题。一旦有用户在喊:网络变慢了。第一件事情就是,netstat -a | grep TIME_WAIT | wc -l 一下。哎呀妈呀,几千个TIME_WAIT

[转帖]高性能网络 | 你所不知道的 TIME_WAIT 和 CLOSE_WAIT

高性能网络 | 你所不知道的 TIME_WAIT 和 CLOSE_WAIThttps://my.oschina.net/fdhay/blog/638631 本文是我将最近两篇文章,重新整理成一篇,方便收藏。如果你已经阅读过前两篇,并且已经做了收藏,可以重新收藏本文即可。 你有收藏和整理文章的习惯吗?

[转帖]TIME_WAIT和CLOSE_WAIT状态区别

在服务器的日常维护过程中,会经常用到下面的命令: netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}' 它会显示例如下面的信息: TIME_WAIT 814 CLOSE_WAIT 1 FIN_WAIT1 1 ESTA