日常Bug排查-连接突然全部关闭

bug · 浏览次数 : 0

小编点评

**日常Bug排查-连接突然全部关闭前言** **Bug现象:** 一台机器上的连接数在达到一定连接数(大概4.5W)连接数之后会突然急速下降到几百。在应用上的表现就是大量的连接报错,系统失去响应,如下图所示: ``` # 网络连接状态 tcp_stats: estab_sock: 0 in_use: 1024 idle: 0 out_of_use: 0 errors: 1024 dropped: 1024 ``` **分析:** 1. **内存限制:** 在连接数达到瓶颈时,TCP连接申请了大量内存,超过了内核可申请的阈值(3144050)。由于内存紧张,内核无法处理新的连接请求,导致连接数下降。 2. **TCP连接消耗内存:** 每个TCP连接占用大量内存,当连接数超过瓶颈时,每个连接都申请了更多的内存,导致内存紧张。 3. **TCP内存不足:** 当内存不足时,TCP连接会申请更多内存,但内核已达到最大可申请的阈值。当连接数达到瓶颈时,内核会强制关闭连接,导致整个系统连接关闭。 **解决方案:** 1. **调整tcp_mem参数:** 通过修改内核参数`tcp_mem`,可以调整内存申请策略。设置一个更大的`tcp_mem`值可以让内核允许更多内存申请,从而避免内存限制。 2. **监控内存使用:** 使用命令 `netstat -s` 可以监控系统的内存使用情况,观察`tcp_mem`的值变化。如果内存使用超过阈值,可以考虑调整`tcp_mem`参数。 3. **清理连接:** 在连接数下降后,可以清理掉已经关闭的连接,释放系统资源。可以使用命令 `netstat -s | grep -i "tcp_drop"` 来检查已关闭的连接数量。 4. **升级内核:** 如果内核版本低版本,可能存在内存限制问题。升级内核可以解决这个问题。 **提示:** * 可以使用 `cat /proc/sys/net/ipv4/tcp_mem1570347` 命令查看`tcp_mem`参数的值。 * 可以使用 `netstat -s | grep -i "tcp_drop"` 命令检查已关闭的连接数量。 * 可以使用 `cat /proc/sys/net/ipv4/tcp_mem3570347` 命令查看当系统稳定后`tcp_mem`的值。

正文

日常Bug排查-连接突然全部关闭

前言

日常Bug排查系列都是一些简单Bug的排查。笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材。

Bug现场

最近碰到一个问题,一台机器上的连接数在达到一定连接数(大概4.5W)连接数之后会突然急速下降到几百。在应用上的表现就是大量的连接报错,系统失去响应,如下图所示:

思路

思路1: 第一步肯定是怀疑代码写错了,笔者看了下,使用的是成熟的框架,不是自己操作的连接,那么代码的问题应该较小。
思路2:那么笔者就开始怀疑是内核的限制,例如文件描述符到顶了之类,但这又有一个矛盾点。一旦是内核对连接数量限制的话,应该是连接数到达一定程度就涨不上去,而不是连接数跳水式下降。
思路2.1: 进一步,笔者就开始想,很有可能是某个间接资源的限制导致到达这个瓶颈后,所有的连接获取这个资源获取不到而导致全部报错。再结合TCP连接消耗的资源无非就是CPU/内存/带宽。

监控信息

有了上面的思路,我们就可以观察相关监控信息了。
CPU监控:CPU消耗很高达到了将近70%,但获取不到CPU一般只会导致响应变慢,和问题现象不匹配。
带宽监控:带宽利用率达到了50%,这个带宽利用率算不上高。
内存监控:确实使用了大量的内存,RSS达到了26G,但是比起128G的内存而言,这点消耗量显然不可能成为瓶颈。
好了,看了这三个数据之后,就发现系统的资源消耗还称不上达到瓶颈。但是,笔者从一开始就怀疑内存的使用可能触发了某个特殊的瓶颈。因为只有内存资源申请不到之后,TCP连接才有可能直接报错进而Drop连接。

TCP监控信息

当传统的监控已经不足以分析我们问题的时候,笔者就直接掏出针对TCP问题最有效的统计命令了,祭出法宝:

# 这条命令详细的输出了tcp连接的各种统计参数,很多问题都可以通过其输出获得线索
netstat -s 

笔者在这条命令的输出中详细的观察TCP以及TCP内存相关的输出项,定睛一看,就发现一个很不寻常的地方:

...
TcpExt:
 TCP ran low on memoery 19 times
 ......

这个输出就和笔者对于内存限制的猜想完全对应起来了。TCP内存不够了,导致读取或者写入数据的时候申请内存失败进而将TCP连接本身给Drop了。

修改内核参数

因为笔者之前详细的阅读过Linux TCP的源代码以及其所有的可调整的内核参数。所以对TCP的内存限制有映像。有了GPT之后,只需要知道一个大致的方向就好了,直接问GPT就给出了答案,就是tcp_mem这个参数。

cat /proc/sys/net/ipv4/tcp_mem
1570347 2097152 3144050

这三个值分别代表了tcp对于内存在不同阈值下的不同使用策略,单位是页,也就是4KB。具体解释可以直接去问GPT,在此就不赘述了。核心就是TCP消耗的内存总量在大于第三个值也就是3144050(12G,占128G内存的9.35%)的时候TCP就开始由于内存申请不到而Drop连接。而对应的应用由于每个请求高达好几M确实会让每个TCP连接消耗大量的内存。
在内存消耗过程中一旦超限,那么TCP连接就会被内核强制Drop,这也解释了为什么基本所有连接在很短的时间内就跳水式Drop,因为他们都在不停申请内存,而达到临界阈值后全部都报错,进而整个系统的所有连接都关闭导致系统失去响应。如下图所示:

知道是这个问题就很简单了,直接将tcp_mem调大即可:

cat /proc/sys/net/ipv4/tcp_mem
3570347 6097152 9144050

调整后系统保持稳定

在经过响应的内核调整之后,系统的连接数超过了5W之后依旧保持稳定。这时候我们观察相关的TCP消耗内存页的输出:

cat /proc/net/sockstat
TCP: inuse xxx orphan xxx tw xxx alloc xxxx mem 4322151

从这个输出我们可以看到系统平稳运行后,其常态使用的内存页数量mem为4322151已经远大于之前的3144050,这也从侧面验证了笔者的判断。

对应的内核栈

在此记录下对应的Linux内核栈

tcp_v4_do_rcv
 |->tcp_rcv_established
  |->tcp_data_queue
   |->tcp_data_queue
    |->tcp_try_rmem_schedule
     |->sk_rmem_schedule
      |->sk_rmem_schedule
       |->__sk_mem_raise_allocated
         |-> /* Over hard limit. */
          if (allocated > sk_prot_mem_limits(sk, 2))
          goto suppress_allocation;
   |->goto drop:
    tcp_drop(sk,skb)

可以看到当allocated大于相关的内存limit之后Linux Kernel会将此TCP连接直接Drop。

总结

笔者在了解清楚Bug现场之后,大概花了20分钟就定位到了是TCP内存瓶颈的问题,然后借助GPT非常快速的找到了相关解决方案。不得不说GPT能够大幅加速我们搜索的过程,笔者个人感觉可以在很大程度上替代搜索引擎。但喂给GPT的Prompt还是需要通过Bug现场以及一定的经验来构造,它代替不了你的思考,但能大幅加速信息的检索。

与日常Bug排查-连接突然全部关闭相似的内容:

日常Bug排查-连接突然全部关闭

日常Bug排查-连接突然全部关闭 前言 日常Bug排查系列都是一些简单Bug的排查。笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材。 Bug现场 最近碰到一个问题,一台机器上的连接数在达到一定连接数(大概4.5W)连接数之后会突然急速下降到几百。在应用上的表现就是大量的连接报错,系统失去

日常Bug排查-读从库没有原子性?

日常Bug排查系列都是一些简单Bug排查。问题虽小,但经常遇到,了解这些问题,会让我们少走点弯路,提升效率。说不定有些问题你遇到过哦:) Bug现场 业务开发同学突然问了笔者一个问题,从库读会不会没有原子性?我下意识的反应怎么可能,只要是遵守MySQL主从Replication协议的原子性至少是能够

日常Bug排查-偶发性读数据不一致

日常Bug排查-偶发性读数据不一致 前言 日常Bug排查系列都是一些简单Bug的排查。笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材。 Bug现场 业务场景 先描述这个问题出现的业务场景。这是一个支付的场景,如果支付成功了,我们就把支付状态置为success(主单据更新)同时写入支付成功

FastJson不成想还有个版本2啊:序列化大字符串报错

# 背景 发现陷入了一个怪圈,写文章的话,感觉只有大bug或比较值得写的内容才会写,每次一写就是几千字,争取写得透彻一些,但这样,我也挺费时间,读者也未必有这么多时间看。 我想着,日常遇到的小bug、平时工作中的一些小的心得体会,都还是可以写写,这样也才是最贴近咱们作为一线开发生活的,也不必非得是个

《最新出炉》系列入门篇-Python+Playwright自动化测试-42-强大的可视化追踪利器Trace Viewer

1.简介 在我们日常执行自动化测试工作的过程中,经常会遇到一些偶发性的bug,但是因为bug是偶发性的,我们不一定每次执行都能复现,所以我们在测试执行的时候,追踪用例执行就变得非常重要了。playwright提供了一个Playwright Trace Viewer工具来追踪测试执行,这是一个GUI工

测试的底层逻辑

写这篇文章,是希望把我的一些我认为是非常有价值的经验总结出来,能够帮助刚做测试不久的新同事,或者是测试经验丰富的老同事以共享。希望我们可爱的新同事,准备要在测试领域耕耘的伙伴,能够通过我的文章了解到测试的底层逻辑,也就是我们测试工作中可能看不到隐藏较深的点,而不只是日常所见的写用例、提bug、开发自动化、做平台;俗话说外行看热闹,内行看门道。

[转帖]【技术剖析】10. JVM 中不正确的类加载顺序导致应用运行异常问题分析

https://bbs.huaweicloud.com/forum/thread-169439-1-1.html 神Bug... 发表于 2021-11-15 10:36:113973查看 作者:程经纬、谢照昆 > 编者按:两位笔者分享了不同的案例,一个是因为 JDK 小版本升级后导致运行出错,最终

docker.from_env() 获取docker守护进程时出现 TypeError: load_config() got an unexpected keyword argument 'config_dict' 异常

某天使用python重启docker容器时,出现了一个令人费解的BUG,我的代码为 1 def restart_docker(container_name): 2 # 连接到docker守护进程 3 client = docker.from_env() 4 try: 5 # 获取容器对象 6 con

遇到疯狂GC时进行判断然后重启服务的方法-GPT学习使用之三

# 遇到疯狂GC时进行判断然后重启服务的方法-GPT学习使用之三 ## 背景 ``` 最近怀疑产品遇到了第三方组建的bug Groupdocs转换渲染某些文件时出现了严重的FullGC的情况 而且出现的奇怪的功效学GC ergonomics 的提示 因为不好发现, 所以同事想通过遇到异常时自动进行重

日常测试进行beans比较的简单方法

日常测试进行beans比较的简单方法 摘要 想每天把有变化的bean抓取出来有新增的beans时能够及时进行分析和介入 保证beans 都是符合规范的. 方式和方法 开启actuator 打开beans 查看里面的对象信息. 然后定义一个baseline 每天更新完补丁 启动完后再拉取排序一下. 查