Serverless冷扩机器在压测中被击穿问题

serverless,机器,击穿,问题 · 浏览次数 : 180

小编点评

**现象回顾:** * 2:40-3:15时间段中,超高CPU,频繁FullGC,并且每次FullGC之后对内存无法回收。 **问题重现:** * 在没有提前预热的情况下,使用压测脚本对服务进行请求回放。 **解决方案:** 1. **使用Sentinel的系统规则:**在系统负载过高的时候自动进行熔断,避免系统过载导致被击穿。 2. **设置CPU不超过80%的系统保护规则:**在冷启动状态下,设置系统保护规则可以避免系统在“准崩溃状态”中恢复回来。 3. **设置冷启动性能差之谜:**为了改善冷启动性能,可以优化HotSpot JVM优化和资源就绪情况。 4. **减少线程切换:**为了减少线程切换带来的性能影响,可以优化线程池和连接建立过程。 5. **监控系统监控指标:**定期监控系统监控指标,及时发现问题并采取措施解决。

正文

一、现象回顾

在今天ForceBot全链路压测中,有位同事负责的服务做Serverless扩容(负载达到50%之后自动扩容并上线接入流量)中,发现新扩容的机器被击穿,监控如下(关注2:40-3:15时间段的数据),我们可以看到,超高CPU,频繁FullGC,并且每次FullGC之后对内存并不回收(见FullGC时间段对应的堆内存的曲线,是一条横线)

分析结论: 内存已经被处理线程全部占完,FullGC之后基本收不回多少内存,那么意味着很快又会继续FullGC,频繁FullGC占用大量CPU时间片段和暂停会导致系统处理能力剧烈下降,最终导致整个JVM进入崩溃状态

二、问题重现

如上只是我们的理论分析,我们重新进行现象回放,模拟问题重现,目前订单单机400QPS下,CPU大概是达到30-40%,我们模拟一下在没有提前预热(重启Java服务)的情况下,使用压测脚本对服务进行请求回放,如下是我们一次重现的结果 (非必定,会有一定的概率重现),同样的高CPU、频繁FullGC,对内存无法被回收,JVM直接进入崩溃状态

分析结论: 我们需要避免瞬间流量让服务进入超高负载,进而被击穿

三、解决方案

针对如上情况,我们尝试使用Sentinel的系统规则,在系统负载过高的时候自动进行熔断,避免系统过载导致被击穿,我们设置一条CPU不超过80%的系统保护规则,如下,通过后面几个过程,我们对比一下这条规则对我们系统的影响

1.冷启动状态下,没有设置系统保护规则的场景

在没有配置如上规则的情况下,即便没有被击穿,我们看到,在冷启动的状态下,系统大概需要5-7分钟的时间来让系统从“准崩溃状态”中恢复回来,如下是CPU监控视图(大概6分钟左右处于高负载的CPU状态下,一旦恢复回来,CPU仅在30-40%左右)

压测端在高CPU阶段QPS上不去,仅在50-100之间波动,CPU恢复之后,QPS迅速上涨到400,整个过程Sentinel无熔断发生

2.热启动状态下,没有设置系统保护规则:

在热启动状态下,我们在上面压测完一轮之后再压测一轮,我们可以看到这个时候系统就没有一个“预热过程”的“准崩溃状态”了

3.冷启动状态下,设置系统保护规则

我们再压测一下冷启动状态下设置系统保护规则的情况(压测前重新启动一下Java进程,让应用处于“冷启动”的状态),看如下监控图,只要系统不进入“准崩溃状态”,那么系统会很快就恢复到正常状态,从下面图上看冷启动下对系统的影响只有前一分钟

如下是压测端视图

如下是CPU的情况

如下是Sentinel熔断情况,有1分钟左右有熔断发生

4.冷启动性能差之谜

冷启动过程性能比较慢,主要是有几方面因素导致:

1)HotSpot JVM优化:热点监测JVM会在程序运行期间不断对代码进行不同级别的优化,高频执行代码会被JIT Compiler优化到最佳的状态,而在冷启动开始运行的时候,代码还处于原始状态,性能相对会差

2)资源就绪情况:譬如一些线程池在开始运行之后才会被创建,或者程序中有一些连接是在启动之后才会开始建立

3)崩溃循环:当CPU升高之后,线程切换等操作本身可能会导致CPU更高,从而让系统螺旋式进入一种越来越糟糕的状态,直到达到一个平衡点,而上面的1)和2)随着运行的优化会在达到平衡点之后打破平衡点,螺旋式下降让系统恢复到比较好的状态,但最糟糕的情况是达不到平衡点系统直接崩溃无法恢复

四、题外话

这个问题不仅仅出现在Serverless冷扩,如果有一天,你发现请求量暴涨负载过高,于是你扩容了机器,然后你接入了流量,哐当,被打崩了......这个场景是不是太过惨淡了

作者:京东零售 吴毓群

内容来源:京东云开发者社区

与Serverless冷扩机器在压测中被击穿问题相似的内容:

Serverless冷扩机器在压测中被击穿问题

有次全链路压测中,有位同事负责的服务做Serverless扩容(负载达到50%之后自动扩容并上线接入流量)中,发现新扩容的机器被击穿,理论分析之后我们重新进行现象回放,模拟问题重现

Serverless Streaming:毫秒级流式大文件处理探秘

摘要:本文将以图片处理的场景作为例子详细描述当前的问题以及华为云FunctionGraph函数工作流在面对该问题时采取的一系列实践。 文章作者|旧浪:华为云Serverless研发专家、平山:华为云中间件Serverless负责人 一、背景 企业应用从微服务架构向 Serverless(无服务器)架

[转帖]serverless 平台 knative 简介

https://cizixs.com/2018/08/25/knative-serverless-platform/ 什么是 Knative? knative 是谷歌开源的 serverless 架构方案,旨在提供一套简单易用的 serverless 方案,把 serverless 标准化。目前参与

[转帖]Serverless 的前世今生

https://my.oschina.net/u/4611872/blog/5598427 从云计算到 Serverless 架构 大家好,我是阿里云 Serverless 产品经理刘宇,很高兴可以和大家一起探索 Serverless 架构的前世今生。 从云计算到云原生再到 Serverless 架

Serverless时代的微服务开发指南:华为云提出七大实践新标准

摘要:本文结合华为云在Serverless Microservice方面的实践,总结提炼出七大Serverless Microservice开发 “实践标准”,为加速全域Serverless产业升级、推动企业应用开发框架从微服务向Serverless演进提供一些思考。 作者信息—— 历川:华为云 S

Serverless冷启动:如何让函数计算更快更强?

摘要:借助Serverless计算,开发者仅需上传业务代码并进行简单的资源配置便可实现服务的快速构建部署,云服务商则按照函数服务调用量和实际资源使用收费,从而帮助用户实现业务的快速交付和低成本运行。 本文分享自华为云社区《Serverless冷启动:如何让函数计算更快更强?》,作者:DevAI 。

当Serverless遇到Regionless:现状与挑战

摘要:本文尝试基于分析现有的学术文章,剖析Serverless与Regionless并存时,在性能提升和成本控制两个方向的现状与挑战 本文分享自华为云社区《当Serverless遇到Regionless:现状与挑战》,作者:云容器大未来。 近年来,Serverless服务崛起的趋势是有目共睹的:从B

Serverless: AI everywhere的下一块拼图

摘要:本文介绍华为云函数工作流(FunctionGraph)的灵活、速度,如何让开发人员提升工程效率,缩短TTM等 本文分享自华为云社区《华为云FunctionGraph函数工作流—— Serverless“遇见”AI,释放AI生产力》,作者: 华为云PaaS服务小智 。 华为云Serverless

【一行代码秒上云】Serverless六步构建全栈网站

摘要:Serverless怎么玩?听一千道一万不如亲手来实践,跟着我们以华为云Serverless实践FunctionGraph来免费体验一下六步构建全栈网站吧 前言: Serverless怎么玩?听一千道一万不如亲手来实践,跟着我们以华为云Serverless实践FunctionGraph来免费体

拥抱Serverless释放生产力,探索华为云Serverless车联网最佳实践

华为云Serverless车联网场景解决方案,以FunctionGraph为核心的Serverless化组合方案,使用FunctionGraph、OBS、DIS等技术,可以实现架构的灵活扩展,在出行高峰期可以自动扩展满足系统的性能要求,在空闲时段则能够缩减规模,降低成本。帮助企业减少运维成本、加速业