与#告警#相关的内容第3页 - PmDaddy

全部分类数据库前端云计算

Prometheus性能调优-什么是高基数问题以及如何解决?

背景近期发现自己实验用的 Prometheus 性能出现瓶颈, 经常会出现如下告警: PrometheusMissingRuleEvaluations PrometheusRuleFailures 之后慢慢排查发现是由于 Prometheus 的某些 series 的高基数(High Cardin

记一次nginx配置不当引发的499与failover 机制失效

背景 nginx 499在服务端推送流量高峰期长期以来都是存在的，间或还能达到告警阈值触发一小波告警，但主观上一直认为499是客户端主动断开，可能和推送高峰期的用户打开推送后很快杀死app有关，没有进一步探究问题根源。然而近期在非高峰期也存在499超过告警阈值的偶发情况，多的时候一天几次，少的时候

Mybatis的parameterType造成线程阻塞问题分析

最近在新发布某个项目上线时，每次重启都会收到机器的 CPU 使用率告警，查看对应监控，持续时长达 5 分钟，对于服务重启有很大风险。而该项目有非常多 Consumer 消费，服务启动后会有大量线程去拉取消息处理逻辑，通过多次 Jstack 输出线程快照发现有很多 BLOCKED 状态线程，此文主要记录分析 BLOCKED 原因。

Grafana监控系统的构建与实践

本文深入探讨了Grafana的核心技术、数据源集成、仪表盘与可视化构建以及监控与告警配置，旨在为专业从业者提供全面的Grafana技术指南。关注【TechLeadCloud】，分享互联网架构、云服务技术的全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，同济本复旦硕，复旦

国产 Web 组态软件 TopStack V5.0 发布

简介 TopStack 是一款轻量型 Web 组态软件，提供设备数据采集、定时任务、控制策略、联动控制、设备告警、设备维护管理、设备绩效管理、能源管理、组态开发、报表开发等核心功能。支持移动端访问，支持本地部署，可帮助企业从无到有快速搭建工业物联网平台。一些大型互联网公司提供的物联网平台，其中的很

[转帖]Prometheus + Spring Boot 应用监控

https://blog.51cto.com/u_15127622/2757942 1. Prometheus是什么Prometheus是一个具有活跃生态系统的开源系统监控和告警工具包。一言以蔽之，它是一套开源监控解决方案。Prometheus主要特性：多维数据模型，其中包含由指标名称和键/值对标识

[转帖]Linux 网络栈原理、监控与调优：前言（2022）

http://arthurchiao.art/blog/linux-net-stack-zh/ Published at 2022-07-02 | Last Update 2022-07-02 本文尝试从技术研发与工程实践（而非纯理论学习）角度，在原理与实现、监控告警、配置调优三方面介绍内核5.1

[转帖]Linux 网络栈接收数据（RX）：配置调优（2022）

http://arthurchiao.art/blog/linux-net-stack-tuning-rx-zh/ 本文尝试从技术研发与工程实践（而非纯理论学习）角度，在原理与实现、监控告警、配置调优三方面介绍内核5.10 网络栈。由于内容非常多，因此分为了几篇系列文章。原理与实现 Linux

[转帖]MSE注册配置中心和自建注册配置中心对比

https://help.aliyun.com/document_detail/469154.html?spm=a2c4g.11186623.0.0.1a2779a6aPjzic 本文从运维、性能、高可用、监控告警等维度进行分析，介绍MSE注册配置中心和自建注册配置中心的差异。 MSE Nacos和

[转帖]nginx的proxy_next_upstream使用中的一个坑

https://zhuanlan.zhihu.com/p/35803906 今天线上系统出了点问题，机房的电信出口突然不通了，原本以为能自动切换的nginx配置，居然没有生效，导致了业务告警，手工紧急处理了才解决了。当时的设想是，如果这个服务的访问，出现了500或者超时的情况，会自动重试到下一个服

[转帖]天融信专用运维管理系统（专用计算平台版）V1.0 服务器客户端

是否国产是基本功能用于专用信息设备运行状态数据的采集、分析和异常状态告警。产品包含管理端软件和客户端程序。主要功能包括：1、资产管理与状态采集：支持将用户网络中所有专用信息设备纳入资产管理，基于专用数据采集协议持续收集分析资产对象的操作系统、处理器、内存、文件系统分区、、磁盘I/O、网络接口的

[转帖]Redis cluster故障复盘，预案、工具、判断一样都不能少！

http://blog.itpub.net/31545813/viewspace-2924677/ 背景最近从ELK日志分析发现：有很多应用连接redis 超时; 监控平台出现”redis 集群不健康“告警; 结合之前的经验，我们一般的应处理手段为：重启连接redis超时的应用，原因有以下两点：

[转帖]夜莺监控项目

项目介绍夜莺监控是一款开源云原生观测分析工具，采用 All-in-One 的设计理念，集数据采集、可视化、监控告警、数据分析于一体，与云原生生态紧密集成，提供开箱即用的企业级监控分析和告警能力。夜莺于 2020 年 3 月 20 日，在 github 上发布 v1 版本，已累计迭代 100 多个版

[转帖]Alertmanager 部署配置

https://www.cnblogs.com/winstom/p/11940570.html 目录前言源码安装配置启动配置prometheus监控Alertmanager 修改prometheus配置重新加载配置文件配置测试告警修改prometheus配置重新加载配置文件测试触

ESXi主机报错：其他主机硬件对象的状态（System Management Software 1 SEL Fullness）

ESXi主机报错：其他主机硬件对象的状态（System Management Software 1 SEL Fullness）问题现象一次巡检过程中发现vcenter中有esxi主机告警，如下图。查看监控>>硬件运行状况>>警示和警告，报 System Management Software

Prometheus AlertManager 生产实践-直接根据 to_email label 发 alert 到对应邮箱

概述通过之前的文章 - Prometheus Alertmanager 生产配置趟过的坑总结, 我们已经知道 AlertManager 作为告警平台，是非常强大的，可以去重 (deduplicating)，分组 (grouping)，并将它们路由 (routing) 到正确的接收器 (receiv

一个斜杠引发的CDN资源回源请求量飙升

背景一个安静的晚上，突然接到小伙伴电话线上CDN回源异常，具体表现为请求量飙升，且伴有少量请求404，其中回源请求量飙升已经持续两天但一直未被发现，直到最近404请求触发了告警后分析log才同时发现回源量飙升这一问题。触发问题的原因很快被发现并修复上线，这里分享一下跟进过程中进一步学习到的CDN

一次Python本地cache不当使用导致的内存泄露

## 背景近期一个大版本上线后，Python编写的api主服务使用内存有较明显上升，服务重启后数小时就会触发机器的90%内存占用告警，分析后发现了本地cache不当使用导致的一个内存泄露问题，这里记录一下分析过程。 ## 问题分析 ### LocalCache实现分析该cache大概实现代码如下

DevOps｜服务治理与服务保障实践指南

朱晋君@君哥聊技术我自己为了消化里边的内容，整理了一个脑图，希望对你有帮助。凌晨四点被公司的监控告警叫醒了，告警的原因是生产环境跑批任务发生故障。即刻起床处理故障，但还是花了不少时间才解决。这次故障是一次数据校验的跑批任务，校验前面跑批任务的数据是否正确。幸运的是，之前的核心任务已经完成，并没

慧销平台ThreadPoolExecutor内存泄漏分析

京东生旅平台慧销系统，作为平台系统对接了多条业务线。但近期根据告警发现内存持续升高，因此猜测该系统可能存在内存泄漏的情况。本文通过此案例，介绍慧销平台ThreadPoolExecutor内存泄漏问题的详细分析过程。

# 热门排行

微软 New Bing AI 申请与使用保姆级教程（免魔法） ChatGPT API使用介绍 ChatGPT开发实战一篇带你了解如何使用纯前端类Excel表格构建现金流量表手把手教你玩转 Excel 数据透视表为什么 C# 可能是最好的第一编程语言 .NET 入门到高级路线提高工作效率的神器：基于前端表格实现Chrome Excel扩展插件 React + Springboot + Quartz，从0实现Excel报表自动化用Echarts实现前端表格引用从属关系可视化