与#故障诊断#相关的内容第3页 - PmDaddy

全部分类数据库前端云计算

[转帖]oswbb工具分析主机性能

https://www.cnblogs.com/lkj371/p/15154268.html 在进行数据库故障分析和数据库例行扩容评估时，需要对数据库主机的CPU、内存、磁盘、网络进行负荷分析，常规处理方法是定时任务获取主机不同时刻的性能指标，然后对数据进行处理，最后通过excel等工具制作成运行曲

[转帖]《Linux性能优化实战》笔记（十九）—— DNS 解析原理与故障案例分析

一、域名与 DNS 解析域名主要是为了方便让人记住，而 IP 地址是机器间的通信的真正机制。以 time.geekbang.org 为例，最后面的 org 是顶级域名，中间的 geekbang 是二级域名，而最左边的 time 则是三级域名。点（.）是所有域名的根，所有域名都以点作为后缀。把域

[转帖]记录一则enq: TX - row lock contention的分析过程

https://www.cnblogs.com/jyzhao/p/8628184.html 故障描述：与客户沟通，初步确认故障范围大概是在上午的8:30-10:30之间，反应故障现象是Tomcat的连接数满导致应用无法连接，数据库alert中无明显报错，需要协助排查原因。 1.导入包含故障时刻的数据

一次redis主从切换导致的数据丢失与陷入只读状态故障

## 背景最近一组业务redis数据不断增长需要扩容内存，而扩容内存则需要重启云主机，在按计划扩容升级执行主从切换时意外发生了数据丢失与master进入只读状态的故障，这里记录分享一下。 ## 业务redis高可用架构该组业务redis使用的是一主一从，通过sentinel集群实现故障时的自动主

详解集群级备份恢复：物理细粒度备份恢复

摘要：在实际使用过程中，数据库集群级的故障并非高概率事件，如何安全高效地帮助客户备份恢复一部分数据库元素，才是更加实际的需求，这也是细粒度备份恢复的意义所在。本文分享自华为云社区《GaussDB（DWS）之物理细粒度备份恢复》，作者：我的橘子呢。 1. 认识物理细粒度备份恢复相对于集群级备份恢

gitlab自动定时备份文件，备份失败发送邮件

一、需求为预防gitlab出现故障，每天定时备份，备份完成后把之前的备份文件删除，备份成功或失败的时候自动发送邮件提醒，这里的gitlab为docker部署。二、备份命令准备 1）备份命令创建一个 gitlab_auto_backup.sh文件，文件内容 #!/bin/bash # 进入Git

记一次 .NET某工控WPF程序被人恶搞的卡死分析

一：背景 1. 讲故事这一期程序故障除了做原理分析，还顺带吐槽一下，熟悉我的朋友都知道我分析dump是免费的，但免费不代表可以滥用我的宝贵时间，我不知道有些人故意恶搞卡死是想干嘛，不得而知，希望后面类似的事情越来越少吧！废话不多说，我们来看看是如何被恶搞的。二：WinDbg 分析 1. 程序是如

[转帖]TiDB-unsafe recover(三台tikv宕机两台)

一、背景名称数量tikv3副本3 1.故障：因为某些原因，两台tikv不可连接，出现region不能访问的故障 2.几条理论： 2.1.多副本原则存在一半以上的副本则集群访问不受影响（如n副本，存活（n+1）/ 2） 2.2.数据完整性当副本数量等于tikv的数量的时候，每一个tikv都有全

助力618-Y的混沌实践之路

混沌工程，是一种提高技术架构弹性能力的复杂技术手段，旨在将故障扼杀在襁褓之中，也就是在故障造成中断之前将它们识别出来。通过主动制造故障，测试系统在各种压力下的行为，识别并修复故障问题，避免造成严重后果。

【稳定性】揭秘团队快速排查问题的三字经，你学会了吗？

基于日常实际工作经验和个人心得，我整理了一份团队遇到故障问题或者疑似问题快速排查的三字经清单及正确✅案例和错误❌案例。这份清单将帮助你在遇到问题时进行快速排查，无需担心在高压环境下忙中出错，遗漏关键步骤环节

【Azure 存储服务】Azure Data Lake Storage (ADLS) Gen2 GRS Failover是否支持自动切换或者手动切换到灾备的终结点呢?

问题描述在Azure的存储服务中，介绍灾备恢复和Storage Account故障转移的文档中，有一句话“Account failover is not supported for storage accounts with a hierarchical namespace enabled.” 而

记一次 .NET某质量检测中心系统崩溃分析

一：背景 1. 讲故事这些天有点意思，遇到的几个程序故障都是和Windows操作系统或者第三方组件有关系，真的有点无语，今天就带给大家一例 IIS 相关的与大家分享，这是一家国企的.NET程序，出现了崩溃急需分析。二：WinDbg 分析 1. 为什么会崩溃崩溃原因相对还是好找的，双击dump文

kubelet gc 源码分析

代码 kubernetes 1.26.15 问题混部机子批量节点NotReady（十几个，丫的重大故障），报错为：意思就是 rpc 超了，节点下有太多 PodSandBox，crictl ps -a 一看有1400多个。。。大量exited的容器没有被删掉，累积起来超过了rpc限制。 PodSa

apisix~集成服务发现注册中心

摘要当业务量发生变化时，需要对上游服务进行扩缩容，或者因服务器硬件故障需要更换服务器。如果网关是通过配置来维护上游服务信息，在微服务架构模式下，其带来的维护成本可想而知。再者因不能及时更新这些信息，也会对业务带来一定的影响，还有人为误操作带来的影响也不可忽视，所以网关非常必要通过服务注册中心动态获

[转帖]Comcast: 模拟糟糕的网络连接，以便构建更好的系统。

https://www.5axxw.com/wiki/content/r0cq99 Comcast 在诸如网络分区和实例终止这样的硬故障下测试分布式系统是至关重要的，但我们在灾难性较小的条件下测试它们也很重要，因为这是它们最常遇到的情况。Comcast是一个用来模拟常见网络问题的工具，如延迟、带宽限

[转帖]Oracle大页未正常使用导致大量SWAP案例分析

http://blog.itpub.net/30310891/viewspace-2927363/稀奇古怪的.. 故障背景某次，用户反馈一套已经正常运行一段时间的 Oracle 11.2.0.4 RAC 数据库（ 128G 物理内存），在调整 process 阈值之后， R AC 集群中其中一个节

【转帖】linux 内核分析工具 Dtrace、SystemTap、火焰图、crash等

<< System语言详解 >> 关于 SystemTap 的书。我们在分析各种系统异常和故障的时候，通常会用到 pstack(jstack) /pldd/ lsof/ tcpdump/ gdb(jdb)/ netstat/vmstat/ mpstat/truss(strace)/iostat/s

[转帖]线上一个隐匿 Bug 的复盘

前言之前负责的一个项目上线好久了，最近突然爆出一 Bug，最后评估影响范围将 Bug 升级成了故障，只因为影响的数据量有 10000 条左右，对业务方造成了一定的影响。但因为不涉及到资金损失，Bug 修复后对数据进行修补，所以最终级别也是较低的。今天和大家分享这个线上隐匿的 Bug，也好在工作

Troubleshooting 专题 - 问正确的问题得到正确的答案

在很多公司中，IT、数据中心、业务系统一出故障，会有很多人被叫到作战室（就是一个为了解决该问题，而把所有相关人员集中在一起的一个会议室）, 但是对于这个问题他们是否可以修复, 是否他们应该负有责任, 经常没有线索. 「证据」(基础架构监控数据, 日志文件, 用户投诉等等) 表明了症状, 但是与 ro

记一次 Windows10 内存压缩模块崩溃分析

一：背景 1. 讲故事在给各位朋友免费分析 .NET程序各种故障的同时，往往也会收到各种其他类型的dump，比如：Windows 崩溃，C++ 崩溃，Mono 崩溃，真的是啥都有，由于基础知识的相对缺乏，分析起来并不是那么的顺利，今天就聊一个 Windows 崩溃的内核dump 吧，这个 dum

# 热门排行

微软 New Bing AI 申请与使用保姆级教程（免魔法） ChatGPT API使用介绍 ChatGPT开发实战一篇带你了解如何使用纯前端类Excel表格构建现金流量表手把手教你玩转 Excel 数据透视表为什么 C# 可能是最好的第一编程语言 .NET 入门到高级路线提高工作效率的神器：基于前端表格实现Chrome Excel扩展插件 React + Springboot + Quartz，从0实现Excel报表自动化用Echarts实现前端表格引用从属关系可视化