[转帖]061、监控指标之TiKV

监控,指标,tikv · 浏览次数 : 0

小编点评

## TiKV Monitor Dashboard This dashboard provides an overview of TiKV performance on a Kubernetes cluster, including metrics related to TiKV-Details, Threads, Errors, and Storage. **Key Metrics:** * **Cluster - Store Size / Available Size:** Displays the total amount of storage used and the available size. * **Cluster - Cluster - CPU/Memory/IO Util:** Shows the CPU, memory, and I/O utilization of the cluster nodes. * **Cluster - MBps/QPS:** Indicates the maximum memory bandwidth usage and the maximum number of queries per second. * **Cluster - Region/Leader region:** Shows the CPU, memory, and I/O utilization of the region leader node. * **Thread CPU - gRPC poll CPU:** Monitors the CPU utilization of gRPC communication threads. * **Thread CPU - Unified Read pool CPU:** Shows the CPU utilization of read threads in the unified read pool. * **Thread CPU - Scheduler worker CPU:** Monitors the CPU utilization of scheduler worker threads. * **Thread CPU - Raft store CPU:** Shows the CPU utilization of raft store worker threads. * **Thread CPU - Async apply CPU:** Monitors the CPU utilization of apply threads. * **Errors - Server is Busy:** Indicates if the server is experiencing high CPU usage. * **Duration - TiDB写入流程:** Provides insights into the overall duration of TiDB write operations. * **KV Request - KV Request Duration:** Shows the average time taken for KV requests. * **KV Request - KV Request Duration:** This chart provides detailed breakdowns of KV request duration by byte. * **Schedule-Commit - Scheduler command duration:** Shows the duration of scheduler command execution. * **Schedule-Commit - Scheduler latch wati duration:** Monitors the latch wait duration during the scheduler command execution. * **Schedule-Commit - Scheduler latch wati duration:** This chart provides detailed breakdown of latch wait duration by flow. * **Error - Raft Propose - Apply wait duration:** Shows the duration of raft propose and apply wait for each operation. * **Error - Raft IO - Append log duration:** Provides the average duration of append logs in the raft store. * **Error - Raft IO - Commit log duration:** Shows the average duration of commit logs in the raft store. * **Error - Raft Propose - Apply wait duration:** Displays the duration of raft propose and apply wait for each operation.

正文

资源相关

Grafana监控 TiKV-Details —> Cluster - Store Size / Available Size
在这里插入图片描述
Grafana监控 TiKV-Details —> Cluster - Cluster - CPU/Memory/IO Util
在这里插入图片描述
Grafana监控 TiKV-Details —> Cluster - MBps/QPS
在这里插入图片描述
Grafana监控 TiKV-Details —> Cluster - Region/Leader
region 如果超过5万个,可能会影响与pd的心跳。在这里插入图片描述

线程池相关

Grafana监控 TiKV-Details —> Thread CPU - gRPC poll CPU
在这里插入图片描述
Grafana监控 TiKV-Details —> Thread CPU - Unified Read pool CPU
读线程的数量
在这里插入图片描述
Grafana监控 TiKV-Details —> Thread CPU - Scheduler worker CPU
写线程的数量不要超过: 90% * storage.scheduler_worker_pool_size
在这里插入图片描述
Grafana监控 TiKV-Details —> Thread CPU - Raft store CPU
在这里插入图片描述
raft线程不要超过: 80% * raftstore.store-pool-size

Grafana监控 TiKV-Details —> Thread CPU - Async apply CPU
在这里插入图片描述
apply线程不要超过: 80% * raftstore.apply-pool-size

Error相关

Grafana监控 TiKV-Details —> Errors - Server is Busy
在这里插入图片描述

Duration相关

** TiDB写入流程**
在这里插入图片描述
Grafana监控 TiKV-Details —> gRPC - 99% gRPC message duration
这个相当于是整体处理图
在这里插入图片描述
Grafana监控 TiKV-Details —> KV Request —> KV Request Duration 99 by byte
这个图可以判断KV Rquest 多 ,这图包含网络+TiKV的返回耗时。如果要判断到底是网络还是TiKV处理多。 这个要结合其他图
在这里插入图片描述
Grafana监控 TiKV-Details —> Schedule-Commit —> Scheduler command duration
在这里插入图片描述
Grafana监控 TiKV-Details —> Schedule-Commit —> Scheduler latch wati duration
latch wati duration: 跟流量相关,可减缓写入速度,相关参数storage.scheduler_pending_write_threshold
在这里插入图片描述

Grafana监控 TiKV-Details —> Raft Propose —> Propose wait duration
在这里插入图片描述

Grafana监控 TiKV-Details —> Raft IO —> Append log duration
在这里插入图片描述

Grafana监控 TiKV-Details —> Raft IO —> Commit log duration
在这里插入图片描述

Grafana监控 TiKV-Details —> Raft Propose —> Apply wait duration
在这里插入图片描述

Grafana监控 TiKV-Details —> Raft IO —> Apply log duration
在这里插入图片描述

</article>

与[转帖]061、监控指标之TiKV相似的内容:

[转帖]061、监控指标之TiKV

资源相关 Grafana监控 TiKV-Details —> Cluster - Store Size / Available Size Grafana监控 TiKV-Details —> Cluster - Cluster - CPU/Memory/IO Util Grafana监控 TiKV-D

[转帖]

Linux ubuntu20.04 网络配置(图文教程) 因为我是刚装好的最小系统,所以很多东西都没有,在开始配置之前需要做下准备 环境准备 系统:ubuntu20.04网卡:双网卡 网卡一:供连接互联网使用网卡二:供连接内网使用(看情况,如果一张网卡足够,没必要做第二张网卡) 工具: net-to

[转帖]

https://cloud.tencent.com/developer/article/2168105?areaSource=104001.13&traceId=zcVNsKTUApF9rNJSkcCbB 前言 Redis作为高性能的内存数据库,在大数据量的情况下也会遇到性能瓶颈,日常开发中只有时刻

[转帖]ISV 、OSV、 SIG 概念

ISV 、OSV、 SIG 概念 2022-10-14 12:29530原创大杂烩 本文链接:https://www.cndba.cn/dave/article/108699 1. ISV: Independent Software Vendors “独立软件开发商”,特指专门从事软件的开发、生产、

[转帖]Redis 7 参数 修改 说明

2022-06-16 14:491800原创Redis 本文链接:https://www.cndba.cn/dave/article/108066 在之前的博客我们介绍了Redis 7 的安装和配置,如下: Linux 7.8 平台 Redis 7 安装并配置开机自启动 操作手册https://ww

[转帖]HTTPS中间人攻击原理

https://www.zhihu.com/people/bei-ji-85/posts 背景 前一段时间,公司北京地区上线了一个HTTPS防火墙,用来监听HTTPS流量。防火墙上线之前,邮件通知给管理层,我从我老大那里听说这个事情的时候,说这个有风险,然后意外地发现,很多人原来都不知道HTTPS防

[转帖]关于字节序(大小端)的一点想法

https://www.zhihu.com/people/bei-ji-85/posts 今天在一个技术群里有人问起来了,当时有一些讨论(不完全都是我个人的观点),整理一下: 为什么网络字节序(多数情况下)是大端? 早年设备的缓存很小,先接收高字节能快速的判断报文信息:包长度(需要准备多大缓存)、地

[转帖]awk提取某一行某一列的数据

https://www.jianshu.com/p/dbcb7fe2da56 1、提取文件中第1列数据 awk '{print $1}' filename > out.txt 2、提取前2列的文件 awk `{print $1,$2}' filename > out.txt 3、打印完第一列,然后打

[转帖]awk 中 FS的用法

https://www.cnblogs.com/rohens-hbg/p/5510890.html 在openwrt文件 ar71xx.sh中 查询设备类型时,有这么一句, machine=$(awk 'BEGIN{FS="[ \t]+:[ \t]"} /machine/ {print $2}' /

[转帖]Windows Server 2022 简体中文版、英文版下载 (updated Oct 2022)

https://sysin.org/blog/windows-server-2022/ Windows Server 2022 正式版,2022 年 10 月更新,VLSC Posted by sysin on 2022-10-27 Estimated Reading Time 8 Minutes