deepspeed 训练多机多卡报错 ncclSystemError Last error

最近在搞分布式训练大模型,踩了两个晚上的坑今天终于爬出来了 我们使用 2台 8*H100 遇到过 错误1 10.255.19.85: ncclSystemError: System call (e.g. socket, malloc) or external library call failed

[转帖]高斯DB的分类

作者:产业互联网资讯链接:https://www.zhihu.com/question/437148591/answer/1652870037来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 抛砖引玉!日前,国际研究机构Gartner发布2020年全球云数据库魔力象限报

高性能Redis服务器注意事项

摘要 昨天简单理了理安装与配置相关的 但是很多比较重要的核心性能参数并没有进行学习与探讨 就基于昨天理解不深入的地方进行进一步的学习与了解 希望能够提高Redis-Server的性能. 第一部分: 规范 一切性能都是以代码为核心的. 再好的硬件. 如果代码水平都不行, 肯定是无法发挥硬件的性能. R

[转帖]高性能IO模型:为什么单线程Redis能那么快?

https://zhuanlan.zhihu.com/p/596170085 你好,我是蒋德钧。 今天,我们来探讨一个很多人都很关心的问题:“为什么单线程的Redis能那么快?” 首先,我要和你厘清一个事实,我们通常说,Redis是单线程,主要是指Redis的网络IO和键值对读写是由一个线程来完成的

[转帖]高性能网络 | 你所不知道的 TIME_WAIT 和 CLOSE_WAIT

高性能网络 | 你所不知道的 TIME_WAIT 和 CLOSE_WAIThttps://my.oschina.net/fdhay/blog/638631 本文是我将最近两篇文章,重新整理成一篇,方便收藏。如果你已经阅读过前两篇,并且已经做了收藏,可以重新收藏本文即可。 你有收藏和整理文章的习惯吗?

[转帖]高性能 Nginx HTTPS 调优!为 HTTPS 提速 30%

https://zhuanlan.zhihu.com/p/346618690 为什么要优化 Ngin HTTPS 延迟 Nginx 常作为最常见的服务器,常被用作负载均衡 (Load Balancer)、反向代理 (Reverse Proxy),以及网关 (Gateway) 等等。一个配置得当的 N

[转帖]高性能:5-BCC工具介绍【bpf performance tools读书笔记】

https://cloud.tencent.com/developer/article/1595130?areaSource=103001.1&traceId=pqOBSL_jW1KSoi6X6LGEr BCC包含有关工具,手册页和示例文件的文档,以及有关使用BCC工具的指南,以及有关BCC工具开发

[转帖]高性能网络 | 你所不知道的TIME_WAIT和CLOSE_WAIT

https://zhuanlan.zhihu.com/p/528747315 你遇到过TIME_WAIT的问题吗? 我相信很多都遇到过这个问题。一旦有用户在喊:网络变慢了。第一件事情就是,netstat -a | grep TIME_WAIT | wc -l 一下。哎呀妈呀,几千个TIME_WAIT

[转帖]高手总结的9种 OOM 常见原因及解决方案

https://zhuanlan.zhihu.com/p/79355050 当 JVM 内存严重不足时,就会抛出 java.lang.OutOfMemoryError 错误。本文总结了常见的 OOM 原因及其解决方法,如下图所示。如有遗漏或错误,欢迎补充指正。 1、Java heap space 当

[转帖]高级JIT编译器选项 Advanced JIT Compiler Options

https://zhuanlan.zhihu.com/p/341374302 -XX:+AggressiveOpts 启用积极的性能优化功能, 这些功能有望在以后的版本中成为默认功能. 默认情况下, 此选项处于禁用状态, 并且不使用实验性能功能 Java’s -XX:+AggressiveOpts:

[转帖]“高密度核心”的角逐 —— AMD Bergamo SoC & Zen 4c 前瞻

https://zhuanlan.zhihu.com/p/585469720 最近这段时间一直在关注Bergamo和Zen 4c,但遗憾的是Genoa的发布会并没有提到太多的Bergamo细节。不过这并不妨碍我们借助已发布的硬件偷瞄它到底有几斤几两,提前解馋。 Bergamo SoC为何物 从目前各

[转帖]高性能网络实战:借助 eBPF 来优化负载均衡的性能

https://zhuanlan.zhihu.com/p/592981662 网络性能优化,eBPF 是如何发挥作用的呢? 本篇文章,我就以最常用的负载均衡器为例,带你一起来看看如何借助 eBPF 来优化网络的性能。 1 Nginx 负载均衡器 既然要优化负载均衡器的网络性能,那么首先就需要有一个优

[转帖]高性能异步io机制:io_uring

文章目录 1、性能测试1.1、FIO1.2、rust_echo_benc 2、io_uring2.1、io_uring_setup2.2、io_uring_enter2.3、io_uring_register2.4、使用方法:cat 程序为例 3、liburing3.1、liburing api3.

【转帖】高性能异步io机制:io_uring

文章目录 1、性能测试1.1、FIO1.2、rust_echo_benc 2、io_uring2.1、io_uring_setup2.2、io_uring_enter2.3、io_uring_register2.4、使用方法:cat 程序为例 3、liburing3.1、liburing api3.

[转帖]高可用高并发系统设计概念学习 二

高可用高并发系统设计概念学习 二 前言一、隔离术线程隔离进程隔离集群隔离机房隔离读写隔离动静隔离爬虫隔离 二、超时与重试机制代理层超时与重试客户端超时设置client_header_timeout timeclient_body_timeout timesend_timeout timekeepal

[转帖]高性能 -Nginx 多进程高并发、低时延、高可靠机制在百万级缓存 (redis、memcache) 代理中间件中的应用

https://xie.infoq.cn/article/2ee961483c66a146709e7e861 关于作者 前滴滴出行技术专家,现任 OPPO 文档数据库 mongodb 负责人,负责 oppo 千万级峰值 TPS/十万亿级数据量文档数据库 mongodb 内核研发及运维工作,一直专注于

[转帖]高性能分布式对象存储——MinIO实战操作(MinIO扩容)

https://juejin.cn/post/7132852449244610574 一、前言 MinIO的基础概念和环境部署可以参考我之前的文章:高性能分布式对象存储——MinIO(环境部署) 二、客户端操作MinIO Client(mc) 官方文档:docs.min.io/docs/minio-

高可用系列文章之一 - 概述

一 概述 可用性是系统运行质量的重要指标. 随着数字化和智能化的进程, 系统的可用性愈发重要。例如,制造业流水线需要高可用性的 MES 系统来保证流水线的正常运转。 本文为高可用相关的技术文档, 从以下几个方面对高可用在制造业的应用和实施进行详细描述。 1.1 可用性(Availability)定义

高可用系列文章之二 - 传统分层架构技术方案

前文链接 高可用系列文章之一 - 概述 - 东风微鸣技术博客 (ewhisper.cn) 三 技术方案 3.1 概述 单点是系统高可用最大的风险和敌人,应该尽量在系统设计的过程中避免单点。 保障系统的高可用, 方法论上,高可用保证的原则是「集群化」(或 「冗余」), 只有一个单点,该单点宕机所有服务

高可用系列文章之三 - NGINX 高可用实施方案

前文链接 高可用系列文章之一 - 概述 - 东风微鸣技术博客 (ewhisper.cn) 高可用系列文章之二 - 传统分层架构技术方案 - 东风微鸣技术博客 (ewhisper.cn) 四 NGINX 高可用实施方案 高可用的实施, 主要步骤概述如下: NGINX 的安装及基础配置 负载均衡层高可用