deepspeed 训练多机多卡报错 ncclSystemError Last error

最近在搞分布式训练大模型,踩了两个晚上的坑今天终于爬出来了 我们使用 2台 8*H100 遇到过 错误1 10.255.19.85: ncclSystemError: System call (e.g. socket, malloc) or external library call failed

IDEA的Ctrl+Enter补全代码失效

## 前景提示 * IDEA有个ctrl+enter可以补全代码的功能,但是,今天突然失效了,原来是这个问题. ## 修改配置 * 进入setting修改 ![](https://img2023.cnblogs.com/blog/994129/202307/994129-20230721164840

[转帖]macOS Monterey 12.1 (21C52) 正式版 ISO、IPSW、PKG 下载

https://sysin.org/blog/macOS-Monterey-12-1/ 2021 年 6 月 8 日,在今天凌晨举行的 Apple WWDC 2021 大会上,苹果公司正式发布了 macOS Monterey。新版操作系统新功能及特性如下: 照片、消息和更多升级共享 iOS 和 iP

[转帖]关于统信UOS操作系统版本介绍

https://blog.csdn.net/qq43748322/article/details/120196200 当下信创产业发展的如火如荼,今天聊聊统信操作系统UOS 相比较于其它国内品牌操作系统,统信UOS的版本、分支比较多,下面为大家详细说说各UOS版本 目前统信UOS系统主要分为桌面版和

Springboot下micrometer+prometheus+grafana进行JVM监控的操作过程

Springboot下micrometer+prometheus+grafana进行JVM监控的操作过程 背景 同事今天提交了一个补丁. 给基于Springboot的产品增加了micrometer等收集jvm信息的工具 但是这边springboot的版本比较高,导致有异常. 启动直接失败了. 晚上九

CentOS7升级Glibc到超过2.17版本无法启动的解决办法

CentOS7升级Glibc到超过2.17版本无法启动的解决办法 背景 今天有同事告知服务器宕机无法启动. 提示信息为: [sda] Assuming drive cache: write through 后系统没有任何反应. 一开始同事说没有做任何处理, 突然至此 我感觉比较奇怪.然后进行了一下简

[转帖]操作系统专家解读 openEuler 22.09 最新技术特性

https://linux.cn/article-15326-1.html 前不久,欧拉社区发布了今年的创新版本 openEuler 22.09。作为欧拉社区贡献给开放原子开源基金会后的首个创新版本,此版本中新增了 2012 万行代码,其中仅在 Linux 内核上就新增了 4.8 万行代码,全量代码

[转帖]分布式必备理论基础:CAP和BASE

http://blog.itpub.net/70024420/viewspace-2926174/ 大家好,我是老三,今天是没有刷题的一天,心情愉悦,给大家分享两个简单的知识点:分布式理论中的CAP和BASE。 CAP理论 什么是CAP CAP原则又称CAP定理,指的是在一个分布式系统中,Consi

[转帖]twemproxy架构分析——剖析twemproxy代码前编

https://www.cnblogs.com/wzj4858/p/15853846.html twemproxy背景 在业务量剧增的今天,单台高速缓存服务器已经无法满足业务的需求, 而相较于大容量SSD数据存储方案,缓存具备速度和成本优势,但也存在数据安全性的挑战。为此搭建一个高速缓存服务器集群来

[转帖]twemproxy架构分析——剖析twemproxy代码前编

https://www.cnblogs.com/onlyac/p/6262096.html twemproxy背景 在业务量剧增的今天,单台高速缓存服务器已经无法满足业务的需求, 而相较于大容量SSD数据存储方案,缓存具备速度和成本优势,但也存在数据安全性的挑战。为此搭建一个高速缓存服务器集群来进行

[转帖]Intel正式发布第三代至强可扩展处理器,单芯最多可达40核

https://baijiahao.baidu.com/s?id=1673640229820868010&wfr=spider&for=pc 今天晚上Intel正式发布了第三代至强可扩展处理器,也就是说了很久的Ice Lake-SP,这是他们首款10nm工艺的数据中心处理器,现在个处理器最多拥有40

[转帖]在 CentOS 7 上安装并配置 Python 3.6环境

https://www.jianshu.com/p/b978e46de442 拖了很久没有更新,抱歉啦~ 今天受邀写篇如何在 CentOS 7 上配置 Python 3 环境的文章。往常我都选择直接把我早年写的一篇文章《源码编译MongoDB》丢过去,让他们看其中的源码编译 Python 那一节,不

[转帖]《服务器应用场景性能测试方法 虚拟化》解读

《服务器应用场景性能测试方法 虚拟化》解读 https://aijishu.com/a/1060000000343436 今天为大家带来《服务器应用场景性能测试方法 虚拟化》的详细解读。 《服务器应用场景性能测试方_虚拟化》起草单位包括中国电子技术标准化研究院、云宏信息科技股份有限公司、飞腾信息技术

[转帖]内存随机访问也比顺序慢,带你深入理解内存IO过程

https://zhuanlan.zhihu.com/p/86513504 平时大家都知道内存访问很快,今天来让我们来思考两个问题: 问题1: 内存访问一次延时到底是多少?你是否会进行大概的估算? 例如笔者的内存条的Speed显示是1066MHz,那是否可以推算出内存IO延时是1s/1066MHz=

Python学习之十八_获取神通数据库所有的表数据量

# Python学习之十八_获取神通数据库所有的表数据量 ## 背景 ``` 今天想获取一下所有数据库的表信息.但是发现神通数据库的系统表里面的表信息不正确 无法获取实际意义的表信息. 联系了下神通数据库的原厂高手. 给了一个存储过程可以进行相关的处理. 因为最近学习python(放下一周就忘记的七

[转帖]Linux-find命令报错: missing argument to `-exec'

https://www.cnblogs.com/yeyuzhuanjia/p/17427143.html 报错提示:find: missing argument to `-exec' 今天写一个清理脚本,用到了find命令。本来是这么写的: find . -type f -mtime +7 -nam

开源.NetCore通用工具库Xmtool使用连载 - 加密解密篇

【Github源码】 《上一篇》详细介绍了Xmtool工具库中的正则表达式类库,今天我们继续为大家介绍其中的加密解密类库。 在开发过程中我们经常会遇到需要对数据进行加密和解密的需求,例如密码的加密、接口传输数据的加密等;当前类库中只封装了Base64、AES两种加密解密方法,因为C#提供了几乎我们能

开源.NetCore通用工具库Xmtool使用连载 - 散列算法篇

【Github源码】 《上一篇》详细介绍了Xmtool工具库中的加解密类库,今天我们继续为大家介绍其中的散列算法类库。 散列算法在某些特殊场景也可以当做加密方法使用;其特点是不可逆,同一内容每次散列值绝对一致,所以也可用作对数据内容是否被篡改的校验方法;或者其他需要唯一性编码的场景;本类库提供了MD

#Python pandas库,读取模块,代码笔记

日常数据清洗中,利用python清洗的第一步就是读取对应文件,今天一起复盘一下数据读取环节的常规操作。 csv和xlsx格式读取类似,所以用csv做案例 X-MIND图

如何辨别一个程序员水平的高低?

如何辨别一个程序员水平的高低?今天我们就这个话题,一起来做个讨论。 首先大家可以先短暂思考一下,程序员的水平高和低可以怎么辨别?高水平的程序员长什么样子,低水平的程序员又长什么样子?