与#gpu#相关的内容第2页 - PmDaddy

全部分类数据库前端云计算

贝壳找房: 为 AI 平台打造混合多云的存储加速底座

贝壳机器学习平台的计算资源，尤其是 GPU，主要依赖公有云服务，并分布在不同的地理区域。为了让存储可以灵活地跟随计算资源，存储系统需具备高度的灵活性，支持跨区域的数据访问和迁移，同时确保计算任务的连续性和高效性；此外，随着数据量的增长，元数据管理的压力也在逐渐加大。贝壳机器学习平台团队从去年开始对

【OpenVINO™】基于 C# 和 OpenVINO™ 部署 Blazeface 模型实现人脸检测

Blazeface模型是Google推出的一款专为移动GPU推理量身定制的轻量级且性能卓越的人脸检测器，BlazeFace 在旗舰移动设备上以200-1000 + FPS的速度运行。在本文中，我们将使用OpenVINO™ C# API 部署 Blazeface 实现人脸检测。

[转帖]大模型训练，英伟达Turing、Ampere和Hopper算力分析

https://www.eet-china.com/mp/a219195.html 大 GPU 优势在于通过并行计算实现大量重复性计算。GPGPU即通用GPU，能够帮助 CPU 进行非图形相关程序的运算。在类似的价格和功率范围内，GPU 能提供比CPU 高得多的指令吞吐量和内存带宽。GPGPU 架构

[转帖]英伟达H100市面价格飙升！Elon Musk：每个人都在买GPU

https://cj.sina.com.cn/articles/view/5115326071/130e5ae7702001w8oz?sudaref=www.baidu.com&display=0&retcode=0 据外媒CNBC报道，随着对训练和部署人工智能软件所需芯片需求的飙升，英伟达的最先进

可视化学习：如何用WebGL绘制3D物体

在学习2D绘图的时候，我们提过很多次关于GPU的高效渲染，但是2D图形的绘制只展示了WebGL部分的能力，WebGL更强大的地方在于，它可以绘制各种3D图形，而3D图形能够极大地增强可视化的表现能力。相信很多小伙伴都对此有所耳闻，也有不少人学习WebGL，就是冲着它的3D绘图能力。接下来，文本就用一...

Win11系统下的MindSpore环境搭建

本文介绍了一个在Win11系统下，通过WSL2+Docker+VSCode的方案搭建了一个mindspore-gpu的编程环境。这种方案既可以实现Linux系统编程以及部署的便捷性，又可以兼顾Windows系统强大的办公软件生态，甚至还可以借助Docker达到一定的软件可迁移性和可复制性。

[转帖]解读CPU架构：X86、ARM、MIPS、IRSC-V、CISC

https://www.cnblogs.com/zhangxinglong/p/15019549.html CPU发挥“大脑”的功能，负责数据的处理和运算， CPU 与 GPU 、内存、硬盘和网卡间并不能直接通信，需要通过内存控制芯片、 PCIe 控制芯片和 I/O 处理芯片等实现，这类通信协调芯片

使用Triton部署chatglm2-6b模型

一、技术介绍 NVIDIA Triton Inference Server是一个针对CPU和GPU进行优化的云端和推理的解决方案。支持的模型类型包括TensorRT、TensorFlow、PyTorch(meta-llama/Llama-2-7b)、Python(chatglm)、ONNX Run

英伟达又向开源迈了一步「GitHub 热点速览」

大家是否还记得 2012 年，Linux 之父 Linus Torvalds 在一次活动中“愤怒”地表达了对英伟达闭源 Linux GPU 驱动的不满？这个场景曾是热门表情包，程序员人手一个。

LLM推理 - Nvidia TensorRT-LLM 与 Triton Inference Server

1. LLM部署-TensorRT-LLM与Triton 随着LLM越来越热门，LLM的推理服务也得到越来越多的关注与探索。在推理框架方面，tensorrt-llm是非常主流的开源框架，在Nvidia GPU上提供了多种优化，加速大语言模型的推理。但是，tensorrt-llm仅是一个推理框架，可以

将强化学习重新引入 RLHF

我们很高兴在 TRL 中介绍 RLOO (REINFORCE Leave One-Out) 训练器。作为一种替代 PPO 的方法，RLOO 是一种新的在线 RLHF 训练算法，旨在使其更易于访问和实施。特别是， RLOO 需要的 GPU 内存更少，并且达到收敛所需的挂钟时间也更短。如下面的图表所示:

cuda性能优化-2.访存优化

在CUDA程序中, 访存优化个人认为是最重要的优化项. 往往kernel会卡在数据传输而不是计算上, 为了最大限度利用GPU的计算能力, 我们需要根据GPU硬件架构对kernel访存进行合理的编写.

Nivdia向量数据库图检索最新标杆——CAGRA

本文连接：https://wanger-sjtu.github.io/CARGA/ CAGRA 是 N社在RAFT项目中最新的 ANN 向量索引。这是一种高性能的、 GPU 加速的、基于图的方法，尤其是针对小批量情况进行了优化，其中每次查找只包含一个或几个查询向量。与其他像HNSW、SONG等这

改造 Kubernetes 自定义调度器

原文出处：改造 Kubernetes 自定义调度器 | Jayden's Blog (jaydenchang.top) Overview Kubernetes 默认调度器在调度 Pod 时并不关心特殊资源例如磁盘、GPU 等，因此突发奇想来改造调度器，在翻阅官方调度器框架[1]、调度器配置[2]和参

Pytorch入门—Tensors张量的学习

Tensors张量的学习张量是一种特殊的数据结构，与数组和矩阵非常相似。在PyTorch中，我们使用张量来编码模型的输入和输出，以及模型的参数。张量类似于NumPy的ndarrays，只是张量可以在GPU或其他硬件加速器上运行。事实上，张量和NumPy数组通常可以共享相同的底层内存，从而无需复制

LLM优化：开源星火13B显卡及内存占用优化

本文主要是针对开源星火13B的显存及内存占用过大的一个代码优化。核心思想是使用CPU预加载模型，再转换至GPU。

Pytorch DistributedDataParallel（DDP）教程二：快速入门实践篇

一、简要回顾DDP 在上一篇文章中，简单介绍了Pytorch分布式训练的一些基础原理和基本概念。简要回顾如下： 1，DDP采用Ring-All-Reduce架构，其核心思想为：所有的GPU设备安排在一个逻辑环中，每个GPU应该有一个左邻和一个右邻，设备从它的左邻居接收数据，并将数据汇总后发送给右邻。

[转帖]英特尔正式发布第四代Xeon至强可扩展处理器，Intel7工艺；i9-13900KS首秀，开箱即用六个G

https://new.qq.com/rain/a/20230111A06IFM00 11 日消息，英特尔今日正式发布了第四代至强可扩展处理器（代号 Sapphire Rapids）和至强 CPU Max 系列（代号 Sapphire Rapids HBM），以及英特尔数据中心 GPU Max 系列

【转帖】Ethernet 与 Infiniband的网络特性对比

一、两者定位以太网(Ethernet)：应用最广泛，是最成熟的网络互联技术，也是整个互联网络大厦的基石，兼容性非常好，可实现不同的系统之间的互连互通 IB（Infiniband）：领域很专，作为高带宽，低时延，高可靠的网络互联技术，在HPC集群领域广泛应用，同时，也是GPU服务器首选的网络互联

[转帖]NVIDIA超级AI服务器NVIDIA DGX GH200性能介绍

https://zhuanlan.zhihu.com/p/633219396 2023 年 5 月 28 日NVIDIA宣布推出 NVIDIA DGX GH200，这是首款 100 TB级别的GPU 内存系统。据英伟达称，Meta、微软和谷歌已经部署了这些集群，预计在 2023 年底之前全面上市。

# 热门排行

微软 New Bing AI 申请与使用保姆级教程（免魔法） ChatGPT API使用介绍 ChatGPT开发实战一篇带你了解如何使用纯前端类Excel表格构建现金流量表手把手教你玩转 Excel 数据透视表为什么 C# 可能是最好的第一编程语言 .NET 入门到高级路线提高工作效率的神器：基于前端表格实现Chrome Excel扩展插件 React + Springboot + Quartz，从0实现Excel报表自动化用Echarts实现前端表格引用从属关系可视化