与#训练营#相关的内容第2页 - PmDaddy

全部分类数据库前端云计算

deepspeed 训练多机多卡报错 ncclSystemError Last error

最近在搞分布式训练大模型，踩了两个晚上的坑今天终于爬出来了我们使用 2台 8*H100 遇到过错误1 10.255.19.85: ncclSystemError: System call (e.g. socket, malloc) or external library call failed

聊聊预训练模型的微调

翻译自：[Fine-tuning a model with the Trainer API](https://huggingface.co/learn/nlp-course/chapter3/3?fw=pt "Fine-tuning a model with the Trainer API") `T

[转帖]大模型训练，英伟达Turing、Ampere和Hopper算力分析

https://www.eet-china.com/mp/a219195.html 大 GPU 优势在于通过并行计算实现大量重复性计算。GPGPU即通用GPU，能够帮助 CPU 进行非图形相关程序的运算。在类似的价格和功率范围内，GPU 能提供比CPU 高得多的指令吞吐量和内存带宽。GPGPU 架构

如何训练开发者记忆能力

开发者和其他行业的从业人员一样，面对一个月前所完成的工作可能印象模糊，甚至不记得工作的内容。而不同于其他行业，开发者们则需要锻炼更好的抽象和文本记忆能力，来帮助他们在开发过程中更顺利地完成工作。在本篇文章中，我将和大家一起探讨如何培养开发人员的记忆能力，以及这类能力如何帮助开发人员更好地完成开发工

如何训练个人的ChatGpt4

如何在自己的计算机上安装类似 ChatGPT 的个人 AI 并在没有互联网的情况下运行它本文旨在为任何人安装此软件。最初它有一个视频，伴随着操作方法，但是事情变化很快，我的三次尝试只是推迟了我发表这篇文章。我以后可能会包括它。我努力创建一个简单的分步说明，为极端新手安装个人 AI。可能从未去过Gi

使用训练工具

HuggingFace上提供了很多已经训练好的模型库，如果想针对特定数据集优化，那么就需要二次训练模型，并且HuggingFace也提供了训练工具。一.准备数据集 1.加载编码工具加载hfl/rbt3编码工具如下所示： def load_encode(): # 1.加载编码工具 # 第6章/加载

OLOR：已开源，向预训练权值对齐的强正则化方法 | AAAI 2024

随着预训练视觉模型的兴起，目前流行的视觉微调方法是完全微调。由于微调只专注于拟合下游训练集，因此存在知识遗忘的问题。论文提出了基于权值回滚的微调方法OLOR（One step Learning, One step Review），把权值回滚项合并到优化器的权值更新项中。这保证了上下游模型权值范围的一

LLM并行训练6-激活优化

前置知识 Activation 激活指的是一些在fp时计算得到的临时tensor, 会用于bp时的计算. 如果能在fp计算后把临时tensor缓存下来就可以加速bp, 缺点在于激活会占用大量显存. 以一层transformer结构为例分析下各层存在的激活. 简单部分的分析这里忽略. 主要分析下几个不

使用ML.NET训练一个属于自己的图像分类模型，对图像进行分类就这么简单！

前言今天大姚给大家分享一个.NET开源、免费、跨平台（支持Windows、Linux、macOS多个操作系统）的机器学习框架：ML.NET。并且本文将会带你快速使用ML.NET训练一个属于自己的图像分类模型，对图像进行分类。 ML.NET框架介绍 ML.NET 允许开发人员在其 .NET 应用程序

神经网络图像数据训练集成应用 | 可视化图像处理 | 可视化训练器

〇、写在前面本应用基于开源UI框架PyDracula进行开发，除去最基本的UI框架外，所有功能的前后端实现都由我个人开发完成，但也有部分UI（如开关控件和进度条）是参考其他大佬的分享。这个应用是我的本科毕业设计，但因为个人能力不足，姑且只能使用Python+PySide6开发。开发这个应用的启

LLM并行训练4-megascale论文学习

算法优化并行注意力机制 \[串行版本: y = x + MLP(LayerNorm(x + Attention(LayerNorm(x)))) \]\[并行版本: y = x + MLP(LayerNorm(x)) + Attention(LayerNorm(x)))) \]乍一看确实不是等价的,

LLM并行训练3-数据并行

前置知识混合精度训练在参数存储时采取fp32, 开始进行fp/bp时转成fp16运算, 拿到fp16梯度后再转回fp32更新参数. ZeRO对显存占用的估算: 模型状态: Weights(fp16)、grad(fp16) 和 MasterWeights(fp32 模型参数备份)，momentum

用 Sentence Transformers v3 训练和微调嵌入模型

Sentence Transformers 是一个 Python 库，用于使用和训练各种应用的嵌入模型，例如检索增强生成 (RAG)、语义搜索、语义文本相似度、释义挖掘 (paraphrase mining) 等等。其 3.0 版本的更新是该工程自创建以来最大的一次，引入了一种新的训练方法。在这篇博

使用评价指标工具

评估一个训练好的模型需要评估指标，比如正确率、查准率、查全率、F1值等。当然不同的任务类型有着不同的评估指标，而HuggingFace提供了统一的评价指标工具。 1.列出可用的评价指标通过list_metrics()函数列出可用的评价指标： def list_metric_test(): # 第4

Llama2-Chinese项目：2.1-Atom-7B预训练

虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍，但是中文预训练数据的比例依然非常少，仅占0.13%，这也导致了原始Llama2的中文能力较弱。为了能够提升模型的中文能力，可以采用微调和预训练两种路径，其中：微调需要的算力资源少，能够快速实现一个中文Llama的雏形。但缺点也显而易见，

Llama2-Chinese项目：2.3-预训练使用QA还是Text数据集？

Llama2-Chinese项目给出pretrain的data为QA数据格式，可能会有疑问pretrain不应该是Text数据格式吗？而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术，给出pretrain的data为Text数据格式。所以推测应该pre

跨域推荐：嵌入映射、联合训练和解耦表征

跨域推荐旨在利用从其它相关源域收集的用户-物品交互信息以提升目标域的推荐质量。传统的跨域推荐方法常常基于嵌入和映射（Embedding and Mapping，EMCDR）的思路，这种方法在进行对齐操作之前，各领域需要先通过预训练以独立地得到用户/物品的embeddings。因此，有偏的（biased）预训练表征将无可避免地包含领域特有的（domain-specific）信息，从而会导致对跨

OCR -- 文本检测 - 训练DB文字检测模型

PaddleOCR提供DB文本检测算法，支持MobileNetV3、ResNet50_vd两种骨干网络，可以根据需要选择相应的配置文件，启动训练。本节以icdar15数据集、MobileNetV3作为骨干网络的DB检测模型（即超轻量模型使用的配置）为例，介绍如何完成PaddleOCR中文字检测模型的训练、评估与测试。

自然语言处理（NLP） - 前预训练时代的自监督学习

基础 [自然语言处理（NLP）](https://www.cnblogs.com/vipsoft/p/17450994.html) [自然语言处理PaddleNLP-词向量应用展示](https://www.cnblogs.com/vipsoft/p/17451860.html) [自然语言处理（N

自然语言处理 Paddle NLP - 预训练语言模型及应用

基础 [自然语言处理（NLP）](https://www.cnblogs.com/vipsoft/p/17450994.html) [自然语言处理PaddleNLP-词向量应用展示](https://www.cnblogs.com/vipsoft/p/17451860.html) [自然语言处理（N

# 热门排行

微软 New Bing AI 申请与使用保姆级教程（免魔法） ChatGPT API使用介绍 ChatGPT开发实战一篇带你了解如何使用纯前端类Excel表格构建现金流量表手把手教你玩转 Excel 数据透视表为什么 C# 可能是最好的第一编程语言 .NET 入门到高级路线提高工作效率的神器：基于前端表格实现Chrome Excel扩展插件 React + Springboot + Quartz，从0实现Excel报表自动化用Echarts实现前端表格引用从属关系可视化