与#训练#相关的内容第4页 - PmDaddy

全部分类数据库前端云计算

CaiT：Facebook提出高性能深度ViT结构 | ICCV 2021

CaiT通过LayerScale层来保证深度ViT训练的稳定性，加上将特征学习和分类信息提取隔离的class-attention层达到了很不错的性能，值得看看来源：晓飞的算法工程笔记公众号论文: Going deeper with Image Transformers 论文地址：https:/

[大数据][机器学习]之Model Card（模型卡片）介绍

每当我们在公有云或者私有云发布训练好的大数据模型，为了方便大家辨识、理解和运用，参照huggingface所制定的标准制作一个Model Card展示页，是种非常好的模型展示和组织形式。下面就是一个Model Card 的示例，我试着把它翻译成了中文，源网址，并且提供了Markdown的模板，供大

ONNX Runtime入门示例：在C#中使用ResNet50v2进行图像识别

ONNX Runtime简介 ONNX Runtime 是一个跨平台的推理和训练机器学习加速器。ONNX 运行时推理可以实现更快的客户体验和更低的成本，支持来自深度学习框架（如 PyTorch 和 TensorFlow/Keras）以及经典机器学习库（如 scikit-learn、LightGBM、

基于cifar数据集合成含开集、闭集噪声的数据集

前言噪声标签学习下的一个任务是：训练集上存在开集噪声和闭集噪声；然后在测试集上对闭集样本进行分类。训练集中被加入的开集样本，会被均匀得打上闭集样本的标签充当开集噪声；而闭集噪声的设置与一般的噪声标签学习一致，分为对称噪声：随机将闭集样本的标签替换为其他类别；和非对称噪声：将闭集样本的标签替换为特

详解联邦学习中的异构模型集成与协同训练技术

本文将详细介绍联邦学习中的异构模型集成与协同训练技术，包括基本概念、技术挑战、常见解决方案以及实际应用，结合实例和代码进行讲解。

大模型高效微调-LoRA原理详解和训练过程深入分析

博客首发于我的知乎，详见：https://zhuanlan.zhihu.com/p/702629428 一、LoRA原理 LoRA(Low-Rank Adaptation of LLMs)，即LLMs的低秩适应，是参数高效微调最常用的方法。 LoRA的本质就是用更少的训练参数来近似LLM全参数微调所

一文教你在MindSpore中实现A2C算法训练

文中的配置定义了 Actor-Critic 算法在 MindSpore 框架中的具体实现，包括 Actor 和 Learner 的设置、策略和网络的参数，以及训练和评估环境的配置。

昇腾开发全流程之 MindSpore华为云模型训练

学会如何安装配置华为云ModelArts、开发板Atlas 200I DK A2，并打通一个训练到推理的全流程思路。 > 在本篇章，首先我们开始进入训练阶段！

MindSpore强化学习：使用PPO配合环境HalfCheetah-v2进行训练

本文分享自华为云社区《MindSpore强化学习：使用PPO配合环境HalfCheetah-v2进行训练》，作者： irrational。半猎豹（Half Cheetah）是一个基于MuJoCo的强化学习环境，由P. Wawrzyński在“A Cat-Like Robot Real-Time L

在 win11 下搭建并使用 ubuntu 子系统（同时测试 win10)——（附带深度学习环境搭建）

对于一个深度学习从事者来说，Windows训练模型有着诸多不便，还好现在Windows的Ubuntu子系统逐渐完善，近期由于工作需求，配置了Windows的工作站，为了方便起见，搭建了Ubuntu子系统，网上教程比较多，但是都或多或少存在一些小问题（也许是他们没有遇到），于是我自己在尝试中，将自己

民谣女神唱流行，基于AI人工智能so-vits库训练自己的音色模型(叶蓓/Python3.10)

流行天后孙燕姿的音色固然是极好的，但是目前全网都是她的声音复刻，听多了难免会有些审美疲劳，在网络上检索了一圈，还没有发现民谣歌手的音色模型，人就是这样，得不到的永远在骚动，本次我们自己构建训练集，来打造自己的音色模型，让民谣女神来唱流行歌曲，要多带劲就有多带劲。构建训练集训练集是指用于训练神经网

【转帖】千亿参数大模型首次被撬开！Meta复刻GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

https://cloud.tencent.com/developer/article/1991011 千亿级参数AI大模型，竟然真的能获取代码了？！一觉醒来，AI圈发生了一件轰动的事情—— Meta AI开放了一个“重达”1750亿参数的大语言模型OPT-175B，不仅参数比GPT-3的3750

[转帖]GPT4All 一个开源 ChatGPT

https://zhuanlan.zhihu.com/p/618947904 通用预训练语言模型. ChatGPT 正在迅速发展与传播，新的大型语言模型 (LLM) 正在以越来越快的速度开发。就在过去几个月，有了颠覆性的 ChatGPT 和现在的 GPT-4。明确定义，GPT 代表（Generati

中文命名实体识别

本文通过people_daily_ner数据集，介绍两段式训练过程，第一阶段是训练下游任务模型，第二阶段是联合训练下游任务模型和预训练模型，来实现中文命名实体识别任务。一.任务和数据集介绍 1.命名实体识别任务 NER（Named Entity Recognition）和Pos（Part-of-S

Llama2-Chinese项目：8-TRL资料整理

TRL（Transformer Reinforcement Learning）是一个使用强化学习来训练Transformer语言模型和Stable Diffusion模型的Python类库工具集，听上去很抽象，但如果说主要是做SFT（Supervised Fine-tuning）、RM（Reward

PreSTU：一个专门为场景文本理解而设计的简单预训练模型

摘要：在视觉与语言（V&L）模型中，阅读和推理图像中的文本的能力往往是缺乏的。我们如何才能学习出强大的场景文本理解（STU）的V&L模型呢？本文分享自华为云社区《场景文本理解预训练PreSTU》，作者： Hint 。【论文摘要】在视觉与语言（V&L）模型中，阅读和推理图像中的文本的能力往往是缺

论文复现丨基于ModelArts实现Text2SQL

摘要：该论文提出了一种基于预训练 BERT 的新神经网络架构，称为 M-SQL。基于列的值提取分为值提取和值列匹配两个模块。本文分享自华为云社区《基于ModelArts实现Text2SQL》，作者：HWCloudAI。 M-SQL: Multi-Task Representation Learni

Dive into TensorFlow系列（1）-静态图运行原理

接触过TensorFlow v1的朋友都知道，训练一个TF模型有三个步骤：定义输入和模型结构，创建tf.Session实例sess，执行sess.run()启动训练。不管是因为历史遗留代码或是团队保守的建模规范，其实很多算法团队仍在大量使用TF v1进行日常建模。我相信很多算法工程师执行sess.run()不下100遍，但背后的运行原理大家是否清楚呢？不管你的回答是yes or no，今天让我们一

DeepSpeed框架：1-大纲和资料梳理

DeepSpeed是一个深度学习优化软件套件，使分布式训练和推理变得简单、高效和有效。它可以做些什么呢？训练/推理具有数十亿或数万亿参数的密集或稀疏模型；实现出色的系统吞吐量并有效扩展到数千个GPU；在资源受限的GPU系统上进行训练/推理；实现前所未有的低延迟和高吞吐量的推理；以低成本实现极限压缩，

Llama2-Chinese项目：3.2-LoRA微调和模型量化

提供LoRA微调和全量参数微调代码，训练数据为data/train_sft.csv，验证数据为data/dev_sft.csv，数据格式为"Human: "+问题+"\nAssistant: "+答案。本文主要介绍Llama-2-7b模型LoRA微调以及4bit量化的实践过程。

# 热门排行

微软 New Bing AI 申请与使用保姆级教程（免魔法） ChatGPT API使用介绍 ChatGPT开发实战一篇带你了解如何使用纯前端类Excel表格构建现金流量表手把手教你玩转 Excel 数据透视表为什么 C# 可能是最好的第一编程语言 .NET 入门到高级路线提高工作效率的神器：基于前端表格实现Chrome Excel扩展插件 React + Springboot + Quartz，从0实现Excel报表自动化用Echarts实现前端表格引用从属关系可视化