与#transformer#相关的内容第2页 - PmDaddy

全部分类数据库前端云计算

带你上手基于Pytorch和Transformers的中文NLP训练框架

基于pytorch、transformers做中文领域的nlp开箱即用的训练框架，提供全套的训练、微调模型（包括大模型、文本转向量、文本生成、多模态等模型）的解决方案。

MViT：性能杠杠的多尺度ViT | ICCV 2021

论文提出了多尺度视觉Transformer模型MViT，将多尺度层级特征的基本概念与Transformer模型联系起来，在逐层扩展特征复杂度同时降低特征的分辨率。在视频识别和图像分类的任务中，MViT均优于单尺度的ViT。来源：晓飞的算法工程笔记公众号论文: Multiscale Vision

全球首个面向遥感任务设计的亿级视觉Transformer大模型

深度学习在很大程度上影响了遥感影像分析领域的研究。然而，大多数现有的遥感深度模型都是用ImageNet预训练权重初始化的，其中自然图像不可避免地与航拍图像相比存在较大的域差距，这可能会限制下游遥感场景任务上的微调性能。

ViTPose+：迈向通用身体姿态估计的视觉Transformer基础模型

京东探索研究院联合悉尼大学在这方面做出了探索，提出了基于简单视觉transformer的姿态估计模型ViTPose和改进版本ViTPose+。ViTPose系列模型在MS COCO多个人体姿态估计数据集上达到了新的SOTA和帕累托前沿。

GAIA: 一个严苛的智能体基准

简要概括经过一些实验，我们对 Transformers 智能体构建智能体系统的性能印象深刻，因此我们想看看它有多好！我们使用一个用库构建的代码智能体在 GAIA 基准上进行测试，这可以说是最困难、最全面的智能体基准测试……最终我们取得了第一名的成绩！ GAIA: 一个严苛的智能体基准什么是智

PVT：特征金字塔在Vision Transormer的首次应用，又快又好 | ICCV 2021

论文设计了用于密集预测任务的纯Transformer主干网络PVT，包含渐进收缩的特征金字塔结构和spatial-reduction attention层，能够在有限的计算资源和内存资源下获得高分辨率和多尺度的特征图。从物体检测和语义分割的实验可以看到，PVT在相同的参数数量下比CNN主干网络更强大

DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒 | 京东探索研究院

针对场景文本检测任务，近期基于DEtection TRansformer (DETR) 框架预测控制点的研究工作较为活跃。在基于DETR的检测器中，query的构建方式至关重要，现有方法中较为粗糙的位置先验信息构建导致了较低的训练效率以及性能。除此之外，在如何监督模型方面，之前工作中使用的点标签形式

[转帖]聊聊Chat GPT-1到GPT-4的发展历程

http://blog.itpub.net/69925873/viewspace-2935360/ OpenAI的Generative Pre-trained Transformer(GPT)模型通过引入非常强大的语言模型，在自然语言处理(NLP)领域引起了巨大震动。这些模型可以执行各种NLP任务，

原创->CommonsCollections1-DefaultMap链

今天我打算整点儿不一样的内容，通过之前学习的TransformerMap和LazyMap链，想搞点不一样的，所以我关注了另外一条链DefaultedMap链，主要调用链为：调用链详细描述： ObjectInputStream.readObject() DefaultedMap.readObject

CeiT：商汤提出结合CNN优势的高效ViT模型 | 2021 arxiv

论文提出CeiT混合网络，结合了CNN在提取低维特征方面的局部性优势以及Transformer在建立长距离依赖关系方面的优势。CeiT在ImageNet和各种下游任务中达到了SOTA，收敛速度更快，而且不需要大量的预训练数据和额外的CNN蒸馏监督，值得借鉴来源：晓飞的算法工程笔记公众号论文:

前端使用 Konva 实现可视化设计器（5）

关于第三章提到的 selectingNodesArea，在后续的实现中已经精简掉了。而 transformer 的 dragBoundFunc 中的逻辑，也直接移动 transformer 的 dragmove 事件中处理。请大家动动小手，给我一个免费的 Star 吧~ 这一章花了比较多的时间调

一文为你深度解析LLaMA2模型架构

本文对比LLaMA1和 LLaMA2模型的技术细节，了解LLaMA2模型的内部核心算法，包括与Transformers架构的差异，以及LLaMA2与国内大模型的异同，进一步加深了大家对LLaMA的理解。

DeepViT：字节提出深层ViT的训练策略 | 2021 arxiv

作者发现深层ViT出现的注意力崩溃问题，提出了新颖的Re-attention机制来解决，计算量和内存开销都很少，在增加ViT深度时能够保持性能不断提高来源：晓飞的算法工程笔记公众号论文: DeepViT: Towards Deeper Vision Transformer 论文地址：https

[转帖]ChatGPT研究框架（2023）

https://www.eet-china.com/mp/a226595.html ChatGPT是基于OpenAI公司开发的InstructGPT模型的对话系统，GPT系列模型源自2017年诞生的Transformer模型，此后大模型数量激增，参数量进入千亿时代，国内百度也发布了ERNIE系列模型

CaiT：Facebook提出高性能深度ViT结构 | ICCV 2021

CaiT通过LayerScale层来保证深度ViT训练的稳定性，加上将特征学习和分类信息提取隔离的class-attention层达到了很不错的性能，值得看看来源：晓飞的算法工程笔记公众号论文: Going deeper with Image Transformers 论文地址：https:/

动手学Avalonia：基于硅基流动构建一个文生图应用（一）

文生图文生图，全称“文字生成图像”（Text-to-Image），是一种AI技术，能够根据给定的文本描述生成相应的图像。这种技术利用深度学习模型，如生成对抗网络（GANs）或变换器（Transformers），来理解和解析文本中的语义信息，并将其转化为视觉表现。文生图可以用于创意设计、图像编辑、虚

快速调用 GLM-4-9B-Chat 语言模型

一、确认本机显卡配置二、下载大模型国内可以从魔搭社区下载，下载地址：https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat/files 三、运行官方代码 import torch from transformers import AutoModel

基于Python和TensorFlow实现BERT模型应用

本文分享自华为云社区《使用Python实现深度学习模型：BERT模型教程》，作者： Echo_Wish。 BERT（Bidirectional Encoder Representations from Transformers）是Google提出的一种用于自然语言处理（NLP）的预训练模型。BERT

在英特尔至强 CPU 上使用 Optimum Intel 实现超快 SetFit 推理

在缺少标注数据场景，SetFit 是解决的建模问题的一个有前途的解决方案，其由 Hugging Face 与 Intel 实验室以及 UKP Lab 合作共同开发。作为一个高效的框架，SetFit 可用于对 Sentence Transformers 模型进行少样本微调。 SetFit 仅需很少的

什么是HuggingFace

一.HuggingFace简介 1.HuggingFace是什么可以理解为对于AI开发者的GitHub，提供了模型、数据集（文本|图像|音频|视频）、类库（比如transformers|peft|accelerate）、教程等。 2.为什么需要HuggingFace 主要是HuggingFace把

# 热门排行

微软 New Bing AI 申请与使用保姆级教程（免魔法） ChatGPT API使用介绍 ChatGPT开发实战一篇带你了解如何使用纯前端类Excel表格构建现金流量表手把手教你玩转 Excel 数据透视表为什么 C# 可能是最好的第一编程语言 .NET 入门到高级路线提高工作效率的神器：基于前端表格实现Chrome Excel扩展插件 React + Springboot + Quartz，从0实现Excel报表自动化用Echarts实现前端表格引用从属关系可视化