OLOR:已开源,向预训练权值对齐的强正则化方法 | AAAI 2024

随着预训练视觉模型的兴起,目前流行的视觉微调方法是完全微调。由于微调只专注于拟合下游训练集,因此存在知识遗忘的问题。论文提出了基于权值回滚的微调方法OLOR(One step Learning, One step Review),把权值回滚项合并到优化器的权值更新项中。这保证了上下游模型权值范围的一

CaiT:Facebook提出高性能深度ViT结构 | ICCV 2021

CaiT通过LayerScale层来保证深度ViT训练的稳定性,加上将特征学习和分类信息提取隔离的class-attention层达到了很不错的性能,值得看看 来源:晓飞的算法工程笔记 公众号 论文: Going deeper with Image Transformers 论文地址:https:/

DeepViT:字节提出深层ViT的训练策略 | 2021 arxiv

作者发现深层ViT出现的注意力崩溃问题,提出了新颖的Re-attention机制来解决,计算量和内存开销都很少,在增加ViT深度时能够保持性能不断提高 来源:晓飞的算法工程笔记 公众号 论文: DeepViT: Towards Deeper Vision Transformer 论文地址:https

算法金 | 时间序列预测真的需要深度学习模型吗?是的,我需要。不,你不需要?

大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」 参考 论文:https://arxiv.org/abs/2101.02118 更多内容,见微*公号往期文章: 审稿人:拜托,请把模型时间序列去趋势!! 使用 Python 快速上手 LS

DDP:微软提出动态detection head选择,适配计算资源有限场景 | CVPR 2022

DPP能够对目标检测proposal进行非统一处理,根据proposal选择不同复杂度的算子,加速整体推理过程。从实验结果来看,效果非常不错 来源:晓飞的算法工程笔记 公众号 论文: Should All Proposals be Treated Equally in Object Detectio

上周热点回顾(7.1-7.7)

热点随笔: · 程序员失业日记1:工作五年,交接半天 (小码A梦)· 学习.NET 8 MiniApis入门 (tokengo)· C#/.NET/.NET Core优秀项目和框架2024年6月简报 (追逐时光者)· 需求变更,代码改的像辣鸡 - 论代码质量 (2J)· 如何找到并快速上手一个开源项

更难、更好、更快、更强:LLM Leaderboard v2 现已发布

摘要 评估和比较大语言模型 (LLMs) 是一项艰巨的任务。我们 RLHF 团队在一年前就意识到了这一点,当时他们试图复现和比较多个已发布模型的结果。这几乎是不可能完成的任务:论文或营销发布中的得分缺乏可复现的代码,有时令人怀疑,大多数情况下只是通过优化的提示或评估设置来尽量提升模型表现。因此,他们

解密Prompt系列29. LLM Agent之真实世界海量API解决方案:ToolLLM & AnyTool

很早之前我们就聊过ToolFormer,Gorilla这类API调用的Agent范式,这一章我们针对真实世界中工具调用的以下几个问题,介绍微调(ToolLLM)和prompt(AnyTool)两种方案。 真实世界的API数量庞大且多样:之前的多数工具调用论文,工具数量有限,工具相对简单具体,并且往往

PeLK:101 x 101 的超大卷积网络,同参数量下反超 ViT | CVPR 2024

最近,有一些大型内核卷积网络的研究,但考虑到卷积的平方复杂度,扩大内核会带来大量的参数,继而引发严重的优化问题。受人类视觉的启发,论文提出了外围卷积,通过参数共享将卷积的复杂性从 \(O(K^{2})\) 降低到 \(O(\mathrm{log} K)\),有效减少 90% 以上的参数数量并设法将内

含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入)

所谓文无第一,武无第二,云原生人工智能技术目前呈现三足鼎立的态势,微软,谷歌以及亚马逊三大巨头各擅胜场,不分伯仲,但目前微软Azure平台不仅仅只是一个PaaS平台,相比AWS,以及GAE,它应该是目前提供云计算人工智能服务最全面的一个平台,尤其是语音合成领域,论AI语音的平顺、自然以及拟真性,无平

基于drawio构建流程图编辑器

# 基于drawio构建流程图编辑器 `drawio`是一款非常强大的开源在线的流程图编辑器,支持绘制各种形式的图表,提供了`Web`端与客户端支持,同时也支持多种资源类型的导出。 ## 描述 在我们平时写论文、文档时,为了更好地阐述具体的步骤和流程,我们经常会有绘制流程图的需求,这时我们可能会想到

[转帖]Paxos分布式系统共识算法?我愿称其为点歌算法…

http://blog.itpub.net/70024922/viewspace-2927330/ 分布式系统共识算法Paxos相信大家都不陌生,它被称为最难理解的算法不是没有道理的,首先,它的发表之路就充满了坎坷。 1990年,莱斯利·兰伯特大佬写了一篇论文,举了一个城邦选举的例子来介绍Paxos

[转帖]什么是HBase?终于有人讲明白了

http://blog.itpub.net/70024420/viewspace-2929074/ 初识HBase HBase 是一个面向列式存储的分布式数据库,其设计思想来源于 Google 的 BigTable 论文。HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper

[转帖]我国国防部组建的四个研究院,为什么存在时间很短?

https://www.163.com/dy/article/H4TQ7F6O0542ONZJ.html 作者:中国探长国防部研究院成立的背景1956年3月,在***、陈毅、李富春、聂荣臻等领导下,600多位科学家、近百名苏联专家,历时数月反复论证,终于在当年8月形成了“十二年科学技术发展远景规划纲

[转帖]台积电3nm工艺细节曝光

https://weibo.com/ttarticle/p/show?id=2309404853901739557561&sudaref=www.baidu.com ​​2023年1月3日消息,据Semiwiki报道,台积电在 2022 年 IEDM 上发表了两篇关于 3nm 的论文:“关键工艺特性

[转帖]从SSTable到LSM-Tree之二

https://zhuanlan.zhihu.com/p/103968892 背景 LSM-Tree (Log Structured Merge Tree),日志结构合并树。它在 1996 年由论文《The Log-Structured Merge-Tree (LSM-Tree) 》[1]首次提出,

累积推理技术提升准确率

转载:图灵奖得主姚期智领衔提出大模型「思维」框架!逻辑推理正确率达98%,思考方式更像人类了 前言 近日我国图灵奖得主姚期智院士团队发表首篇大语言模型论文,主要解决“让大模型像人一样思考”的问题,不仅要让大模型一步步推理,还要让它们学会“步步为营”,记住推理中间的所有正确过程。具体来说,这篇新论文提

解密Prompt系列16. LLM对齐经验之数据越少越好?LTD & LIMA & AlpaGasus

总结下指令微调、对齐样本筛选相关的方案包括LIMA,LTD等。论文都是以优化指令样本为核心,提出对齐阶段的数据质量优于数量,少量+多样+高质量的对齐数据,就能让你快速拥有效果杠杠的模型

OctConv:八度卷积复现

摘要:不同于传统的卷积,八度卷积主要针对图像的高频信号与低频信号。 本文分享自华为云社区《OctConv:八度卷积复现》,作者:李长安 。 论文解读 八度卷积于2019年在论文《Drop an Octave: Reducing Spatial Redundancy in Convolutional

深度Q网络:DQN项目实战CartPole-v0

摘要:相比于Q learning,DQN本质上是为了适应更为复杂的环境,并且经过不断的改良迭代,到了Nature DQN(即Volodymyr Mnih发表的Nature论文)这里才算是基本完善。 本文分享自华为云社区《强化学习从基础到进阶-案例与实践[4.1]:深度Q网络-DQN项目实战CartP