【转帖】ChatGPT的前身:InstructGPT

chatgpt,前身,instructgpt · 浏览次数 : 0

小编点评

**RLHF (Reinforcement Learning from Human Feedback) 论文摘要** 该论文介绍了一种将人类反馈用于训练语言模型的方法,称为**RLHF**。该方法使用来自人类反馈的强化学习来调整语言模型和用户在广泛任务中的意图。 **主要步骤:** 1. 使用人类反馈收集模型训练数据。 2. 使用监督学习将模型微调为人类意图。 3. 使用强化学习从人类反馈中学习模型响应。 **主要结果:** * InstructGPT 模型的性能优于 175B GPT-3 模型。 * InstructGPT 模型显示出真实性和无毒输出的改善。 * InstructGPT 模型比 GPT-3 模型更难犯一些简单的错误。 **结论:** RLHF 是一个可以使语言模型与人类意图保持一致的方法。该方法可以用于训练语言模型,以生成更真实的和有意义的输出。

正文

https://www.jianshu.com/p/6daf35cbc46a

 

ChatGPT的论文目前还没有发布,在其官方博客(https://openai.com/blog/chatgpt/)中对方法有这样的简述:

我们使用来自人类反馈的强化学习(RLHF)来训练这个模型,使用与InstructionGPT相同的方法,但数据收集设置略有不同。我们使用有监督的微调训练了一个初始模型:人工智能训练师提供对话,他们扮演用户和人工智能助手的双方角色。我们让训练师获得模型书面建议,以帮助他们撰写回复。我们将这个新的对话数据集与InstructGPT数据集混合,并将其转换为对话格式。为了创建强化学习的奖励模型,我们需要收集比较数据,其中包括两个或多个按质量排序的模型响应。为了收集这些数据,我们进行了AI训练师与聊天机器人的对话。我们随机选择了一个模型撰写的消息,抽样了几个备选的完成,并让AI训练师对其进行排名。使用这些奖励模型,我们可以使用近端策略优化对模型进行微调。我们对这个过程进行了多次迭代。

We trained this model using Reinforcement Learning from Human Feedback (RLHF), using the same methods as InstructGPT, but with slight differences in the data collection setup. We trained an initial model using supervised fine-tuning: human AI trainers provided conversations in which they played both sides—the user and an AI assistant. We gave the trainers access to model-written suggestions to help them compose their responses. We mixed this new dialogue dataset with the InstructGPT dataset, which we transformed into a dialogue format.To create a reward model for reinforcement learning, we needed to collect comparison data, which consisted of two or more model responses ranked by quality. To collect this data, we took conversations that AI trainers had with the chatbot. We randomly selected a model-written message, sampled several alternative completions, and had AI trainers rank them. Using these reward models, we can fine-tune the model using Proximal Policy Optimization. We performed several iterations of this process.

 
来源:https://mp.weixin.qq.com/s/7N3HveaIfn2N-zKjBoRL1A

 

RLHF代码可参考:https://github.com/lucidrains/PaLM-rlhf-pytorch         5k stars

 

 

InstructGPT

标题:Training language models to follow instructions with human feedback

https://arxiv.org/abs/2203.02155

https://openai.com/blog/instruction-following/

使语言模型更大并不意味着它们能够更好地遵循用户的意图。例如,大型语言模型可以生成不真实、有毒或对用户毫无帮助的输出。换句话说,这些模型与其用户不一致。在这篇文章中,我们展示了一种通过微调人类反馈来调整语言模型和用户在广泛任务中的意图的方法。从一组标注者编写的提示和通过OpenAI API提交的提示开始,我们收集了所需模型行为的标注者演示数据集,我们使用该数据集使用监督学习来微调GPT-3。然后,我们收集了一个模型输出排序的数据集,我们使用该数据集使用来自人类反馈的强化学习来进一步微调这个受监督的模型。我们将生成的模型称为InstructGPT。在对我们的即时分布的人类评估中,1.3B参数InstructGPT模型的输出优于175B GPT-3的输出,尽管其参数少了100倍。此外,InstructionGPT模型显示了真实性的提高和有毒输出生成的减少,同时在公共NLP数据集上具有最小的性能回归。尽管InstructGPT仍然会犯一些简单的错误,但我们的结果表明,对人类反馈进行微调是使语言模型与人类意图保持一致的一个有希望的方向。

 
 

https://cdn.openai.com/instruction-following/draft-20220126f/methods.svg

http://zx.gd/academic/

与【转帖】ChatGPT的前身:InstructGPT相似的内容:

【转帖】ChatGPT的前身:InstructGPT

https://www.jianshu.com/p/6daf35cbc46a ChatGPT的论文目前还没有发布,在其官方博客(https://openai.com/blog/chatgpt/)中对方法有这样的简述: 我们使用来自人类反馈的强化学习(RLHF)来训练这个模型,使用与Instructi

[转帖]ChatGPT发展历程、原理、技术架构详解和产业未来 (收录于先进AI技术深度解读)

https://zhuanlan.zhihu.com/p/590655677 陈巍谈芯::本文将介绍ChatGPT的特点、功能、技术架构、局限、产业应用、投资机会和未来。作者本人曾担任华为系自然语言处理( NLP )企业的首席科学家。 ChatGPT的关键改进可以参考paper:Augmenting

【转帖】ChatGPT重塑Windows!微软王炸更新:操作系统全面接入,Bing也能用插件了

https://cloud.tencent.com/developer/article/2291078?areaSource=&traceId= 金磊 丰色 西风 发自 凹非寺 量子位 | 公众号 QbitAI 一夜之间,微软彻底重新定义了PC交互。 因为这一次,它把Bing和ChatGPT插件的能

[转帖]GPT4All 一个开源 ChatGPT

https://zhuanlan.zhihu.com/p/618947904 通用预训练语言模型. ChatGPT 正在迅速发展与传播,新的大型语言模型 (LLM) 正在以越来越快的速度开发。就在过去几个月,有了颠覆性的 ChatGPT 和现在的 GPT-4。明确定义,GPT 代表(Generati

【转帖】text-davinci-003和ChatGPT之间的不同点

https://zhuanlan.zhihu.com/p/603709081 先看下GPT的发展时间线 InstructGPT(2022 年 1 月)是一系列 GPT-3 模型(包括 text-davinci-001、text-davinci-002 和 text-davinci-003)统称,于G

[转帖]ChatGPT研究框架(2023)

https://www.eet-china.com/mp/a226595.html ChatGPT是基于OpenAI公司开发的InstructGPT模型的对话系统,GPT系列模型源自2017年诞生的Transformer模型,此后大模型数量激增,参数量进入千亿时代,国内百度也发布了ERNIE系列模型

[转帖]OpenAI 道歉:Redis bug 致 ChatGPT 故障、数据泄露

https://www.163.com/dy/article/I0N6HEIT0511D6RL.html OpenAI表示,Redis的开源库bug导致了发生在周一的ChatGPT故障和数据泄露事件,当时一些用户可以看到其他用户的个人信息和聊天查询内容。 ChatGPT在侧边栏中显示了用户执行的以往

【转帖】Meta 推出大型语言模型 LLaMA,比 GPT3.5 性能更高

https://finance.sina.com.cn/wm/2023-02-28/doc-imyihfvp8075151.shtml ChatGPT 的爆火使得大家对 AI 进行了深度的讨论,大厂们也都在向公众展示他们所谓的 "生成性人工智能"已经准备好进入黄金时代。 近日,Meta 宣布推出大型

【转帖】调教LLaMA类模型没那么难,LoRA将模型微调缩减到几小时

https://www.thepaper.cn/newsDetail_forward_23250236 LoRA 微调方法,随着大模型的出现而走红。 最近几个月,ChatGPT 等一系列大语言模型(LLM)相继出现,随之而来的是算力紧缺日益严重。虽然人人都想打造专属于自己的大模型,但是能负担得起上亿

[转帖][github]Chinese-LLaMA-Alpaca Public

`https://github.com/ymcui/Chinese-LLaMA-Alpaca#%E6%A8%A1%E5%9E%8B%E4%B8%8B%E8%BD%BD` 以ChatGPT、GPT-4等为代表的大语言模型(Large Language Model, LLM)掀起了新一轮自然语言处理领域