OpenAI 新品发布会: Day 2 训练微调 【全中文语音】直播内容总结

摘要:OpenAI的Mark介绍了01模型的新功能,包括从预览版发布到Chat GPT和即将在API中推出。01模型经过改进,能够思考后再回应,且将支持强化微调,即利用强化学习算法进行定制化训练,提升模型到专家水平。这项技术将向大学、研究人员和网络爱好者提供,并计划

直播内容总结:

OpenAI的Mark介绍了01模型的新功能,包括从预览版发布到Chat GPT和即将在API中推出。01模型经过改进,能够思考后再回应,且将支持强化微调,即利用强化学习算法进行定制化训练,提升模型到专家水平。这项技术将向大学、研究人员和网络爱好者提供,并计划明年公开发布。Mark强调了模型定制化的重要性,并邀请了John、Julie和Justin进一步讨论。Justin Reese,伯克利实验室的计算生物学家,讨论了如何利用01模型帮助研究罕见遗传病,展示了强化微调在科学研究中的应用潜力。

中文逐字稿(简体):

大家好,我的名字是马克,我在OpenAI领导研究。

昨天,我们将01从预览版中删除,并在Chat GPT中发布了它。

我们很快就会在API中推出它。

如果你还没有关注O1,这是我们最新的一系列模型改进。

这使得模型在做出回应之前可以思考一段时间。

今天,我们非常兴奋地预览我们在模型定制计划中的最新进展。

它将允许用户在自己的数据集上微调01。

再说一次,这不是标准的微调。

这是强化微调,它真正利用了强化学习算法。

这将我们从高级高中水平提升到专家博士水平,以满足您自己的使用案例。

我想再次强调,这是我们即将公开推出的产品的预演。

明年。

但如果你是一所大学或你的研究人员或你的网络爱好者,我们会给你一些信息。

关于你以后如何访问我们的输出程序。

那你为什么想要这东西?

嗯,它允许你把你的黄金数据集变成独特的产品。

这将为您提供与我们为您自己的用户和客户提供的相同的魔力。

所以我会让约翰、朱莉和贾斯汀再多说一点。

是啊,大家好。

是的,我叫约翰·阿勒顿。

我是Open AI的一名工程师。

大家好,我是朱莉·王。我是Open AI的一名研究员。

我是贾斯汀·里斯。我是伯克利实验室的计算生物学家。

今天,我们很高兴能为我们的01系列车型推出这种新的车型定制方式。

钢筋微调,简称RFT。

开发人员、研究人员和机器学习工程师将首次能够使用强化学习

创建能够在其领域内的特定任务中表现出色的专家模型。

我们相信,任何在人工智能模型方面需要深厚专业知识的领域都会从中受益。

所以,如果你在法律、金融、工程、保险等行业工作,这本书很适合你。

例如,我们最近与Thompson Broiders合作,使用强化微调

对O1 Mini进行微调,使其成为联合理事会AI的法律助理。

该工具帮助他们的法律专业人员完成一些最具分析性的工作流程。

是的,所以你们中的一些人会熟悉我们发布的监督微调API,

去年年初。

有监督的微调非常强大。

你要做的是得到模型。

复制它在输入文本或图像中找到的特征。

如果你想改变音调,这是很好的。

或者模型的样式或响应格式。

现在,有了强化微调,

或者驯鹿执法微调,

我应该说。

有了强化微调,它实际上,

这是不同的。

所以你不仅仅是在教模型模仿它的输入。

你教它做的是学习推理。

以全新的方式覆盖自定义域。

它的工作方式是,当模型看到一个问题时,我们给它空间去思考这个问题,然后我们给模型的最终答案打分。

然后利用强化学习的力量,我们强化了导致正确答案的思路,并抑制了导致错误答案的思路。

你将看到的是,你知道,只需几十个例子,模型就会学会以新的和有效的方式对自定义域进行推理。

你只用12个例子就能做到这一点,这太疯狂了。

这不是定期微调就能做到的。

是啊,没错。

我的意思是,在大型语言模型和大型机器学习领域,几十个例子基本上不算什么。

所以第一次我们的模型定制平台。

将支持强化学习。

值得注意的是,这是相同的技术

我们在Open AI内部使用

来训练我们的前沿模型,比如GPD-40和O1系列。

一个具有许多令人兴奋的应用的领域

是科学研究。

但不要只听我们的一面之词。

这就是为什么我们今天请来了贾斯汀·里斯。

贾斯汀是伯克利实验室的一名研究员。

他的研究领域之一是使用计算方法。

了解潜在的遗传原因

罕见病。

贾斯汀,非常感谢你能来。

你介意告诉我们更多关于你的研究吗?

强化微调可能会有什么帮助?

当然,谢谢。

很高兴来到这里。

所以我的研究领域之一是罕见遗传病。

因此,与名称相反,罕见遗传病实际上并不罕见。

所以任何一种罕见的疾病都是罕见的,但如果你把它们放在一起,

它们其实很常见。

所以我们谈论的是全球有3亿人患有一种罕见的疾病。

更重要的是,这些人通常需要很长的诊断时间

在他们发现自己的状况之前,经历了几个月和几年的奥德赛。

就像整个美国的人口一样。

是的,这不是一小部分人。

因此,我们正在研究更好的计算工具和方法,以真正研究什么是重要的,并帮助我们理解和治疗这些疾病。

所以我们在学术环境中工作,学习更多关于罕见疾病及其病因的知识。

希望我们能够推进这些人的医疗保健。

现在,评估你的病情有点困难,

因为你必须有两样东西。

你必须有专业的领域知识。

关于医学方面的事情。

你还必须有系统的推理。

生物医学数据。

这是我们认为O1模型

它的推理能力真的可以帮助我们。

这很有道理。

我们的大型语言模型具有领域知识,

我们的O1模型是真正的系统推理机。

所以现在似乎有一个很好的计算

解决其中一些问题的方法。

对的。

你能告诉我们更多关于你正在使用的数据集的信息吗?

一定。

所以这是我们团队和德国查利特医院的合作成果。

彼得·罗宾逊的实验室和莫纳克计划。

我们所做的是从数百个科学数据中提取疾病信息

关于罕见病病例报告的出版物。

所以我们在某种程度上收集了信息,这是一系列的迹象和症状。

存在于患者中,并在患者中被排除。

当然,还有他们所患的疾病。

对这次谈话很重要的是,

突变的致病基因

这导致了这些人的问题。

我明白了。

所以你和一些医生想弄清楚,

考虑到病人的症状,什么基因可能发生了突变?

引起那些症状?

是的,没错。

所以我们一直在一起工作。

开放的人工智能团队正在训练旧的模型。

更有效地推理疾病的原因。

极好的。

谢谢你贾斯汀。

我们现在要给你一个强化的预览,

工作中的微调。我不想抢你的风头,但我们要把O-1 Mini做出来。

在此任务上超过O-1的性能。那是我们昨天刚推出的O-1。还有这个

之所以如此重要,是因为O-1 Mini比O-1更小、更快、更便宜。

是啊。因此,使用Justin的数据集,我们将展示您可以大幅提高性能。

在这个任务中,当给出一系列症状时,你试图预测哪个基因

可能是遗传病的原因。

所以为了给出这个过程的概述,

我们将从查看数据集开始

用于训练模型和更大的

用于评估模型。

然后我们将开展培训工作。

在OpenAI的训练基础设施上。

最后,我们将评估最终的微调模型。

所以我们可以看到它是如何在基础模型上改进的

我们开始的时候。

所以作为开始,我们要跳过去

到开放的人工智能开发平台。

我们将继续创造一种新的模式。

所以我们已经监督了一年多的微调。

选择钢筋微调。

现在,我们要训练01,

所以我们将选择它作为基础模型。

数据集。现在训练数据集,它们只是JSONL文件,这只是一个文件,每个

文件中的第行是您希望对模型进行训练的示例。对于这种情况,

贾斯廷和他的同事收集了大约1100个例子的数据集。所以我会继续

然后上传那个。这样我们就能很好地了解这个数据集是如何工作的。

这个任务是什么,我们将非常快速地放大单个数据点。所以这个

是单个数据点的样子。这里有三件重要的事情。

首先是病例报告。这是病人的描述和病人的

症状。所以我们看到患者是一位51岁的女性。发病情况未具体说明。

我们有一系列的症状,比如高内分泌症,甲状旁腺功能亢进,等等。正如贾斯汀之前所说,

我们有缺席的症状。这些是不存在的症状。这很重要。

因为它帮助模型排除了它可能认为是负责任的基因。

对于存在的症状。

接下来,我们有说明。

我敢肯定如果你在看这个直播,

你对提示很熟悉。

所以我们在这里所做的只是提示模型。

我们想为这个任务做些什么。

所以我们要说的是,你知道,

根据症状列表和病例报告,

你能列出所有你认为可能负责的基因吗?

对于你认为存在的遗传病?

然后我们也要求它提供一个解释。

为什么它认为这些基因可能是罪魁祸首。

最后,我们也有正确的答案。

所以这是我们有一个“不”负责的基因,但重要的是,我们在训练过程中没有向模型展示这一点。

那将是作弊,但我们在训练过程中在内部使用它来对模型的输出进行评分,或检查模型是否正确。

这是一项相当艰巨的任务。我绝对没有希望回答这个问题。

是的,我的意思是,你可以告诉我们,我们远远不是仅仅试图用草莓这个词来计算我们的数量。

是啊。所以现在当我们给模型这个提示时,

这份病例报告和这些说明,

模型会输出这样的东西,

这是一个它认为可能负责的基因列表。

重要的是,这些基因是有序排列的,

列表中的第一个基因是

它认为最有可能负责的,

列表中的第二个是

它认为是第二个最有可能的,

等等等等。

真不错。

所以我们会跳回去。

接下来我们需要上传一些验证数据。

和验证数据,它的格式将完全相同

作为训练数据,但重要的是,

在验证数据集和训练之间,正确的基因没有重叠。

数据集。这意味着模型不能作弊。它必须这样做,否则它就不能学会

记住一系列症状,并将其与基因联系起来。它实际上必须推广。

从训练数据集到验证数据集。抓到你了所以,我是说,增援部队在哪里?

零件进来吗?你知道,我们谈过评分。这是过程的一部分吗?是的,那是一个真的

问得好。所以评分是通过我们在这里介绍的评分员的概念来完成的。所以

所以评分员真的很简单。

分级机所做的是从模型中获取输出,

它选择正确的答案,然后比较它们,

它返回一个介于0和1之间的分数。

所以0意味着模型根本没有得到正确的答案,

其中一个意味着模型得到了正确的答案。

你也可以给出部分信用,

所以它可以在这个范围内的任何地方。

所以对于这个特定的任务,我们有一个像这样的分级机。

所以它需要我们碰巧知道的正确答案,

它从模型中获取输出,也就是基因列表,

它产生了一个分数。

所以在这种情况下,FOXY3是正确答案。

它在基因列表中排名第二,所以它的得分大概是0.7。

我明白了。

所以如果它说Foxy 3是列表中的第一个,我就会得到1分。

是啊,没错。

然后随着它在列表中越走越远,分数逐渐衰减到0。

好看的。

有道理。

但是如果我有一个任务,你知道,不是给一个排名列表评分呢?

我们还有其他更普通的评分员吗?

是的,是的。

所以我们提供了一系列的分级机,我们认为它们可以有效地覆盖整个空间。

你可能有的意图。

在进行加固微调时,

我们一直在增加更多。

是的,最终我们希望

允许您定义自己的评分员。

是啊,是啊,也许像上传一个Python文件

或者做一些定制的分级。

是啊,酷。

所以我们已经定义了我们的训练数据集。

我们已经定义了验证数据集。

让我继续快速抄写分级器。

现在,打开我允许你设置,你知道,

我们允许您自定义这些微调运行

通过设置超参数,但我们设置了一些很好的默认值。

因此,我将继续并单击此处的“创建”。

现在,它所做的是,你知道,我们刚刚启动了一项培训工作。

所以真正酷的事情是你带来了数据集,你带来了更大的。

这些是你真正拥有领域专业知识的地方,你可以真正为这个问题做出贡献。

然后你可以利用OpenAI的强化学习算法的全部力量。

以及我们的完整分布式模型培训堆栈,以便为您的使用情形定制Frontier模型。

所以作为一个用户,我只需要带上我的数据集

分级机和开放机负责其他所有事情。

是啊,没错。

所以强化微调工作

可能需要几个小时到几天的时间来运行。

所以我们要跳到我之前做的工作上。

这周在同样的数据集上,只是

所以我们可以看到结果。

所以我要跳过去。

所以这周早些时候我得到了这份工作。

它成功完成。

它为我们生产了一个细趾模型。

有一件事我想看看,

是验证奖励分数。

所以这是来自较大的平均分数

验证数据集以及它是如何变化的

在微调运行过程中。

所以我们可以看到分数在上升。

正如我们之前所说,由于没有重叠

在训练数据集之间的基因中

而验证数据集,意味着模型真的

学会了概括我们的任务。

这不是简单地记住一系列症状。

并将它们映射到基因上。

虽然这很酷,但图表上升到右边,

这是我们想看到的,这很好

我们可以更好地感受模型实际上是如何

在微调过程中发生了变化。

所以我们现在要仔细研究一下。

好了,我们要去参加活动了

估价仪表板,这是我们早期推出的开发者平台中的一个产品

今年。有很多数字,但别担心,我们会把它们都看一遍。

所以我在这里设置了三个不同的运行。第一个是针对我们的01模型,

我们昨天发布的。第二场是对阵01 MINI,这是起点。

我们的微调工作。最后,强化微调0-1迷你。

现在,我们看到奖励向上和向右移动,但这实际上意味着什么呢?

任务。我建立了三个不同的评估来评估这一点。第一个是顶级的

第一,正确答案出现的频率,列表中的第一项,排在第五位,

正确答案在列表的前五个元素中出现的频率是多少?最后,

最重要的是,我们把正确的答案放在我们的列表中了吗?所以看着上面的一个,

我们可以看到我们的起点,O1 Mini在我们大约200的数据集上获得了17%。

01得到了25%,所以它做得更好。

但后来我们的微调01迷你得到了31%。

我对此进行了截屏,并将其放入Chatgpt中,并要求它为我制作一个情节,

圣诞主题情节。

这是我们之前看到的九个数字的一个很好的可视化。

所以你可以看到我们的起点,01迷你,横跨顶部1,顶部5,顶部最大,

我们的O1模型,最后是我们表现最好的模型,也就是O1 Mini,

微调这里的红色虚线。

看看这些结果,你怎么想,贾斯汀?

嗯,我认为这是相当令人印象深刻的表现,尤其是

验证数据,因为这意味着模型正在学习关于

如何对这些数据进行推理,这是非常令人兴奋的。

所以你可能会问的一个明显的问题是,与现有的相比,这是怎么做的?

生物信息学工具?

我没有真正的苹果对苹果的比较,因为通常在这种实验中,

你会提供基因组测序数据,

我们在这里没有包括它。

但是这里对模型的开放式查询

我认为,不完整的症状清单是新的,也是令人兴奋的。

棒极了。

所以这些是综合统计数据,

但让我们看看实际的模型响应。

所以我要弹出到这个数据选项卡。

让我们通过通道进行过滤。

这就是我们给模型的输入。

因此,正如约翰之前所描述的,

是识别可能导致一系列观察到的症状的基因。

我们要求模型输出一个字典,其中既包含一个解释的字符串,

为什么我选择这些基因,当然,基因本身是按顺序排列的。

最后,我们还有症状列表。

所以这个病人表现为阑尾下结节,癫痫发作,是的,还有其他一些症状。

然后我们运行我们的模型。

这就是我们的01模型。

这是我们微调的O-1迷你模型。

我们给了它输入。

现在输出的是我们之前描述的字典。

所以推理,阑尾下结节的组合,

癫痫发作,皮质小管,是这种复杂的迹象,

这通常是由这些基因突变引起的。

它列出了其他几个潜在的。

然后它说T-S-C-2是最有可能的,

候选人。如果我们回到我们的答案,我们会看到TSC2实际上是正确的。

回答。所以这让我们在1分、5分和最大值时都能通过。所以看着

这个输出,贾斯汀,就像,这是一个有用的输出,让模型回馈吗?是的,当然。

所以看到模型的推理是特别有用的,这是一个很大的贡献。

显然,还有答案的排名列表。所以即使正确答案不是第一,

同时也很高兴看到微调提高了可能答案的排名列表中的性能。

所以正确答案越来越接近1,这是令人欣慰的。

贾斯汀,把镜头拉远了一点。

比如,强化学习如何塑造你的领域?

你能谈谈生物学的一些趋势吗?

一定。

所以我认为研究界对使用这些模型来完成这些任务很感兴趣。

所以对这个特定用例的感觉是最好的事情,

近期的解决方案可能是现有生物信息学之间的混合解决方案

这些模型中的工具,如01。

所以我认为这是一个很好的进步,也是这些优势的特点。

模型,以及我们如何使用微调等工具来提高性能。

这确实是一个可比较的基准来比较两者,但它肯定是进步的,我们可以如何使用

这些模型来理解疾病。然后,你知道,在更广泛的意义上,我们如何

可以将这些模型整合到工作流程中,最终改善这些人的医疗保健。

对的。令人惊讶的。谢谢你贾斯汀。我们刚刚向您展示了一个令人兴奋的应用程序,

强化微调在科学研究中,这是一种通用技术。我们已经看到了

来自Biochem,AI Safety,

来自法律和医疗保健。

我们可以考虑数百个更多的例子或任务,我们可以使用这个模型,

但我们知道你可能会想到更多。

所以这就是为什么我们今天如此兴奋地扩展我们的阿尔法计划。

让更多的人能够推动我们01车型的能力边界。

对他们来说最重要的任务。

是的,所以,你知道,我们一直在与一小群值得信赖的合作伙伴合作

为了真正测试强化微调,

今天,我们正在通过我们所谓的强化微调研究计划来扩展阿尔法访问。

所以,你知道,这个计划对于那些目前正在与专家团队一起处理非常复杂的任务的组织来说是理想的。

他们认为他们可能会从这些任务的人工智能援助中受益。

所以,你知道,如果你有兴趣申请这些有限的位置之一,你可以在这个直播流的描述中找到申请的链接。

正如马克之前所说,你知道,我们计划在明年年初公开推出这种产品强化微调。

是啊。

我们都非常非常兴奋地看到你在强化微调方面所做的工作。

作为一名研究人员,没有什么比看到我们的模型被改造并用于推进现实世界中的科学和知识更让我们高兴的了。

你今天有笑话给我们听吗?

好吧,碰巧,我知道。

作为传统,我有一个圣诞主题的笑话。

你知道,我们住在旧金山。

自动驾驶汽车风靡一时。

事实上,圣诞老人也想参与进来。

他试图制造一辆自动驾驶的雪橇,但由于某种原因,他的模型一直无法识别树木。

雪橇左右撞树。你们有什么猜测吗?为什么?

不,就是不要。他没有调整他的模型。哦,天哪。好吧,好吧,下周请加入我们。我们将有更多的东西可以分享。谢谢。

来源:来点科技

相关推荐