OpenAI推出强化微调技术,降低专业模型定制门槛

摘要:OpenAI在连续12天更新直播中,于第2天发布了强化微调(Reinforcement Fine-Tuning,RFT)功能,该技术的目的是协助开发者和机器学习工程师,打造出针对特定领域或复杂任务的专家级模型,借由降低强化学习实例技术门槛,推进人工智能模型的定

OpenAI在连续12天更新直播中,于第2天发布了强化微调(Reinforcement Fine-Tuning,RFT)功能,该技术的目的是协助开发者和机器学习工程师,打造出针对特定领域或复杂任务的专家级模型,借由降低强化学习实例技术门槛,推进人工智能模型的定制化发展。

强化微调技术与传统的监督式学习微调方法不同。传统的监督式学习微调主要依赖模型学习自参考答案,而强化微调则更注重模型推理过程,通过提供任务及其参考答案,让模型在解决这些任务时进行学习,并通过评分机制来指导模型的表现,逐步提升其在类似问题中的推理能力与准确性。

该技术特别适用于具备客观正确答案且大多数专家能完成共识的任务,明显提升人工智能在法律、保险、医疗、金融及工程等专业领域的实用价值。

OpenAI目前开放强化微调研究计划,鼓励研究机构、大学和企业参与。该计划提供RFT API的Alpha测试版本,让参与者可以将技术应用于其领域中的专业任务,并反馈测试经验供OpenAI改进技术细节。

OpenAI这项功能有助于人工智能技术的普及,借由友善的界面供用户应用强化微调技术,使得一般企业与开发者,也能够用到过去仅有专业人工智能研究团队才可使用的强化学习技术,并有助于缩短人工智能在专业领域的应用周期。

来源:十轮网一点号

相关推荐