dpo

使用大型语言模型实现反思驱动的长篇文本生成

在当今快速发展的人工智能领域,大型语言模型(LLMs)已经展现出令人惊叹的文本生成能力。然而,当涉及到生成长篇文本时,这些模型仍然面临着巨大挑战,尤其是在保持连贯性、确保逻辑一致性以及随着文本长度增加而维持质量方面。新加坡科技设计大学和清华大学的研究团队在一项

模型 写作 语言 dpo outline 2025-06-09 15:03  6

强化学习如何帮助大语言模型实现自我进化

大型语言模型(LLMs)已经在代码生成领域取得了显著进步,但生成的代码虽然功能正确,却往往存在效率低下的问题。这一研究缺口正是由南洋理工大学、新加坡国立大学、香港大学、西安交通大学和字节跳动的联合研究团队着手解决的。在最近发表的论文《Afterburner:

模型 语言 dpo venus grpo 2025-06-04 16:11  4

OPA-DPO:多模态大模型幻觉难题的高效解决方案

在视觉多模态大语言模型的快速发展中,幻觉问题一直是研究者们关注的焦点。模型生成与输入图像不一致甚至虚假的内容,不仅影响用户体验,也阻碍了多模态技术在实际场景中的落地。对此,微软亚洲研究院和香港中文大学的联合研究团队从直接偏好优化(DPO)入手,提出了 On-P

模型 模态 et 幻觉 dpo 2025-06-04 13:50  5

数据保护官DPO:律师法务如何应对人工智能时代数据合规挑战

为深入探讨数据保护官(DPO)在应对复杂数据安全合规环境中的关键作用及实践路径,深圳数智引领科技有限公司于近期成功举办了一场以 “数据保护官DPO:律师法务如何应对人工智能时代数据合规挑战” 为主题的沙龙活动,汇聚了众多行业精英、专家学者以及企业代表,共同为数

法务 数据安全 律师 人工智能 dpo 2025-05-16 18:00  5

深度长文|AI大模型的“侦探”与“罪犯”:一场关于学习效率的意外揭秘

当今最先进的大语言模型,以其惊人的文本生成能力改变着世界。从流畅自然的对话,到条理清晰的报告,再到富有创意的故事,它们似乎无所不能。然而,要让这些庞然大物真正“听话”、输出符合人类偏好的结果,仅仅依靠海量数据进行预训练是远远不够的。一个关键的后续步骤——微调(

模型 长文 罪犯 侦探 dpo 2025-05-10 03:02  8

ICLR'25 Oral | 大型语言模型微调的学习动态

学习动态(Learning dynamics)描述了特定训练样本的学习过程如何影响模型对其他样本的预测,为我们理解深度学习系统的行为提供了有力工具。我们通过分析不同潜在响应之间影响积累的逐步分解,研究了大型语言模型在不同微调类型中的学习动态。我们的框架能够统一

模型 语言 iclr rl dpo 2025-04-18 22:20  8

从零复现满血版 DeepSeek-R1

近期,我们团队发布了 Ligth-R1,是第一个从零复现满血版 DeepSeek-R1 的工作(几个小时后QWQ-32B发布),虽然大家都在关注 QWQ-32B,但是 QWQ-32B 只开源了模型,而我们把模型、数据、代码全部都开放出来了。

开源 rl dpo cot aime 2025-03-14 21:16  12

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqiz

rlhf dpo una 2024-10-10 00:04  17