AI Agent迈向中央舞台
进入2025年以来, AI Agent的发展明显提速。5月6日,OpenAI宣布以30亿美元收购 Windsurf;编程工具Cursor的母公司Anysphere也获得了9亿美元的融资,估值高达90亿美元;号称中国第一个通用AI Agent的Manus在五月也
进入2025年以来, AI Agent的发展明显提速。5月6日,OpenAI宣布以30亿美元收购 Windsurf;编程工具Cursor的母公司Anysphere也获得了9亿美元的融资,估值高达90亿美元;号称中国第一个通用AI Agent的Manus在五月也
进入2025年以来, AI Agent的发展明显提速。5月6日,OpenAI宣布以30亿美元收购 Windsurf;编程工具Cursor的母公司Anysphere也获得了9亿美元的融资,估值高达90亿美元;号称中国第一个通用AI Agent的Manus在五月也
Codex的OpenAI官方发布会看了几乎等于没看,没有太多实质性信息。基本就是Codex能干很多,很好,用了端到端RL训练。(不少嘉宾感觉说话都有点不顺溜。不过以PR级别要求开发者和研究员还是太难了,毕竟熟练需要排练,这个时间还是让他们去干活吧。)
近来,GPT-4.1关键人物揭秘了GPT-5进展,挑战在于平衡推理与聊天能力。与此同时,OpenAI首席研究官在新采访中,畅谈了通往AGI之路的关键要素。
近来,GPT-4.1关键人物揭秘了GPT-5进展,挑战在于平衡推理与聊天能力。与此同时,OpenAI首席研究官在新采访中,畅谈了通往AGI之路的关键要素。
我最近加入了团队,并接到一项任务要求熟悉我们的GitHub代码库。请提供一份简要报告,内容包括:项目目的与架构、关键模块、技术栈、值得关注的开源问题/合并请求,以及两项可执行的代码质量改进建议。
基于规则的强化学习(RL/RFT)已成为替代 SFT 的高效方案,仅需少量样本即可提升模型在特定任务中的表现。
开源 vivo gui rft deepseekr1 2025-04-09 13:50 10
Revit是一款专业的建筑信息模型(BIM)软件,广泛应用于建筑设计和施工领域。它提供了多种文件类型,用于存储和管理建筑模型以及相关的项目数据。以下是Revit文件的主要类型及分类:
强化学习(RL)已被广泛应用于大语言模型(LLM)的大规模训练后阶段。近期,通过强化学习来激励LLM推理能力的研究表明,恰当的学习方法能够实现有效的推理时性能扩展(inference-time scalability)。然而,强化学习面临的一个关键挑战是,如何
“张力”是什么?是《热辣滚烫》里贾玲一拳KO脂肪的爆发力;是哈尔滨冰雪大世界冰滑梯上“灵魂出窍”的离心力;更是轮胎在湿滑路面也能死死贴合地面的抓地力。
在OpenAI连续12天的技术发布会上,一项名为RFT(Reinforcement-based Fine-Tuning,基于强化学习的微调)的新型训练方法引发全球关注。该方法通过结合强化学习与监督微调,仅需少量标注数据即可显著提升模型在特定场景下的性能。2月2
千帆 rft 千帆modelbuilder modelbui 2025-03-14 21:50 11
在OpenAI连续12天的技术发布会上,一项名为RFT(Reinforcement-based Fine-Tuning,基于强化学习的微调)的新型训练方法引发全球关注。该方法通过结合强化学习与监督微调,仅需少量标注数据即可显著提升模型在特定场景下的性能。2月2
千帆 openaio1 rft 千帆modelbuilder 2025-03-14 17:01 16
在OpenAI连续12天的技术发布会上,一项名为RFT(Reinforcement-based Fine-Tuning,基于强化学习的微调)的新型训练方法引发全球关注。该方法通过结合强化学习与监督微调,仅需少量标注数据即可显著提升模型在特定场景下的性能。2月2
千帆 openaio1 rft 千帆modelbuilder 2025-03-14 14:28 13
OpenAI在连续12天更新直播中,于第2天发布了强化微调(Reinforcement Fine-Tuning,RFT)功能,该技术的目的是协助开发者和机器学习工程师,打造出针对特定领域或复杂任务的专家级模型,借由降低强化学习实例技术门槛,推进人工智能模型的定
今天主要分享一下OpenAl发布会第二天发布的核心内容"强化微调”,为什么奥特曼会觉得这是一项惊喜技术,为了深入了理解它,我周末花了一天的时间深入的去研究它,本文分享一下我的研究结果!
这次上阵直播的四人,是 OpenAI 的研究员 Mark Chen、John Allard、Julie Wang,以及伯克利实验室计算生物学家 Justin Reese。