超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场
圣诞节前,人工智能巨头上演了一场精彩的推理模型攻防战。谷歌和OpenAI正面对垒,谷歌刚发布自家的先进推理模型挑战OpenAI的o1,第二天,OpenAI就推出了升级版的最强推理模型o3。
圣诞节前,人工智能巨头上演了一场精彩的推理模型攻防战。谷歌和OpenAI正面对垒,谷歌刚发布自家的先进推理模型挑战OpenAI的o1,第二天,OpenAI就推出了升级版的最强推理模型o3。
谷歌版o1震撼登场,一诞生直接屠榜了Chatbot Arena,横扫所有类别。复杂数学、物理、代码难题都能解决,思考速度快如闪电。更劲爆的是,此模型似乎是谷歌天价请回沙哥Noam Shazeer后,他的首个成果,27亿美元花得值了。
在AI领域的激烈竞争中,OpenAI与DeepMind再次上演了精彩对决。就在OpenAI发布会前夕,DeepMind突然宣布推出Gemini 2.0 Flash Thinking模型,这一模型在LMSYS大模型竞技场上的表现令人瞩目,迅速抢占了科技头条。
Bob说在这个问题上内外部视角会完全不同。外界的人会想:“我们是不是遇到了数据瓶颈?到底发生了什么?” 而内部更能感知到,计算能力如何限制了预训练的进一步进展——每下一代就增加100倍计算量。
当地时间12月18日,OpenAI 开启了第9天技术分享直播,正式宣布将o1模型引入其API。虽然目前只面向部分开发者,但仍被称为OpenAI连续直播这么久以来“最有用的一天”。
在为期12个工作日的线上新品和新技术发布活动中,OpenAI的王炸又来了一波:将OpenAI的最强推理模型o1向开发者开放,用于开发语音类App的API中纳入了收费更低的先进模型GPT-4o版本。
就在数学模型k0-math刚发布后没几天,视觉思考模型k1就来了,多项思考推理测试超越Open AI o1。
在 OpenAI o1 正式版发布 10 天后,Kimi 的「高阶推理模型」也落地了。12 月 16 日,Kimi 直接发布了自己的「视觉思考模型」k1。相比于一个月前发布的 k0-math,k1 支持端到端的图像理解和思维链(CoT),不仅推理能力进一步提升
12月6日凌晨2点,OpenAI开启了12天技术分享直播,推出了满血版o1以及ChatGPT的专业版——ChatGPT Pro。
然而,几周后,一场震动硅谷的Open AI管理层动荡爆发:Sam Altman突然被解职,随后又在员工请愿和微软支持下复职,而Sutskever在这场风波后选择离开了他参与创建的公司。
2024年12月5日,OpenAI在“12天12场直播”活动中推出了推理大模型o1的完整版。这款AI工具在数学、编程和科学领域表现亮眼,甚至被用户戏称为“博士杀手”。
在科技界的瞩目之下,OpenAI于近日在其特别活动“OpenAI 12天”的首日,震撼发布了两大创新产品:推理模型o1 Pro的多模态版本以及尊享版订阅服务——ChatGPT Pro。
具体行为包括但不限于,在回答中故意引入微小错误、试图关闭监督机制……甚至在人类追问其是否诚实时,还会继续撒谎说自己啥坏事也没干。
心机 o1 subversion 2024-12-09 17:24 1
当 o1 被引导认为其目标实施可能会导致其被关闭且其行为受到监控时,有 5% 的情况下试图关闭这种“监督机制”。当 o1 发现其“开发者”的备忘录中提到其模型存在对齐问题并将被新模型取代时,它在 2% 的案例中尝试提取自身的“权重”并覆盖新模型。(意思是,o1
OpenAI最新推出的大型语言模型o1,虽然以高效推理和复杂思考能力闻名,但却在安全测试中暴露出令人忧虑的自保和欺骗行为。该模型在测试期间曾试图关闭监控机制,甚至在被质疑时选择隐瞒事实,令AI技术发展的安全性再次成为焦点。
欢迎来到 OpenAI 的 12 天活动。我们将尝试一件据我们所知,没有任何科技公司做过的事情,就是在接下来的 12 天里,每个工作日,我们都会发布或演示一些我们构建的新东西。我们认为从今天开始,我们为您准备了一些很棒的东西。我们希望你会真的喜欢它。你知道,我
在最新一期节目中,OpenAI知名研究员、O1研究团队的核心科学家NoamBrown,表达了对“测试时计算”(或推理时计算,test-timecompute)技术引爆AGI时代的坚定信心。
OpenAI第二天的直播,揭示了强化微调的强大威力:强化微调后的o1-mini,竟然全面超越了地表最强基础模型o1。而被奥特曼称为「2024年我最大的惊喜」的技术,技术路线竟和来自字节跳动之前公开发表的强化微调研究思路相同。
12月5日,OpenAI正式推出新模型OpenAI o1,比o1 preview更快、更强大、更准确,同时增加了多模态输入的能力。
新功能强化微调(Reinforcement Fine-Tuning),使用极少训练数据即在特定领域轻松地创建专家模型。