奥特曼深夜官宣:OpenAI重回开源!两大推理模型追平o4-mini
OpenAI深夜扔出开源核弹,gpt-oss 20B和120B两款模型同时上线。它们不仅性能比肩o3-mini和o4-mini,而且还能在消费级显卡甚至手机上轻松运行。gpt-2以来,奥特曼终于兑现了Open AI。
OpenAI深夜扔出开源核弹,gpt-oss 20B和120B两款模型同时上线。它们不仅性能比肩o3-mini和o4-mini,而且还能在消费级显卡甚至手机上轻松运行。gpt-2以来,奥特曼终于兑现了Open AI。
在人工智能领域的一次重大动作中,OpenAI终于打破了长达六年的沉默,宣布开源两款全新的语言模型——gpt-oss-120b与gpt-oss-20b。这一消息迅速引起了业界的广泛关注与讨论。
在AI界沉寂已久的OpenAI,近日终于有了新的动作,宣布开源两款语言模型——gpt-oss-120b和gpt-oss-20b。这一消息犹如一颗石子投入平静的湖面,激起了层层涟漪。
在深夜的一则震撼消息中,OpenAI悄然放出了两大开源语言模型——gpt-oss 20B与gpt-oss 120B,这一举动无疑在AI界投下了一枚“开源核弹”。这两款模型不仅性能上可与OpenAI自家的o3-mini和o4-mini相媲美,更令人惊喜的是,它们
今天,OpenAI终于放出其传闻已久的开源模型:gpt-oss-120b和gpt-oss-20b。这两款模型均采用MoE架构,与DeepSeek的多款模型类似。
今年6月初,苹果公司发布了一篇具有重大影响力的论文《思考的幻象:从问题复杂性角度理解推理模型的局限性》。该论文深入研究了大型推理模型(LRMs)的推理能力,包括Claude 3.7 Sonnet Thinking、Gemini Thinking、DeepSee
在多项推理榜单(AIME24/25、LiveCodeBench、CodeForce、GPQA-diamond等)实现了轻量级推理模型的SOTA效果,比肩3倍激活参数大小的10B以下 Dense 模型,再次验证了 MoE 架构的推理潜力。
与大模型“六小龙”中趋于沉寂的其他几家同行相比,MiniMax用连续5天的上新,带来了久违的热闹场面。自6月17日起,MiniMax一周内相继发布了新的推理模型、视频生成模型、Agent、语音设计等产品。
本周二,欧洲人工智能公司 Mistral AI 发布了 Magistral,这是一个全新的大语言模型(LLM)系列,展现了强大的推理能力。它能够进行不断反思,并解决更复杂的任务。
对于不少网友和科技博主吐槽 iOS26 界面丑的情况,苹果客服表示,目前的 iOS26 是测试版本,也已接到过用户反馈界面设计丑的情况,但目前正式版本尚未发布,后续如果很多用户反馈这一问题的话,也有可能会改善的,建议等正式版本推送后再关注相关测评。(来源:封面
当地时间周二,法国人工智能初创公司Mistral宣布推出其首个推理模型,声称能够与OpenAI和DeepSeek等竞争对手的产品相抗衡。
最近,来自多家研究机构的林孙、魏红林、金枝吴等研究人员发表了一篇题为《评估即为一切:通过评估设计战略性夸大LLM推理能力》的研究论文,该论文发表于2025年6月5日的arXiv预印本平台(arXiv:2506.04734v1)。这项研究深入探讨了一个令人担忧的
推理模型 基准测试 deepsee deepseek推理模型 2025-06-09 15:43 8
在2022年前后,张翔宇对当时计算机视觉(CV)领域的自监督学习范式产生了深刻的怀疑。他观察到,无论是contrastive learning还是MIM(Masked Image Modeling),虽然在小规模实验中表现优异,却普遍缺乏可扩展的scaling
这篇论文称推理模型全都没在真正思考,无论DeepSeek、o3-mini还是Claude 3.7都只是另一种形式的“模式匹配”,所谓思考只是一种假象。
推理大模型中的注意力机制可以去掉吗?这是当下最具挑战性的开放问题之一。过去半年,伴随长思维链的爆火,模型在复杂推理任务中普遍需要生成成千上万的 tokens 才能产出高质量解答。然而,这也与 Transformer 架构天然矛盾:随着生成长度的增长,Atten
随着人工智能 (AI) 工具撼动了科学工作流程,Sam Rodriques 梦想着进行更系统的转型。他的初创公司 FutureHouse 位于加利福尼亚州旧金山,旨在培养一名“AI 科学家”,能够指挥从假设生成到纸张生产的整个研究管道。
近日,伊利诺伊大学香槟分校和加州大学伯克利分校的研究团队在arXiv预印本平台发表了一篇题为《ALPHAONE: Reasoning Models Thinking Slow and Fast at Test Time》的研究论文。该论文由Junyu Zhan
科技媒体 marktechpost 今天(5 月 27 日)发布博文,报道称微软研究院联合清华大学、北京大学组建团队,推出奖励推理模型(Reward Reasoning Models,RRMs),通过显式推理过程动态分配计算资源,提升复杂任务评估效果。
今年年初,DeepSeek-R1以低成本、高性能以及开源特性在全球AI圈内爆火走红,风头一度压过OpenAI,同时也开启了国产推理模型持续“狂飙”时刻。
5月14日,全球最大的大模型整合应用平台Poe发布数据显示,中国大模型公司深度求索的DeepSeek-R1模型使用率,已由2月的峰值下降了50%,但目前仍处于推理模型分类中的第三位。而快手团队的可灵(Kling系列)大模型,则在视频生成模型分类中迅速登顶,占据