豆包1.5深度思考模型发布:暴砍参数量,还能看图思考
今天,火山引擎正式发布了豆包1.5·深度思考模型,采用MoE架构,总参数量为200B,激活参数仅20B,在多项基准测试中达到或接近全球第一梯队水平。
今天,火山引擎正式发布了豆包1.5·深度思考模型,采用MoE架构,总参数量为200B,激活参数仅20B,在多项基准测试中达到或接近全球第一梯队水平。
这是近期OpenAI频繁调整产品路线图后的最新发布。OpenAI此前曾调整o系列推理模型发布计划,打算不再单独推出o3模型,而是将推出GPT-5,由GPT-5集成o3。不过,4月初,OpenAI CEO山姆·奥尔特曼(Sam Altman)表示计划有变,因为“
o4-mini和o3是两款多模态模型,能同时处理文本、图像和音频,并且能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式(思维链中可以思考图像)。
今天凌晨1点,OpenAI进行了技术直播,发布了其最强、最智能模型o4-mini和满血版o3。o4-mini和o3是两款多模态模型,能同时处理文本、图像和音频,并且能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式(思维链中可以思
今天凌晨1点,OpenAI进行了技术直播,发布了其最强、最智能模型o4-mini和满血版o3。o4-mini和o3是两款多模态模型,能同时处理文本、图像和音频,并且能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式(思维链中可以思
DeepSeek - R1 论文曾提到:「我们发现将强化学习应用于这些蒸馏模型可以获得显著的进一步提升」。3 月 20 日,论文《Reinforcement Learning for Reasoning in Small LLMs: What Works an
DeepSeek - R1 论文曾提到:「我们发现将强化学习应用于这些蒸馏模型可以获得显著的进一步提升」。3 月 20 日,论文《Reinforcement Learning for Reasoning in Small LLMs: What Works an
字节跳动豆包团队今天发布了自家新推理模型Seed-Thinking-v1.5的技术报告。从报告中可以看到,这是一个拥有 200B 总参数的 MoE 模型,每次工作时会激活其中 20B 参数。其表现非常惊艳,在各个领域的基准上都超过了拥有 671B 总参数的 D
字节跳动豆包团队今天发布了自家新推理模型Seed-Thinking-v1.5的技术报告。从报告中可以看到,这是一个拥有 200B 总参数的 MoE 模型,每次工作时会激活其中 20B 参数。其表现非常惊艳,在各个领域的基准上都超过了拥有 671B 总参数的 D
字节跳动豆包团队今天发布了自家新推理模型 Seed-Thinking-v1.5 的技术报告。从报告中可以看到,这是一个拥有 200B 总参数的 MoE 模型,每次工作时会激活其中 20B 参数。其表现非常惊艳,在各个领域的基准上都超过了拥有 671B 总参数的
漏洞: 把laji桶里的laji倒出来再捡回去,也能得分!作弊: AI疯狂倒laji→捡laji→倒laji→捡laji……分数刷到爆表!结果: 房间更乱了,但AI觉得自己是“满分员工”,而你气到吐血!
人生长途上的每一次转折,都可能是通往更好自我的桥梁!在新通,小新见证过无数学员关于成长的故事,从体制内中等生到剑桥学霸,从英语“开口跪”到雅思口语8.0……今天的主人公盛同学也经历了从“学习摆烂”状态到自我挑战的真实转变,这一段路他走了三年,步履不停,一直在路
近年来,大语言模型(LLM)的性能提升逐渐从训练时规模扩展转向推理阶段的优化,这一趋势催生了「测试时扩展(test-time scaling)」的研究热潮。OpenAI 的 o1 系列与 DeepSeek 的 R1 模型已展示出显著的推理能力提升。然而,在实现
模型 推理 twice aime thinktwice 2025-04-06 22:21 6
AI 传统的训练方法包括预训练(Pre-Training)以及微调(Fine-Tuning),主要过程可以简化为:随机模型 → 预训练(爬取数据)→ 预训练模型 → 微调(领域数据)→ 微调模型 → 提示/上下文学习 → 实际应用。具体来看,从一个随机初始化的
她在他的手机里找到了一个名叫“Lily”的陌生女子,怀疑两人已暗度陈仓多年,可当她拿着证据和Luke当面对质时,却发现真相远比她想象得更加复杂……
在数学推理中,大语言模型存在根本性局限:在美国数学奥赛,顶级AI模型得分不足5%!来自ETH Zurich等机构的MathArena团队,一下子推翻了AI会做数学题这个神话。
介绍了我们第一代推理模型,DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一种通过大规模强化学习(RL)训练的模型,在没有监督微调(SFT)作为初始步骤的情况下表现出显著的推理能力。通过RL,DeepSeek-R1-
Google近期发布的Gemini 2.5 Pro Experimental模型,以其卓越的性能和多模态处理能力,引发了业界的广泛关注。本文将详细介绍Gemini 2.5 Pro的关键特性,并通过与多个主流模型的对比实测,深入分析其在不同任务中的表现,探讨其是
该模型的前身是,今年2月中旬混元团队在腾讯元宝APP上线的基于混元中等规模底座的混元T1-Preview(Hunyuan-Thinker-1-Preview)推理模型。
近期,我们团队发布了 Ligth-R1,是第一个从零复现满血版 DeepSeek-R1 的工作(几个小时后QWQ-32B发布),虽然大家都在关注 QWQ-32B,但是 QWQ-32B 只开源了模型,而我们把模型、数据、代码全部都开放出来了。