aime

OpenAI发布史上最强、最智能模型o4-mini

今天凌晨1点,OpenAI进行了技术直播,发布了其最强、最智能模型o4-mini和满血版o3。o4-mini和o3是两款多模态模型,能同时处理文本、图像和音频,并且能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式(思维链中可以思

模型 智能 程序员 openai aime 2025-04-17 08:34  2

o4-mini发布 OpenAI史上最强、最智能模型

今天凌晨1点,OpenAI进行了技术直播,发布了其最强、最智能模型o4-mini和满血版o3。o4-mini和o3是两款多模态模型,能同时处理文本、图像和音频,并且能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式(思维链中可以思

模型 智能 openai aime openai史上 2025-04-17 11:57  1

200B参数击败满血DeepSeek-R1

字节跳动豆包团队今天发布了自家新推理模型 Seed-Thinking-v1.5 的技术报告。从报告中可以看到,这是一个拥有 200B 总参数的 MoE 模型,每次工作时会激活其中 20B 参数。其表现非常惊艳,在各个领域的基准上都超过了拥有 671B 总参数的

模型 推理 moe 豆包 aime 2025-04-11 11:34  2

DeepSeek-R1-Paper中的12个颠覆性发现

漏洞: 把laji桶里的laji倒出来再捡回去,也能得分!作弊: AI疯狂倒laji→捡laji→倒laji→捡laji……分数刷到爆表!结果: 房间更乱了,但AI觉得自己是“满分员工”,而你气到吐血!

rl cot prm aime rl训练 2025-03-18 19:03  3

新通“变形记”|三年磨一剑:从“摆烂”到以热爱驱动自我成长!

人生长途上的每一次转折,都可能是通往更好自我的桥梁!在新通,小新见证过无数学员关于成长的故事,从体制内中等生到剑桥学霸,从英语“开口跪”到雅思口语8.0……今天的主人公盛同学也经历了从“学习摆烂”状态到自我挑战的真实转变,这一段路他走了三年,步履不停,一直在路

成长 变形记 摆烂 背单词 aime 2025-04-09 12:30  2

Deepseek 通过算法优化实现 AI 平权

AI 传统的训练方法包括预训练(Pre-Training)以及微调(Fine-Tuning),主要过程可以简化为:随机模型 → 预训练(爬取数据)→ 预训练模型 → 微调(领域数据)→ 微调模型 → 提示/上下文学习 → 实际应用。具体来看,从一个随机初始化的

模型 推理 算法 deepseek aime 2025-04-05 12:42  5

DeepSeek-R1论文解读

介绍了我们第一代推理模型,DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一种通过大规模强化学习(RL)训练的模型,在没有监督微调(SFT)作为初始步骤的情况下表现出显著的推理能力。通过RL,DeepSeek-R1-

论文 推理 rl cot aime 2025-03-31 00:55  8

从零复现满血版 DeepSeek-R1

近期,我们团队发布了 Ligth-R1,是第一个从零复现满血版 DeepSeek-R1 的工作(几个小时后QWQ-32B发布),虽然大家都在关注 QWQ-32B,但是 QWQ-32B 只开源了模型,而我们把模型、数据、代码全部都开放出来了。

开源 rl dpo cot aime 2025-03-14 21:16  7