prm

DeepSeek-R1-Paper中的12个颠覆性发现

漏洞: 把laji桶里的laji倒出来再捡回去,也能得分!作弊: AI疯狂倒laji→捡laji→倒laji→捡laji……分数刷到爆表!结果: 房间更乱了,但AI觉得自己是“满分员工”,而你气到吐血!

rl cot prm aime rl训练 2025-03-18 19:03  3

360gpt2-o1:数学与逻辑推理的新标杆

就在上周,满血版o1正式上线了!它首次将多模态和新的推理范式结合起来,更智能、更快速。此前,在2024年9月OpenAI推出全新o1系列模型,以“会思考的大模型”重新定义了AI的发展方向,不仅打破了此前Scaling Law可能“见顶”的质疑,也宣告了人工智能

数学 逻辑推理 prm 2024-12-27 12:03  14