cot

浙大团队提出CoT-Bridge,显著提升数学推理性能

本文的共同第一作者是徐皓雷和颜聿辰。徐皓雷是浙江大学的一年级硕士生,主要研究兴趣集中在大模型推理和可解释性研究;颜聿辰是浙江大学博士三年级研究生,主要研究兴趣集中在大模型推理和智能体。本文通讯作者是浙江大学鲁伟明教授和沈永亮研究员。

数学 推理 浙大 cot 徐皓 2025-06-03 17:15  5

超越 GoF:现代 AI 系统实用设计模式

GoF 包含的 23 种 面向对象模式 塑造了一代开发者设计软件的方式。在 2010 年代,云计算引入了发布 - 订阅(pub-sub)、微服务、事件驱动工作流和无服务器模型等模式,现在大多数基于云的分布式系统都是以它们为基础的。

设计 实用 rag cot gof 2025-05-29 15:32  6

正确答案 ≠ 正确推理,CoT 或成大模型推理能力停滞的「罪魁祸首」?

从 ChatGPT 发布以来,大语言模型就引发了市场和科研领域的巨大的关注,其中绝大部分兴奋都源于大模型的涌现特性:它们似乎能够回忆训练中的信息,编写代码,并且进行逻辑推理。人们期望大模型能借助推理能力在会计、编程等领域拓展专业知识、减少重复性任务,为未来的职

模型 推理 opus 成大 cot 2025-05-28 16:58  6

DeepSeek的能力,到底从哪里来?

今年年初,DeepSeek发布DeepSeek-R1模型,引发全球的关注。在公开评测中,它的综合能力逼近当时的顶尖大模型,尤其在逻辑推理和数学题上展现出强劲性能,而且它的成本要远低于作比较的其他大模型。

推理 deepseek cot mcts 邹昊 2025-05-27 17:19  5

ICML2025Spotlight|多模态大模型暴露短板?

在解这道题时,我们可以通过绘制受力分析草图轻松解决。但即使是先进的多模态大语言模型,如 GPT-4o,也可能在理解「同性相斥」的基本物理原则时,错误地判断斥力的方向(例如,错误地将 + 3Q 对 + Q 的斥力方向判断为右下方而非正确的左上方)。

模型 模态 em cot icml2025spotlight 2025-05-20 20:56  7

首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源

在多模态大模型快速发展的当下,如何精准评估其生成内容的质量,正成为多模态大模型与人类偏好对齐的核心挑战。然而,当前主流多模态奖励模型往往只能直接给出评分决策,或仅具备浅层推理能力,缺乏对复杂奖励任务的深入理解与解释能力,在高复杂度场景中常出现 “失真失准”。

模型 模态 脚本 cot cot奖励 2025-05-13 18:04  8