MMR-V团队:如何评估视频多模态推理能力?
北京时间2025年6月4日,来自中国科学院自动化研究所认知与智能决策复杂系统重点实验室和中国科学院大学人工智能学院的朱柯健、金卓然、袁宏邦、李佳淳等研究团队,联合清华大学的涂尚清,在arXiv预印本平台发布了一项名为"MMR-V: What's Left Un
北京时间2025年6月4日,来自中国科学院自动化研究所认知与智能决策复杂系统重点实验室和中国科学院大学人工智能学院的朱柯健、金卓然、袁宏邦、李佳淳等研究团队,联合清华大学的涂尚清,在arXiv预印本平台发布了一项名为"MMR-V: What's Left Un
本文的共同第一作者是徐皓雷和颜聿辰。徐皓雷是浙江大学的一年级硕士生,主要研究兴趣集中在大模型推理和可解释性研究;颜聿辰是浙江大学博士三年级研究生,主要研究兴趣集中在大模型推理和智能体。本文通讯作者是浙江大学鲁伟明教授和沈永亮研究员。
本文的共同第一作者是徐皓雷和颜聿辰。徐皓雷是浙江大学的一年级硕士生,主要研究兴趣集中在大模型推理和可解释性研究;颜聿辰是浙江大学博士三年级研究生,主要研究兴趣集中在大模型推理和智能体。本文通讯作者是浙江大学鲁伟明教授和沈永亮研究员。
在2025年5月发表于arXiv的一篇前沿研究论文中,来自哈佛大学、东北大学、中国科学院、武汉大学、麻省理工学院和北京大学的多位研究者联合提出了一个颠覆性观点:Token压缩不仅仅是提高AI模型运行效率的工具,更应该成为生成式AI模型设计的核心原则。这项由Zh
自DeepSeek-R1发布以来,Reasoning model(推理模型)可谓是大火。同时,LLM领域近期也发生了三件事:
DeepSeek R1模型悄然升级,代码生成和逻辑推理能力大幅提升,直逼Claude 3.7及OpenAI o3高版本,前端审美与Claude 4相当。此次升级虽低调,却在性能上带来显著突破。
通过“串行分组 + 衰减奖励”的设计,在保证推理准确性的前提下,让模型学会提前终止思考,推理提速60%,生成更精确有用的答案。
GoF 包含的 23 种 面向对象模式 塑造了一代开发者设计软件的方式。在 2010 年代,云计算引入了发布 - 订阅(pub-sub)、微服务、事件驱动工作流和无服务器模型等模式,现在大多数基于云的分布式系统都是以它们为基础的。
在人工智能快速发展的今天,大型推理模型(Large Reasoning Models,简称LRMs)越来越受到关注。这项由上海交通大学和加州大学圣地亚哥分校的研究团队联合完成的研究于2025年5月26日发布在arXiv预印本平台上(arXiv:2505.197
从 ChatGPT 发布以来,大语言模型就引发了市场和科研领域的巨大的关注,其中绝大部分兴奋都源于大模型的涌现特性:它们似乎能够回忆训练中的信息,编写代码,并且进行逻辑推理。人们期望大模型能借助推理能力在会计、编程等领域拓展专业知识、减少重复性任务,为未来的职
5月17日,由CIO时代主办,新基建创新研究院作为智库支持的“科技筑基 智领变革 | 2025首届金融CIO数字峰会”上,蚂蚁数科AI科技创新部技术负责人、蚂蚁天玑实验室主任李哲带来“当金融大脑学会思考:CoT技术驱动的智能决策变革”的主题演讲。
今年年初,DeepSeek发布DeepSeek-R1模型,引发全球的关注。在公开评测中,它的综合能力逼近当时的顶尖大模型,尤其在逻辑推理和数学题上展现出强劲性能,而且它的成本要远低于作比较的其他大模型。
在解这道题时,我们可以通过绘制受力分析草图轻松解决。但即使是先进的多模态大语言模型,如 GPT-4o,也可能在理解「同性相斥」的基本物理原则时,错误地判断斥力的方向(例如,错误地将 + 3Q 对 + Q 的斥力方向判断为右下方而非正确的左上方)。
模型 模态 em cot icml2025spotlight 2025-05-20 20:56 7
最近,北大校友 Lilian Weng (OpenAI前AI安全与机器人技术应用研究副总裁,现Thinking Machines Lab联合创始人,知名博客Lil'Log作者)更新了一篇长长长长长长长博客《Why We Think》。
模型 lilian cot opena lilianweng 2025-05-19 17:29 8
通过观察 GPT、Claude、Gemini 等模型的迭代,可以清晰地看到,它们在复杂逻辑推理、长文本理解、数学问题求解以及代码生成与调试等高级认知任务上的性能边界被不断拓展。
北大 博客 cot 北大校友 lilianweng 2025-05-18 22:01 7
围绕“测试时计算”(Test-time Compute)和“思维链”(Chain-of-Thought,CoT),讨论了如何通过这些技术显著提升模型性能。
作者介绍:本文第一作者是丰田工业大学芝加哥 PhD 学生杨晨晓,研究兴趣是机器学习理论和大模型推理,在 ICML,NeurIPS,ICLR 等顶级会议上发表过论文。
作者介绍:本文第一作者是丰田工业大学芝加哥 PhD 学生杨晨晓,研究兴趣是机器学习理论和大模型推理,在 ICML,NeurIPS,ICLR 等顶级会议上发表过论文。
金融界 2025 年 5 月 15 日消息,国家知识产权局信息显示,江苏帝奥微电子股份有限公司申请一项名为“一种基于 COT 架构 DCDC 的自动频率检测电路及方法”的专利,公开号 CN119986123A,申请日期为 2025 年 4 月。
在多模态大模型快速发展的当下,如何精准评估其生成内容的质量,正成为多模态大模型与人类偏好对齐的核心挑战。然而,当前主流多模态奖励模型往往只能直接给出评分决策,或仅具备浅层推理能力,缺乏对复杂奖励任务的深入理解与解释能力,在高复杂度场景中常出现 “失真失准”。