陶哲轩使用o3 mini一手测评来了:好坏参半

360影视 动漫周边 2025-03-11 19:01 2

摘要:陶哲轩发帖说,最近他在研究图论中的一个“专家级”定理——“三角形移除引理”。这定理有点复杂,咱们普通人听着可能头大。为了搞清楚这个定理的证明,现有三种方法:

数学大神陶哲轩(Terence Tao)刚发了一篇他使用o 3 mini感受帖子,给大家划个重点

陶哲轩发帖说,最近他在研究图论中的一个“专家级”定理——“三角形移除引理”。这定理有点复杂,咱们普通人听着可能头大。为了搞清楚这个定理的证明,现有三种方法:

传统手撸: 笔和纸,自己硬啃

传统搜索: 用搜索引擎,网上冲浪找答案

AI 助手: 直接问大语言模型(LLM)

陶哲轩直接选择了第三种——求助大语言模型,他用的是 o3-mini 模型。结果让他有点惊喜:几秒钟,模型就给出了一个非常靠谱的答案,完美解释了这个定理的推导过程!他还贴出了聊天记录链接,感兴趣的可以直接去看:

大神亲自测试,这波必须点赞!陶哲轩也表示,这次体验让他觉得,对于 快速获取专业领域内的标准论证细节,LLM 真是个好帮手。之后自己再去验证一下模型的答案是否正确就行

尝到甜头的陶哲轩,又追问了模型另一个“三角形移除引理”的经典推论——鲁萨-塞迈雷迪 (Ruzsa-Szemeredi) (6,3) 定理。这回,模型的表现就没那么完美了

初次尝试: 模型给出的策略方向是对的——用超图对图形编码。但是,关键细节完全缺失

深入追问: 陶哲轩不断引导,模型依然没能抓住要点,比如如何用 (6,3) 条件来限制编码图中不需要的三角形,以及如何先简化到线性超图这种核心思路。

最后,陶哲轩还是通过传统搜索先找到了答案,然后用非常明确的提示引导模型,才让模型最终 勉强给出了一个基本正确的推导证明。大神都得先自己搞懂,才能“教”会AI,这多少有点无奈

陶哲轩的总结和反思

两次测试下来,陶哲轩的感受是:

对于研究级别的数学任务,目前的模型表现波动很大。有时 “在用户给出粗略指导下就能真正有用”, 有时却 “需要用户给出大量详细指导才能发挥作用”。更强大的模型,可能前一种情况会更多一些。

他认为, 对于那些非常标准的问题,比如维基百科或 StackOverflow 上能轻松找到答案的,LLM 表现出色。但 问题越偏门、越冷门,模型的成功率就逐渐下降。想要模型给出有用的结果,就需要更多的用户引导,或者更高的算力支持

这是 Terence Tao 的推文全文翻译:

陶哲轩

@tao@mathstodon.xyz

加州大学洛杉矶分校 #数学 教授

今天我尝试重构图论中一个(对专家而言)标准的结果的证明,即鲁兹萨-塞迈雷迪“三角形移除引理”意味着,由 n 个导出匹配组成的 n 个顶点的图只包含 o(n^2) 条边。我当时的主要三个选项是:尝试用笔和纸进行推导;进行传统的网络搜索;或者询问大型语言模型。在这种情况下,我选择了第三个选项(使用 o3-mini),并在几秒钟内收到了一个非常好的答案,正确地解释了这个推论:https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d

这满足了我眼前的需求 - 并指出了 LLM 的一个良好用例,即快速提供自己领域内一些标准论证的细节,然后可以验证其正确性 - 但后来我感到好奇,并要求模型也解释三角形移除引理的另一个标准推论,即鲁兹萨-塞迈雷迪关于具有特定禁用配置的 3-均匀超图大小的 (6,3) 定理。在这里,结果明显好坏参半(见上方链接)。最初的答案有正确的总体策略 - 使用超图来编码图 - 但缺乏所有关键细节。当我进一步追问时,它没有提及两个最重要的想法 - 使用 (6,3) 条件来限制编码图中不需要的三角形,或最初简化为线性超图 - 但通过额外的提示,它能够重构这些组成部分,并最终提供了该推导的基本上正确的证明。但我不得不通过相当明确的提示来引导它,我只能这样做,因为我事先通过传统的网络搜索查找了证明。(1/2)

我的总体感觉是,至少对于研究级别的数学任务而言,目前的模型在“仅需用户提供广泛指导就真正有用”和“在用户提供大量详细指导后才有用”之间波动,其中,最强大的模型在前者类别中拥有更高比例的答案。对于那些非常标准的问题,它们似乎特别有效,以至于它们的答案基本上可以在诸如维基百科或 StackOverflow 等现有资源中找到;但是,随着人们转向越来越晦涩的问题类型,成功率会逐渐降低(尽管是以较为渐进的方式),并且需要更多的用户指导(或更高的计算资源)才能使 LLM 的输出达到可用的形式。(2/2)

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问进入。

截止到2月28日 ”未来知识库”精选的100部前沿科技趋势报告

《核聚变,确保 21 世纪美国的主导地位的关键技术》

《世界知识产权组织:2025WIPO 技术趋势报告:交通运输的未来(145 页)》

《世界知识产权组织(WIPO):2024 年世界知识产权指标报告(194 页)》

《联合国环境规划署:2024 年保护地球报告(81 页)》

《联合国工发组织:2024 清洁技术创新能力建设框架研究报告(51 页)》

《凯捷:Applying TechnoVision 2025:未来科技趋势及应用愿景(17 页)》

《谷歌:2025 年 AI Agent 白皮书:AI 智能体时代来临(42 页)》

《富而德律师事务所:2024 年国际仲裁趋势年度回顾报告(41 页)》

《邓白氏:2024 年全球企业破产报告(27 页)》

《LLM 时代小模型的应用潜力与挑战 》(50 页)

《斯坦福 2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告》(英文版 191 页)

《英伟达:2025NVIDIA 自动驾驶安全报告(26 页)》

《微软 MICROSOFT (MSFT) 2024 年影响力摘要报告(23 页)》

《高德地图:2024 年中国主要城市交通分析报告(29 页)》

《德勤 & CAS:2025 锂离子电池回收行业报告 - 面向绿色未来的市场及创新趋势(36 页)》

《ABI Research:2025 生成式人工智能在语义和实时通信中的应用研究报告(20 页)》

《2025 年 3D 打印技术发展趋势、产业链及相关标的分析报告(45 页)》

《生成式基础模型的可信度 —— 指南、评估与展望》(231 页)

《量子信息科学与技术对国家安全的影响》(118 页)

《中国科学技术信息研究所:2024 科技期刊世界影响力指数(WJCI)报告(68 页)》

《思略特(Strategy&):2025 汽车行业的人工智能(AI)机遇研究报告(12 页)》

《赛默飞:2024 年中国生物科技行业调研报告:资本寒冬中生物科技企业的生产之道(18 页)》

《清华大学:2025 年 DeepSeek 与 AI 幻觉报告(38 页)》

《美国企业研究所(AEI):2025 创新未来电力系统研究报告:从愿景迈向行动(71 页)》

《超材料的智能设计研究进展》

《Ember:2030 年全球可再生能源装机容量目标研究报告(29 页)》

《量子信息科学与技术对国家安全的影响》

《英国人工智能安全研究所:2025 年国际人工智能安全报告 - 执行摘要(22 页)》

《世界海事大学:2024 海事数字化与脱碳研究报告:可持续未来(250 页)》

《艾睿铂(AlixPartners):2024 回溯过往锚定未来:大型科技公司如何推进人工智能愿景研究报告(18 页)》

《Wavestone :2025 数据与 AI 雷达:掌握数据与人工智能转型的 10 大挑战研究报告(30 页)》

《CSIS:2024 中美学术的再联结研究报告:在激烈竞争的时代增进相互理解(120 页)》

《MSC:2025 全球国防创新就绪度差距系列报告:突破制约国防创新的六大隐性障碍(第四版)(32 页)》

《2025 年 AI 编程发展前景及国内外 AI 编程应用发展现状分析报告(22 页)》

《中国核电 - 公司深度报告:世界核电看中国 - 250218(22 页)》

《医药生物行业:医疗器械行业全景图发展趋势及投资机会展望 - 250216(28 页)》

《皮尤研究中心:2024 美国社交媒体使用情况研究报告(英文版)(30 页)》

《科睿唯安:2025 基因编辑领域的领先创新者洞察报告 - 改变药物发现和开发范式的八大创新者(47 页)》

《经合组织(OECD):2025 年全球脆弱性报告(218 页)》

《计算机行业年度策略:AI 应用元年看好 Agent、豆包链及推理算力三大主线 - 250218(38 页)》

《国金证券研究所:从理想走向现实,全球人型机器人研究报告》

《深度解读 DeepSeek 原理与效应(附 PPT 下载)》

《兰德公司(RAND):2025 借鉴危机经验构建城市水安全韧性研究报告:五城案例分析(62 页)》

《凯捷(Capgemini):2025 行业创新洞察:电气化飞机推进系统研究报告(27 页)》

《国际能源署(IEA):2025 全球电力市场报告:至 2027 年的分析与预测(200 页)》

《Zenith:2025 年国际消费电子展(CES)趋势报告:AI 对消费科技、消费行为及传媒营销的变革性影响(17 页)》

《RBC 财富管理:全球透视 2025 年展望报告(33 页)》

《美国国防部和国家安全领域的十大新兴技术》(96 页)

《代理型人工智能全面指南》(45 页 ppt)

《麦肯锡 2025 人类工作中的超级代理。赋能人类解锁 AI 的全部潜力》(英文版 47 页)

《仲量联行(JLL):2025 美国制造业的复兴全面分析报告:未来制造业增长及工业需求前瞻(26 页)》

《未来的太空领域:影响美国战略优势的领域》

《Luminate:2024 年年终美国影视行业报告:数据及趋势洞察(40 页)》

《Anthropic:2025 年 AI 经济影响报告:AI 如何融入现代经济的各类实际任务(38 页)》

【ICLR2025】《LLMS 能否识别您的偏好?评估 LLMS 中的个性化偏好遵循能力》

《改进单智能体和多智能体深度强化学习方法》(219 页)

《美国安全与新兴技术中心:2025 中国学界对大语言模型的批判性思考通用人工智能 AGI 的多元路径探索研究报告》(英文版 29 页)

《世界经济论坛 & 麦肯锡:2025 以人才为核心:制造业持续变革的当务之急研究报告(40 页)》

《超越 ChatGPT 的 AI 智能体》(82 页 ppt)

《Harris Poll:2024 年汽车技术预测报告:消费者对先进汽车技术与功能的洞察(14 页)》

【新书】《人工智能智能体的应用》(527 页)

《哥伦比亚大学:超越 Chatgpt 的 AI agent 综述》

《欧盟标准组织 - 体验式网络智能(ENI)- 基于人工智能代理的下一代网络切片研究》

《中国科学院:2024 开放地球引擎(OGE)研究进展与应用报告(55 页)》

《中国工程院:2024 农业机器人现状与展望报告(70 页)》

《美国安全与新兴技术中心:2025 中国学界对大语言模型的批判性思考:通用人工智能 (AGI) 的多元路径探索研究报告(29 页)》

《罗兰贝格:2050 年全球趋势纲要报告之趋势五:技术与创新(2025 年版)(72 页)》

《理特咨询(ADL):2025 解锁聚变能源:驾驭聚变能商业化的机遇与挑战研究报告(20 页)》

《埃森哲:技术展望 2025—AI 自主宣言:可能无限信任惟先 - 摘要(12 页)》

《怡安(AON):2025 年气候和自然灾难洞察报告(109 页)》

《美国安全与新兴技术中心:2025 AI 翻车事故(AI incident):强制性报告制度的关键要素研究报告(32 页)》

《牛津经济研究院 2025 确保英国充分释放量子计算的经济潜力研究报告 》(英文版 64 页)

《欧洲创新委员会(EIC):2024 年科技报告(65 页)》

《大模型基础 完整版》

《国际人工智能安全报告》(300 页)

《怡安(AON):2025 年全球医疗趋势报告(19 页)》

《前瞻:2025 年脑机接口产业蓝皮书 —— 未来将至打造人机交互新范式(57 页)》

《联合国(United Nations):2024 技术与统计报告:从业者投资法指南(67 页)》

《经济学人智库(EIU):2025 全球展望报告:特朗普再次当选美国总统的全球影响(16 页)》

《大规模视觉 - 语言模型的基准、评估、应用与挑战》

《大规模安全:大模型安全的全面综述》

《Emplifi:2024 年 Q4 全球电商行业基准报告 - 社交媒体趋势洞察(37 页)》

《DeepMind:2025 生成式魂灵:预测人工智能来世的益处和风险研究报告(23 页)》

【AI4Science】《利用大型语言模型变革科学:关于人工智能辅助科学发现、实验、内容生成与评估的调研》

《世界银行:2025 极端天气高昂代价:气候变化背景下的马拉维金融韧性构建研究报告(76 页)》

《北京理工大学:2025 年中国能源经济指数研究及展望报告》

《Space Capital:2024 年第四季度太空投资报告(22 页)》

《NetDocuments:2025 年法律科技趋势报告(32 页)》

《CB Insights:2024 年度全球企业风险投资(CVC)状况报告:私募市场交易、投融资数据及分析(130 页)》

《Artlist:2025 年全球内容与创意趋势报告(59 页)》

《IBM 商业价值研究院:2024 投资人工智能伦理和治理必要性研究报告:AI 伦理前线五位高管的真实故事(24 页)》

《世界基准联盟(WBA):2025 塑造未来:对可持续发展目标(SDGs)影响最大的 2000 家公司研究报告(46 页)》

《清华大学:2025 年 DeepSeek 从入门到精通(104 页)》

《麦肯锡:2025 工作场所中的超级代理 (Superagency):赋能人类解锁人工智能的全部潜力(47 页)》

《凯捷(Capgemini):科技愿景 2025:关键新兴科技趋势探索(54 页)》

《硅谷银行(SVB):2025 年上半年全球创新经济展望报告(39 页)》

《BCG:2025 工业运营前沿技术:AI 智能体 (AI Agents) 的崛起白皮书(26 页)》

《DrakeStar:2024 年全球游戏与电竞行业报告(26 页)》

《理特咨询(ADL):2025 人工智能驱动的研究、开发与创新突破的新时代研究报告(80 页)》

《互联网安全中心(CIS):2024 年网络安全冬季报告:回顾与展望(30 页)》

《方舟投资(ARK Invest):Big Ideas 2025 - 年度投研报告(148 页)》

《DeepSeek:2024 年 DeepSeek-V2 模型技术报告:经济、高效的混合专家语言模型(52 页)》

《CB Insights:2024 年度全球风险投资状况回顾报告:私募市场交易、投融资和退出数据及分析(273 页)》

《全国智标委:2025 城市生命线数字化标准体系研究报告(105 页)》

《经合组织(OECD):2024 年全球政府创新趋势报告:促进以人为本的公共服务(46 页)》

《DeepSeek_R1 技术报告》

《摩根斯坦利报告 —DeepSeek 对于科技和更广义经济的含义是什么?》

《李飞飞最新 S1 模型的论文:s1 Simple test-time scaling》

《世界经济论坛 -《全球经济未来:2030 年的生产力》报告》

《2035 年技术融合估计:量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》

《百页大语言模型新书》(209 页 pdf)

《量子技术和网络安全:技术、治理和政策挑战》(107 页)

《大语言模型中的对齐伪造》(137 页)

《2035 年技术融合估计:量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》(美陆军 232 页)

《美国防部 CDAO:人工智能模型的测试与评估》(66 页 slides)

《自动驾驶的世界模型综述》

《Questel2024 深度学习领域专利全景报告》(英文版 34 页)

《深度解析 Palantir》(20250122_204934.pdf)

上下滑动查看更多

来源:人工智能学家

相关推荐