陶哲轩使用o3 mini一手测评来了：好坏参半

摘要：陶哲轩发帖说，最近他在研究图论中的一个“专家级”定理——“三角形移除引理”。这定理有点复杂，咱们普通人听着可能头大。为了搞清楚这个定理的证明，现有三种方法：

数学大神陶哲轩（Terence Tao）刚发了一篇他使用o 3 mini感受帖子，给大家划个重点

陶哲轩发帖说，最近他在研究图论中的一个“专家级”定理——“三角形移除引理”。这定理有点复杂，咱们普通人听着可能头大。为了搞清楚这个定理的证明，现有三种方法：

传统手撸: 笔和纸，自己硬啃

传统搜索: 用搜索引擎，网上冲浪找答案

AI 助手: 直接问大语言模型（LLM）

陶哲轩直接选择了第三种——求助大语言模型，他用的是 o3-mini 模型。结果让他有点惊喜：几秒钟，模型就给出了一个非常靠谱的答案，完美解释了这个定理的推导过程！他还贴出了聊天记录链接，感兴趣的可以直接去看：

大神亲自测试，这波必须点赞！陶哲轩也表示，这次体验让他觉得，对于 快速获取专业领域内的标准论证细节，LLM 真是个好帮手。之后自己再去验证一下模型的答案是否正确就行

尝到甜头的陶哲轩，又追问了模型另一个“三角形移除引理”的经典推论——鲁萨-塞迈雷迪 (Ruzsa-Szemeredi) (6,3) 定理。这回，模型的表现就没那么完美了

初次尝试： 模型给出的策略方向是对的——用超图对图形编码。但是，关键细节完全缺失

深入追问： 陶哲轩不断引导，模型依然没能抓住要点，比如如何用 (6,3) 条件来限制编码图中不需要的三角形，以及如何先简化到线性超图这种核心思路。

最后，陶哲轩还是通过传统搜索先找到了答案，然后用非常明确的提示引导模型，才让模型最终 勉强给出了一个基本正确的推导证明。大神都得先自己搞懂，才能“教”会AI，这多少有点无奈

陶哲轩的总结和反思

两次测试下来，陶哲轩的感受是：

对于研究级别的数学任务，目前的模型表现波动很大。有时 “在用户给出粗略指导下就能真正有用”，有时却 “需要用户给出大量详细指导才能发挥作用”。更强大的模型，可能前一种情况会更多一些。

他认为，对于那些非常标准的问题，比如维基百科或 StackOverflow 上能轻松找到答案的，LLM 表现出色。但 问题越偏门、越冷门，模型的成功率就逐渐下降。想要模型给出有用的结果，就需要更多的用户引导，或者更高的算力支持

这是 Terence Tao 的推文全文翻译：

陶哲轩

@tao@mathstodon.xyz

加州大学洛杉矶分校 #数学教授

今天我尝试重构图论中一个（对专家而言）标准的结果的证明，即鲁兹萨-塞迈雷迪“三角形移除引理”意味着，由 n 个导出匹配组成的 n 个顶点的图只包含 o(n^2) 条边。我当时的主要三个选项是：尝试用笔和纸进行推导；进行传统的网络搜索；或者询问大型语言模型。在这种情况下，我选择了第三个选项（使用 o3-mini），并在几秒钟内收到了一个非常好的答案，正确地解释了这个推论：https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d

这满足了我眼前的需求 - 并指出了 LLM 的一个良好用例，即快速提供自己领域内一些标准论证的细节，然后可以验证其正确性 - 但后来我感到好奇，并要求模型也解释三角形移除引理的另一个标准推论，即鲁兹萨-塞迈雷迪关于具有特定禁用配置的 3-均匀超图大小的 (6,3) 定理。在这里，结果明显好坏参半（见上方链接）。最初的答案有正确的总体策略 - 使用超图来编码图 - 但缺乏所有关键细节。当我进一步追问时，它没有提及两个最重要的想法 - 使用 (6,3) 条件来限制编码图中不需要的三角形，或最初简化为线性超图 - 但通过额外的提示，它能够重构这些组成部分，并最终提供了该推导的基本上正确的证明。但我不得不通过相当明确的提示来引导它，我只能这样做，因为我事先通过传统的网络搜索查找了证明。(1/2)

我的总体感觉是，至少对于研究级别的数学任务而言，目前的模型在“仅需用户提供广泛指导就真正有用”和“在用户提供大量详细指导后才有用”之间波动，其中，最强大的模型在前者类别中拥有更高比例的答案。对于那些非常标准的问题，它们似乎特别有效，以至于它们的答案基本上可以在诸如维基百科或 StackOverflow 等现有资源中找到；但是，随着人们转向越来越晦涩的问题类型，成功率会逐渐降低（尽管是以较为渐进的方式），并且需要更多的用户指导（或更高的计算资源）才能使 LLM 的输出达到可用的形式。(2/2)

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问进入。

截止到2月28日 ”未来知识库”精选的100部前沿科技趋势报告

《核聚变，确保 21 世纪美国的主导地位的关键技术》

《世界知识产权组织：2025WIPO 技术趋势报告：交通运输的未来（145 页）》

《世界知识产权组织（WIPO）：2024 年世界知识产权指标报告（194 页）》

《联合国环境规划署：2024 年保护地球报告（81 页）》

《联合国工发组织：2024 清洁技术创新能力建设框架研究报告（51 页）》

《凯捷：Applying TechnoVision 2025：未来科技趋势及应用愿景（17 页）》

《谷歌：2025 年 AI Agent 白皮书：AI 智能体时代来临（42 页）》

《富而德律师事务所：2024 年国际仲裁趋势年度回顾报告（41 页）》

《邓白氏：2024 年全球企业破产报告（27 页）》

《LLM 时代小模型的应用潜力与挑战》（50 页）

《斯坦福 2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告》（英文版 191 页）

《英伟达：2025NVIDIA 自动驾驶安全报告（26 页）》

《微软 MICROSOFT (MSFT) 2024 年影响力摘要报告（23 页）》

《高德地图：2024 年中国主要城市交通分析报告（29 页）》

《德勤 & CAS：2025 锂离子电池回收行业报告 - 面向绿色未来的市场及创新趋势（36 页）》

《ABI Research：2025 生成式人工智能在语义和实时通信中的应用研究报告（20 页）》

《2025 年 3D 打印技术发展趋势、产业链及相关标的分析报告（45 页）》

《生成式基础模型的可信度 —— 指南、评估与展望》（231 页）

《量子信息科学与技术对国家安全的影响》（118 页）

《中国科学技术信息研究所：2024 科技期刊世界影响力指数（WJCI）报告（68 页）》

《思略特（Strategy&）：2025 汽车行业的人工智能（AI）机遇研究报告（12 页）》

《赛默飞：2024 年中国生物科技行业调研报告：资本寒冬中生物科技企业的生产之道（18 页）》

《清华大学：2025 年 DeepSeek 与 AI 幻觉报告（38 页）》

《美国企业研究所（AEI）：2025 创新未来电力系统研究报告：从愿景迈向行动（71 页）》

《超材料的智能设计研究进展》

《Ember：2030 年全球可再生能源装机容量目标研究报告（29 页）》

《量子信息科学与技术对国家安全的影响》

《英国人工智能安全研究所：2025 年国际人工智能安全报告 - 执行摘要（22 页）》

《世界海事大学：2024 海事数字化与脱碳研究报告：可持续未来（250 页）》

《艾睿铂（AlixPartners）：2024 回溯过往锚定未来：大型科技公司如何推进人工智能愿景研究报告（18 页）》

《Wavestone ：2025 数据与 AI 雷达：掌握数据与人工智能转型的 10 大挑战研究报告（30 页）》

《CSIS：2024 中美学术的再联结研究报告：在激烈竞争的时代增进相互理解（120 页）》

《MSC：2025 全球国防创新就绪度差距系列报告：突破制约国防创新的六大隐性障碍（第四版）（32 页）》

《2025 年 AI 编程发展前景及国内外 AI 编程应用发展现状分析报告（22 页）》

《中国核电 - 公司深度报告：世界核电看中国 - 250218（22 页）》

《医药生物行业：医疗器械行业全景图发展趋势及投资机会展望 - 250216（28 页）》

《皮尤研究中心：2024 美国社交媒体使用情况研究报告（英文版）（30 页）》

《科睿唯安：2025 基因编辑领域的领先创新者洞察报告 - 改变药物发现和开发范式的八大创新者（47 页）》

《经合组织（OECD）：2025 年全球脆弱性报告（218 页）》

《计算机行业年度策略：AI 应用元年看好 Agent、豆包链及推理算力三大主线 - 250218（38 页）》

《国金证券研究所：从理想走向现实，全球人型机器人研究报告》

《深度解读 DeepSeek 原理与效应（附 PPT 下载）》

《兰德公司（RAND）：2025 借鉴危机经验构建城市水安全韧性研究报告：五城案例分析（62 页）》

《凯捷（Capgemini）：2025 行业创新洞察：电气化飞机推进系统研究报告（27 页）》

《国际能源署（IEA）：2025 全球电力市场报告：至 2027 年的分析与预测（200 页）》

《Zenith：2025 年国际消费电子展（CES）趋势报告：AI 对消费科技、消费行为及传媒营销的变革性影响（17 页）》

《RBC 财富管理：全球透视 2025 年展望报告（33 页）》

《美国国防部和国家安全领域的十大新兴技术》（96 页）

《代理型人工智能全面指南》（45 页 ppt）

《麦肯锡 2025 人类工作中的超级代理。赋能人类解锁 AI 的全部潜力》（英文版 47 页）

《仲量联行（JLL）：2025 美国制造业的复兴全面分析报告：未来制造业增长及工业需求前瞻（26 页）》

《未来的太空领域：影响美国战略优势的领域》

《Luminate：2024 年年终美国影视行业报告：数据及趋势洞察（40 页）》

《Anthropic：2025 年 AI 经济影响报告：AI 如何融入现代经济的各类实际任务（38 页）》

【ICLR2025】《LLMS 能否识别您的偏好？评估 LLMS 中的个性化偏好遵循能力》

《改进单智能体和多智能体深度强化学习方法》（219 页）

《美国安全与新兴技术中心：2025 中国学界对大语言模型的批判性思考通用人工智能 AGI 的多元路径探索研究报告》（英文版 29 页）

《世界经济论坛 & 麦肯锡：2025 以人才为核心：制造业持续变革的当务之急研究报告（40 页）》

《超越 ChatGPT 的 AI 智能体》（82 页 ppt）

《Harris Poll：2024 年汽车技术预测报告：消费者对先进汽车技术与功能的洞察（14 页）》

【新书】《人工智能智能体的应用》（527 页）

《哥伦比亚大学：超越 Chatgpt 的 AI agent 综述》

《欧盟标准组织 - 体验式网络智能（ENI）- 基于人工智能代理的下一代网络切片研究》

《中国科学院：2024 开放地球引擎（OGE）研究进展与应用报告（55 页）》

《中国工程院：2024 农业机器人现状与展望报告（70 页）》

《美国安全与新兴技术中心：2025 中国学界对大语言模型的批判性思考：通用人工智能 (AGI) 的多元路径探索研究报告（29 页）》

《罗兰贝格：2050 年全球趋势纲要报告之趋势五：技术与创新（2025 年版）（72 页）》

《理特咨询（ADL）：2025 解锁聚变能源：驾驭聚变能商业化的机遇与挑战研究报告（20 页）》

《埃森哲：技术展望 2025—AI 自主宣言：可能无限信任惟先 - 摘要（12 页）》

《怡安（AON）：2025 年气候和自然灾难洞察报告（109 页）》

《美国安全与新兴技术中心：2025 AI 翻车事故（AI incident）：强制性报告制度的关键要素研究报告（32 页）》

《牛津经济研究院 2025 确保英国充分释放量子计算的经济潜力研究报告》（英文版 64 页）

《欧洲创新委员会（EIC）：2024 年科技报告（65 页）》

《大模型基础完整版》

《国际人工智能安全报告》（300 页）

《怡安（AON）：2025 年全球医疗趋势报告（19 页）》

《前瞻：2025 年脑机接口产业蓝皮书 —— 未来将至打造人机交互新范式（57 页）》

《联合国（United Nations）：2024 技术与统计报告：从业者投资法指南（67 页）》

《经济学人智库（EIU）：2025 全球展望报告：特朗普再次当选美国总统的全球影响（16 页）》

《大规模视觉 - 语言模型的基准、评估、应用与挑战》

《大规模安全：大模型安全的全面综述》

《Emplifi：2024 年 Q4 全球电商行业基准报告 - 社交媒体趋势洞察（37 页）》

《DeepMind：2025 生成式魂灵：预测人工智能来世的益处和风险研究报告（23 页）》

【AI4Science】《利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研》

《世界银行：2025 极端天气高昂代价：气候变化背景下的马拉维金融韧性构建研究报告（76 页）》

《北京理工大学：2025 年中国能源经济指数研究及展望报告》

《Space Capital：2024 年第四季度太空投资报告（22 页）》

《NetDocuments：2025 年法律科技趋势报告（32 页）》

《CB Insights：2024 年度全球企业风险投资（CVC）状况报告：私募市场交易、投融资数据及分析（130 页）》

《Artlist：2025 年全球内容与创意趋势报告（59 页）》

《IBM 商业价值研究院：2024 投资人工智能伦理和治理必要性研究报告：AI 伦理前线五位高管的真实故事（24 页）》

《世界基准联盟（WBA）：2025 塑造未来：对可持续发展目标（SDGs）影响最大的 2000 家公司研究报告（46 页）》

《清华大学：2025 年 DeepSeek 从入门到精通（104 页）》

《麦肯锡：2025 工作场所中的超级代理 (Superagency)：赋能人类解锁人工智能的全部潜力（47 页）》

《凯捷（Capgemini）：科技愿景 2025：关键新兴科技趋势探索（54 页）》

《硅谷银行（SVB）：2025 年上半年全球创新经济展望报告（39 页）》

《BCG：2025 工业运营前沿技术：AI 智能体 (AI Agents) 的崛起白皮书（26 页）》

《DrakeStar：2024 年全球游戏与电竞行业报告（26 页）》

《理特咨询（ADL）：2025 人工智能驱动的研究、开发与创新突破的新时代研究报告（80 页）》

《互联网安全中心（CIS）：2024 年网络安全冬季报告：回顾与展望（30 页）》

《方舟投资（ARK Invest）：Big Ideas 2025 - 年度投研报告（148 页）》

《DeepSeek：2024 年 DeepSeek-V2 模型技术报告：经济、高效的混合专家语言模型（52 页）》

《CB Insights：2024 年度全球风险投资状况回顾报告：私募市场交易、投融资和退出数据及分析（273 页）》

《全国智标委：2025 城市生命线数字化标准体系研究报告（105 页）》

《经合组织（OECD）：2024 年全球政府创新趋势报告：促进以人为本的公共服务（46 页）》

《DeepSeek_R1 技术报告》

《摩根斯坦利报告 —DeepSeek 对于科技和更广义经济的含义是什么？》

《李飞飞最新 S1 模型的论文：s1 Simple test-time scaling》

《世界经济论坛 -《全球经济未来：2030 年的生产力》报告》

《2035 年技术融合估计：量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》

《百页大语言模型新书》（209 页 pdf）

《量子技术和网络安全：技术、治理和政策挑战》（107 页）

《大语言模型中的对齐伪造》（137 页）

《2035 年技术融合估计：量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》（美陆军 232 页）

《美国防部 CDAO：人工智能模型的测试与评估》（66 页 slides）

《自动驾驶的世界模型综述》

《Questel2024 深度学习领域专利全景报告》（英文版 34 页）

《深度解析 Palantir》（20250122_204934.pdf）

上下滑动查看更多

来源：人工智能学家

标签：测评 mini 陶哲轩 o3mini o3

本文地址：https://news.43u.com.cn/a/686218.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐