摘要:但就在昨天,大洋彼岸的一众人工智能专家开始对“o3”的这些数据表示严重的怀疑,甚至将之比作“Theranos”时刻(一家建立在巨大谎言之上的公司,项目参与人员被迫保密,外界却被蒙在鼓里)。
惊天大瓜来了!
去年年底OpenAI 推出o3推理,在数学、编码、通用AGI方面都取得了令人的难以置信的类人甚至超人的进展。
但就在昨天,大洋彼岸的一众人工智能专家开始对“o3”的这些数据表示严重的怀疑,甚至将之比作“Theranos”时刻(一家建立在巨大谎言之上的公司,项目参与人员被迫保密,外界却被蒙在鼓里)。
因为事实证明,o3的发布者 OpenAI 恰恰资助了 FrontierMath ,同时可以访问大部分数据集。
有关 OpenAI 的 o3 基准测试争议已经在海外媒体持续发酵。
去年11月,Epoch AI 发布了专门用于评估大语言模型数学能力的精准测试集FrontierMath ,此前业界的观点对于 o1 的测试表现堪称“很烂但很擅长找借口”,不过很快 o3 的亮相后,这种刻板印象就来了180度大反转 ——
12 月,当 OpenAI 宣布其新的 o3 系列模型时,该公司声称 o3 在 EpochAI Frontier Math 基准测试中实现了令人印象深刻的 25% 准确率。与此前型号仅 2% 的高分相比,这是一个巨大的飞跃。该基准测试分配 LLM 来解决前所未有的难度的数学问题。
然而,这种“巨大的飞跃”,很有可能是一种“虚假繁荣”!
近日,海外开始疯传 Epoch AI 的副主任 Tamay Besiroglu 的长文,文中表示:他们受到合同限制,无法披露 OpenAI 参与其中,而六名特约数学家均透露,他们不知道 OpenAI 将拥有该基准的独家访问权,如果他们知道的话,他们不确定是否还会在其中做出贡献。
于是,包括加里·马库斯 (Gary Marcus) 在内的一众人工智能专家都开始质疑 OpenAI 的说法的合法性,并将这种情况直接与 Theranos 相提并论。
主要的信息量,有这么几个重点,大家可以先行消化——
(1)为基准测试创建问题和解决方案的数学家们并未被告知 OpenAI 资助了这项工作并有权访问它们。
(2)我们不知道 OpenAI 是否在基准上进行过训练o3 ,而且不清楚他们的结果是否可信
(3) 有些数学家不信任 OpenAI,出于生存风险的担忧,他们不愿意为通用人工智能能力做出贡献,他们被误导了:大多数人没有怀疑一家前沿人工智能公司为其提供资金。
(4)Epoch AI 表示:“我们的合同明确禁止我们披露有关资金来源的信息,以及 OpenAI 可以访问大部分但不是全部数据集的事实。”
(5)Epoch AI 与 OpenAI 达成了一项“口头协议”——好像现在还有人相信 OpenAI 的话:“我们承认 OpenAI 确实可以访问 FrontierMath 的大部分问题和解决方案,但 OpenAI 未见过的保留集除外,这使我们能够独立验证模型功能。但是,我们有一个口头协议,这些材料不会用于模型训练。”
Besiroglu 说:“我们犯了一个错误,没有对 OpenAI 的参与更加透明”。他透露,在 o3 模型推出之前,该公司被限制披露合作伙伴关系。
“我们的合同明确禁止我们披露有关资金来源的信息,以及 OpenAI 可以访问大部分但不是全部数据集的数据这一事实。我们承认这个错误,并致力于在未来做得更好,“他补充道。
Besiroglu 还承认,OpenAI 可以访问大部分 FrontierMath 问题和解决方案。然而,“OpenAI 未见的维持集”有助于验证模型的能力。
图片1:
FrontierMath 由 OpenAI 资助。关于此事的沟通一直不够透明,许多人,包括在这个数据集上工作的承包商,都没有意识到这种联系。在12月20日(OpenAI 宣布 o3 的那一天)之前,没有公开沟通关于 OpenAI 资助这个基准测试的信息。之前的 Arxiv 版本 v1-v4 没有承认 OpenAI 的支持。这种支持在12月20日公开。
因为提到 OpenAI 贡献的 Arxiv 版本正好在 o3 公告之后发布,我猜 Epoch AI 可能与 OpenAI 达成了某种协议,直到那时才公开提及此事。为 FrontierMath 创建问题的数学家并没有(积极地)被告知 OpenAI 的资助情况。
承包商被指示要对练习题及其解决方案保密,包括不使用 Overleaf 或 Colab 或通过电子邮件讨论问题,并签署保密协议,“以确保问题保持机密”并避免泄露。承包商也没有在12月20日被告知 OpenAI 的资助情况。我相信有些论文的署名作者并不知道 OpenAI 的资助情况。我认为大多数人,包括大多数承包商的印象是,“这个基准测试的问题和答案将完全保密,并且只会由 Epoch 运行。除非公司从 API 日志中提取问题(这似乎不太可能),否则这不应该是个问题。”现在 Epoch AI 或 OpenAI 并没有公开表示 OpenAI 可以访问练习题或答案或解决方案。我间接听说 OpenAI 确实可以访问练习题和答案,并且他们用它们进行验证。我不知道 Epoch AI 和 OpenAI 之间是否有协议禁止他们使用这个数据集进行训练,并且我有一些证据反对这种协议的存在。在我看来,Epoch AI 应该披露 OpenAI 的资助情况,承包商在选择是否参与基准测试时,应该有关于他们的工作可能被用于能力的透明信息。
图片2:
来自 Epoch AI 的 Tamay 表示:
我们在 OpenAI 的参与方面没有更加透明,这是一个错误。我们被限制在 o3 发布前后披露合作关系,事后看来,我们应该更努力地争取尽快向基准测试贡献者透明化。我们的合同明确禁止我们披露资金来源以及 OpenAI 对大部分但不是全部数据集的访问权限。我们承认这个错误,并承诺在未来做得更好。
对于未来的合作,我们将努力在可能的情况下提高透明度,确保贡献者从一开始就更清楚地了解资金来源、数据访问和使用目的。虽然我们确实向一些数学家传达了我们获得了实验室资助,但我们没有系统地这样做,也没有提到我们合作的实验室。这种不一致的沟通是一个错误。我们应该从一开始就更努力地争取这种合作关系的透明度,特别是与创建问题的数学家。
仅在 o3 发布时获得披露 OpenAI 参与的许可是不够的。我们的数学家应该知道谁可能访问他们的工作。尽管我们在合同上受到限制,但我们本应该将与贡献者的透明度作为与 OpenAI 协议中不可谈判的一部分。
关于训练使用:我们承认 OpenAI 确实可以访问 FrontierMath 的大部分问题和解决方案,除了一个未被 OpenAI 看到的保留集,这使我们能够独立验证模型能力。然而,我们有一个口头协议,这些材料将不会被用于模型训练。
相关 OpenAI 员工的公开沟通将 FrontierMath 描述为一个“严格保留的”评估集。虽然这种公开定位与我们的...
OpenAI 首席执行官Sam 素有“营销大师”的称谓,但营销和谎言还是有着本质的区别。
有的网友更是将此次o3基准性能争议扩大到了Sam治下OpenAI的“前科黑历史”,称:从欺骗自己的董事会到前雇员必须签署不诋毁协议,OpenAI的确有误导行为的历史,这不奇怪。
很多人并不清楚 Theranos 这个案例。这里为大家简单介绍下。
2014 年,被当时硅谷101位CEO、投资人看好的血液检测初创公司 Theranos (仅次于马斯克的特斯拉)一路高歌猛进,推销一项据称具有革命性的技术。彼时现有技术需要为每项诊断测试提供一瓶血液,而 Theranos 却声称只需一次采血,就能够进行数百次测试(据说超过 240 次),从胆固醇水平到复杂的基因分析。自动化、快速且廉价,Theranos 似乎正在提供可以彻底改变医学并挽救全世界生命的技术。
Theranos 的创始人兼首席执行官伊丽莎白·霍姆斯 (Elizabeth Holmes) 用她的学费从斯坦福大学辍学创立了这家公司,当时 Theranos 正处于巅峰时期,她只有 30 岁。从 Larry Ellison 和 Tim Draper 等人那里筹集了超过 $700m 的投资,该公司已成为硅谷的后起之秀,估值超过 $90 亿,而 Holmes 的份额超过一半,被誉为女性史蒂夫乔布斯。
唯一的问题是什么?这项技术没有奏效。
2015 年,两次获得普利策奖的《华尔街日报》记者约翰·卡雷鲁 (John Carreyrou) 首次爆料了这个故事。在收到对 Theranos 技术性能的怀疑后,John 的兴趣进一步被 Holmes 在斯坦福大学上了两个学期的化学工程课程后据称有能力发明开创性的医疗技术而进一步激发了他的兴趣。
尽管受到恐吓和法律诉讼的威胁,Theranos 的前员工 Erika Cheung 和 Tyler Schultz(他们的祖父 George Schultz 是 Theranos 董事会成员)开始与 John 分享他们对公司、技术和实践的经验。他们向董事会成员揭露了谎言,揭露了恐吓和保密的文化,一再未能通过质量保证的技术,以及至关重要的是,发送给真实患者的结果从根本上是错误的,据此做出了改变生活的医疗决定。
看起来,这家公司只不过是建立在大胆的谎言之上的。这场“骗局”最终在2015年的揭露之下,走下神坛:这家公司及其CEO都长期陷于美国政府机构源源不断的调查和各类诉讼中,一地鸡毛。
不过,有网友认为将 OpenAI 比作 Theranos,有点太过了,毕竟Theranos是未能交付(成果)。但好歹 OpenAI 有一个产品(即使它不是通用人工智能(AGI),它的护城河可能很浅)。
但不诚实的印象已经在人们心中养成——
“我认为 Sam Altman 不会被起诉,因为在软件领域没有相当于食品和药物管理局(FDA)和医疗保险与医疗补助服务中心(CMS)的机构,但 Sam Altman和Elizabeth Holmes 都是骗子和欺诈艺术家。这一点在我心中毫无疑问。”
长期以来,关于基准测试的有效性一直存在一些争论。在Apple发表的一篇研究论文中,尽管 LLM 在基准测试中表现出色,但它们并不真正擅长数学推理,它们的输出来自模式识别和从训练数据中复制步骤。
甚至 OpenAI 也提到他们不想在 MATH 和 GSM8K 上对 o1 进行基准测试,因为评估方法相当过时,而且大多数 LLM 很容易输出高分。
OpenAI 在一篇博文中说:“最近的前沿模型在 MATH2 和 GSM8K 上表现得非常好,以至于这些基准测试在区分模型方面不再有效。
鉴于这些担忧,FrontierMath 分配了 LLM 来解决前所未有的难度的数学问题。根据 Epoch AI 的说法,这些问题需要人类科学家和数学家花费数小时的工作。
Epoch AI 发布 FrontierMath,本意上是为了做一个更为靠谱的评估大型语言模型数学能力的新基准测试。尽管基准测试的问题比以往任何时候都更难解决,但无疑能揭露出LLM 的真实的数学水准。
然而,遗憾的是,OpenAI参与其中的不透明性再次让这次新基准的数学家们大跌眼镜:独家访问这项测试集+各种保密,还有什么测试意义呢?
来源:51CTO