OpenAI最强大模型被曝跑分作假,原来是泄题了

360影视 2025-01-22 22:00 3

摘要:人红是非多,公司也一样,目前风头正劲的OpenAI又双叒叕一次踏入了漩涡。作为OpenAI去年年末一连串新品发布中的一部分,其推理模型o3在展示了前所未有的能力之后,近期有消息人士透露,o3令人震惊的成绩是建立在作弊的基础上。

人红是非多,公司也一样,目前风头正劲的OpenAI又双叒叕一次踏入了漩涡。作为OpenAI去年年末一连串新品发布中的一部分,其推理模型o3在展示了前所未有的能力之后,近期有消息人士透露,o3令人震惊的成绩是建立在作弊的基础上。

数天前,知名技术社区LessWrong上一位昵称为“Meemi”的用户成为了“吹哨人”,这名自称Epoch AI承包商的用户爆料称,OpenAI不仅为FrontierMath基准测试提供资金支持,并享有对FrontierMath大部分数据集的独家访问权。简单翻译一下,就是这个爆料所指控的OpenAI o3模型数学能力惊人的原因,是因为“提前看了试卷”。

据悉,FrontierMath是一个由人工智能研究机构Epoch AI与60多位顶尖数学家合作创建的数学测试集,涵盖了数论、代数几何、范畴论等高级数学问题,即便是经验丰富的数学专家,也得绞尽脑汁花费从数小时到数天不等的时间才能解答。

为了测试AI的数学能力,FrontierMath的设计原则是所有问题都是新的,以防止数据污染;解决方案则是自动可验证的,从而实现高效的评估;并且问题也是“防猜测”的,所以在没有正确推理的情况下很难用穷举来攻破。如出一来,相比GSM8K、MATH等老的大模型数学测试集,FrontierMath的挑战性就骤然提升,以至于OpenAI的o1模型甚至只有2%的准确率。

不仅o1的表现差强人意,Claude 3.5 Sonnet、GPT-4o、Grok、Gemini 1.5 Pro的表现更加糟糕。与之相对应的,这次OpenAI o3所公布的FrontierMath准确率高达25.2%这一成绩,就直接提高了超过12倍。事实上对于如此惊人的表现,很快就有从业者提出了疑问,认为o3可能是刷题了,但很快有人以FrontierMath是非公开为由消灭了这个“阴谋论”。

其实FrontierMath的问世,就与大模型在各种数学基准测试集上刷题有关,GSM8k和MATH这两个常见的数学基准更是重灾区。各路大模型之所以轮番在GSM8k和MATH动辄就能取得80%以上的超高正确率,就是LLM通过记忆大量的“例题”提高了分数。

当时业界对于o3模型没有对基础架构进行重塑的情况下,却能在数学层面远胜o1模型这个现象给出的解释,是OpenAI神乎其技的微调优化能力,以及通过堆积算力资源增强思维链(Chain of Thought)。这番说辞之所以会有市场,其实要得益于OpenAI的o1推理模型确实拿出了新东西。

在OpenAI方面推出o1推理模型时,斯坦福大学和加利福尼亚大学伯克利分校的研究人员就已经提炼出了o1模型背后的推理机制——元链式思维(Meta-CoT)。相比传统的思维链或long-CoT(长链思维),Meta-CoT在推理过程中不仅会关注输入的问题,而且在推理过程中会思考更多的子问题、并进行尝试。

遗憾的是,OpenAI测试造假这个操作让o3模型有了污点。Epoch AI副主任兼联合创始Tamay Besiroglu在社交平台发布的长文,其实就从侧面承认了上述爆料的真实性,“我们承认OpenAI确实可以访问大部分FrontierMath的问题和解决方案,但有一个OpenAI未见过的保留集,使得我们能够独立验证模型能力。但是我们有一个口头协议,这些材料不会用于模型训练。”

Epoch AI方面说OpenAI口头承诺不会将FrontierMath用作训练,但是如果后者没有这样的想法,又为什么会选择获取FrontierMath的访问权限呢?

更何况OpenAI还要求Epoch AI对此事保密,所以这种瓜田李下的操作,当然就给了阴谋论生存空间。对此,AI专家Gary Marcus更是将OpenAI的行为与伊丽莎白・霍尔姆斯创立的血液检测公司Theranos相提并论。

作为如今AI行业当之无愧的领头羊,OpenAI在o3模型上的行为无异于是“砸锅”,也给了支持AI泡沫论的人一记助攻。那么问题就来了,OpenAI为什么要做类似“此地无银三百两”的操作呢?原因或许是他们迟迟找不到盈利的手段。而此前The Information预计OpenAI在2024年亏损50亿美元的报道,或许已经成为了他们的心魔。

商业前景不明、且巨额亏损的情况下,技术就成为了OpenAI唯一的一张牌。如果技术不再领先,OpenAI的麻烦自然就会接踵而至。所以他们必须要维持一个技术领先的认知,因此也就有了为期12天的圣诞更新,在过去这一类名为演示、实为营销的操作,OpenAI其实是不会做的。

虽然OpenAI CEO阿特尔曼一直被评价为“善于营销”,但营销与作假显然有本质区别,此次关于OpenAI涉嫌作假的事件发酵后,对于这家AI独角兽无疑将会极为不利。毕竟以后OpenAI的宣传恐怕会被外界拿到放大镜下审视,而不再是阿特尔曼说什么,大家就信什么了。

“不服跑个分”这个思维,或许终究还是害了OpenAI。

来源:三易生活

相关推荐