摘要:这下Meta的高管们坐不住了,今天Meta 的生成式 AI 副总裁 Ahmad Al-Dahle在X平台上表示该传言“完全不属实”,他先是象征性地夸了一句Llama 4,然后话锋一转开始辟谣:
Meta的辟谣来了!——没刷榜、模型稳定部署需要时间。
昨日,Llama 4收到许多网友实测后的“差评”,加之自称内部员工的人在国内论坛上爆料Meta作弊,一时间流言四起。
这下Meta的高管们坐不住了,今天Meta 的生成式 AI 副总裁 Ahmad Al-Dahle在X平台上表示该传言“完全不属实”,他先是象征性地夸了一句Llama 4,然后话锋一转开始辟谣:
“话虽如此,我们也收到了关于在不同服务中模型表现质量不一的反馈。由于我们在模型一准备好就立即发布了,所以我们预计各个平台的公开实现需要几天时间才能完全稳定下来。我们会继续修复 bug 并帮助合作伙伴完成接入。
关于有人声称我们在训练中使用了测试集——这完全不属实,我们绝不会那样做。我们最合理的理解是,大家目前遇到的质量差异,主要是因为模型的具体实现还需要进一步稳定。”
评论区中,一些网友表示了理解,认为模型在各个平台有些边缘情况需要修bug很正常。
也有网友对这波辟谣表示质疑,“没见过其他模型需要搞‘稳定实施’的”。
有人补充说,可能与Llama 4新引入的一些技术有关。
话说回来,Llama 4“作弊”传闻能持续发酵,Meta自身要背负很大的责任。
在报告中,Meta 使用了一个“实验性的、未公开发布”的 Maverick 版本参加 LM Arena 基准测试,进一步助长了传言。
在图表中,他们甚至备注了这个Maverick是做过对话场景优化的。
这无异于为Llama 4此后的各种流言和猜测埋下了一枚怀疑的种子。
讨论最初由“一亩三分地”论坛(该论坛专注于留学和求职的社区平台,在北美华人圈很有影响力)上的一篇帖子引发,发帖人自称是参与 Llama 4 训练的内部员工,并表示因此已辞职。
经过反复训练,其实内部模型的表现依然未能达到开源SOTA,甚至与之相差甚远。公司领导层建议将各个benchmark的测试集混合在post-training过程中,目的是希望能够在各项指标上交差,拿出一个“看起来可以的结果“。
原贴地址可移步:https://www.1point3acres.com/bbs/thread-1122600-1-1.html
然而,评论区出现了Meta员工,邀请“实名对线”。也有人指出“最近离职的VP根本不参与模型训练”等细节漏洞,让贴主爆料中的真实性受到怀疑。
有人进一步指出发帖人的矛盾之处:如果deadline是网友所爆料的4月底,何必在4月初就发布掺假的结果呢?
尽管如此,因为Llama 4的实测表现真的很水,这个传言暗合了许多人的心理预期。让Meta的这个负面消息在未证实的情况下,就广泛的传播开了。
昨日,外媒TechCrunch 也发表文章,直接指出 Meta 新 AI 模型的性能测试“有些误导”。
“看起来,Meta 部署到 LM Arena 的 Maverick 版本,与开发者可广泛访问的版本并不相同。”
X上的研究人员也发现,Meta 可能为基准评测而优化了模型的“人设”,甚至不惜牺牲客观性来博好感。他在实测分享时说“Llama 4绝对被烹饪过头了”。
他用来测试GPT 4o和Llama 4的问题很简单:“AI领域工作的Nathan Lambert(博主自己)是谁?”
GPT的回答相当中肯、理性:
目前,没有广为人知、在人工智能领域具有代表性的重要人物叫 Nathan Lambert,他不像 Geoffrey Hinton、Yann LeCun 或 Fei-Fei Li 那样出名。
但确实有一位名为 Nathan Lambert, PhD 的研究者,专注于机器学习和 AI 相关领域。
而Llama 4则立即开启了疯狂话痨模式,在输出冗长的简历后不忘强调“他是该领域最具影响力的人之一。”
一些网友甚至吐槽Llama 4要比Gemma 3 27B以及Llama系列的前代模型还差许多。
不过,Llama 4能否在Meta VP许诺的“几天后”稳定下来,并取得一个亮眼的成绩,还是一个未知数。或许,我们还是可以期待,在bug修缮后,模型性能会有一个台阶的跃升。
Meta一系列迷惑的操作,也给其他模型公司敲了个警钟。
首先,Llama 4的确在模型性能图表中使用了“实验版本”有着特定优化的Maverick模型进行跑分。无疑将自己推向了“作弊”的塔西佗陷阱。
其次,Meta在模型刚出炉时就迫不及待地发布了,根本没有在各个平台调适到最佳性能。一位网友还建议Meta应该向阿里Qwen学习,做一个更友好的Web UI,让大家能轻松接触到前沿模型的能力。
最后,就是老生常谈的大模型炒作与刷榜问题了。如果一个模型被特意为基准测试优化后用于评测,随后却向公众发布一个“普通版本”,这会让开发者难以预测该模型在真实场景中的实际表现。这种行为也具有相当的误导性。
事实上,“模型无意中看过了答案”这事儿,在AI圈早已不是新闻。大模型的训练数据来源广泛,覆盖了互联网上几乎所有能爬到的内容——而热门基准测试集,本身就经常被引用、分享、分析。结果就是,模型可能在训练阶段就接触过这些“考试题”,在实际测试中自然能交出一份“优等生”答卷。
因此,是时候重构我们对AI能力评估的方式了。与其再迷信分数排行榜,不如关注模型在真实任务中的表现,比如长时对话、一致性写作、多轮推理这些“考不过但能干活”的场景。
最后,问题来了,Llama 4家族中的超大杯Llama 4 Behemoth还值得我们期待吗?
1.https://techcrunch.com/2025/04/07/meta-exec-denies-the-company-artificially-boosted-llama-4s-benchmark-scores/
2.https://www.reddit.com/r/singularity/comments/1jspmq9/users_are_not_happy_with_llama_4_models/?utm_source=chatgpt.com
来源:51CTO