AI未来发展受两大因素限制|扎克伯格万字访谈实录

360影视 动漫周边 2025-05-02 10:44 2

摘要:4月30日,Meta创始人兼CEO扎克伯格接受Dwarkesh播客访谈,本次对话深入探讨了Meta 在 AI 领域的最新进展,包括Llama 4 系列模型的发布、Meta AI 个性化功能探索;开源与闭源模型的发展态势、基准测试的局限性与真实用户价值的重要性。

4月30日,Meta创始人兼CEO扎克伯格接受Dwarkesh播客访谈,本次对话深入探讨了Meta 在 AI 领域的最新进展,包括Llama 4 系列模型的发布、Meta AI 个性化功能探索;开源与闭源模型的发展态势、基准测试的局限性与真实用户价值的重要性。此外还探讨了 AI 自动化的潜力以及物理基础设施、人机协同进化等现实制约因素;AI对人际关系、用户体验的潜在影响与设计原则;以及全球 AI 竞争格局、基础设施建设的重要性等话题。

扎克伯格明确指出过度关注排行榜等基准可能导致误判,真实的用户反馈和产品价值更为重要。对于 AI 的飞速发展,他认为物理基础设施建设和人机适应过程是现实瓶颈,减缓了所谓的“智能爆炸”。

以下是本次对话实录

经数字开物团队编译整理

01 Llama 与 Meta AI 的最新进展

主持人提问:上次对话时 Llama 3 尚未发布,如今 Llama 4 已推出,这期间 AI 领域有哪些激动人心的新进展与变化?Meta AI 的用户增长情况如何,其个性化功能的进展怎样?Llama 4 系列发布了哪些模型,各自有何特点与定位,尤其是 Scout、Maverick 和即将发布的 Behemoth 模型?未来 Llama 系列的迭代路线图是怎样的?

扎克伯格:这个领域发展太快了,自我们上次谈话以来,变化翻天覆地。今年对所有这些 AI 相关进展来说将是意义非凡的一年,特别是当你开始引入个性化循环的时候,我们现在才刚刚开始真正构建这部分。这既包括算法基于你的兴趣、个人资料、社交图谱信息所了解的背景信息,也包括你与 AI 互动本身产生的数据。这将是下一个超级令人兴奋的进展方向,我们对此非常重视。

模型研发工作也持续取得令人瞩目的进展。关于 Llama 4,我对我们发布的第一批模型相当满意。我们宣布了四款模型,并率先发布了 Scout 和 Maverick,这两款大致属于中到小规模的模型。Llama 3 系列中最受欢迎的其实是 8B 参数模型,所以在 Llama 4 系列中,我们也准备了一款类似规模的模型,内部代号是 Little Llama,大概会在未来几个月内发布。目前发布的 Scout 和 Maverick 表现相当不错,在所有现有模型中,它们的单位成本智能水平是最高的之一,原生支持多模态,效率极高,可以在单台主机上运行,并且被设计用于我们内部构建的许多用例,追求高效率和低延迟。这正是我们一贯的做法:先构建自己需要的东西,然后将其开源,让其他人也能受益。我对此感到很兴奋。

我也对即将推出的 Behemoth 模型感到兴奋。这将是我们首款处于最前沿的模型,参数超过两万亿,所以正如其名,它确实非常庞大。我们正在探索如何让这样庞大的模型能为人们所用。它实在太大了,以至于我们不得不专门建设了大量基础设施,才能自己对其进行后训练 。我们也在努力弄清楚,外部的普通开发者该如何使用这样的模型?以及我们如何让它能够用于将知识蒸馏到规模适中、可以实际运行的模型中?你显然不会想在消费级应用中运行如此庞大的模型。

当然,还有很多工作要做。就像你去年看到的 Llama 3 的进展一样,最初发布的 Llama 3 令人兴奋,随后我们在过去一年里不断迭代。Llama 3.1 我们发布了 405B 参数模型;到了 3.2 版本,我们整合了所有的多模态功能。今年我们基本上也有类似的路线图,所以进展很多。

02

开源AI生态蓬勃发展,但基准评测应关注真实用户价值

主持人提问:当前有一种看法认为最好的闭源模型与开源模型之间的差距在拉大,例如 Llama 4 Maverick 在 Chatbot Arena 排名和一些基准测试上似乎落后于同级别模型,您如何看待这一观点?是否存在一个既能反映您所说的“用户价值北极星”又能进行跨模型客观比较的基准测试?Meta 如何平衡针对基准榜单优化与提升真实产品体验之间的关系?

扎克伯格:这里有几点看法。我认为过去一年对整个开源社区来说是非常好的一年。回想去年的情况,我们用 Llama 所做的工作几乎是当时唯一真正具有创新性的开源模型。而现在,这个领域已经涌现出许多优秀的开源模型。关于今年开源模型将普遍超越闭源模型、成为使用最广泛的模型的预测,我认为总体上正在成为现实。一个有趣的“惊喜”是现在优秀的开源模型不仅仅有 Llama,还有很多其他的选择,这相当不错。

然后就是你提到的推理现象,我确实认为一种专业化分工正在形成:如果你想要一个在解决数学问题、编程或其他特定任务上表现最佳的模型,那么这些推理模型是一个非常有吸引力的范式,它们能够通过消耗更多的测试时间或推理时间计算资源来提供更高的智能水平。但是,对于我们关注的许多应用场景低延迟和高智能性价比实际上是更为重要的产品属性。如果你主要是为消费级产品进行设计,用户通常不希望为了得到答案而等待半分钟。

如果你能在半秒钟内提供一个通常也相当不错的答案,那就很棒了,这是一个很好的平衡。所以我认为这两个方向最终都会很重要。我对于随着时间的推移将推理模型与核心的语言模型相结合感到乐观。Google 最近在一些 Gemini 模型上采取的做法就是这个方向,并且非常有前景。未来会有各种不同的发展路径并存。

你还提到了 Chatbot Arena 榜单,这很有意思,它也引出了一个挑战:如何进行基准测试?根本上说,你怎么知道哪个模型在哪方面表现更好?过去一年,我们尝试将模型评估更多地锚定在 Meta AI 产品的“北极星”用户场景上。因为无论是开源基准测试,还是像 LM Arena 这样的特定榜单,它们的问题在于往往偏向于非常特定的用例集合,而这些用例通常并非普通用户在产品中的实际用法。而且,这些榜单衡量指标的权重组合,往往也不同于用户在特定产品中真正关心的方面。

因此我们发现,过度针对这些榜单进行优化常常会误导我们,实际上并不能带来最高质量的产品、最大的用户量,也无法获得 Meta AI 用户在使用我们产品时的最佳反馈。所以,我们试图将我们的“北极星”锚定在用户真真切切反馈给我们的产品价值上,锚定在他们所说的需求以及他们在实际使用我们产品体验时所表现出的偏好上。有时候,这些榜单排名和实际产品价值并不完全一致,而且很多榜单都相当容易被操纵或刷榜。因此,需要谨慎看待这些基准测试,而我们将主要以产品表现作为衡量标准。

我们的基准基本上就是 Meta AI 的用户价值。因为我们或许可以在 Meta AI 内部运行其他模型来进行比较和评估。这也是开源的好处之一:你拥有一个活跃的社区,大家可以帮你发现模型的优点和不足。但目前的现实是,所有这些模型都在针对略微不同的目标组合进行优化。所有领先的实验室都在努力创造通用智能 或超级智能,也就是那种能够引领我们走向富足世界的 AI,让每个人都拥有超人般的工具去创造任何他们想要的东西,从而极大地赋能个体,并创造巨大的经济效益。

无论具体定义如何,这大概是很多实验室共同追求的目标。但毫无疑问,不同的团队在优化方向上有所侧重。Anthropic 非常专注于编码及相关的 AIAgent;OpenAI 近期则更侧重于推理能力。同时,我认为还有一个领域,那就是追求速度快、交互自然、原生多模态,能够无缝融入用户日常各种互动场景的AI我想你已经有机会试用了我们即将发布的新版 Meta AI 应用。我们在里面加入了一个有趣的功能,就是全双工语音的演示。

当然,这还处于早期阶段,我们没有将其设为应用的默认语音模式是有原因的。但它那种极其自然的对话方式,确实非常有趣且引人入胜。我坚信,将这种自然的交互方式与恰当的个性化相结合,将最终带来一种卓越的产品体验。可以想象,几年后,我们可能整天都在和 AI 对话,询问各种我们好奇的事情。你会用手机和它交谈,在浏览信息流 App 时和它互动,它会提供相关背景信息,帮你解答疑问,在你使用即时通讯应用与人交流时提供协助。最终,我们会戴上智能眼镜或其他 AI 设备,在日常生活中随时随地与 AI 进行无缝交互。所以,这才是我们的“北极星”——无论什么样的基准测试能够导向这种让用户觉得高质量、乐于交互的体验,那才是最终对我们而言最重要的事情。

03 AI的未来发展受物理基建和人机协同进化限制

主持人提问:许多实验室相信,一旦软件工程和 AI 研究完全自动化,就能触发智能爆炸,在短时间内实现巨大飞跃,率先达到 ASI 是关键,您对此有何看法?如果认同智能爆炸的前提,为何还要开发个人助手等应用,而不是直接攻克超人类智能?您提到 Meta AI 主要在 WhatsApp 上使用,如果 AI 未来更像虚拟同事而非问答工具,这种用户基础在训练如自主程序员等模型方面是否还有优势?

扎克伯格:我个人认为这个观点非常有说服力。这也是我们投入大量精力进行编码工作的原因。我们正在 Meta 内部开发多个编码Agent。因为我们并非真正的企业软件公司,我们主要是在为自身需求构建这些工具。我们正努力构建一个编码Agent 和一个 AI 研究Agent,它们基本上是专门用于推进 Llama 研究的。并且,它完全集成到我们所有的工具链和相关系统中。所以我认为这很重要,而且这最终将是完成这项工作的重要一环。

我猜测,大约在未来 12 到 18 个月内,我们将达到一个阶段,届时这些项目中的大部分代码将由 AI 编写。我指的不是像自动补全那样的功能。如今,我们有不错的自动补全,比如开始编写一些内容,它能补全那部分代码。我更多谈论的是,给它设定一个目标,它就能运行测试,能够改进代码或流程,能发现问题。它编写的代码质量甚至比我们团队里非常优秀的工程师的平均水平还要高。而且,我认为这无疑将是其中一个极其重要的部分。但我不知道这是否就是关键所在。

我认为这个领域会发展成一个巨大的行业,而且这将是 AI 发展历程中的重要一环。但我的看法是,这是一个极其广阔的领域。所以我并不认为未来只有一家公司,凭借一种优化函数就能为所有人提供最佳服务。我认为将会有许多不同的实验室,在不同的领域取得领先进展。有些会更侧重于企业应用或编码,有些会更侧重于生产力,有些则会更侧重于社交或娱乐。在助手领域,我认为有些会更偏向信息型或生产力型,有些则会更偏向伴侣型。还会有很多应用仅仅是为了有趣和娱乐,就像出现在用户信息流中的内容一样。所以我认为这里存在巨大的空间,而这件事的部分乐趣在于,在迈向AGI 未来的过程中,需要发明创造的技术有很多共通之处,但最终需要创建的具体应用和服务则多种多样。而且依我猜测,大家会开始看到这些研究团队之间出现更进一步的专业化分工。

关于为何不直接攻克ASI,我认为那只是飞轮效应的一个方面。所以,我通常不太认同快速起飞论调的原因之一是,建设物理基础设施是需要时间的。如果您想建造一个吉瓦级的计算集群,那必然需要相当长的时间。例如 Nvidia 需要大量时间来稳定他们新一代的系统,然后需要解决相关的网络问题,接着需要建造数据中心大楼,需要获得审批许可,需要落实能源供应,还需要燃气轮机或绿色能源,这些都需要一整套供应链来支持。

所以我认为存在很多,而且我们上次在您的播客节目中也深入讨论过,我认为其中一些问题仅仅是受制于物理世界和人类时间限制的因素。当开始在技术栈的某个环节获得更高智能时,基本上总会遇到一组新的瓶颈。工程领域向来如此:就像解决一个瓶颈,马上又会遇到下一个瓶颈。系统中的另一个瓶颈,或者说让这一切顺利运作的另一个关键要素,是人们逐渐适应、学习并与这些系统建立起反馈循环。所以,我不认为这些系统会是那种一问世就完美无缺,人们马上就知道如何使用的东西,然后就万事大吉了。

我认为存在着一种共同进化的过程:人们在学习如何最有效地使用这些 AI 助手。与此同时,AI 助手也在学习用户真正在意什么,而开发这些 AI 助手的开发者也能够不断改进这些 AI 助手。然后用户也在逐步建立起上下文的基础。所以现在,当使用了一两年后,AI 助手能够提及几年前讨论过的事情,这非常酷。

但如果只是在第一天就推出了一个“完美”的产品,这是无法实现的。如果这个助手两年前还不存在,它根本不可能引用两年前的谈话内容。所以我的观点是,存在着巨大的智能增长人们与AI 助手互动的使用率以及围绕它的学习反馈和相关的数据飞轮呈现出非常陡峭的增长曲线然后还需要建设相应的供应链、基础设施以及监管框架,以支持大规模物理基础设施的扩展。但我认为,在某种层面上,所有这些因素都是必不可少的。

我想举一个很有趣的具体例子。几年前,我们广告团队有个项目,目标是自动化排名实验。那是一个相当受限的场景。它不像编写开放式代码。它基本上是回顾公司历史上所有的实验,即广告系统中工程师们做过的每一个实验,分析哪些成功了,哪些失败了,结果如何,并基于此提出新的假设,用以指导我们应该运行哪些新的测试,从而提升广告系统的效果。我们基本上发现,受限于运行测试所需的计算资源,因为假设的数量实在太多了。

事实证明,即使仅依靠我们现有的人力,在广告团队,我们能够想到的、值得测试的好点子,就已经超出了我们实际拥有的计算资源或者能够用来进行测试的人群组的承载能力。因为即便产品拥有像 35 亿用户,仍然希望每个测试都具有统计显著性,所以它需要覆盖一定数量的用户,无论是几十万还是几百万。而且,测试所能达到的吞吐量是有限的。

所以,即便仅凭我们现有的人员,也已经无法真正测试所有我们想测试的想法了。因此,仅仅能够测试更多想法,并不一定会带来额外的价值或提升。我们需要达到这样一个阶段:AI 生成的假设的平均质量,要优于人类提出的、且我们目前有能力测试的最佳假设,只有到那时,AI 的这项能力才会带来哪怕一点点边际效用。所以,我认为这需要一个过程,我们会实现目标,而且我认为会相当快。但这并不意味着,一旦 AI 能写代码了,所有事情就突然之间能获得巨大提升。现实世界中存在这些约束。

基本上 AI 首先需要表现得足够好,然后,需要拥有足够的计算资源和合适的人员来进行测试,然后随着时间的推移,其产出质量才会逐渐提高。我们是否会在 5 或 10 年后达到这样一个世界:没有任何人类团队能够提出像 AI 系统一样优秀的假设?我不知道,也许吧。如果是那样,那么在那个世界里,显然所有价值都将由 AI 创造。但这并非第一步。

关于用户基础优势我的看法是,未来会有不同的发展方向。如同身处互联网发展初期,你会问:互联网的主要应用会是什么?是知识工作,还是大规模消费级应用?答案是两者都会出现,不必只选其一。世界庞大而复杂,单一公司无法包揽所有。关于你的问题,人们大多不在 WhatsApp 里写代码,我也不认为这会成为主流应用场景。不过,人们确实会让 AI 做很多事,其结果可能是 AI 在他们不知情的情况下进行了编码,但那是另一回事。

我们 Meta 内部确实有很多人在写代码,他们也使用 Meta AI。我们有个内部工具叫 Metamate,并且正围绕它构建许多不同的编码和 AI 研究的 AIAgent。这有其自身的反馈循环,有助于加速研发进展。

我还是要说,未来将有很多不同的可能性。AI 几乎肯定会带来一场知识工作与编程的巨大革命。它也将成为下一代搜索,改变人们获取信息的方式,并帮助处理更复杂的信息任务。同时,它也会很有趣,人们会用它来娱乐。

回顾 Instagram 和 Facebook 等产品的发展历程:十几二十年前主要是文本;后来手机有了摄像头,照片成为主流;再后来移动网络足够好,看视频不再缓冲,视频逐渐占据主导。如今用户在 Facebook 和 Instagram 上的大部分时间都在看视频。但是,五年后我们还会仅仅是刷信息流消费视频吗?不,内容将是互动的。你滚动信息流时,看到的内容也许一开始像一段 Reels,但接着你可以与之对话或互动,它会回应你、改变行为,甚至你可以像进入游戏一样与之交互。这一切都将由 AI 实现。

所以我的观点是,未来会有所有这些不同的应用形态。我们雄心勃勃,正在同时研究其中多项,但我不认为任何一家公司能包揽所有。

04

AI将满足社交需求,但需警惕过度沉浸和奖励机制操控

主持人提问:人们已开始与 AI 建立有意义的关系,随着 AI 变得更智能、个性化和有趣,这种连接只会加深,我们如何确保这些关系是健康的?虽然技术本身可能带来益处,但也存在担忧,例如过度沉浸在 AI 提供的即时奖励中,我们如何防止五年后世界真的变成那样?AR/VR 技术的发展,如何平衡数字信息叠加与现实干扰,确保用户体验自然且不被打扰?

扎克伯格:很多问题只有在观察到实际用户行为后才能真正找到答案。因此,前期最重要的事情就是提出并持续关注这个问题。但也要避免一开始就预设过多限制,评判某些行为的好坏,这常常会扼杀其价值。人们只会使用对他们有价值的东西。我设计产品的核心指导原则之一就是:人们是聪明的,他们知道什么在自己的生活中是有价值的。

当然,产品中偶尔会出现不好的情况,你需要确保设计得当以尽量减少。但如果你认为用户的某种行为不好,而他们自己觉得很有价值,根据我的经验,大多数时候他们是对的,你是错的。你只是还未找到合适的框架来理解,为什么他们做的事对其生活有价值、有帮助。这基本上是我思考这个问题的出发点。

我确实认为人们会用AI 处理很多社交性质的任务。随着个性化机制的运行,AI 越来越了解你,这将变得非常有吸引力。

长期从事社交媒体工作让我了解到,有一个很惊人的统计数据:普通美国人平均拥有的朋友数量少于三个。而人们实际上渴望更多有意义的连接,也许是 15 个朋友左右?可能到某个程度你会觉得:“我太忙了,应付不了更多人了。” 但普遍来说,人们渴望的连接程度高于实际拥有的。

所以,人们自然会问:“这类技术会取代面对面的人际连接或现实生活中的关系吗?” 我的基本看法是,可能不会。真实的物理接触体验总是更好。但现实是,人们往往缺乏这种连接,并感到孤独,常常超出他们的期望。

因此,对于很多如今可能带有些许污名化的行为,我猜测随着时间推移,整个社会将能找到合适的语言来阐释其价值所在,说明人们这样做是理性的,以及这些行为如何为他们的生活增添价值。

但这个领域还非常早期。现在是有一些公司在做虚拟治疗师的产品,但这都处于非常初级的阶段。目前这些产品中的 ‘具身感’还相当弱。很多时候,你打开应用看到的只是一个静态图像。

未来你将能够实现一种永远在线的视频聊天,并且 AI 也能理解和运用手势。手势很重要,实际对话中,超过一半的交流信息来自非语言线索。

关于奖励机制操控担忧你看到的那个体验只是一个演示,目的是展示多任务处理和全息影像。我同意,未来不应该是总有东西在你视野角落试图争夺注意力,人们不会喜欢那样。实际上,这正是我们设计 AR 眼镜时非常关注的一点:眼镜首先要做到不打扰用户,做好一副眼镜的本分。

这也是 Ray-Ban Meta 智能眼镜成功的部分原因:它适合听音乐、接打电话、拍照录像,在你需要时 AI 功能随时可用;不需要时,它就是一副漂亮、人们喜欢的普通眼镜,很好地做到了‘不打扰’。我猜测这将是AR未来的一个非常重要的设计原则。

我觉得有点不可思议的是:数字世界对我们生活如此重要,但我们接触它的唯一方式,却是通过手机、电脑、电视这些笨重的物理屏幕。技术似乎已发展到物理世界和数字世界真的应该完全融为一体的节点。而全息叠加技术就能实现这一点。但我同意,围绕这项技术的一个重要设计原则将是:当你与人互动时,能够将数字化的物品或信息带入互动中,并且能非常无缝地做一些很酷的事情。

但是,在那个世界里,就像你不希望物理空间杂乱无章一样,我认为人们也不会希望他们的 数字-物理融合空间 感觉如此杂乱。所以,这更多的是一个关乎审美和需要建立社会规范的问题,这些问题需要逐步解决。但我认为,我们会找到解决方法的。

05 全球 AI 竞争、基础设施与模型标准

主持人提问:像 DeepSeek这样的中国模型在算力受限下仍能与 Llama 竞争,如果中国在物理基础设施建设上更具优势,您是否担心他们会超越美国?您提到围绕美国模型构建标准的重要性,其逻辑是什么?模型代际间架构变化(如 Llama 3 非 MOE,Llama 4 是 MOE),生态系统如何围绕特定标准发展?开源模型的 MIT 许可证与 Llama 的附加条件许可证相比如何?Llama 的许可证是否应该更宽松以吸引开发者?

扎克伯格:我认为这确实是一场真正的竞争。我认为中国正在大力提升电力供应能力,正因如此,美国确实需要专注于简化数据中心建设和能源生产的相关流程,否则我们将处于显著劣势。与此同时,一些针对芯片等的出口管制在某种程度上是有效的。因为,关于 DeepSeek 的讨论中常提到,“他们做了许多非常令人印象深刻的底层优化”。现实是他们确实做到了,这很了不起,但问题是,为什么他们必须这样做,而美国的那些实验室却无需如此?答案是,因为他们使用的是部分性能受限的芯片。所以,DeepSeek 基本上不得不投入大量精力进行底层基础设施优化,而美国的实验室则不必。现在,他们在文本处理上取得了不错的成果。所以,其基础设施令人印象深刻,文本处理结果也同样令人印象深刻。但是,现在发布的每一个新的主要模型都是多模态的,支持图像、语音等,而 Deep Seek 的模型并非如此。

现在的问题是,为什么会这样?我不认为是因为他们没有能力实现多模态。我认为他们基本上不得不将资源投入到这些基础设施优化上,以弥补出口管制带来的影响。我认为当你将 Lama 4 模型与他们的成果进行比较时,Llama 4 模型表现不错。但我认为这里有一个值得注意的情况,那就是很明显 Deep Seek 背后有一个优秀的团队在努力,而且我认为你提出关于电力、算力、芯片等资源的获取能力问题是切中要害的。因为我认为你所看到的各个实验室正在进行的工作及其成果,在一定程度上是这些上游因素 (电力、算力、芯片可获得性) 的结果。

关于模型标准问题,我认为这些模型体现了价值观和看待世界的方式。我们早期有过一次有趣的经历:用了一个早期版本的 Llama,并将它翻译成了另一种语言,我想可能是法语。我们从法国用户那里得到的反馈是——我确定是法语——“这听起来像一个学会说法语的美国人”,而不是一个地道的法国人。我们问:“你是说它法语说得不好吗?” 他们说:“不,法语说得没问题。只是它思考世界的方式……感觉有点美国化。” 所以我认为模型中会融入这些微妙的东西。随着时间的推移,模型会变得越来越复杂,应该能够体现世界各地不同的价值体系。所以,刚才那个例子可能不是很精妙,但我认为它能在一定程度上说明问题。

我认为大语言模型,或者说嵌入了某种世界观的模型,承载了更多的价值观。而推理,虽然推理本身可能也有其价值观或思维方式,但推理模型的一个优点是它们在可验证的问题上训练出来的。所以,如果你的模型在解数学题,需要担心文化偏见吗?大概率不用。

但在编码方面,我认为存在一系列完全不同的问题。编码是另一个可验证的领域,但你需要担心的是,某天醒来,你发现一个模型,会不会在代码中植入各种漏洞,让一切都变得易受攻击。

我对研究这个问题非常感兴趣,因为我认为开源最有意思的一点,就是它提供了蒸馏模型的能力。对大多数人来说,其核心价值并非只是简单地从货架上取下一个模型,然后说:“好吧,Meta 发布了这个版本的 Llama,我就直接拿来用到我的应用里。” 不,如果你的应用只是运行我们的模型,那它就没什么特别之处。你至少需要对它进行微调,或者尝试将它蒸馏成一个不同的模型。当我们着手处理像 Behemoth 这样的大模型时,其全部价值就在于能够提取其极高的智能,并将其蒸馏到一个你真正想要运行的、更小的模型中。这就是蒸馏的魅力所在。

这确实是自我们上次交流以来,在过去一年里真正崭露头角的一种非常强大的技术。我认为它的效果超出了大多数人的预期,你基本上可以将一个大得多的模型的大约 90% 或 95% 的智能,迁移到一个只有其 10% 大小的模型中运行。那么,你能获得 100% 的智能吗?不能,但能以 10% 的成本获得 95% 的智能,这在很多场景下已经相当不错了。

另一件有趣的事是,现在有了这个更多样化的开源社区,你不仅有 Llama,还有其他模型,你可以从多个来源进行蒸馏。所以,现在你基本上可以这样操作:Llama 在这方面很出色,也许它的架构非常好,因为它是原生多模态的,而且在推理友好和效率方面更优。但是,假设另一个模型在编码方面更强。没问题,你可以结合两者进行蒸馏,为你自己的使用场景构建一个比两者都更好的模型。这很酷。

但你确实需要解决安全问题,确保你能以安全可靠的方式进行蒸馏。这是我们一直在研究并投入了大量时间的事情。我们基本上的结论是:任何与语言相关的东西都相当棘手,因为里面蕴含了大量的价值观。所以,除非你不在乎模型来源带有的价值观,否则你可能不想直接蒸馏语言世界模型。

在推理方面,我认为通过将其限制在可验证的领域内,运行代码清洁度和安全过滤器——比如我们已经开源的 Llama Guard 或 Code Shield 项目,它们能让你整合来自不同来源的输入到你的模型中,并确保输入和输出都是安全的,这样可以在很大程度上解决问题。此外,还需要进行大量的红队演练,确保有专人或专家在监控,评估:“这个模型经过蒸馏后,其行为是否符合我的预期?” 我认为,结合这些技术,你有可能在可验证领域的推理方面相当安全地进行蒸馏。对此我很有信心,我们在这方面做了大量的研究。

但我认为,如何做好蒸馏仍然是一个非常重大的问题,因为它能释放巨大的价值。但与此同时,我确实认为不同的模型中存在一些根本性的偏见。

我并不认为 Llama 的许可证是繁重的。要知道,当我们开始推动开源时,行业内部曾有过一场大辩论:这样做合理吗?能用开源模式构建出安全可信赖的产品吗?开源模型能具备足够的竞争力,从而获得关注吗?在努力解答这些问题的过程中 (Meta 的许多团队为此付出了艰辛的努力,当然行业内也有其他贡献者,但 Llama 模型确实在很大程度上极大地推动了整个开源 AI 的发展),我们非常关注一点:如果我们要投入如此巨大的精力,那么至少,当像 Microsoft、Amazon 和 Google 这样的大型云服务公司想要利用我们的模型进行商业化时,我们至少应该能在他们这样做之前,与他们就商业合作模式进行对话。但我们设定许可证条款的目标并非要阻止人们使用模型。我们只是觉得,如果你是像上述这些大型云服务商,或者你是苹果,那么请先来和我们谈谈你的计划,让我们一起寻找一种建设性的合作方式。所以,我认为这总体上是合理的。

现在,如果整个开源领域朝着某个方向演进,出现了许多其他优秀的开源选项,并且我们的许可证条款最终成为了用户选择 Lama 的障碍,那么,我们将不得不重新评估我们的策略,并决定下一步的最佳方案。但我目前并不认为我们已经到了那个地步。实际上,我们并没有遇到有公司对我们说:“我们不想用 Llama,因为你们的许可证规定用户达到 7 亿就需要和你们谈”。所以,至少到目前为止,这种担忧更多是来自一些开源纯粹主义者的声音,他们质疑这是否是一个足够纯粹的开源模型。

我认为这种辩论自开源诞生之初就存在,例如围绕 GPL 许可证与其他许可证的争论:是否任何使用了开源组件的项目都必须保持开源?还是允许用户在不同场景下灵活使用?我敢肯定这类辩论还会继续下去。但是,如果你花费了数十亿美元来训练这些模型,我认为要求其他那些同样是巨头、规模相当、并且完全有能力与我们建立合作关系的公司,在商业使用我们的模型之前先与我们沟通一下,这似乎是一件非常合理的事情。

06 Meta 的战略选择

主持人提问:AI 的变现方式会是什么?广告模式是否仍是主流,尤其考虑到 AI 可能创造的巨大价值(如提高生产力)远超广告市场规模?如果未来开源生态繁荣,Meta 是否会考虑采用其他更优的开源模型,而非坚持自研 Llama?作为 CEO,您如何管理众多项目,平衡具体指导(如 Llama 超参数)与宏观方向(如“做好 AI”)?

扎克伯格:就像我们之前讨论过的,未来会有各种不同的应用,而不同的应用会倾向于不同的商业模式。当你希望为用户提供免费服务时,广告模式就很棒。因为服务是免费的,你就需要通过某种方式来覆盖成本。广告模式解决了这个问题:用户无需付费,就能免费获得很棒的服务。而且顺便提一下,在现代广告体系下,如果你做得好,很多时候用户甚至会觉得广告本身也提供了价值。这需要你擅长排序算法,并且需要有足够大的广告库存和流动性。这样一来,如果你的系统里只有五个广告商,那无论你的排序算法多好,你可能都无法向特定用户展示他们真正感兴趣的内容。但如果你的系统里有一百万个广告商,并且你擅长从海量信息中精准地找到用户可能感兴趣的“那根针”,那么你就很可能为用户提供极具吸引力的广告内容。

所以,我认为广告模式肯定有一席之地。但显然,也还会有其他的商业模式,包括那些成本极高,以至于免费提供都不可行的模式。这种付费模式一直都存在。社交媒体之所以免费并由广告支持是有原因的,但如果你想看 Netflix 这类服务,你就得付费。这很合理,因为这些服务需要投入大量成本来制作内容,这些制作成本非常高昂,他们可能无法单靠在服务中投放广告来覆盖这些成本。所以,基本上你必须付费才能访问。这样做的代价就是用户规模会小一些,它们的用户规模是数亿级别,而不是像社交媒体那样的数十亿级别。所以,这里存在一种价值取向上的权衡。

我认为 AI 领域的情况也类似。不是每个人都需要一个软件工程师,或者一千个软件工程 AIAgent 之类的。但如果你确实需要,那你很可能会愿意为此支付数千、数万甚至数十万美元。所以我认为这恰恰说明了未来需要创造的应用是多样化的,就像在一个光谱上,每个不同的点都会对应不同的商业模式。

而在 Meta,对于消费者业务,我们肯定希望提供一个免费版本,并且我确信它最终会由广告支持。但同时,我们也希望建立一种商业模式,能够支持用户使用任意规模的算力,去完成那些远超免费服务所能提供的、真正令人惊叹的事情。为此,我相信我们最终会推出付费服务。但我认为我们在这方面的基本价值观是,我们希望服务全世界尽可能多的人。

关于是否采用其他模型,我们做很多事情。所以,让我们退一步看。我们之所以构建自己的大型模型,是因为我们希望能够精确地构建出我们想要的东西。而世界上没有其他模型能完全满足我们的需求。即使它们是开源的,你可以获取它们并进行各种微调,但你仍然受限于它们的模型架构,而且它们在影响模型延迟和推理成本的方面,都做出了关于模型大小的不同权衡。在我们这样运营规模的公司,这些因素至关重要。

例如,我们将 Llama Scout 和 Maverick 模型设计成特定的大小是有原因的,因为它们需要适配特定的服务器节点,并且我们对延迟有特定要求,尤其是对于我们正在开发的、希望广泛应用到我们所有产品和服务中 (从智能眼镜到所有应用程序,再到 Meta AI 应用等等) 的语音模型。因此,我认为只有当你自己构建这些模型时,才能获得那种对自身发展的掌控力。话虽如此,AI 将渗透到公司运营的方方面面。当我们构建一个大型模型时,我们也需要明确我们要针对哪些方面、哪些内部用例进行优化。那么,这是否意味着对于某些特定任务,如果我们发现,比如说 Claude 更适合构建某个团队正在使用的特定开发工具?当然,很好,他们就可以使用那个模型。我们不希望束手束脚。我们同时在进行很多不同的项目。你还问到,既然其他公司也在做开源,我们自己构建模型是否就不那么重要了?

关于这一点,我反而更担心一些。因为你必须问问那些现在入局并开始做开源的公司:如果我们 Meta 没有率先大力推动开源,他们还会这样做吗?我认为,确实有一些公司看到了开发重心日益向开源倾斜的趋势,他们意识到:“我们必须跟上这股潮流,否则就会落后。”他们可能拥有封闭的模型 API,但越来越多的开发者并不想要这个。所以,你看到其他一些玩家开始涉足开源领域,但目前还不清楚,这对他们而言仅仅是试水,还是像对我们一样是战略性的投入。一个很好的例子就是 Android 的演变。Android 最初是开源的,但现在几乎没有真正的开源替代品了。随着时间的推移,Android 变得越来越封闭。所以,站在我们的角度,就需要担心:如果我们停止将行业推向开源这个方向,那么其他那些现在参与开源的公司,可能真的只是为了在我们开创的这个方向上与我们竞争才这样做的。他们的行为已经表明了,如果开源不存在,他们原本倾向于构建闭源模型。所以,我们需要谨慎地看待他们持续参与开源的行为,并以此来规划我们公司未来的技术发展,而不是完全依赖他们。

我大量时间都投入在努力为团队招募优秀的人才。一方面是这个,另一方面是协调跨团队的合作。比如你构建了 Meta AI,想把它集成到 WhatsApp 或 Instagram 里,就需要让这些团队一起沟通协作。接着就会引出一系列问题:你希望 Meta AI 在 WhatsApp 中的对话体验更像原生 WhatsApp 对话,还是更像其他的 AI 聊天体验?这些场景存在不同的交互模式。因此我认为,有很多这类有趣的问题需要解答,核心在于如何将这些新事物有效地融入我们现有的整体业务中。

我们工作的另一个重点是大力推进基础设施建设。如果你想建立一个千兆瓦级别的集群,这首先会对我们建设基础设施的方式产生深远影响;其次会带来一些政治层面的影响,关乎你如何与项目落地所在的各个州进行沟通;还会给公司带来财务影响,尤其在当前全球经济充满不确定性的背景下。我们是否应该在此时此刻加大对基础设施的投入?如果加大投入,公司层面需要做出哪些权衡取舍?这类决策,其他人很难真正做出。此外,还有品味和质量的问题,即某个产品或功能何时才算足够好,可以正式发布?我确实觉得,在公司里我通常是这方面的最终把关人,当然我们也有很多其他同事具备很好的判断力,在不同环节扮演着筛选者的角色。这些就是我主要关注的领域。

但我认为 AI 的特别之处在于,相比我们做的其他工作,它更多是由研究和模型驱动,而非纯粹由产品驱动。你不能先设计产品,再试图构建模型去适配。你必须先设计模型和期望的能力,然后会观察到一些涌现特性。基于这些特性,你可能会发现可以构建不同的东西,因为模型发展带来了新的可能性。我认为最终用户想要的就是最好的模型。这也是为什么当我们致力于打造最个性化的 AI 时,追求的是最佳语音交互、最佳个性化体验,以及兼具高智能和极低延迟的流畅交互。这些正是我们需要围绕其来设计整个系统的目标。这就是我们研发全双工语音技术的原因,是我们致力于提升个性化能力 (既能有效提取你与 AI 互动的记忆,又能接入 Meta 所有其他系统) 的原因,也是我们设计具有特定规模和延迟参数的模型的原因。

关于本期访谈

访谈发布时间:2025年4月30日

原视频地址:https://youtu.be/rYXeQbTuVl0?si=MT1CnNruLl-k561x

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料欢迎扫描二维码或访问进入。

牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》

麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力

AAAI 2025 关于人工智能研究未来研究报告

斯坦福:2025 斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191 页)

壳牌:2025 能源安全远景报告:能源与人工智能(57 页)

盖洛普 & 牛津幸福研究中心:2025 年世界幸福报告(260 页)

Schwab :2025 未来共生:以集体社会创新破解重大社会挑战研究报告(36 页)

IMD:2024 年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214 页)

DS 系列专题:DeepSeek 技术溯源及前沿探索,50 页 ppt

联合国人居署:2024 全球城市负责任人工智能评估报告:利用 AI 构建以人为本的智慧城市(86 页)

TechUK:2025 全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52 页)

NAVEX Global:2024 年十大风险与合规趋势报告(42 页)

《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页

2025 - 2035 年人形机器人发展趋势报告 53 页

Evaluate Pharma:2024 年全球生物制药行业展望报告:增长驱动力分析(29 页)

【AAAI2025 教程】基础模型与具身智能体的交汇,350 页 ppt

Tracxn:2025 全球飞行汽车行业市场研究报告(45 页)

谷歌:2024 人工智能短跑选手(AI Sprinters):捕捉新兴市场 AI 经济机遇报告(39 页)

【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习

《基于传感器的机器学习车辆分类》最新 170 页

美国安全与新兴技术中心:2025 CSET 对美国人工智能行动计划的建议(18 页)

罗兰贝格:2024 人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11 页)

兰德公司:2025 从研究到现实:NHS 的研究和创新是实现十年计划的关键报告(209 页)

康桥汇世(Cambridge Associates):2025 年全球经济展望报告(44 页)

国际能源署:2025 迈向核能新时代

麦肯锡:人工智能现状,组织如何重塑自身以获取价值

威立(Wiley):2025 全球科研人员人工智能研究报告(38 页)

牛津经济研究院:2025 TikTok 对美国就业的量化影响研究报告:470 万岗位(14 页)

国际能源署(IEA):能效 2024 研究报告(127 页)

Workday :2025 发挥人类潜能:人工智能(AI)技能革命研究报告(20 页)

CertiK:Hack3D:2024 年 Web3.0 安全报告(28 页)

世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告

迈向推理时代:大型语言模型的长链推理研究综述

波士顿咨询:2025 亚太地区生成式 AI 的崛起研究报告:从技术追赶者到全球领导者的跨越(15 页)

安联(Allianz):2025 新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33 页)

IMT:2025 具身智能(Embodied AI)概念、核心要素及未来进展:趋势与挑战研究报告(25 页)

IEEE:2025 具身智能(Embodied AI)综述:从模拟器到研究任务的调查分析报告(15 页)

CCAV:2025 当 AI 接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124 页)

《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页

《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》

全国机器人标准化技术委员会:人形机器人标准化白皮书(2024 版)(96 页)

美国国家科学委员会(NSB):2024 年研究与发展 - 美国趋势及国际比较(51 页)

艾昆纬(IQVIA):2025 骨科手术机器人技术的崛起白皮书:创新及未来方向(17 页)

NPL&Beauhurst:2025 英国量子产业洞察报告:私人和公共投资的作用(25 页)

IEA PVPS:2024 光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65 页)

AGI 智能时代:2025 让 DeepSeek 更有趣更有深度的思考研究分析报告(24 页)

2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37 页)

华为:2025 鸿蒙生态应用开发白皮书(133 页

《超级智能战略研究报告》

中美技术差距分析报告 2025

欧洲量子产业联盟(QuIC):2024 年全球量子技术专利态势分析白皮书(34 页)

美国能源部:2021 超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60 页)

罗马大学:2025 超级高铁(Hyperloop):第五种新型交通方式 - 技术研发进展、优势及局限性研究报告(72 页)

兰德公司:2025 灾难性网络风险保险研究报告:市场趋势与政策选择(93 页)

GTI:2024 先进感知技术白皮书(36 页)

AAAI:2025 人工智能研究的未来报告:17 大关键议题(88 页)

安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告

威达信:2025 全球洪水风险研究报告:现状、趋势及应对措施(22 页)

兰德公司:迈向人工智能治理研究报告:2024EqualAI 峰会洞察及建议(19 页)

哈佛商业评论:2025 人工智能时代下的现代软件开发实践报告(12 页)

德安华:全球航空航天、国防及政府服务研究报告:2024 年回顾及 2025 年展望(27 页)

奥雅纳:2024 塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28 页)

HSOAC:2025 美国新兴技术与风险评估报告:太空领域和关键基础设施(24 页)

Dealroom:2025 欧洲经济与科技创新发展态势、挑战及策略研究报告(76 页)

《无人机辅助的天空地一体化网络:学习算法技术综述》

谷歌云(Google Cloud):2025 年 AI 商业趋势白皮书(49 页)

《新兴技术与风险分析:太空领域与关键基础设施》最新报告

150 页!《DeepSeek 大模型生态报告》

军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态 - 250309(40 页)

真格基金:2024 美国独角兽观察报告(56 页)

璞跃(Plug and Play):2025 未来商业研究报告:六大趋势分析(67 页)

国际电工委员会(IEC):2025 智能水电技术与市场展望报告(90 页)

RWS:2025 智驭 AI 冲击波:人机协作的未来研究报告(39 页)

未来今日研究所 2025 年科技趋势报告第 18 版 1000 页

模拟真实世界:多模态生成模型的统一综述

中国信息协会低空经济分会:低空经济发展报告(2024 - 2025)(117 页)

浙江大学:2025 语言解码双生花:人类经验与 AI 算法的镜像之旅(42 页)

人形机器人行业:由 “外” 到 “内” 智能革命 - 250306(51 页)

大成:2025 年全球人工智能趋势报告:关键法律问题(28 页)

北京大学:2025 年 DeepSeek 原理和落地应用报告(57 页)

欧盟委员会 人工智能与未来工作研究报告

加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用

电子行业:从柔性传感到人形机器人触觉革命 - 250226(35 页)

RT 轨道交通:2024 年中国城市轨道交通市场数据报告(188 页)

FastMoss:2024 年度 TikTok 生态发展白皮书(122 页)

Check Point:2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议(57 页)

【AAAI2025 教程】评估大型语言模型:挑战与方法,199 页 ppt

《21 世纪美国的主导地位:核聚变》最新报告

沃尔特基金会(Volta Foundation):2024 年全球电池行业年度报告(518 页)

国际科学理事会:2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告(英文版)(118 页)

光子盒:2025 全球量子计算产业发展展望报告(184 页)

奥纬论坛:2025 塑造未来的城市研究报告:全球 1500 个城市的商业吸引力指数排名(124 页)

Future Matters:2024 新兴技术与经济韧性:日本未来发展路径前瞻报告(17 页)

《人类与人工智能协作的科学与艺术》284 页博士论文

《论多智能体决策的复杂性:从博弈学习到部分监控》115 页

《2025 年技术展望》56 页 slides

大语言模型在多智能体自动驾驶系统中的应用:近期进展综述

【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用

皮尤研究中心:2024 美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28 页)

空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理 - 250224(33 页)

Gartner:2025 网络安全中的 AI:明确战略方向研究报告(16 页)

北京大学:2025 年 DeepSeek 系列报告 - 提示词工程和落地场景(86 页)

北京大学:2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用(99 页)

CIC 工信安全:2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42 页)

中科闻歌:2025 年人工智能技术发展与应用探索报告(61 页)

AGI 智能时代:2025 年 Grok - 3 大模型:技术突破与未来展望报告(28 页)

上下滑动查看更多

来源:人工智能学家

相关推荐