摘要:本篇分享来自 IBM 王牌科技节目《Mixture of Experts》,八位业界大咖受科技巨头 IBM 邀请,围绕 AI 模型、智能体、硬件和产品发布四大核心议题,展开了一场激烈而深刻的对话。从 ChatGPT 商店到 OpenAI o1,从 Llama
“在未来几年的一个大挑战是,我们可能会看到一种更适合智能体的原生语言出现,这种语言的设计更适合 LLM,因此会减少为满足人类需求而设置的语法糖。”
本篇分享来自 IBM 王牌科技节目《Mixture of Experts》,八位业界大咖受科技巨头 IBM 邀请,围绕 AI 模型、智能体、硬件和产品发布四大核心议题,展开了一场激烈而深刻的对话。从 ChatGPT 商店到 OpenAI o1,从 Llama 3 到超级智能体,他们不仅回顾了 2024 年的每一个重要时刻,更首次披露了 2025 年 AI 领域的重大转折点。
出品丨AI 科技大本营(ID:rgznai100)
近日,IBM 旗下的《Mixture of Experts》邀请了来自 AI 模型、智能体、硬件和产品研发四大领域的顶级专家,深度解析 2024 年 AI 技术的突破性进展。
这场长达一小时的巅峰对话,将目光聚焦在四个重要维度:高性能 AI 模型的演进路径、智能体技术的突破与革新、AI 硬件格局的剧变,以及年度重磅产品带来的行业洞见。每场主题两位专家,上演了一场“八仙过海”,总结出 2025 年三大关键转折点:开源模型与闭源模型将首次平分秋色,超级智能体时代即将到来,英伟达在 AI 芯片市场的主导地位将面临前所未有的挑战。
事实上,变革的迹象已经显现。去年 OpenAI 推出 o1 架构,Apple Intelligence 进军移动端 AI,Meta 通过 Llama Stack 重新定义智能体交互标准,科技大厂无一不想定义自己的 AI 格局。那么,这些变革究竟意味着什么?
以下为对话全文:
「战国纪」:巨头暗战与开源逆袭
主持人:回想 2024 年 1 月,我们还在热议 GPT Store 的上线和 Claude 2.1 展现的长上下文窗口能力,那时的我们正翘首期待 Llama 3 的发布。毫无疑问,2024 年是一个激动人心的变革之年。
为了全面回顾这一年的发展,我们邀请了多位业界专家,请他们分享各自领域的亮点与不足,并展望 2025 年的发展趋势。我们将深入探讨 AI 智能体(Agent)、硬件进展以及全年重要的产品发布。首先,让我们聚焦 2024 年 AI 模型领域的发展。为此,我们特别邀请到了 IBM 高级研究科学家 Marina Danilevski,以及负责IBM 美国、加拿大和拉丁美洲 AI 咨询业务的高级合伙人 Shobhit Varshney。
在回顾 1 月份这个“远古时代”之前,我想先从一个近期的重大事件谈起——OpenAI o1 的发布。这无疑是今年最重要的公告之一。Shobhit,你曾认为 OpenAI o1 的发布标志着这些公司在思考模型开发和扩展方式上出现了重大转变,请说说原因。
Shobhit Varshney:这确实是一个令人振奋的时代。放眼整个职业生涯,我从未见过像现在这样充满机遇的时刻。过去一年,我们见证了扩展定律(Scaling Law)的演进——我们意识到,通过增加计算能力、构建更大的模型,能带来惊人的性能提升。如今我们已经拥有了规模惊人的模型,比如拥有 405 亿参数的 Llama 和 1750 亿参数的 GPT-4。这些大型模型展现出了令人瞩目的能力。而现在,市场正在经历几个重要的转变。
首先,更多的重心正在向推理阶段转移。模型开始学会放慢速度,思考用户的真实需求,制定计划并得出答案。我们也开始为这些模型提供更多可用的工具,就像人类在成长过程中学会使用工具一样。这些智能体流程正在帮助我们提升整体的智能水平。
同时,我们也看到成本结构发生了重大变化。专有模型的成本在过去一年中大幅下降,而较小的模型则变得更加高效,性能也不断提升。
因此,我们看到了这样的转变:从规模惊人且具备更强思考能力的模型开始,在用尽所有公共互联网数据后,我们现在更专注于高质量的企业数据或为特定模型定制的数据。如今一个规模极大的指导模型,能够很好地思考整个问题,可以创建合成数据,可以帮助训练更小的模型,可以蒸馏出一个能够以较低价格提供高性能的模型。这表明我们在思考 AI 模型和构建投资方式上已经发生了重大转变。2025 年及以后的发展将会呈现出完全不同的局面。
Marina Danilevsky:我同意你的观点。从最初的起点到现在的发展,无一不彰显 2024 确实是一个意义非凡的年份。现在终于到达了一个重要的节点,也就是可以思考“既然我们已经知道了(模型)能做多大,现在该考虑如何做得更小了”。因此,在“规模至上”的初始研究推动之后,我们终于有机会开始考虑效率问题了——也许明年我们还会开始讨论环境因素等问题。
主持人:这是你对 2025 年的预测吗?
Marina Danilevsky:是的,2025 年的趋势非常有趣。这也意味着模型质量已经达到了一个新的高度,我们可以开始可靠地构建企业级解决方案了。这是令我真正感到兴奋的地方。我认为模型质量终于达到了一个标准,以至于可以开始认真对待企业解决方案了。
主持人:确实如此。作为一名业余软件工程爱好者,我在今年真切地感受到了这一点。我终于可以使用这些编程助手完成一些以前无法实现的任务了。这些工具已经达到了可以在日常工作中实际应用的水平。我认为这是过去 12 个月中我们见证的一个重大进步。Marina,我想请教一下,在今年春季或其他时候,有没有什么特别的事件让你印象深刻?当你回顾 2024 年时,会特别记住什么?
Marina Danilevsky:首先,我会记住今年的竞争达到了空前的激烈程度。感觉每两周就会有新的突破,甚至一些你意想不到的公司,比如最近的亚马逊,也展示了他们令人惊喜的成果。所以我认为,今年最让我印象深刻的是众多参与者以一种积极的方式相互竞争,真正推动了这个领域向前发展。此外,在这个竞争的过程中有些首次亮相非常成功,有些则不尽如人意。有时候企业可能没有完全准备好,有时候人们认为演示有点过于精心设计。这就是让我记住这一年的原因:不同的参与者如何加入竞争并展示他们的特色。
Shobhit Varshney:我们最近为 AI 报告进行的一项调查显示,全球约 15%的客户已经通过应用生成式 AI 获得了实实在在的价值。过去很多知识都被锁在文档和流程中,而现在我们看到客户在一些小型但复杂的工作流程上取得了显著进展,并从中获得了卓越的价值。
我认为通用的 Copilot 或 AI 助手可能没有带来足够的价值,这使得关注点转向了如何将 AI 与企业自身的数据和知识更好地结合。但总的来说,我认为过去的几周正是 AI 发展史上最精彩的时刻之一:OpenAI、谷歌之间的竞争,以及 Meta 的加入,在整个社区中引发了巨大的变革。现在我们已经拥有了出色的模型,开始思考如何更好地控制它们,使它们适应企业工作流程和数据集,并让它们能够更好地使用工具进行思考和推理。关于 o1 的重大进展,我认为这将成为历史上的一个重要节点,因为我们开始意识到每月 200 美元实际上是非常有价值的投资。当你意识到每月支付 200 美元时,你会更加专注于哪些工作流程真正能够通过 AI 得到提升。现在我们已经到了一个阶段,这笔投资可以真正增强日常生活的方方面面。我认为每月 200 美元是一个很好的起点。
主持人:确实如此。从模型的角度来看,你们认为 o1 是今年最重要的发布吗?还是说有其他引人注目的产品?比如,我们今年还见证了 Llama 3 的发布,这也是一个重大公告。
Shobhit Varshney:对我来说,最具突破性的是 Gemini Flash。我认为谷歌用一个小型多模态模型所实现的成果,将推动未来两三年计算领域的发展。原因在于它现在能够开启的所有可能性。如果你关注了最近的 Android XR 发布会,你会发现我们已经进入了一个新阶段:多模态模型过去需要极其庞大的规模和大量计算,而且总是需要在服务器端运行。但现在有了像 Gemini Flash 这样的模型,你可以用一个小型模型就能很好地完成多模态任务。
最令人惊叹的是它开始能够记住刚刚看到的内容。我认为它将开始增强我们日常工作流程的方方面面,包括记忆功能。这是我们之前从未见过的。我们过去通常是在完全冷启动的情况下提问,而现在这些模型将拥有持续的记忆能力,可以像我们一样使用工具。我对在小规模情况下实现高性能感到非常兴奋。这意味着我们最终可以实现这样的计算基础设施:在 XR、AR 体验中,将更多的计算能力转移到设备端。这也将带来更好的隐私保护,因为数据将被存储在用户随身携带的设备中,而不是他人的云端。
Marina Danilevsky:我完全同意这点。小模型的发展令人振奋,因为我认为在未来一两年内,我们将开始看到更多正式的监管出现,更多人会意识到这真正意味着什么。就像 Shobhit 所说,如果模型开始具备记忆功能、实现个性化、准备好被定制,这将变得极其重要。因此,拥有一个小型的、本地的、技术上可靠的解决方案,将变得尤为关键。我完全赞同你的观点。
主持人:那如果要你评选年度最佳模型,会选择什么?
Marina Danilevsky:这确实是个难题。我更倾向于从整体的角度来看待这个问题。现在要判断哪个突破将带来转折性影响还为时尚早。我想提名的是一个系列,也就是 Llama 模型系列。不是单独的某个 Llama 模型,而是整个发展序列,包括即将到来的 Llama 3。我们已经看到了预训练能做到什么,接下来我们将见证后训练阶段能带来什么突破。这个过程就像是:先做得更大,然后探索能做多小。我希望看到更多团队采用这种连贯的研发方式:推进预训练,深化后训练,探索规模极限,并不断迭代。我期待这种发展模式成为一种持续的趋势。
主持人:这是行家的回答,Marina。你没有简单地说某个特定的模型是最好的,而是从整个发展脉络来看待问题。
Shobhit Varshney:Marina,我认为我们将进入这样一个阶段:大型研究实验室会继续构建更大的模型,但他们可能不会在公共领域发布这些模型。这些模型更多地会被用于创建合成数据,用作指导模型进行蒸馏等工作。我对未来两三年感到非常兴奋,因为我们终于到了一个重要的转折点:我们在这个问题上已经探索了相当长的时间,我们发现,如果让模型在回答之前先进行思考,效果会大大提升,这不正是小学老师对学生的要求吗?
现在我们正在重新学习如何教育年轻一代,比如尝试不同的方法,制定计划,回答问题,必要时使用计算器等工具。这让我想起了教育孩子的过程。作为一个有孩子的父亲,我经常会思考这一点。我发现我们在训练 AI 模型的方式上有很多相似之处:我们对孩子进行强化学习,给予他们奖励和激励机制,我们把问题分解成更小的部分,让他们逐步解决每个部分。通过积极的强化,当他们做对时就会得到激励。我认为我们正在达到这样一个阶段:我们开始更深入地理解这些模型是如何学习的。
这将形成一种良性的共生关系。我认为我们将不再要求这些模型去完成人类擅长的任务,而是更好地理解哪些任务应该交给这些模型。这也意味着评估这些模型的基准和方法将发生重大变化。但我认为现在我们开始真正了解这些模型了。到了 2025 年和 2026 年,我们与这些模型的关系将会发生很大变化,它们将更多地成为合作伙伴,而不是简单地模仿人类的行为。
主持人:说得对。今年最有趣的发现之一就是,每逢更新,用户都会问“你能不能再努力一点?”,然后模型真的就在下个版本表现得更好了。这确实很有意思,要知道以前的计算机软件可做不到这一点。最后一个问题,我们还没有深入谈论多模态领域,但它似乎真的有望在 2025 年成为一个重要议题。也许我先请教你,对未来一年多模态发展有什么预测?
Marina Danilevsky:谈到多模态,这其实是个很有意思的领域。在基础模型刚出现时,我们就对这个概念感到兴奋,因为我们意识到:它本质上就是按顺序排列的标记,不一定要是文本,可以是任何形式的数据。但我认为我们之所以一开始都转向文本和代码这些领域,主要是因为我们在这些方面拥有大量的训练数据和示例。现在,特别是在合成数据方面取得了进展,就像 Shobhit 提到的指导模型那样,我们将能够更深入地探索这个领域。
因此我认为多模态技术可能终于到了真正发挥作用的时候。业界对多模态模型有着巨大的兴趣,因为就像文本模型一样,我们发现当一个模型同时处理多个任务时,这些任务之间会相互学习。现在情况变得更加有趣:如果你有一个多模态模型,它是否也会在每个单独的模态上表现得更好?我认为数据现在终于到位了,不仅仅是计算能力,还包括数据以及创建更多数据的能力。
所以我认为,明年我们确实会看到更多发展。我本来期望今年能看到更多针对科学领域的模型,也许要等到明年了。可能我们会看到在视频处理方面更成功的模型,不仅仅是像 Sora 这样的产品,而是在更底层有更实用的应用,比如在机器人领域。那里还有很多潜力可以挖掘。所以,炫目的应用固然有趣,但真正的实用价值可能在某个更基础的层面,尤其是在硬件相关领域。
Shobhit Varshney:我认为多模态领域在未来几年将会迎来令人振奋的发展。这个领域之所以重要,是因为它能够理解人类所看到的、感受到的、观察到的、阅读到的和听到的所有信息,这对于 AI 助手更好地帮助我们至关重要。
到目前为止,我们处理多模态任务的方式是这样的:拍一张照片或者把内容转换成文本,然后向聊天机器人提问。这种模式并没有很好地扩展开来。随着多模态模型变得更好、规模更小,就像 Gemini 2.0 Flash 展示的那样,这些进展将推动我们日常生活中出现更丰富的应用体验。而且竞争将会非常激烈,你会看到这些模型从各个方向涌现出来。
比如,从任何语言直接转换到另一种语言的模型,特别是直接的语音到语音的转换,这些都在提供卓越的用户体验。如果你看看传统的 AI 处理方式,通常是先将语音转换为文本,然后将文本输入 AI 模型,AI 模型想出回应内容,最后再从文本转回语音。在转录和翻译过程中损失了很多信息。而现在,当你开始直接从一种媒体形式转换到另一种时,比如直接从语音到语音,模型开始能够理解人类说话的细微差别。我对明年在多模态、小型化和完整上下文处理方面的发展感到非常期待。这真是令人振奋的发展方向。
「元年志」:超级智能体的崛起
主持人:接下来,让我们把话题转向 2024 年的智能体(Agent)技术。为此,我们邀请到了两位嘉宾:IBM 杰出工程师、用户转换 CTO Chris Hay,以及IBM AI 孵化项目产品经理 Maya Murad。
2024 年是智能体的元年,“智能体”这个词几乎无处不在。我想先请教 Chris,你认为 2024 年的智能体技术是被过度炒作了,还是说它的潜力还被低估了?
Chris Hay:绝对是被低估了,远远没有被充分重视。智能体就是未来,智能体就代表着一切。在 2025 年,我们将迎来超级智能体的时代。这就是即将到来的重大变革。
主持人:Maya,回顾过去这一年,不知道你是否认同 Chris 的观点?在智能体发展方面,有没有什么特别突出的事件让你觉得它们真的会像 Chris 说的那样,在 2025 年变得如此重要?
Maya Murad:我完全同意这个判断。2024 年,我们确实听到了很多关于 AI 智能体的讨论。我很期待看到更多实际落地的案例,同时我也预计我们会遇到更多挑战。当我们看到更多智能体被部署到生产环境时,我认为我们还只是触及了问题的表面。
今年我注意到的一个重要趋势是出现了更多的协议和标准化努力。我们看到 Meta 通过 Llama Stack 在这方面进行尝试,Anthropic 则推出了他们的模型上下文协议(MCP)。我认为这将是一场关于如何标准化大模型与外部世界交互方式的重要博弈,而在未来,这个重点将转向智能体之间如何互相交互。我认为这是下一个前沿领域,也是我们努力的方向。
主持人:是的,感觉 2024 年更像是未雨绸缪之年。我在回顾所有新闻报道时在想:今年最大的智能体相关新闻是不是 Salesforce 正在大规模招募销售人员来推广智能体产品?在这些商业动作和技术标准之间,很难说出“这是今年最重要的智能体突破”。实际上,更多的是在为未来做准备。Maya,不知道你是否同意这个观点?
Maya Murad:确实感觉这是在为未来做准备的一年。我们需要考虑各种不同的因素,以及谁想要在这个领域占据主导地位。比如说,Meta 很早就投入其中就很有意思。虽然 Llama Stack 的第一个版本可能还不够完善,但他们展现了长期投入的决心。他们想要帮助定义这些智能体间的通信协议。如果这是 Meta 选择的方向,我相信他们一定会做好。
这也暗示了一些有趣的变化。在过去两年里,这个领域主要是在响应 OpenAI 的产品节奏。OpenAI 发布了他们的 Chat Completions API 后,整个生态系统都跟随其后。如果你没有完全相同的 API,你的产品就会变得更难被采用。现在我们看到更多的参与者在争夺制定这些标准和协议的主导权,这是一个重要的转变。
主持人:确实如此。Chris,刚才你用了“智能体就是未来”这样一个非常大胆的说法。展望 2025 年,假设智能体确实变得更加普及,成为这个领域更重要的组成部分,你觉得 Meta 在这方面是否处于有利位置?或者你对于谁将在这个领域领先,谁可能会落后有什么预测?
Chris Hay:我很认同 Maya 关于 Anthropic 和模型上下文协议(MCP)的观点。我认为这将成为明年智能体发展的最大推动力之一。他们很好地解决了一个核心问题,那就是允许远程调用工具。这可能是他们解决的最关键问题。
想想企业环境,你不会让智能体只是坐在那里搜索网页或下载文档,而是需要它访问你的企业工具,比如 Slack、Dropbox 或 Box 文件夹、GitHub 等。这些接口已经标准化了。但更重要的是,你希望获取自己的数据,然后以一种智能体可以标准化使用的方式开放你的 API。我认为 MCP 在允许远程调用工具方面做得非常出色,而且能够通过多个服务器将它们链接在一起。我认为这将是一个重大的推动因素。
有趣的是,他们设计的架构让连接不同的 LLM 变得很容易。所以它不局限于某个特定的云平台,你可以连接任何你想要的模型。这都与函数调用有关,这又是 OpenAI 创建的一个标准。所以我很赞同 Maya 刚才说的,关于不同提供商进入生态系统的观点。我认为我期待看到的是没有任何一家公司独占市场。这个由不同提供商组成的生态系统将推动整个行业向前发展。我们将进入一个庞大的智能体市场时代。这就是为什么我说超级智能体(Super Agent)即将来临,因为在 2025 年,这将成为一个真正庞大的生态系统。
主持人:当你说超级智能体时,具体是指什么?
Chris Hay:说实话,我刚刚才想出这个词。一个真正强大的智能体就是超级智能体。
主持人:你们两位的重要预测似乎都指向了一个方向:智能体市场,这可能是我们明年会看到的最重要的发展趋势。我认为一个重大问题是,关于智能体世界中最先成功的应用场景会是什么?什么样的杀手级应用会像当年的电子邮件还有现在的 Slack 一样成功?在你们与客户交流的经历中,他们对智能体有什么特别的期望和愿景?有没有一些值得我们读者了解的共同主题?
Chris Hay:从我的角度来看,Tim,在那个市场中有一些明显的应用场景,比如翻译。说实话,我认为现在的语言模型还没有真正很好地掌握翻译能力。有些模型在某些语言上做得很好,但如果你考虑那些不太常用的语言,大型模型就显得力不从心了。这时就需要专门针对特定语言训练的专业模型。所以我认为这可能是一个真正的机会,将这些较小的语言模型与智能体结合起来提供翻译服务。再加上领域服务,比如法律领域,这是你非常熟悉的,Tim,我认为这可能会成为市场的一大部分。
但我希望不仅仅局限于这些个别的智能体。任何信息,可能是体育比分,可能是高尔夫比分,可能是戏剧资讯,都可能成为应用场景。这就是我对 2025 年的另一个预测:我认为我们将看到万维网的一次重大转变。今天,HTML 等是互联网的主导标记语言,但这并不是为 LLM 设计的,也不是为智能体设计的。所以我在想,为了让智能体蓬勃发展,不仅仅需要有市场,还要有标记数据的新方式。我们之前谈到了 MCP,我想我们会开始看到新类型的网页出现,其中的内容是专门为智能体优化的,不仅仅是为人类设计的。所以我预测我们将开始看到网络向所谓的 Web 4.0 转变。我试图避免使用 Web 3.0 这个术语,这里我们会看到专门为智能体消费设计的内容。
主持人:对智能体的承诺会引发如此大的兴趣,以至于我们几乎要重构整个网络,使其对智能体更安全或更有效。我猜很多正在构建的技术栈和互操作性标准,在某种程度上都是在尝试实现这一点。Maya,你同意这个观点吗?你认为这就是未来的方向吗?我们会有一个智能体标记语言,某种程度上就像 HTML 一样?
Maya Murad:我认为很多有趣的应用场景将在不同提供商构建的、由不同组织拥有的智能体能够相互交互时被开启。比如,我们如何建立安全协议?如何能够高效地实现这一点?这里的愿景是:我们如何摆脱所有这些不同系统的孤岛,不再需要手动设计它们如何相互对话?我们能否达到一个通用的交互协议?这确实是一个令人向往的前景。我不确定我们明年是否能完全实现它,但很多不同的参与者都希望朝这个方向发展。而且还有一些基础性的问题我们应该在这之前解决。
例如像软件工程任务,这个领域已经有了大量投资。但我仍然认为没有人真正解决好普通商业用户的需求。普通商业用户必须在他们的电脑上使用十几个不同的工具,这些工具之间互不相通,每个都有自己的入门门槛。所以我看到了很多机会来简化这些复杂的体验,使它们更加动态和整合。这才是这项技术的真正价值所在。
主持人:你描述的世界几乎就是智能体成为了所有这些应用程序的统一界面。它们保持独立运作,但是未来的操作系统实际上就是代表你执行任务的智能体。
Maya Murad:是的,关键是自然语言。就像 LLM 改变了我们与数字世界交互的认知一样,我们开始期望所有事情都能用自然语言来处理。现在你填写表单时,往往也会有一个自然语言交互的选项。我认为这种期望会继续扩大。
主持人:确实,这很有道理。最后我想谈谈工程和编程方面的问题。今年我注意到编程助手已经变得非常非常强大了。但最终的愿景是,你只需要描述你对软件代码库的构想,智能体就能够在代码库的所有部分进行构建和互操作。对于这种自动化和智能体行为的前景,你们怎么看?
Chris Hay:我要先说一些可能有争议的观点。这里有一些值得思考的地方:今天的编程语言是为人类设计的。想想循环、while 循环、for 循环等等,还有这么多的版本,以及条件语句、if 语句也是如此。但你知道吗?当你深入到汇编级别时,这些都不存在,它们最终都会回归到分支和跳转语句。
因此在智能体的世界里,我们让它们使用为人类设计的语言编程。我认为在未来几年的一个大挑战是,我们可能会看到一种更适合智能体的原生语言出现,这种语言的设计更适合 LLM,因此会减少为满足人类需求而设置的语法糖。所以我认为编程语言本身将会发生演变。
你今天就能看到这种趋势,对吧?LLM 已经在生成代码了,比如又一个斐波那契函数实现。说实话,我这辈子不需要再看到另一个斐波那契函数的实现了,我们已经有太多了。所以我认为会出现类似于 NPM 那样的东西,在那里你有一个庞大的 AI 库,你可以提取你需要的函数。我认为就像 AI 操作系统一样,未来将出现 AI 编程语言和库,一切会更加原生化。这将有助于编程的发展。很有趣,对吧?会是 2025 年吗?也许,也许是 26 年。但我认为这就是我们要去的方向。
Maya Murad:就目前我们拥有的技术而言,我对我在 Replit 上看到的能力印象深刻,这是一款 AI 编程助手,能够构建完整的全栈应用程序。这是一个很有趣的范式,就像通过对话来构建应用程序。我真的看到了创建数字界面和代码库的能力正在以前所未有的方式普及化,这完全得益于我们现有的智能体技术。我只是认为这里还有类似于“最后一公里”的问题需要解决。我相信明年这个领域会有重大突破。
「封神榜」:芯片新秩序
主持人:接下来有请两位来自 IBM 的硬件专家,Khaoutar El Maghraoui 是我们 AI 工程的首席研究科学家,负责人工智能硬件中心;Volkmar Uhlig 则是我们的副总裁,负责人工智能基础设施组合。
首先请教 Volkmar,当我们谈论 AI 硬件时,这几乎成了与英伟达相关的代名词。我很好奇你认为今年英伟达最重要的故事是什么?对我来说,最引人注目的是即将推出的 GB200 的发布。在你回顾 2024 年时,是否还有其他重要的事件引起了你的关注?
Volkmar Uhlig:英伟达为 GB200 确实做了很大的宣传。我认为我们正在看到一个重大转变,特别是在训练方面,正朝着更集成的系统方向发展。现在是非常大型的机架规模计算机的时代,液冷技术也开始普及。所以这些年我们看到的所有进展,比如如何在更小的空间内集成更多的计算能力,让它更快,配备更好的网络等等,英伟达正在努力保持其领导者地位。
我们看到的升级某种程度上反映了现在模型的样子。我们有 700 亿参数的模型,即使你对其进行量化,8 位精度就需要 700 亿字节,16 位精度就需要 1400 亿字节。现在,你不希望必须购买完整的显卡。所以,如今所有加速器的内存容量都在增加,不仅仅是英伟达在这里发力,我们观察到了新的进入者和其他市场参与者。AMD 正在发布他们产品的一个相当不错的路线图,所有产品都具有非常大的内存容量和内存带宽,以应对这些大型语言模型,让更多的模型能在更少的空间或更少的计算资源中运行。
英特尔也在这个市场上积极布局。此外还有一些创业公司,我们也看到了一些真正有趣的技术进入市场。比如 Cerebras,那是一个晶圆级 AI 计算方案,一年前他们还在谈论这个概念,现在你已经可以作为云服务使用它了。现在还有 Groq 作为一个新兴参与者。还有其他公司正在崭露头角,比如 D-Matrix,将在明年初推出一个适配器。
所以我认为市场上已经有了一批优秀的参与者。再加上新的进入者。前段时间,博通也宣布了非常大的收入目标,以及与苹果的合作关系。高通也加入了这个领域,并推出了一个芯片架构,其中一些产品已经可以使用,而且他们有一个很好的发展路线图。所以我认为这个市场不再只是英伟达一家独大,这对整个行业来说是件好事,而且发展非常快。我们不仅看到了训练系统的进展,对推理的关注也在增加,因为从我的角度来看,这才是真正能创造收益的领域。
主持人:Khaoutar,我很想听听你对这一点的看法。我想确保我们也谈谈今年推理领域的大趋势,因为这确实是市场发展的一个重要主题。如果你愿意,请谈谈 2024 年在这方面的发展和你的观点。
Khaoutar El Maghraoui:是的,当然。特别是在推理引擎和优化推理引擎方面发生了很多进展。硬件软件协同设计也在发挥关键作用。我们看到像 VLLM 这样的技术,我们也看到像 Triton 正在做的工作,以及所有关于 KV 缓存优化、推理优化的批处理等工作。所以在开源领域围绕构建和扩展推理系统发生了很多创新,特别是针对大型语言模型。但我们看到的许多这些优化并不只是针对 LLM,它们也可以扩展到其他模型。
在 VLLM 方面有很多发展,在 IBM 研究院和其他机构也有研究人员为开源项目做贡献,主要是为了引入这些协同优化,无论是在调度方面,批处理方面,还是在探索如何最好地组织所有这些推理请求并让硬件高效运行它们方面。
主持人:Volkmar,你能稍微预测 2025 年的情况吗?听起来随着这个市场变得越来越拥挤,我想每个人都在追逐英伟达的王冠。你对 2025 年有什么期待?英伟达是否仍然能保持领先地位?还是到 2025 年 12 月,市场会变得比传统上更加分散和多样化,特别是在训练方面?
Volkmar Uhlig:我的预测是,在训练领域,英伟达仍将牢牢占据主导地位。我认为 AMD 和英特尔会努力进入这个市场,但那可能要等到 2026-27 年的时间框架。我之所以这么说,是因为构建一个真正成功的训练系统所需的不仅仅是 GPU。这是一个完整的系统工程。
你需要真正优秀的低延迟网络,需要解决可靠性问题。现在有一个强烈的趋势,就是将计算能力转移到网络架构中,以进一步降低延迟并更有效地利用硬件。英伟达通过收购 Mellanox,实际上获得了高性能计算领域的头号网络供应商,而训练恰恰就是高性能计算的典型应用。
现在出现了一些联盟,比如 Ultra Ethernet,他们正在努力获得与 InfiniBand 类似的功能。尽管 InfiniBand 是一个开放标准,但在全球范围内实际上只有一个供应商,那就是现在被英伟达收购的 Mellanox。所以我认为英伟达在市场的这一端具有很强的优势。
因此,其他参与者的大部分投资都更多地集中在推理市场,这个市场更容易进入,因为在这里并不是只有英伟达的系统。比如在手机上没有英伟达的产品,在边缘设备上也没有。而且在推理方面需要的软件投入远低于训练方面。所以我认为训练领域在英伟达手中很安全。但我认为现在随着集成了以太网的 Gaudi 3 的上线,以及 AMD 推向市场的新产品,我们会看到竞争对手慢慢渗透到这个市场。我认为到 2026 年,我们可能会看到市场格局发生重大变化,英伟达可能会失去现在这种独特的主导地位。
主持人:这将是一个重大转变。Khaoutar,你对这段关于 2025 年的预测同意吗?
Khaoutar El Maghraoui:我同意 Volkmar 的观点。AI 硬件竞争确实在加剧,正如他所提到的,像 AMD、英特尔和像 Groq、Graphcore 这样的创业公司都在开发富有竞争力的硬件。IBM 也在开发用于训练和推理的高竞争力产品。
英伟达 GPU 面临的问题主要在于成本和功耗效率。英伟达的 GPU 非常昂贵且耗电量大,这使它们对边缘 AI 和对成本敏感的部署来说缺乏吸引力。像 AWS Inferentia、Google TPU、Graphcore IPU 这样的竞争对手提供了专门的硬件,对某些应用来说通常更便宜、更节能。
而且我认为,像 OpenAI Triton 和 Onyx 这样的开放标准,以及新的框架,也在努力减少对英伟达专有生态系统的依赖,这使得竞争者更容易在这里获得发展机会。如果我们看看推理专用硬件,就像我之前提到的 VLLM,这些专用推理引擎如 VLLM、SG-Lang、Triton,它们展示了非英伟达硬件的潜力。它们为竞争打开了大门,降低了进入门槛,而且它们在推理场景中表现出色,特别是对于大型语言模型。所以我们将看到由 ASIC 驱动的边缘推理解决方案的广泛涌现。我认为这正在挑战英伟达在这个快速增长的边缘 AI 市场中的地位。
主持人:是的,我想边缘计算是最后一个我们必须要谈到的重点。对我来说,显然今年的大新闻之一是苹果,他们进军 Apple Intelligence 领域并确保所有 iPhone 都配备了 AI 芯片。我认为这个趋势将持续到 2025 年。但我很好奇,对于我们那些不太关注硬件领域日常发展的听众来说,在未来 12 个月里,有哪些趋势值得他们特别关注?
Volkmar Uhlig:我认为苹果的模式在功耗受限的环境中是非常优雅且实用的解决方案。在功耗受限的环境中,即使精度可能较低,你也会选择在设备上直接处理能完成的任务,而当你需要更多计算能力时,再寻求云端的帮助。我认为苹果的架构也很有趣,他们在手机上运行的相同芯片,也可以在云端使用。这是一个非常巧妙的架构,因为它简化了开发人员的工作,也简化了部署流程。
我认为我们将看到更多这种类型的混合计算模式。随着芯片技术的成熟,我们将在边缘设备上看到更多的计算任务本地化。现在有了更多的选择,你不再需要高功率的显卡了。而且随着芯片变得越来越专门化,专注于简单的矩阵乘法运算,我认为我们将看到实际上每一个出厂的芯片都会以某种形式包含 AI 功能。
然后真正的关键是这种设备内部和设备外部处理的混合架构,它使得硬件能够长期保持竞争力。特别是在边缘设备上,边缘设备不仅仅是手机,它可能是一个工业设备,那里的生命周期是 5 到 10 年。你不想每两年就为了训练另一个网络而不得不更换芯片。所以我认为苹果提出的架构将会更加稳固,我们将看到围绕这个架构建立起来的软件生态系统。
主持人:Khaoutar,当前最被低估的趋势是什么?在 AI 硬件领域,是否有一些人们没有充分关注的发展方向?你知道,AI 硬件领域有很多炒作。所以我很好奇是否有一些更微妙的趋势你认为值得关注?
Khaoutar El Maghraoui:这是一个很好的问题。我认为有很多关于实时计算优化的工作被低估了。例如,像测试期计算(test-time compute)这样的技术,它允许 AI 模型在推理过程中动态分配额外的计算资源。这是我们在 OpenAI o1 模型中看到的技术,它真的在这里树立了一些重要的先例,它允许模型有效地分解复杂问题,某种程度上模仿了人类推理的方式。这也对我们设计这些模型的方式以及模型与硬件的交互方式产生了深远影响。在这种情况下,它推动了更多的硬件软件协同设计,特别是在推理过程中的处理优化。
我认为另一个重要趋势是硬件的普及化。当我们看到 Llama 3 系列时,它展示了新的硬件生态系统正在发展,既适用于高端研究模型,也适用于消费级应用。Llama 模型发布了多个版本,从 400 亿到 80 亿参数不等。这也是一个重要的趋势。我们某种程度上可以缩小高端数据中心和基础设施之间的差距,让更多人能够访问这些高端计算和基础设施资源。朝着这个方向推进将非常重要。
另一个方面是开源和企业的协同效应。IBM 发布的 Granite 3,我认为这是朝着正确方向迈出的重要一步,它也突显了开源 AI 的重要性及其最大化企业硬件性能的能力。但仍然存在硬件设计方面的挑战。例如,我们看到英伟达的 Blackwell GPU 在散热管理和服务器架构方面遇到的问题。因此,这些硬件需要不断改进以满足下一代 AI 模型的需求,功率效率变得至关重要。
如果我要总结这些趋势,我认为 2024 年展示了硬件、软件协同设计的重要性,以及行业向专用 AI 加速器的转变。开源采用和实时计算创新确实非常重要,正在为进一步的突破奠定基础。
「新生代」:AI 产品爆发
主持人:最后,为了完整回顾 2024 年的图景,我们需要谈谈那些让我们震惊、惊叹并引发深思的产品发布。为此我们邀请到了IBM Granite 技术产品管理总监 Kate Soule,以及负责 AI 治理工作的 IBM 研究员 Kush Varshney。
显然,今年在产品发布方面的节奏非常快,感觉每隔一周就有新产品问世。Kate,回顾过去 12 个月,你认为最重要的突破是什么?
Kate Soule:作为 Granite 技术产品管理总监,我想首先要为我们 IBM 团队所取得的成就感到自豪。我们发布了 Granite 3.0 模型系列,这些模型都采用 Apache 2 许可证,具有高度透明性,数据来源符合伦理要求,我们在线上的报告中分享了所有细节。我非常高兴能够继续履行对开源 AI 的承诺,能够创建最先进的语言模型。在 2 到 8 亿参数规模范围内,我们可以在允许的条款下将这些模型提供给我们的客户和开源社区使用。
从更广泛的角度来看,不仅仅是 IBM 的成就,我认为 GPT 4.0 系列模型和产品的发布也令人振奋。我认为它开启了一个新的浪潮,让我们开始思考如何在不仅仅增加训练计算成本的情况下继续提高性能。
这真正预示了我们将在 2025 年看到的下一波创新:我们如何在推理阶段投入更多资源,允许使用这些模型的产品进行更高级的推理计算来提升性能,而不是简单地投入更多资金进行训练,投入更多数据,不断扩大规模。从更宏观的角度来看,这是我非常期待的发展方向。
主持人:第一个方面,2024 年确实是开源领域反击的一年。曾经有那么一段时间,感觉所有闭源模型真的会主导市场。而现在开源活动的爆发真的非常令人兴奋。第二个方面,就是“明智工作,而不是盲目增加工作量”的理念。我认为我们在很多领域都开始看到新技术发挥作用。在开源领域,这也是 Llama 3 的一年。那请问 Kush,回顾 2024 年,无论是开源方面还是在 AI 方面,有什么值得铭记的内容?
Kush Varshney:是的,“开源的回归”。我认为这是一个准确的描述。当我们与各行各业的客户交谈时,我们发现他们在 2023 年主要关注的是概念验证和类似的工作,比如让公司内部的人们认识到生成式 AI 可能发挥的作用。但随着时间推移,他们意识到实际落地时需要考虑版权数据、其他治理问题、成本,以及如何使这些系统可操作。我认为 Watson X 这个 IBM 产品就在这方面发挥了重要作用,Granite 模型显然也是如此。我们正在探索如何将 2023 年的科学实验转变为在今年得到更多实际应用,现在进入明年,一切都将变得更加成熟和严谨。
主持人:Kush,让我们来谈谈 AI 治理。你一直以来花了很多时间思考这个问题。今年在这方面有很多重要进展,我不知道你是否想特别指出 2024 年的一些重要事件。
Kush Varshney:仅仅是整个 AI 安全领域的大规模集会这件事就很能说明问题。IBM 举办了韩国峰会,我们在 11 月在旧金山举行了峰会。这已经成为了一个核心议题。我认为这是我们需要克服的关键问题,因为仅仅拥有生成式 AI 而没有安全护栏,没有治理机制,这是很危险的。我认为投资回报的承诺只有在你能够克服治理这个门槛后才能真正实现。
主持人:你对 2025 年这方面的发展有什么预测吗?在 2024 年,我们几乎为很多事情做好了准备。2025 年,我们将看到这些准备如何转化为实际的发展。无论是在开源还是在治理方面,似乎都是如此。
Kush Varshney:我的预测是,Agentic AI 会真正爆发,而且治理将成为推动其他用例发展的关键因素。因为当你拥有自主智能体时,治理和信任变得极其重要。为了让这些系统有一定的自我反思能力,也许能够对它们要输出的答案多思考几次。所以,我们将看到更多用于管理智能体的工具。比如 Granite Guardian 3.1 刚刚发布,实际上包含了一个函数调用幻觉检测器。这是智能体实际执行的重要功能之一,作为 LLM 的一部分,它们会调用其他工具、其他智能体、其他函数。如果这个过程本身出现幻觉,无论是参数、参数类型还是函数名称,所有这些都可能出错。所以我们现在有了办法来检测这些问题。
Kate Soule:Kush,你刚刚说推理运行时将被更多地用于治理和自我反思,但你最近也说过这打开了其他风险和潜在安全问题的潘多拉魔盒。当模型在后台运行所有这些循环时,人们能够观察到模型的输入过程。
Kush Varshney:你可以称之为“自我反思”,可以称之为元认知,甚至可以称之为智慧。这些都将成为系统运作的重要组成部分。但是,任何时候你有额外的操作发生,更多的循环,更多的机会,就会产生更大的攻击面。对吧?所以我认为这肯定会成为其中的一部分。但我仍然抱有希望,就像在其他系统中一样,你可以有更好的控制,你可以有更多机会来影响和调节系统的行为。
主持人:我认为这最终变得至关重要。如果所有的开源在 2024 年发展得如此迅速,感觉 2025 年可能终于是开源与闭源平分秋色,甚至在某些方面开源会超过闭源的一年。我认为这种情况的发生不仅仅是因为技术在变得更好,而且就像 Kush 说的,我们确保开源模型部署安全的能力也在提高。过去,人们常说我们必须依赖闭源,因为只有他们真正理解如何进行对齐和确保安全。
Kate Soule:总是有人说只有大型模型提供商才有预算能够研究如何安全地做这件事,或者只有他们才有这方面的专业知识。现在我认为我们终于开始足够地打破这种说法了。我们看到 Meta 做得非常出色,发布了非常大的模型,具有出色的安全对齐能力,并向外界展示你可以公开地做这件事。这不需要躲在黑幕后面进行。
主持人:这是你对 2025 年的预测吗?我们可以兼顾开放性和安全性?你对未来 12 个月有什么开源方面的预测?我们从这里向何处去?我猜测会有更多更好的 Granite 产品?
Kate Soule:我认为明年的重点将更多地放在模型之上的技术栈上,以及优化模型和开发者框架的协同效应上。我们看到了 LlamaStack 的发布,对吧?我认为我们将看到它随着成熟而大幅发展,以及其他类似功能和技术栈的开发。我认为我们都也接受了像 OpenAI 端点这样的工作方式是现有的操作方式。但可能还有其他方式,我们可以继续创新和改进,现在我们已经积累了一定的经验。所以我认为我们将开始看到很多开源创新出现在技术栈的更上层,特别是来自那些寻求进一步提高性能的模型提供商。这与其相辅相成,如果你试图优化和改进推理时的运行效果,你需要一个能够处理这些需求的技术栈。这就是我认为大部分开发将要发生的地方。
主持人:就像你说的,考虑到有这么多新闻,很容易导致我们忘记这些都是很新的东西。就在几年前,这些基本上是不存在的。你我经常谈论聊天界面,只是因为 ChatGPT 非常成功,这是我们才开始使用的交互方式。但是从某种程度上说,没有理由说这必须是我们将来与这些系统交互的唯一方式。我很好奇你们两位对此是否有预测,甚至是关于界面本身,我们是否会开始以一种与现在完全不同的方式与这些系统交互?
Kush Varshney:我认为共同创造力,共同创作将成为一个更大的趋势。所以会有多个参与者共同参与,我知道今年也推出了一些 Canvas 之类的协作工具。但我认为这只会继续增长。让我简单提一下我兄弟的创业项目 Kocree,这个项目的目标是通过 AI 帮助人们共同创作音乐,但更重要的是帮助人们和社会提升他们的幸福感。因为当你与他人一起创作时,这确实是一种积极的体验。所以我认为未来的发展重点可能会稍微转移,更多地关注人类的繁荣和幸福感,探索如何让人们真正一起工作,实现一种开放性的协作等等,这可能会成为未来的主要趋势。
主持人:也许我们还剩下几分钟时间讨论这个话题。有什么人们没有在谈论的事情吗?在 AI 领域,每个人总是对最新的模型发布或最新的突破保持关注。对你们两位该领域的专家来说,什么是目前被低估的,且真正值得在明年关注的事情?
Kate Soule:我认为在使用 LLM 构建模块化组件方面将有巨大的机会。我真的希望这个方向能够蓬勃发展。例如,我们如何达到这样一个阶段:你可以为你的特定任务微调一个 LoRa 适配器,也就是一组为你的任务定制的权重参数,它位于模型之上。现在,这些适配器必须为你要部署的具体模型量身定制,新版本出来后,你就必须重新调整你的模型。
但是我们如何创建这些更通用的版本?例如,有一些有趣的研究成果是通用的,可以在任何地方应用。这就能创造出一些真正优秀的模块化组件,你可以发布或者建立一个目录供选择和实时配置,并可以随时替换进出。我认为在推理阶段,你可以随时替换这些类型的组件。
还有一些方面,比如我们现在都听说过开创性的专家混合(MoE)架构,对吧?所以在这方面我认为会越来越多地关注我们是否可以制作模块化组件,在架构层面有可以互相替换的模块化专家模块。所以我希望,我认为在基础层面有一些非常有趣的研究正在进行,可以支持在 2025 年关注如何使模型构建和专业化变得更加模块化。
主持人:我认为这个方向没有得到足够的关注。每个人总是认为 AI 就是一个能做所有事情的大模型。Kush,轮到你了,有什么被低估的趋势要向我们的读者指出吗?
Kush Varshney:我认为智能体的中间件也是一个重要方面。基于 Kate 刚才说的关于模块化的内容,即使在多智能体系统中有不同的智能体,我们也需要考虑如何注册它们,如何编排它们等等。从 IBM 研究院的角度来说,我们推出了 Bee Agent 框架。现在还有其他创业公司也在这个领域发力。一些前 IBM 研究人员创办了一个叫做 Emergence AI 的公司,他们也有自己的解决方案。外面还有其他的参与者。所以,我认为这个领域会继续增长。再次呼应 Kate 说的,我认为在开发环境和模型之间建立更紧密的联系非常重要。我认为,一旦所有模型都达到足够好的程度,那么问题就变成了:我们如何更好地使用它们?我们如何有效地使用它们?我们如何更好地开发它们?这就是我们未来该关注的问题。
参考:
https://www.youtube.com/watch?v=l8plyR8aqVQ
【直播预告】
2024 是大模型技术惊心动魄的一年,技术上,Scaling Law 撞墙、预训练终结、真开源 vs 假开源之声不绝于耳,向量数据库、RAG 不约而同地直指数据,大干多模态之时,推理迎来突破。但我们依然困惑良多,比如 GenAI 应用爆发何时到来?Agent 是 AGI 应用的突破口吗?1 月 8 日(星期三)晚 19:30-21:00,CSDN 视频号直播间,欢迎深度交流共同迎接 2025。
来源:CSDN