AI大模型成本2年骤降万倍,商业化应用加速跑|智谱张帆 MEET2025

360影视 2024-12-27 08:43 3

摘要:第一级是语言,智谱“已经做得非常不错了”;第二级是对复杂问题的求解,可以看到o1水平模型能力出现;第三级是使用工具,比如自主智能体不但能够通过API,还可以像人一样操作手机、PC甚至汽车的界面来获取信息;第四级是自我学习;第五级是超越人类,AI将具备探究科学规

编辑部 整理自 MEET2025大会

对于AGI,大模型六小虎之一的智谱有自己的理解,他们把AGI分为五个等级:

第一级是语言,智谱“已经做得非常不错了”;第二级是对复杂问题的求解,可以看到o1水平模型能力出现;第三级是使用工具,比如自主智能体不但能够通过API,还可以像人一样操作手机、PC甚至汽车的界面来获取信息;第四级是自我学习;第五级是超越人类,AI将具备探究科学规律、世界起源等终极问题的能力所以通往AGI之路将是一个清晰和明确的链路。

本次量子位MEET 2025智能未来大会上,智谱COO张帆热情分享了智谱大模型的发展、应用、商业化发展、未来方向,以及企业和个人的科技战略构建。

为了完整体现张帆的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。

MEET 2025智能未来大会是由量子位主办的行业峰会,20余位产业代表与会讨论。线下参会观众1000+,线上直播观众320万+,获得了主流媒体的广泛关注与报道。

大模型天然是一个应用导向的技术;一条曲线是能力上升,一条曲线是成本下降,带来技术能力快速地落地和应用;通往AGI之路将是一个清晰和明确的链路;AI开始变成基础生产要素;意识到模型的技术效果不及预期不难,难的是找到“怎么能行”的一条路;大模型的文本模型成为你的大脑,多模态模型成为你的眼睛,自主智能体模型成为你的双手模型场景越来越从浅水区进入到深水区;不管基座模型是国内的、国外的,开源的、闭源的,合适的才是最好的。
……

以下为张帆演讲全文:

大家好,非常高兴今天有机会能够跟大家做一些分享。

智谱算是在国内最早做大模型商业化的公司,我们在过去的一两年当中也走了很多弯路,踩了很多坑,有一些成绩。今天希望跟大家分享一下我们在商业上面的一些思考,大模型如何跟商业能够应用起来。

其实我觉得今天大家经常会有一个问题,大模型是不是变慢了?是不是已经到瓶颈了?是不是增长得不够快了?

我们在开始的时候可以简单做一个小的回顾,看看过去的两年间到底发生了什么。

首先一点,大家可以看到在早期的时候,ChatGPT发布后只用了两个月的时间,全球用户就过亿。这是一个前所未有的现象级增速,比人类历史上所有技术进展速度都要快——电话用了75年才达到这个成就,这是一个直接进入到应用的技术。

它也不像其它很多技术,一般来说,技术往往都是先有一个概念,然后从这个概念出发,不停尝试让它一点一点落地,最后落实。

今天的大模型不太一样,我相信绝大多数的各位都不是先知道了这个概念,而是先知道了某一款应用。所以大模型天然是一个应用导向的技术。

很多分析都提出,生成式AI进入市场的速度远比互联网和PC要快,并且在过去两年间,整个模型带来了非常大的变化。

以一个计算基准来看,仅仅2年时间,整个模型的行业水平就从60分涨到了将近90分。通常而言,低分段涨分容易,高分段涨分不容易。但仅仅用了两年时间,智能就提升了这么多。

与OpenAI的折现轨迹相比,能看到智谱基本上跟紧上了国际步伐。

再说上下文窗口。我记得去年刚开始做模型商业化的时候,基本标配是4K基本,现在100万才是基本门槛,甚至很难算是合格的能力。今天很多模型窗口都达到了100万、200万字,能装的东西已经非常多了。

我们也能看到一系列从单一模态到多模态、从文本模型到多模态模型,甚至是自主智能体模型等等的现象出现,模型的能力变得越来越丰富。

这一切仅仅用了2年时间。我们回想移动互联网时代,iPhone发布两年之后,真正的杀手级的应用都还没有出现。

但是在今天,模型发展已经非常快,从各个方位上都全面得到了提升。

模型成本极速下降

与之相对应的是模型成本的下降,且无论是国内外。

连OpenAI也降低了几十倍,并且还在持续下降。

国内更是如此。记得去年刚刚开始做商业化的时候,智谱当时还是5毛钱1000个tokens,但今天最低已经到了5分钱100万个tokens——这是1万倍。

也就是说,在过去两年间,这个市场降价降了1万倍,能力变得比原来更强。

一条曲线是能力上升,一条曲线是成本下降,带来的是什么?

带来技术能力快速地落地和应用,这是背景。

这个过程当中,有这样一个背景。那么,未来往哪去?大家更常会问,我们今天到了哪一步。

之前OpenAI发布了对于AGI目标能力的分级,智谱也给出了一些自己的理解。

我觉得这个路径还是比较清楚的:

第一级是语言。我们已经做得非常不错了,基本上可以通过图灵测试。

第二级是对复杂问题的求解。可以看到01这样的能力出现,让我们对模型的应用类似从「大脑的系统1」转化为「系统2」,从简单直觉的回答,变成了能够深度性的思考和拆解。

第三级开始使用工具。过去回答复杂问题的时候,不但需要能直接做深度的思考,还需要能够跟外界持续地交互获取信息。我们之前做了很多像Function calling(函数调用),如何在过程中把需求转化为一个请求,通过API的方式取外部的数据,类似于这样的方式补充内容。

也有包括像我们自己发布的自主智能体,不但能够通过API,还可以像人一样操作手机、PC甚至汽车的界面,从里面获取信息。

第四级是实现自我学习。AGI已经不满足人们谈论和探索的空间了,已经开始讨论ASI了。如果把人类的智能作为基准,而技术机器的智能在逐步上升。

随着人给它标注数据,技术机器智能的曲线值逐步提升,某一天达到了人类的智能这条线,我们该怎么标数据?它怎么获取更多的知识?

今天还有很多谈论,已经看到了ASI和Super Alignment的初步进展,我觉得在今天看起来,这几步还是或多或少都有了一些进展的。

在这里面,智谱也不断地探索和丰富模型的能力,从最开始的语言能力,到L2的复杂问题的能力,到工具能力,以及现在正在试图去解决的第四级别的GLM-zero和GLM-OS等能力。

第五级还没有非常明确的定义,但是方向在那,是超越人类,AI将具备探究科学规律、世界起源等终极问题的能力。

这一次,大模型不只是带来了技术上的变革,与以往相比,也带来了更多在商业上的可能性。

在移动互联网时代,所有的任务都是独立的,你需要从很多种算法中挑一种做实验,解决一个小问题,比如分词、词性标注、实体识别等。

那个时候,使用AI的门槛的成本是很高的,所以只有那种高杠杆的业务才能应用,比如搜索引擎、推荐引擎。也就是说,只有那种上千万、上亿的人在应用,且边际成本几乎为零的应用,大家才能够去用AI。那个时候基本上只有互联网大厂在应用AI。

到2013、2014年神经网络成熟之后,某种程度上,算法层被统一了,大家不用学各种各样的算法了。

所以一定程度上门槛有了第一次普惠化,成本也下降。这样的结果就是AI能力开始进入到产业跟行业。

而今天,从算法到模型,到数据,再到任务,整个大模型几乎把一切都统一。

再加上有Zero-shot和Few-shot的能力,我们从针对一个任务去训一个模型,变成可以直接去应用模型了。

它不但带来了更强大的能力,还让我们模型的生产成本比原来下降了至少两个数量级,可能100倍。

原来做一个什么样的简历抽取,不搞上几个算法科学家,搞上半年,根本搞不定,但几百万经费就出去了;但是今天来讲,借助大模型,一个运营的人员,一个产品的人员,哪怕不会编程,基本上可以花上一周就能解决这个复杂的问题,并且效果还不差。

在这样的背景下,AI开始变成基础生产要素,这就导致带来商业底层的很多变化,此外,上层的变化,包括工作方式、组织形式、商业模式甚至每个企业的壁垒,可能都会发生变化。

接下来可以跟大家分享几个最新的模型方面的进展。

首先,今天的智谱有非常完备的模型矩阵,包括语言模型、代码模型、多模态模型、超拟人模型,到自主智能体。

语言模型方面,既有可以跑在PC、汽车、手机等设备上的端侧的模型,也有开源或商用的模型。这一点代码大模型也是一样。

多模态模型方面,各种维度,从文生视频、视频理解、文生图像、图像理解等,智谱都有多方面的矩阵,能够满足用户不同需求。再包括智谱还有拟人大模型、心理大模型,以及自主智能体。

这两天Sora Turbo刚发布,大家都觉得里面有很多地方还不够完美,我觉得这非常正常,因为这是一个很早期的技术。

找到它哪不行,这件事不难,我们大家都可以批评它;很难的是找到怎么能行的那条路。

其实在GPT-3时代,就有像Jasper这样的公司,一年有几千万美金的ARR。所以能够找到模型与业务的最大公约数,是我们今天做商业化里面的一个重要环节。

智谱最早的多模态模型,其实也是最不完善的版本,只是把莫奈的名画动起来,然后拼了一下,还是会有一些穿帮的地方。但是本质上来讲,已经足以帮助旅游局做一个小宣传片。

今天用大模型来做这样一个视频,成本就10块、20块,成本极低;但如果用CG来做,没一两百万做不下来。

与此同时,我们看到了未来对于内容生成应用的可能性

对于一段视频,以前用CV的方式,很难做泛化性理解,今天的大模型在几乎不训练的情况下,可以很好地回答视频里的人在干什么?有没有精彩时刻?精彩时刻在多少秒?

还有一些端侧模型方面的激战。之前在高通骁龙峰会上,智谱联合他们联合发布了demo,在8Gen4手机上完全可以驱动一个多模态的模型实现很好的效果。并且,智谱构建了非常完备的端云一体化的同源解决方案,可以让用户在设备端很好地应用大模型的能力。

再比如视频通话,大家可以一边对话,一边在视频里跟AI做交流。最早是OpenAI在5月发布了这个功能,但其实没有真正让终端用户用起来。在今年8月,智谱已经把这个功能全量发布在智谱清言上了,大家可以去尝试。

自主智能体,能够让AI自动化帮你完成多达几十步的,甚至跨应用的复杂任务。大模型的文本模型成为你的大脑,多模态模型成为你的眼睛,自主智能体模型成为你的双手,不但能够帮你做思考,还能帮你做执行。

智谱也提供了一整套的方案,可以帮助开发者更轻松地训练一个私有模型,也可以基于模型的能力快速开发一个智能应用,可以帮助大家来解决行业实践。

大家使用模型的场景越来越多,越来越从浅水区进入到深水区——

2年间,大家的需求从“有一个模型”,到“模型帮忙提升产品指标”,到今天“模型就要带来业务结果”,从各个方面来看,大家对模型的应用需求和实践变得越来越务实,确实让模型已经开始从智力生产变成生产力。

快速讲几个例子:

我们在汽车上可以非常好地重塑智能驾舱体验;一些非常复杂的垂直领域,比如公积金相关的复杂的问答,或逻辑推理等很多场景里,或企业内部的Chatbot自动化的问数生成Circle的能力,用智谱模型都有做不错的效果。

最后跟大家探讨一下大模型时代,企业或者个人该如何去构建自己的科技战略。

我觉得这里面关键来讲四个要素:

选择合适的基座,要构建与战略目标和业务属性相匹配的组织,基于场景和AI的能力来重新定义数据资产,并且把这些能力无缝融入到业务当中,从而来形成飞轮。

这里面很多东西需要大家深度思考。

不管基座模型是国内的、国外的,开源的、闭源的,我觉得其实合适的才是最好的,所以这里面涉及每一个环节的每一个问题,都需要大家自己思考。

我们也希望借助四样能力,为每个企业构建自己科技战略新飞轮,随着每一轮的转动能够帮我们沉淀更多的能力,构建更多的壁垒。

谢谢大家!

— 完 —

来源:量子位一点号

相关推荐