摘要:最近,斯坦福大学以人为本人工智能研究所发布了一份长达400页的《2025年人工智能指数》报告,而国际电气电子工程师学会(IEEE)旗下的《IEEE综览》杂志对这份巨型报告进行了解读,总结出了12张图表,能让你对当下人工智能发展有一个提纲挈领的认识。
原创 银河系搭车客 量子号
最近,斯坦福大学以人为本人工智能研究所发布了一份长达400页的《2025年人工智能指数》报告,而国际电气电子工程师学会(IEEE)旗下的《IEEE综览》杂志对这份巨型报告进行了解读,总结出了12张图表,能让你对当下人工智能发展有一个提纲挈领的认识。
如果你阅读有关人工智能的新闻,你可能会感到被各种相互矛盾的信息轰炸:人工智能正在蓬勃发展。人工智能还是个泡沫。人工智能当前的技术和架构将不断取得突破。人工智能正走在一条不可持续的道路上,需要全新的理念。人工智能将取代你的工作。人工智能最擅长的就是把你的家庭照片变成吉卜力工作室风格的动画。
斯坦福大学以人为本人工智能研究所发布的《2025 年人工智能指数》 打破了人们的困惑。这份超过 400 页的报告充斥着图表和数据,涵盖研发、技术性能、负责任的人工智能、经济影响、科学与医学、政策、教育和公众舆论等主题。我们通读了整份报告,并从中挑选出我们认为能够真实反映人工智能现状的图表。
1. 整体格局
虽然衡量哪个国家在人工智能竞赛中“领先”的方法有很多(例如发表或引用的期刊论文、授予的专利数量等),但一个直接的指标是谁推出了重要的模型。研究机构 Epoch AI 拥有一个涵盖从 1950 年至今的重要人工智能模型的数据库,人工智能指数就是从该数据库中提取了此图表中显示的信息。
去年,40个值得关注的模型来自美国, 15个来自中国,3个来自欧洲(顺便提一下,全部来自法国)。另一张未在此处展示的图表显示,这2024个模型几乎全部来自工业界,而非学术界或政府。至于2023年至2024年发布的值得关注的模型数量的下降,该指数表明,这可能是由于技术日益复杂以及训练成本不断上升造成的。
2. 说到训练成本……
哇哦,但它很贵!AI Index 没有精确的数据,因为许多领先的人工智能公司已经停止发布有关其训练运行的信息。但研究人员与 Epoch AI 合作,根据收集到的训练时长、硬件类型和数量等细节,估算了至少部分模型的成本。他们能够估算出成本的最昂贵模型是谷歌的 Gemini 1.0 Ultra,其成本高达惊人的约 1.92 亿美元(约合14.05亿元人民币)。训练成本的普遍上升与报告的其他发现——例如模型的参数数量、训练时间和训练数据量——相吻合,也在持续增加。
这张图表中没有包括中国新贵DeepSeek,该公司在 1 月份宣布仅需 600 万美元(约合4390万元人民币)就能训练出具有竞争力的大型语言模型,此举震惊了金融市场——但一些业内专家对此表示质疑。AI Index 指导委员会联合主任约兰达·吉尔表示,她认为 DeepSeek“非常令人印象深刻”,并指出计算机科学史上充满了早期低效技术让位于更优雅解决方案的例子。“我不是唯一一个认为在某个时候会出现更高效版本的大语言模型的人,”她说。“我们只是不知道谁会构建它以及如何构建它。”
3. 使用人工智能的成本正在下降
(大多数)人工智能模型训练成本的不断上涨,可能会掩盖报告中强调的一些积极趋势:硬件成本下降,硬件性能提升,能源效率提升。这意味着推理成本(即查询已训练模型的费用)正在大幅下降。这张对数图表显示了每美元人工智能性能的趋势。报告指出,蓝线表示成本从每百万词元(token) 20 美元(约合146元人民币)下降到每百万词元 0.07 美元(约合0.51元人民币);粉线表示成本在不到一年的时间内从 15 美元(约合110元人民币)下降到 0.12 美元(约合0.88元人民币)。
4. 人工智能的巨大碳足迹
虽然能源效率是一个积极的趋势,但让我们来看看负面趋势:尽管效率有所提高,但总体功耗却在上升,这意味着处于人工智能繁荣中心的数据中心拥有巨大的碳足迹。人工智能指数根据训练硬件、云提供商和位置等因素估算了部分人工智能模型的碳排放量,发现训练前沿人工智能模型的碳排放量随着时间的推移稳步上升——DeepSeek是个例外。
图表中最糟糕的案例是 Meta 的 Llama 3.1 项目,其二氧化碳排放量估计为 8,930 吨,相当于约 496 个美国人一年的寿命。如此巨大的环境影响解释了为什么人工智能公司一直将核能作为可靠的无碳能源。
5. 绩效差距缩小
美国在发布的知名模型数量上可能仍然遥遥领先,但中国模型的质量正在迎头赶上。这张图表显示了聊天机器人基准测试中性能差距的缩小。2024年1月,美国顶级模型的表现比中国最佳模型高出9.26%;到2025年2月,这一差距已缩小至仅1.70%。该报告在推理、数学和编程相关的其他基准测试中也发现了类似的结果。
6. 人类的最后考试
今年的报告凸显了一个不容否认的事实:我们用来衡量人工智能系统能力的许多基准测试已经“饱和”——人工智能系统在基准测试中得分过高,以至于不再有用。这种情况在很多领域都发生过:常识、图像推理、数学、编程等等。吉尔表示,她惊讶地看到一个又一个基准测试变得毫无意义。“我一直认为(性能)会停滞不前,最终达到一个临界点,我们需要新技术或完全不同的架构才能继续进步,”她说,“但事实并非如此。”
鉴于这种情况,坚定的研究人员一直在制定新的基准,希望以此挑战人工智能系统。其中之一就是“人类的最后考试”(Humanity's Last Exam),它由来自全球 500 所机构的学科专家贡献的极具挑战性的问题组成。到目前为止,即使是最优秀的人工智能系统也难以应对:OpenAI 的推理模型 o1 迄今为止以 8.8% 的正确率位居最高分。我们拭目以待,看看这种情况能持续多久。
7. 对数据共享的威胁
如今,生成式人工智能系统通过对从互联网上抓取的海量数据进行训练来获得智能,这导致了“数据是人工智能经济的新石油”这一说法。随着人工智能公司不断突破其模型所能容纳数据量的极限,人们开始担心“数据峰值”,以及我们何时会耗尽这些数据。一个问题是,网站越来越多地限制机器人抓取其内容和数据(或许是出于对人工智能公司利用网站数据牟利的同时扼杀其商业模式的担忧)。网站会在机器可读的 robots.txt 文件中声明这些限制。
该图表显示,目前来自顶级网络域名的48%的数据已完全受限。但吉尔表示,人工智能领域的新方法或许能够终结对海量数据集的依赖。“我预计,到某个时候,数据量将不再那么重要,”她说道。
8. 企业资金来了
过去五年,企业界加大了对人工智能的投入。尽管2024年的全球整体投资额远不及2021年的惊人高点,但值得注意的是,私人投资额从未达到如此高水平。指数中的另一张图表(此处未展示)显示,在2024年的1500亿美元(约合1.1万亿元人民币)私人投资中,约有330亿美元(约合2415亿元人民币)用于生成式人工智能。
9. 等待巨大的投资回报
想必企业投资人工智能是因为他们期望获得丰厚的投资回报。人们正翘首以盼人工智能的变革本质以及前所未有的生产力提升。但公平地说,企业尚未看到能够带来显著成本节约或巨额新增利润的转型。这张图表的数据来自麦肯锡的一项调查,它显示,在那些报告成本削减的公司中,大多数节省的成本不到10%。在那些因人工智能而收入增长的公司中,大多数报告的收益不到5%。巨大的回报或许仍在眼前,投资数据表明,许多企业正在押注人工智能,只是时机尚未成熟。
10. AI博士可能很快与到见面
人工智能在科学和医学领域的应用是人工智能热潮中的一小波热潮。报告列举了各种已发布的新基础模型,旨在帮助材料科学、天气预报和量子计算等领域的研究人员。许多公司正试图将人工智能的预测和生成能力转化为有利可图的药物研发。OpenAI的 o1 推理模型最近在名为MedQA 的基准测试中获得了 96% 的分数,该测试包含医学委员会考试的题目。
但总的来说,这似乎是另一个潜力巨大的领域,但尚未转化为重大的现实世界影响——部分原因或许在于人类尚未完全弄清楚如何使用这项技术。这张图表展示了一项2024年的研究结果,该研究测试了如果医生在其常规资源之外使用GPT-4 ,是否会做出更准确的诊断。结果并非如此,GPT-4也没有提高诊断速度。与此同时,GPT-4本身的表现优于人机协作团队和人类单独测试。
11. 美国政策行动转向各州
在美国,这张图表显示,国会中关于人工智能的讨论很多,但实际行动却很少。报告指出,美国的行动已转移到州一级,2024年共有131项法案通过成为法律。在这些州法案中,有56项与深度伪造技术有关,禁止其在选举中使用或传播未经同意的亲密图像。
除美国外,欧洲也通过了《人工智能法案》,该法案对制造高风险人工智能系统的公司提出了新的义务。但全球的大趋势是各国联合起来,就人工智能在世界范围内应扮演的角色发表全面且不具约束力的声明。因此,各方对此都有着广泛的讨论。
12. 人类是乐观主义者
无论你是图片摄影师、市场营销经理还是卡车司机,关于人工智能是否会取代你的工作,以及何时取代你的工作,公众讨论已不胜枚举。但在最近一项关于人们对人工智能态度的全球调查中,大多数人并不觉得人工智能会构成威胁。来自32个国家的受访者中,60%的人认为人工智能将改变他们的工作方式,但只有36%的人预计会被取代。“这些调查结果让我感到非常惊讶,”吉尔说道。“‘人工智能将改变我的工作,但我仍然会带来价值’,这种想法令人振奋。”敬请关注,看看我们是否都能通过管理充满热情的人工智能员工团队来创造价值。
来源:人工智能学家