斯坦福《2025年人工智能指数报告》,全球AI研发、应用与发展现状

360影视 欧美动漫 2025-05-07 09:51 2

摘要:近日,第八版《2025年人工智能指数报告》发布,这是迄今为止最全面的报告,内容涵盖AI硬件生态演进深度解析、推理成本(inference costs)创新测算,以及AI学术论文与专利趋势的最新研究。报告还首次纳入企业采用负责任AI实践(responsible

近日,第八版《2025年人工智能指数报告》发布,这是迄今为止最全面的报告,内容涵盖AI硬件生态演进深度解析、推理成本(inference costs)创新测算,以及AI学术论文与专利趋势的最新研究。报告还首次纳入企业采用负责任AI实践(responsible AI practices)的追踪数据,并扩展了AI在科学与医学领域加速渗透的观测维度。

AI指数成立于2017年,是“百年人工智能研究”(One Hundred Year Study of Artificial Intelligence)项目的一部分,旨在提供精准、严格验证且全球采集的数据,以帮助政策制定者、研究人员、高管和公众在AI开发与部署中做出更明智的决策。报告强调纵向追踪,以便在这个快速发展的领域中提供背景信息。

联席主任Yolanda Gil和Raymond Perrault则在发言中指出,对于AI而言,2024年是非凡之年。AI推动人类认知的贡献首获诺奖垂青:物理学奖与化学奖均授予AI赋能的前沿研究;图灵奖则花落强化学习基础理论的突破;AI能力足以通过图灵测试;应用普及率创历史新高;企业级AI投资强势反弹,尤其是在生成式AI领域,获投数量激增近3倍;政府参与度亦大幅增加;全球协同治理机制也不断强化。然而,信任、数据保护、偏见和虚假信息等挑战依然存在,作为应对,各国正推进以透明度、问责制、公平性为核心的新型监管框架。

尽管怀疑仍然存在,但2024年全球调研显示,对AI创造广泛社会福祉的乐观预期显著攀升。无论如何,AI已不再停留于可能性叙事——它正在书写现实变革录,记录人类如何共同塑造自身文明的未来。

第一章:研究与开发

本章将分析AI学术论文、专利数据及标志性AI系统,探索AI研发的现状。总的来说,AI研发有以下趋势:

首先,产业界和学术界对AI模型的研究方向持续分化:产业界持续重金投入AI,主导标志性AI模型开发,在开发知名AI模型方面遥遥领先(2024年占比近90%,高于2023年的60%);而学术界仍然是高被引研究的主要来源

从地域分布看,中国AI论文总量居首,美国则在高影响力研究中领先。2023年,中国在AI出版物和引用的绝对数量上领先,分别占全球总量的23.2%和22.6%,但美国在产生最具影响力(被引用最多的前100名)的论文方面占据主导,并继续是知名AI模型的主要来源地(2024年美国产出40个,中国15个,欧洲3个)。

图:带有“计算机科学”标签的与AI相关的出版物数量

AI出版物总量也持续增长,并占据计算机科学主导地位。在2013年至2023年间,与计算机科学及其他科学领域相关的AI出版物总数几乎增加了两倍,按比例计算,AI在计算机科学出版物中的占比从2013年的21.6%上升至2023年的41.8%。

在技术应用层面,美国仍是AI创新的核心策源地。2024年该国机构开发了40个重要模型,远超中国的15个和欧洲的3个总和,且过去十年间美国产出的重要机器学习模型数量持续领先全球。

然而,这种技术进步伴随着显著的成本:最新研究表明,重要模型的训练算力(training compute)每五个月翻倍,大语言模型(LLMs)训练数据集每八个月扩大一倍,训练能耗每年递增。例如,Llama 3.1 405B训练估计排放8930吨二氧化碳当量,而2012年的AlexNet仅为0.01吨。但另一方面,AI在某些方面也变得更高效、更易获取。达到GPT-3.5级别性能的推理成本在约18个月内下降了超过280倍。硬件的性价比正在提高(成本每年下降30%),能源效率也在提升(每年提高40%)。

与此同时,AI专利数量也在激增,2010至2023年间从3,833件增长至122,511件,其中仅2023年就增长29.6%。中国占据全球AI专利总量的69.7%,而韩国和卢森堡在人均专利产出方面领先。

最后,报告指出,尽管新的估计表明,当前的数据存量可能比之前预期的持续时间更长,可以用到2026-2032年。GitHub等平台上的开源AI软件项目也在持续快速增长。但是高质量训练数据可能耗尽的隐忧仍然值得我们关注。

图:过去22年间重要机器学习模型所需的训练计算量

第二章:技术性能

本章以AI技术进展的高层次总结开篇,涵盖了主要AI相关产品发布、AI能力现状及关键趋势。

首先,人工智能系统攻克新基准测试的效率显著提升,例如针对MMMU、GPQA和SWE-bench等2023年推出的高难度测试,AI在2024年的表现分别提高了18.8、48.9个百分点和67.3个百分点。与此同时,开放权重模型(open-weight models)与闭源模型(closed-weight counterparts)的性能差距快速缩小,Chatbot Arena排行榜显示两者差距从2024年1月的8.04%收窄至2025年2月的1.70%。

同样,顶尖的中美模型之间的技术性能差距在多个主要基准测试上已基本消失,2023年底两国在MMLU等四大基准测试中的平均差距达21.7个百分点,而到2024年底已降至3.4个百分点。技术前沿的集中度同步降低,Chatbot Arena前两名模型的性能差异从2023年的4.9%缩减至2024年的0.7%,且前十名模型的整体差距缩小超过50%。

图:部分AI指数技术性能基准与人类表现对比

新型推理方法在带来性能突破的同时,也伴随着成本上升,例如OpenAI的o1模型通过测试时计算(test-time compute)机制在国际数学测试中实现74.4%的准确率,较前代提升7倍。然而该模型的单次推理成本达到GPT-4o的6倍,响应速度降低30倍,显示性能提升仍受制于算力投入的边际效益递减规律

图:LMSYS Chatbot Arena上顶尖闭源与开源模型的性能对比

由于传统基准测试(如MMLU)逐渐饱和,研究者开始探索更具挑战性的评估体系,例如Humanity’s Last Exam、FrontierMath和BigCodeBench等。与此同时,AI视频生成技术取得突破,2024年发布的SORA、Stable Video 4D等模型在画质上较2023年产品有显著提升。

另外,模型小型化趋势明显,微软Phi-3-mini以38亿参数实现与5400亿参数PaLM相当的MMLU测试成绩,参数量在两年间缩减142倍。但复杂逻辑推理仍是模型难以突破的瓶颈,即便采用思维链(chain-of-thought reasoning)技术,大语言模型在处理超规模数学运算时仍不可靠,制约其在高风险领域的应用。

新兴的AI代理也体现了一定潜力。2024年推出的RE-Bench为评估AI代理复杂任务能力建立严格基准。在短时间预算(两小时)下,顶级AI系统得分是人类的四倍,但随着时间延长至32小时,人类表现则反超AI两倍。也就是说,AI代理已在特定专业任务(如Triton内核编程)中达到人类水平,且具备成本和速度优势。

第三章:负责任的AI(RAI)

本章深入探讨了负责任AI(RAI)的多方面格局,涵盖评估方法、组织实践、政策发展以及偏见和虚假信息等具体挑战。令人遗憾的是,虽然对RAI风险的认识正在提高,但实际的实施和标准化评估仍然滞后。

*Responsible AI,即“负责任的人工智能”,是指以伦理、安全和社会责任为核心,在人工智能系统的开发、部署和应用中,确保其符合公平性(Fairness)、透明度与可解释性(Transparency & Explainability)、隐私与安全(Privacy & Security)、问责制(Accountability)和社会福祉(Social Benefit)五个原则的技术与治理框架。

目前,采用RAI标准评估的系统仍不普遍,但HELM Safety和AIR-Bench等新型基准测试正在填补大语言模型(LLMs)标准化评估工具的空白。与此同时,AI相关事故的报告量持续攀升,2024年记录在案的案例达233起,较上年增长56.4%。企业层面,麦肯锡(McKinsey)调查显示虽然64%的企业高管提到会关注模型准确性风险,63%担忧监管合规,60%重视网络安全,但实际采取缓解措施的比例滞后于风险认知。

图:报告的AI事件数量,2012-2024年

在政策方面,2024年全球政策协调显著加强,OECD、欧盟等机构发布的治理框架聚焦透明度与可信度等核心议题。然而数据获取环境日趋严峻,越来越多的网站限制为AI训练而进行的数据抓取(C4数据集中受限制的令牌比例从5-7%跃升至20-33%),这带来了数据共享领域(data commons)迅速萎缩的新挑战,并可能影响数据的多样性和模型的可扩展性。

另外,尽管GPT-4等先进大语言模型(LLMs)通过技术手段抑制了显性偏见,隐性偏见仍然显著。研究表明,即使是明确经过训练以消除偏见的LLM,仍然表现出与种族和性别相关的隐性偏见。与此同时,AI生成的选举虚假信息在2024年蔓延至十余个国家的社交媒体平台(包括美国大选),但其实际影响尚难量化——部分观察者认为其作用未达预期。

图:AI风险:被认为相关vs主动缓解的情况,2024年

第四章:经济

本章考察了AI的经济维度,包括投资、应用、劳动力市场影响、机器人技术和生产力等方面。

2024年,全球企业AI投资创下历史新高,达到2523亿美元,整体增长26%。私人投资飙升44.5%至1508亿美元,并购活动也有所增长。美国在私人AI投资领域的领先地位显著扩大,达到1091亿美元,几乎是中国(93亿美元)的12倍和英国(45亿美元)的24倍。生成式AI仍然是主要的投资焦点,全球吸引了339亿美元(比2023年增长18.7%),占所有AI相关私人投资的20%以上。

图:按投资活动划分的全球企业AI投资,2013-2024年

企业AI应用率达到前所未有的水平,AI使用率从55%跃升至78%,生成式AI业务渗透率翻倍至71%。不过,虽然应用广泛,但大多数公司报告仍处于实现财务影响的早期阶段,成本节约或收入增长通常低于10%,不过,销售和服务运营等特定功能显示出较高的影响率。另外,区域竞争格局变化显著,大中华区企业AI采用率年增27个百分点,增速超越欧洲的23个百分点,但北美仍保持应用规模领先地位。

图:表示其组织在至少一个职能中使用AI的受访者比例,2017-2024年

中国在工业机器人(industrial robotics)领域的全球主导地位持续巩固,2023年安装量达276,300台(占全球51.1%),是日本的6倍和美国的7.3倍。尽管其安装量仍超过其他国家总和,但较2022年的份额优势略微收窄(下降1.2个百分点)。与此同时,协作机器人(collaborative robots)安装比例从2017年的2.8%升至2023年的10.5%,服务机器人(service robots)在物流等非医疗领域应用显著增长,表明产业正从单纯追求规模转向人机协同场景的深度开发。

能源需求方面,AI算力增长推动核能投资升温,微软(Microsoft)投资16亿美元重启三哩岛核电站(Three Mile Island),谷歌(Google)与亚马逊(Amazon)也签订核能供应协议。研究数据进一步验证AI对生产力的提升作用,新证据显示其能缩小高低技能劳动者效率差距(如质检环节新员工效率提升达37%),但该效应在创造性工作中尚未完全显现。

第五章:科学与医学

本章重点介绍了AI驱动的科学和医学进展,反映技术在这些领域日益增长的影响力。

2024年生物医学领域迎来重大技术突破,ESM3和AlphaFold3等大规模蛋白质测序模型的发布,使得蛋白质结构预测准确率持续提升。而诸如Aviary(训练用于生物任务的LLM智能体)和FireSat(野火预测)等工具展示了AI在科学探索中的应用边界不断扩展。

图:MedQA测试准确率

在临床应用方面,领先的LLM展现出更强的临床知识,OpenAI的o1在MedQA基准测试上创下96.0%的新纪录,但该测试可能面临性能饱和,亟需开发更高难度的评估体系。

医疗实践层面,研究表明,AI在某些关键临床任务上表现优于人类医生,例如GPT-4在复杂病例诊断中的表现超越人类医生,但在癌症早期筛查等场景中,AI与医生的协作模式展现出更优效果。获得FDA批准的AI医疗设备数量也从2015年的6款激增至2023年的223款。

值得关注的是,合成数据(synthetic data)技术突破帮助解决医疗数据隐私难题,其在健康社会因素分析和新药研发中的应用使研发周期平均缩短37%。

图:FDA批准的AI医疗设备数量,1995-2023年

医学AI伦理研究呈现持续增长态势,相关出版物数量从2020年的288篇增至2024年的1,031篇(增长257%)。技术应用层面,2024年医疗领域迎来大模型(foundation models)爆发式发展,例如通用多模态模型Med-Gemini可整合影像与电子病历数据,而专用模型EchoCLIP(超声心动图)和ChexAgent(放射学)则针对细分场景优化。

蛋白质研究基础设施同步扩张,AlphaFold数据库条目自2021年激增585%,UniProt与PDB分别增长31%和23%,为药物研发提供更丰富数据支持。尤其是AI领域在2024年斩获两项诺贝尔奖:Demis Hassabis与John Jumper因AlphaFold的蛋白质折叠预测获化学奖,John Hopfield和Geoffrey Hinton则因神经网络理论突破获物理奖,标志着AI对基础科学的贡献获得最高学术认可。

第六章:政策与治理

随着AI技术能力持续突破,全球政策制定者加速推进相关立法与投资。本章概述了快速发展的全球AI政策和治理格局。

2024年的一个关键趋势是全球合作与协调的加强,多项重要的国际倡议得以启动或推进,包括欧盟《AI法案》的通过、经合组织AI原则的更新、国际AI安全研究所网络的建立、联合国《为人类治理AI》报告的更新以及非洲联盟《非洲大陆AI战略》的发布。

全球各国政府也承诺对AI基础设施进行重大投资,加拿大(24亿美元)、中国、法国(1090亿欧元)、印度(12.5亿美元)和沙特阿拉伯(1000亿美元“超越计划”)均宣布了大型资助计划。

图:按国家划分的已通过成为法律的AI相关法案数量,2016-2024年

AI相关的全球立法活动持续增加,75个主要国家立法程序中提及AI的次数在2024年增长了21.3%,达到1889次,自2016年以来增长了九倍以上。在美国,州一级的AI立法进展远快于联邦层面。相比于2016年仅通过一项州级AI相关法律,2023年已增至49项,2024年更是翻倍至131项。联邦层面,提案的AI相关法案数量持续增加(达到221项),但通过的依然有限。

不过,美国联邦法规数量大幅提升,从2023年的25项增加到2024年的59项,发布机构数量也翻了一番,从21家增至42家。其中,Deepfake(深度伪造)监管成为焦点,尤其是在美国州一级。2024年之前,只有五个州监管选举相关的深度伪造;2024年采取类似措施的州新增了15个,并且已有24个州通过了针对私密图像深度伪造的法规。

图:美国的AI相关法规数量,2016-2024年

第七章:教育

生成式AI(generative AI)通过提升工作效率和自动化任务进入公众认知,同时推动教育领域的个性化学习创新。尽管技术潜力显著,其风险——包括虚假信息、加剧社会偏见及批判性思维的削弱——亦不容忽视。

本章考察了全球和美国K-12及高等教育中计算机科学(CS)和AI教育的现状,强调了在获取方面取得的进展以及持续存在的公平差距和师资准备方面的挑战。

在美国,基础高中CS课程的覆盖面略有增加,现已覆盖60%的高中(高于2017-18年的35%)。然而,基于学校规模、地理位置、学生人口统计特征(种族/民族、收入、残疾、性别)的显著差距依然存在。

图:美国教授基础CS课程的公立高中比例(占州内总数百分比),2024年

尽管81%的美国CS教师认为应将AI纳入基础CS教育,但只有不到一半的人感觉有相关教学能力(高中46%,初中44%,小学34%)。全球范围内,三分之二的国家现在提供或计划提供K-12CS教育,是2019年的两倍,其中非洲和拉丁美洲发展最快。然而,受基础设施影响,特别是在非洲,实际教学实施面临挑战。

图:美国按年级划分的感觉有能力教授AI的教师比例

在高等教育领域,美国在培养信息、技术和通信(ICT)毕业生方面仍然是全球领导者。过去10年,美国获得CS学士学位的毕业生人数增加了22%。值得注意的是,美国AI硕士毕业生数量在2022-2023年间增长91%,远超本科(+12%)与博士(+8%)增速,可能预示高等教育结构向应用型倾斜的趋势。国际学生在美国研究生CS项目中占很大比例且持续增长。本章强调,迫切需要有意识地设计公平的CS和AI教育路径,以培养多元化的未来劳动力。

第八章:公众意见

随着AI持续渗透社会各领域,理解公众对该技术的态度变得愈发重要。本章探讨了全球和美国公众及政策制定者对AI的态度。全球对AI产品的谨慎乐观情绪持续上升,2024年55%的受访者认为其利大于弊(较2022年+3%),其中英国(+8%)、德国(+10%)等原怀疑国家的态度转变最为显著。然而地区差异依然明显:中国(83%)、印尼(80%)等新兴市场保持高度乐观,而荷兰(36%)、加拿大(40%)等发达国家持保留态度。

图:全球对使用AI的产品和服务的看法(占总数百分比),2022-2024年

然而,全球对AI企业的怀疑情绪正在增长,公众对其保护数据能力的信心从50%(2023)降至47%(2024),且认为算法无偏见者比例持续下降。这种矛盾心态在技术快速渗透的背景下,凸显建立透明治理框架的紧迫性。

图:“使用AI的产品和服务利大于弊”观点的国家分布(占总数百分比),2022-2024年

关于工作,全球60%的人预计AI将改变他们的工作方式,但只有36%的人担心未来五年内会被取代。公众主要将AI视为节省时间(55%)和提供更好娱乐(51%)的工具,对其在健康(38%)或国家经济(36%)方面的好处信心不足。在美国,公众对自动驾驶汽车的不信任度仍然很高(61%感到害怕,13%表示信任),尽管恐惧感较2023年的峰值略有下降。

政策制定层面,美国地方官员普遍支持AI监管,支持率从2022年的55.7%跃升至2023年的73.7%,尤其是在民主党人中(79.2%),但两党支持率均有显著提高。然而,在具体的政策优先事项上存在明显分歧,对数据隐私规则(80.4%)的支持最强,而对面部识别禁令(34.2%)或全民基本收入(24.6%)等措施的支持则低得多。公众认知调查显示,全球60%劳动者认为AI将改变工作方式,但仅36%担心被替代;同时多数人认可AI的省时(55%)与娱乐提升(51%)功能,但对经济(36%)与就业(31%)的积极影响信心不足。

总结

《2025年人工智能指数报告》深入探讨了人工智能在多个领域的现状与未来发展趋势。报告强调了AI在硬件生态、推理成本、学术研究、专利趋势等方面的持续进步,同时首次纳入了负责任AI(RAI)的追踪数据,展示了AI在医学和科学领域的广泛应用。2024年,AI的能力进一步突破,有关AI的研究获得了诺贝尔奖和图灵奖等重要奖项,应用普及率达到历史新高,企业投资急剧增加。

报告详细分析了全球AI研发的现状,指出产业界,尤其是在美国,在标志性AI模型的开发中占据主导地位;中国虽然在AI论文和专利数量上居领先地位,但美国在高影响力研究中仍然处于主导地位。此外,AI技术的训练算力和能耗问题日益严峻,而AI硬件的性价比和能源效率却在不断提升。

在负责任AI方面,尽管各国对AI风险的认知不断增强,但实际实施仍显滞后。报告还特别关注了AI的伦理问题、偏见问题以及对数据保护的挑战,呼吁各国加强合作,推动透明和公平的AI治理。

透过这份报告,我们能看到人工智能的快速发展,正从实验室中的技术突破迈向与社会的深度融合。在接下来的发展中,我们不仅要在技术层面上有所发展,更要让这些技术更好地融入社会,为人所用。我们欣喜于目前人工智能技术向生产力的转化效率在不断提升,但是我们也要看到,人工智能的事故案例也水涨船高,针对人工智能的教育体系也远未成熟。这些洞察在给予我们对人工智能未来发展的信心的同时,也警告我们,人类尚未做好准备,技术之外,制度与伦理的构建同样任重道远。

本文转自 | 追问nextquestion

来源:再建巴别塔

相关推荐