摘要:斯坦福 AI 指数报告这是一份影响力很大的报告,每年一期。该报告旨在追踪、整合、提炼并可视化与人工智能(AI)相关的各类数据。报告提供无偏见、经过严格审查、来源广泛的数据,帮助政策制定者、研究人员、高管、记者及公众深入了解 AI 领域的复杂性和最新动态。
斯坦福 AI 指数报告
这是一份影响力很大的报告,每年一期。
该报告旨在追踪、整合、提炼并可视化与人工智能(AI)相关的各类数据。报告提供无偏见、经过严格审查、来源广泛的数据,帮助政策制定者、研究人员、高管、记者及公众深入了解 AI 领域的复杂性和最新动态。
刚刚,「斯坦福 AI 指数报告 2025」发布,与 2024 报告(全方位解读「斯坦福 2024 AI指数报告」,附原文 pdf 下载)不同的是,该报告中多次、重点提到了中国的 AI 发展,我先摘出来一些:
在 AI 测试中,中国与美国差距显著缩小,如 MMLU 差距仅剩 0.3 个百分点,HumanEval 缩小至 3.7 个百分点。
阿里、字节、腾讯、智谱和 DeepSeek 组成“国产五英杰”,跻身全球头部模型开发机构。
清华大学 2023 年发表的高被引论文数量并列全球第一,与 Google 同为 8 篇。
中国 2023 年 AI 授权专利占全球总量的 69.7%,在专利数量和论文产出方面保持全球领先。
2024 年中国企业 AI 使用率同比增长 27 个百分点,为全球增长最快地区,应用水平快速提升。
中国继续引领全球工业机器人部署,2023 年新增安装量达 27.6 万台,占全球总量超一半。
公众对 AI 态度方面,中国 83% 的受访者认为“利大于弊”,为全球最高比例之一。
2024 年,AI 模型在多个能力测试中的表现提升明显:模型规模持续扩大,训练资源需求上升,但推理成本显著下降。企业成为模型开发的主要力量,中国在论文、专利和模型发布方面活跃度持续提高。
到 2024 年底,中美模型在 MMLU、HumanEval 等核心测试中的表现差距明显缩小,例如 MMLU 差距为 0.3 个百分点,HumanEval 为 3.7 个百分点。
中美模型差距,在不断缩小
2024 年,阿里巴巴发布 6 个 知名(notable) 模型,全球排名第三。字节跳动、DeepSeek、腾讯、智谱各发布 2 个知名模型:「国产五英杰」,集体进入世界第一阵营。
图1.3.6:各机构贡献的知名模型数量
清华大学 2023 年发布 8 篇进入全球前 100 高被引论文,与 Google 并列第一。
图1.1.13:清华的学术产出卓著
多项成绩大幅提升AI 在 SWE-bench 中,截止到 23 年底,最好成绩是 4.4%,而最新的成绩已经达到了 71.7%。GPQA 和 MMMU 两项新测试的成绩也分别提升了 48.9 和 18.8 个百分点。
目前的最好成绩,由 OpenAI o3 保持
企业主导模型开发2024 年,90% 以上的 知名模型由企业发布。MIT 和 UC Berkeley 等高校也发布了 2 个 notable 模型。
图1.3.5:知名模型背后的贡献者
训练 GPT-4o 级别的模型,需约 38B petaFLOP,周期在 90~100 天之间。
图1.3.16:不同模型的参数量
Phi-3-mini 模型参数量为 3.8B,在 MMLU 测试中得分超过 60%,接近 GPT-3.5。
图2.1.38:达到 60% MMLU,所需的模型尺寸在不断缩小
推理成本下降GPT-3.5 水平模型推理成本从 2022 年的 20美金 /百万 tokens 降至 2024 年的 0.07美金,降幅超过 280 倍。
图1.3.22:模型成本下降显著
2023 年,中国 AI 论文占全球 23.2%,引用占 22.6%;AI 授权专利占全球 69.7%。
图1.1.6:AI 领域论文比例
图1.1.7:AI 领域引用比例
图1.2.3:AI 授权专利比例
可用数据或将趋紧研究估计,高质量网络训练数据可能在 2026~2032 年间消耗殆尽,行业正关注替代数据来源。
图1.3.19:数据使用情况
2024 年,多项新模型在语言、数学、视频生成等能力上取得进展。领先模型之间的差距缩小,小模型表现提升明显。AI 在推理能力方面仍存在挑战。
在 2023 年引入的新测试中,AI 表现在一年内快速提升:MMMU 得分提升 18.8 个百分点,GPQA 提升 48.9 个百分点,SWE-bench 提升 67.3 个百分点。
2023 年底,中美模型在多个测试中的差距急剧缩小,分别为:
• MMLU:17.5% → 0.3%• HumanEval:31.6% → 3.7%• MMMU:13.5% → 8.1%• MATH:24.3% → 1.6%模型排名差距缩小在 Chatbot Arena 排行榜上,排名前十的模型 Elo 得分差从 11.9% 降至 5.4%;第一名和第二名之间的差距从 4.9% 降至 0.7%。
图2.1.39:DeepSeek 迎面赶上
在国际数学奥赛选拔题上,OpenAI 推出的 o1,作为推理模型得分达 74.4%,明显高于 GPT-4o 的 9.3%。但 o1 模型在推理时比 GPT-4o 慢 30 倍,成本高 6 倍。
图2.2.14:增加推理时间,提升模型效果
为应对现有测试趋于饱和,研究者推出了多个更难的新测试集,例如:
• Humanity’s Last Exam:最高分仅为 8.8%• FrontierMath:AI 正确率约为 2%• BigCodeBench:AI 得分为 35.5%,低于人类水平的 97%2024 年发布的多个模型在文本生成视频方面质量明显提升,包括 OpenAI 的 SORA、Meta 的 MovieGen、Google DeepMind 的 Veo 2 等。
图2.3.9-10:SDV 和 Sora
2022 年,超过 60% MMLU 得分的最小模型是 PaLM(540B 参数);2024 年,Phi-3-mini(3.8B 参数)也达到了该水平。可理解为同表现下,参数量下降 142 倍。
尽管“思维链”方法改善了模型表现,AI 仍难以稳定解决大型逻辑或规划问题,尤其是在训练范围之外的任务上。
在两小时预算内,AI 代理在 RE-Bench 测试中得分是人类的 4 倍。但在 32 小时任务中,人类得分是 AI 的两倍。AI 在部分任务中效率更高,但仍有时间限制。
图2.8.4:Agent 在短时任务中,表现超过人
AI 应用规模持续扩大,但围绕安全性、可信度、偏见与误用的挑战也在增加。行业在相关评估与治理上的行动仍有限,政府与研究界的介入力度逐步增强。
虽然 HELM Safety、AIR-Bench 等新测试被提出,但主要模型开发方仍缺乏统一的 RAI(Responsible AI)评估流程,实践不一致。
图3.2.6:各类模型,都有标准的性能评估方法
图3.2.7:各类模型,在安全评估上,未有共识
2024 年,AI Incidents Database 收录的报告达 233 起,比 2023 年增长 56.4%,为历史新高。
根据 McKinsey 调查,大部分企业管理者意识到 RAI 风险,但采取行动的不多。管理者对不准确性、法规合规和网络安全的关注度分别为 64%、63%、60%。
政府合作加强2024 年,多国机构(OECD、欧盟、联合国、非盟等)发布 RAI 治理框架,内容涉及透明性、可解释性和信任等核心原则。
许多网站设置限制,减少 AI 模型对网页内容的抓取。2024 年,C4 数据集中受限 token 比例从前一年的 5–7% 上升至 20–33%。
C4即:Colossal Clean Crawled Corpus
这是一个大规模的文本数据集,广泛应用于大型语言模型(LLM)的预训练。该数据集来源于 Common Crawl 项目收集的海量公开网页抓取数据。为了提升数据质量以适应模型训练的需求,原始的 Common Crawl 数据经过了大量且细致的清洗与过滤处理,旨在移除例如网站模板代码、导航元素、重复内容以及其他非自然语言文本。
图3.6.2:按 robots.txt,看 C4 数据限制
图3.6.3:按服务条款,看 C4 数据限制
Foundation Model Transparency Index 显示,主要模型开发者的平均透明度得分从 2023 年 10 月的 37% 上升至 2024 年 5 月的 58%。
相比 HaluEval、TruthfulQA 等旧方法,2024 年新推出的 FACTS、SimpleQA 和更新版 Hughes Hallucination Evaluation Model 被更多研究者采纳。
2024 年,十余个国家在选举期间出现 AI 相关虚假内容,但实际影响仍不明确,部分预期效果未实现。
模型偏见仍未解决GPT-4、Claude 3 Sonnet 等模型在性别与种族上仍表现出隐性偏见。例如,女性更常被关联到人文学科,男性更常与领导角色相关联。
2024 年,RAI 相关论文在主流 AI 会议中的录用量为 1,278 篇,比 2023 年增长 28.8%。自 2019 年以来,该方向保持持续增长。
2024 年,AI 在商业领域的应用加快,全球投资总额创历史新高。生成式 AI 领域尤其受到资本青睐。各行业开始感受到初步的财务影响,但普遍仍处于早期阶段。
2024 年,全球 AI 投资达到 2523 亿美元,同比增长 26%。其中,私人投资直接投资增长 44.5%,并购增长 12.1%。
这里的私人投资,包括个人、企业、私募、VC/PE、公司战略投资
图4.3.1:按服务条款,看 C4 数据限制
2024年,在生成式 AI 领域,美国的私人投资在达 339 亿美元,同比增长 18.7%,比 2022 年增长超过 8.5 倍,占全部 AI 投资的 20% 以上。
图4.3.3:按服务条款,看 C4 数据限制
2024年,在整个 AI 投资领域,美国的私人投资为 1091 亿美元,是中国(93 亿美元)的近 12 倍,是英国(45 亿美元)的 24 倍。
图4.3.8:2024 年,各国 AI 有关的投资
图4.3.10:2013年至今,各国 AI 有关的投资
2024 年,78% 的企业报告正在使用 AI,比上一年(55%)显著增长。采用生成式 AI 的企业占比也从 33% 提升到 71%。
图4.4.4:23年vs24年,AI 的企业渗透
在已有使用的企业中,49% 在服务运营中报告了成本下降,但多数降幅低于 10%。在销售、供应链等环节中,也有 50~70% 的企业报告了营收增长,主要集中在 5% 以下。
区域差异变化显著中国大陆和港澳台地区的企业 AI 使用率增长了 27 个百分点,增长幅度为全球最高。欧洲增长 23 个百分点。
2023 年,中国安装了 27.6 万台工业机器人,是日本的 6 倍、美国的 7.3 倍,占全球总量的 51.1%。
2023 年,协作型机器人占新装工业机器人的 10.5%,2017 年该比例为 2.8%。服务型机器人在医疗以外的应用也呈现增长。
多家科技公司与核电厂达成合作协议,支持 AI 所需的高能耗运行。包括微软重启美国 Three Mile Island 核反应堆,Google 与 Amazon 也已签署相关协议。
多项研究显示,AI 应用可带来整体生产率提升,尤其有助于低技能岗位员工提高绩效,与高技能员工之间的差距有所缩小。
AI 在生物医药、临床知识、基础科学等领域的应用不断扩大。多个新模型发布,研究效率提高。AI 在特定任务中已具备超越人类的能力,但模型验证、临床集成仍是挑战。
2024 年发布了多款大规模蛋白质序列预测模型,包括 ESM3 和 AlphaFold 3,模型规模增加带来预测精度的进一步提升。
新工具如 Aviary(用于训练生物任务的 LLM agent)和 FireSat(用于预测森林火灾)在 2024 年得到应用,展示出 AI 在科研支持上的多样化方向。
OpenAI 的 o1 模型在 MedQA 基准测试中得分达 96%,比 2023 年领先模型提高 5.8 个百分点,自 2022 年以来总提升达 28.4 个百分点。
研究发现,GPT-4 在复杂病例诊断中表现优于医生团队。其他研究也表明 AI 在癌症检测、高风险患者识别等任务中具备较高准确性。
截至 2023 年,FDA 批准的 AI 医疗设备总数达 223 个。相比 2015 年(仅 6 个),增长显著。
图5.4.10:FDA 批准的 AI 医疗设备数量显著提升
2024 年的研究表明,AI 生成的合成医疗数据可在保障隐私的同时,用于改进健康风险预测和新药发现。
关于医疗 AI 伦理的论文数量自 2020 年以来增长近四倍,从 288 篇增至 1031 篇,反映该议题在学术界受到重视。
2024 年发布了多种专门面向医学场景的大模型,包括:
• Med-Gemini(通用多模态)• EchoCLIP(超声心动图)• VisionFM(眼科)• ChexAgent(放射影像)自 2021 年以来,UniProt 增长 31%、PDB 增长 23%、AlphaFold 数据库增长 585%,为蛋白质科学研究提供基础支撑。
2024 年,两项 AI 相关研究获诺贝尔奖:
• 化学奖授予 AlphaFold 团队,用于蛋白质折叠预测• 物理奖授予神经网络研究者 John Hopfield 与 Geoffrey Hinton全球多个国家在 2024 年加强了 AI 基础设施投资和监管推进。AI 成为政策议程核心议题,国家层面机构与国际组织陆续发布治理框架,AI 安全合作初具体系。
2016 年,全美仅有 1 项州级 AI 法律
2023 年,增至 49 项;
2024 年翻倍至 131 项。
相比之下,联邦级立法仍进展缓慢。
2024 年主要国家的投资承诺包括:
• 加拿大:24 亿加元• 中国:475 亿美元(芯片专项基金)• 法国:1090 亿欧元• 印度:12.5 亿美元• 沙特阿拉伯:1000 亿美元(Project Transcendence)2024 年,75 个国家中,立法文本中提及 AI 的次数增长 21.3%,达 1889 次,是 2016 年的 9 倍。
在 2023 年的英国 AI 安全峰会后,首批国家级 AI 安全研究所设立于美国与英国。2024 年的首尔 AI 峰会推动更多机构承诺加入,包括日本、法国、德国、意大利、新加坡、韩国、澳大利亚、加拿大及欧盟。
2024 年,美国共有 42 个联邦机构出台 AI 相关规章制度,是 2023 年的两倍。全年共发布 59 项新规,比去年增长超过一倍。
截止 2024 年,美国有约 24 个州已经就 Deepfake 问题,展开治理工作
全球越来越多国家将 AI 和计算机科学纳入基础教育体系,美国高校相关毕业人数持续增长。但教育资源、师资能力、基础设施等方面的区域差异仍然存在。
2023–2024 学年,美国高中阶段学生参与计算机科学课程的比例有所提升。但在州别、种族、性别、收入等方面仍存在明显差距。
美国 81% 的 K–12 计算机科学教师认为 AI 应纳入基础课程体系,但仅不到一半的教师表示自己具备教授 AI 的能力。
图7.2.13:美国各地 K-12 有关 AI 的内容
相较于 2019 年,这一比例翻倍。其中,非洲与拉丁美洲国家的进展最为显著。但一些非洲国家仍因基础设施(如供电)问题导致教学覆盖不足。
2023 年,美国获得 AI 相关硕士学位的毕业生人数相比 2022 年几乎翻倍。虽然本科与博士层面的增长较缓,但整体呈持续上升趋势。
在信息与通信技术毕业生数量上,美国仍居全球领先位置。西班牙、巴西、英国紧随其后。土耳其在性别平衡方面表现最佳。
2024 年,多数国家的公众对 AI 带来积极影响的期待上升,但对 AI 公司、数据隐私及算法公平性的信任普遍偏低。各国之间的态度差异显著。
在 26 个国家中,有 18 个国家的受访者更倾向于认为 AI 产品利大于弊。全球总体比例从 2022 年的 52% 上升至 55%。
约三分之二的受访者认为,未来 3–5 年内,AI 将对个人日常生活产生显著影响。相比 2022 年增加了 6 个百分点。
认为 AI 公司能妥善保护个人数据的受访者比例,从 2023 年的 50% 降至 2024 年的 47%。对算法是否公正的信心也有所下降。
图8.1.1:人们对 AI 产品的态度变化
在中国(83%)、印尼(80%)、泰国(77%)等国,绝大多数人认为 AI 利大于弊;而在加拿大(40%)、美国(39%)、荷兰(36%)等国家,这一比例显著偏低。
图8.1.2:不同地区的人,对 AI 的正面态度
2024 年,美国有 61% 的受访者表示“担心自动驾驶汽车”,仅 13% 表示信任该技术。虽然担忧比例相比 2023 年略有下降,但仍高于 2021 年(54%)。
2023 年,美国地方层级的政策制定者中,73.7% 支持加强 AI 监管,高于 2022 年的 55.7%。其中民主党支持率为 79.2%,共和党为 55.5%。
全球范围内,60% 的受访者认为 AI 将在未来 5 年内改变自己的工作方式,但只有 36% 担心 AI 会在这段时间内取代自己的岗位。
在美国地方政府中,对隐私保护(80.4%)、再培训政策(76.2%)和部署规范(72.5%)支持度较高。但对禁用人脸识别(34.2%)、工资补贴(32.9%)、全民基本收入(24.6%)支持度较低。
55% 的人认为 AI 能“节省时间”,51% 认为它能“带来更好的娱乐体验”,但只有 36% 看好它能改善国家经济,31% 认为它将改善就业市场。
图8.1.9:人们「AI 改善生活」的信心
图8.1.10-11:人们「AI 改善就业」的信心
来源:东窗史谈一点号