摘要:2022年11月OpenAI发布ChatGPT点燃了AI大模型的火焰。OpenAI前首席科学家Ilya Sutskever首先洞察到了神经网络的秘密:“Bigger is Better”(越大越好),并在实验验证的基础上提出了“Scaling law”(扩展定
by 孟奇奎 2024年12月30日
2022年11月OpenAI发布ChatGPT点燃了AI大模型的火焰。OpenAI前首席科学家Ilya Sutskever首先洞察到了神经网络的秘密:“Bigger is Better”(越大越好),并在实验验证的基础上提出了“Scaling law”(扩展定律),如果你有一个大的数据集,并且训练一个非常大神经网络,成功是有保证的。Scaling law的三要素如图1所示:
算力:英伟达、AMD、Intel、华为等公司开发的GPU为模型训练提供算力支持数据:互联数据为模型训练提供了大规模的数据模型参数:transformer架构使模型参数大规模扩展具有可行性正如摩尔定律指引着了芯片处理能力的不断提升,把人类带入信息时代,互联网、云计算、社交网络、移动计算都是信息时代产物,在信息时代,通过高速计算和通讯,创造了互联互通的数字世界;而Scaling Law正在开创一个新的时代,通用人工智能(AGI)时代,AGI将给人类带来更加深远的影响。
图1: Scaling law:随着算力、数据规模、参数规模的增加,模型的性能提升模型需要注意的,本文总结的基础模型并不完整,内容仅供参考。
1. OpenAI
OpenAI显然是最具代表性的公司,OpenAI具有显著的先发优势、品牌优势,OpenAI开发的AI模型往往成为行业的标杆,图2总结了OpenAI从2018年6月到2024年12月期间发布的主要的模型,其中:
2022年11月,GPT3.5及ChatGPT发布。GPT3.5参数规模为1750亿,用于训练的语料3000亿标记(token);ChatGPT成为有史以来用户增长最快的应用,也从这一时刻开始,国内外的很多公司启动或加快了自己的AI大模型项目;2023年4月,GPT-4模型发布。GPT-4具备多模态能力,GPT4参数规模1.8万亿,训练语料13万亿标记(token),完成一次完整的训练需要6300万美元。GPT-4相对于GPT-3.5的性能大幅提升,让人们深信“bigger is better”,正如llya所说“在GPT-4的基础上构建预测下一个词具有更高的准确度,这是非常重要的。因为神经网络越能预测文本中的下一个词,它就越能理解它。这种说法现在也许已经被很多人接受了,但它可能仍然不直观,或者说不完全直观,不知道为什么会这样?我想绕个小弯,举个例子,希望能说明为什么对下一个词的更准确预测会导致更多的理解,真正的理解。”2024年5月,OpenAI在5月14日的春季发布会上发布GPT-4o模型。GPT-4o支持多模态输入、输出,其端到端的语音模型可以捕获语言信息、语气等信息,其无延迟的交互,非常接近与人在交互。2024年12月,OpenAI进行了连续12天发布,在12月6日发布了o1、o1 Pro,12月20日发布了o3、o3-mini。o3模型发布之时,Scaling Law正被质疑是否失效,在编程、数学、ARC-AGI评测中o3表现惊人,推理时计算成为推动AI发展的新范式,人们重新看到的AGI的希望。图2:OpenAI 大模型发展历史OpenAI o3为在编程、数学、ARG-AGI测试中都取得突破性进展,为AI行业树立了新的标杆,进一步了解详细信息,请阅读:数据与AI爱好者:超级人工智能时代来临了:OpenAI 12天发布总结
2. Anthropic
Anthropic由OpenAI前员工Dario Amodei(达里奥·阿莫迪)于2021年创立,专注AI基础大模型的研发,其大模型产品为Claude系列模型。图3总结Claude模型的发展历史:
图3:Anthropic Claude模型的发展历史在2024年3月发布的Claude3超越的GPT-4,另外2024年11月发布的MCP(模型上下文协议)很有意义,模型上下文协议(Model Context Protocol,MCP)是一个开放协议,它支持 LLM 应用程序与外部数据源和工具之间的无缝集成。无论您是构建 AI 驱动的 IDE、增强聊天界面,还是创建自定义 AI 工作流,MCP 都提供了一种标准化的方法来将 LLM 与它们所需的上下文连接起来。
3.Meta
Meta是开源大模型的代表性公司,国内外的很多公司都受益于Meta的开源的Llama系列模型。图4为Llama模型的演进历史:
图4:Meta Llama的发展历史Meta在2024年7月发布的Llama3.1宣称超过了GPT-4o,从发布的模型来看,Llama在2024年主要进展是小型化,以达到更小更快的目的,其中:
2024年9月发布Llama3.2,包括1B、3B、11B、90B四个版本,支持边缘计算、视觉和可定制的模型2024年10月发布更小更快的模型,包括Llama 1B/3B 的BF16、SpinQuant、QLora版本,2024年12月发布Llama3.3 70B,其性能与Llama3.1 405B 相似,达到GPT-4o的水平,但速度明显更快,成本也更低,它也比 GPT-4o 便宜约25倍。4. Google
Google一直是AI创新领域的先锋,“Attention is all you need”打开了AI大模型的大门,但是在AI模型的研发领域落后于OpenAI,图5是Google大模型的发展历史:
图5:Google大模型的发展历史2024年8月,Google发布Gemini Pro 1.5,性能超越了GPT-4。2024年12月5日,Google发布Genie2,Genie 2被Google定义为“一个大规模的基础世界模型”,Genie2的意义在于“可以使未来的智能代理能够在无限多样的全新世界中进行训练和评估。我们的研究也为创建交互式体验原型开辟了新的创造性工作流程。”
当然Google在AI领域的进展不仅仅上述内容,比如DeepMind研发的Alphafold,通过计算机和人工智能揭示了蛋白质的秘密,即“通过氨基酸序列预测蛋白质结构”,DeepMind创始人戴米斯 · 哈萨比斯(Demis Hassabis)和约翰 · M · 朱珀(John M. Jumper)因此获得了2024年诺贝尔化学奖。
5.通义千问
Qwen系列模型是国内知名的开源大模型之一。
2024年12月25日,Qwen发布视觉推理模型QVQ,QVQ可能是第一个用于视觉推理的开放权重模型,其中V代表视觉(vision)。它只需读取图像和指令,就开始思考,在需要时进行反思,持续推理,最终生成带有置信度的预测结果!不过,它仍处于实验阶段,这个预览版本仍然存在一些局限性,在使用模型时你应该注意这些限制。2024年11月11日,Qwen团队发布最好的编码模型:Qwen2.5-Coder-32B-Instruct,在基准测试中领先于GPT-4o、Claude 3.5 Sonet、DeepSeek Coder V2等模型2024年9月25日,Qwen2.5语言模型以及针对编程的专用模型Qwen2.5-Coder和数学的专用模型Qwen2.5-Math发布。2024年9月2日,Qwen开源多模态视觉模型Qwen2-VL,Qwen2-VL,共有2B、7B、72B三个版本,其中2B、7B已经开源,72B即将开源。Qwen2-VL在各种分辨率和比例的图像理解方面表现出色,能对超过20分钟视频理解、能够操作手机/机器人等设备、支持多语言。6.深度求索DeepSeek
这是一家值得关注国内大模型研发公司,其利用小规模、低性能(相对于OpenAI、xAI)GPU训练高性能大模型的方法具有巨大的意义。
DeepSeek成立于2023年,来自中国杭州,是一家新兴的人工智能公司,通过自主研发的大语言模型和开源项目,在行业内迅速崭露头角。其低廉的API价格和强大的功能使其成为研究人员、开发者及企业用户值得关注的工具。DeepSeek的推理模型让人印象深刻。
2024年11月20日,DeepSeek发布推理模型DeepSeek-R1,对标OpenAI o1,在基准测试与OpenAI o1-preview互有胜负2024年12月13日,DeepSeek发布DeepSeek-VL2,MoE架构的视觉大语言模型。2024年12月16日,DeepSeek发布DeepSeek-V3,在基准测试中,到达或者超越了GPT-4o的水平,DeepSeek-V3采用MoE架构,总参数规模671B,推理速度达到60tokens/s。DeepSeek在14.8万亿多样化且高质量的token上对DeepSeek-V3进行预训练,随后通过监督微调和强化学习阶段来充分发挥其能力。全面评估表明,DeepSeek-V3的表现优于其他开源模型,并达到了与领先的闭源模型相当的性能水平。尽管性能出色,DeepSeek-V3的完整训练仅需要2.788M H800 GPU小时。7. 部分国内基础AI模型跟踪
国内的大模型在2024年取得长足的进步,很多模型在基准测试中达到甚至超过GPT-4或GPT-4o的水平,并且在推理模型方面更快的跟进OpenAI,诸如豆包、智谱清言、讯飞星火、文心一言、kimi等,已经被广大的C端用户使用,这里就不再赘述。
8.其他有特色的模型
Suno:用于音乐创作的AI工具
Suno 成立于 2022 年,总部位于美国马萨诸塞州的剑桥,是一家专注于音频人工智能数据平台开发的公司,特别是通过生成式 AI 创建音乐,公司由 Michael Shulman、Georg Kucsko、Martin Camacho 和 Keenan Freyberg 共同创立,他们之前都在 AI创业公司Kensho 工作 。
Suno创作的音乐示例:奔放的青春
Sora:用于视频创作的AI工具
Sora是由OpenAI发布视频生成大模型,Sora定位帮助创意人士创作高质量视频。
Sora创作的视频示例:山间公路行驶的汽车
Runway:用于视频创作的AI工具
Runway成立于2018年,是一家应用人工智能研究公司,致力于推动艺术、娱乐和人类创造力的公司,其核心产品为AI视频生成工具。
Midjourney:用于图像生成的AI工具
Midjourey成立于2021年,专注于AI生成图像算法及软件研发。Midjourney是最成功的图像生成AI工具之一,该公司以小团队、不融资、收入高而著称,应该是最早实现盈利的AI大模型公司。
Kling:用于视频生成的AI工具
可灵大模型(Kling)是由快手大模型团队自研打造的视频生成大模型,具备强大的视频生成能力 让用户可以轻松高效地完成艺术视频创作
Cursor:AI编程工具
Cursor是一款由Anysphere公司推出的AI代码编辑器,旨在提高开发者的编程效率。Cursor的功能包括代码生成、智能补全、Bug检测与修复、代码解释、文档生成、代码优化建议。
GitHub Copilot:AI编程工具
GitHub Copilot是一款由GitHub与OpenAI合作开发的人工智能编程助手,旨在帮助程序员提高编码效率。主要功能包括代码自动生成、智能代码补全、错误检测与修复、代码重构与优化、多语言支持。
Perplexity:AI搜索工具
Perplexity成立于2022年8月,它专注于开发会话式搜索引擎平台,这些平台通过其主要产品——利用自然语言处理的搜索引擎——提供AI驱动的、类人的交互 。
Grok2:通用AI大模型
Grok2是由xAI研发的通用AI大模型,可以生成文本和图片。Grok-2生成内容时的约束更少,允许用户生成政治家和版权品牌的形象。
Pixtral:通用AI大模型
Pixtral是由法国AI公司Mistral发布的系列大模型。2024年11月发布最新版本的大模型Pixtral Large,这是一款基于 Mistral Large 2 构建的1240亿参数开源多模态模型,Pixtral Large 在基准测试中超过了所有 Claude-3.5 Sonnet 、 Gemini-1.5 Pro 和 GPT-4o 。
算力资源1. GPU用于AI训练的历史
在2009年,Rajat Monga 与 Andrew Ng 等研究人员在斯坦福大学和加州大学伯克利分校等机构进行了一些早期研究,探索了利用GPU加速深度神经网络的训练,在论文《Large-scale deep unsupervised learning using graphics processors》提到“我们能够将学习具有1亿个可用参数的四层 DBN 所需的时间从几周减少到一天左右。对于稀疏编码,我们开发了一个简单的,固有的并行算法,导致5至15倍的加速比以前的方法。”
由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton开发的 AlexNet 是一个具有里程碑意义的卷积神经网络模型,在2012年的ImageNet竞赛中取得了显著的成绩,部分原因是其在Nvidia GPU上的高效训练。这个成功案例极大地推动了GPU在深度学习中的广泛应用,使得更多研究人员和企业开始采用GPU加速AI训练。
英伟达是最主要的GPU制造商,除英伟达之外,还有AMD、Intel,国内有华为、摩尔线程等公司也制造用于AI训练的GPU。
2024年,xAI、微软、亚马逊等都大规模采购GPU,建立强大的数据中心,以保证在AI模型的竞争中获得优势。中、美两国都把算力提升到了国家战略的高度。
2.GPU
英伟达
2024年6月,英伟达宣布Blackwell芯片投产,搭载该芯片的GPU为NVIDIA B200 GPU。与H100相比,B200提供多达三倍的训练性能和十五倍的推理性能。另外,NVLink 5技术是Blackwell B200的关键组成部分,它使互连性能翻倍,提供了1.8 TB/s的总带宽,这允许多达72个GPU作为单个GPU使用。这种新水平的互连性在NVIDIA GB200 NVL72中得到了展示,这是一个像单个GPU一样表现的机架配置,包括36个Grace CPU和72个Blackwell GPU。这种配置提供了13.8 TB的HBM3e内存和1.44 EFLOPs的峰值AI推理性能,这是计算能力的一个巨大飞跃,相当于1000petaflops。2023年11月,英伟达发布H200芯片。与H100,A100的比较,H200主要的升级是内存(Memory的性能),当前大模型训练和推理的一个重要瓶颈时GPU的内存容量,H200的针对市场需求推出的产品升级。AMD
2024年10月,AMD推出了Instinct MI325X AI GPU加速器,直接对标英伟达的Blackwell。
近期,Semianalysis发表一篇深度分析文章,对AMD和Nvidia的GPU进行了全方位的实测对比,参与测试GPU为Nvidia的H100、H200 和AMD的MI300X(标称的TFlops MI300X高于H100和H200),但是实测表现AMD要比H100、H200差。
华为
华为推出昇腾系列GPU。昇腾910B性能可以与Nvidia A100抗衡,是国内可以替代H20显卡产品。昇腾910B采用7nm工艺,496亿个晶体管,64GB的HBM内存,400GB/S的带宽。其FP16的运算性能约为320Tflops(0.32petaflops),其INT8的性能能够达到 640 Tflops(0.64petaflops)。
与英伟达的GPU相比较,B200是华为910B性能的14倍左右,内存则是其3倍,带宽则是20倍(8 TB/S VS 400GB/S)。
综合来看,Nvidia的GPU处于显著的领先地位,
3. 10000+GPU的集群
算力是AI的物质基础,大规模GPU集群是实现AGI的必要条件。在Scaling law的推动下,GPU集群的规模越来越大,以下是世界
1).Colossus,10万卡GPU集群
Colossus是由xAI公司于2024年10月28日建成的全球最大AI超级计算机。该项目的建设速度极快,仅用122天便完成了从第一台机架的安装到开始训练任务的整个过程,展现了前所未有的技术实力和效率。Colossus由10万块NVIDIA Hopper GPU构成,计划在未来扩展至20万颗。
2).特斯拉的GPU集群
由10,000块NVIDIA H100 GPU构成,于2024年8月29日建成,主要用于训练特斯拉的全自动驾驶(FSD)技术及其他AI应用。
3).谷歌的A3超级计算机
由大约26,000块NVIDIA H100 GPU构成,主要用于大语言模型训练。
4).Meta的AI超级计算机
由22,000块NVIDIA V100 GPU(第一代)和16,000块NVIDIA A100 GPU(第二代)构成。
5).亚马逊EC2 P5
由20,000块H100 GPU构成
6).夸娥(KUAE)
摩尔线程于2024年7月3日宣布,其夸娥(KUAE)智算集群解决方案已实现显著的技术跃升,由原先的千卡规模显著扩展至万卡级别,以支持大规模模型的运算需求。
4. 算力资源展望
根据SemiAnalysis的文章,由于规模法则带来的持续改进,AI基础设施的建设需求正变得越来越旺盛。今年,领先的前沿AI模型训练集群已扩展到10万个GPU规模,而2025年:
1)将有30万+GPU集群投入使用。
2)考虑到包括建设周期、许可证、法规和电力供应等多种物理约束,在单一数据中心站点同步训练大型模型的传统方法正在达到极限。
3)Google、OpenAI和Anthropic已经在执行计划,将大型模型训练从单一站点扩展到多个数据中心园区。
数据Ilya Sutskever认为虽然算力在不断增长,但是数据已经不在增长,AI已经撞到的数据墙,很多专家提出了应对数据墙的方案。
1. 利用合成数据,有机会,但是存在挑战
合成数据是不由真实世界事件生成的,而是通过人工方式生成的信息。当来自真实世界的数据耗尽时,使用合成数据似乎是一个合理的选择,但是Ilia Shumailov等在《AI models collapse when trained on recursively generated data》中提到:
1)使用合成数据进行训练会导致所谓的“模型崩溃”(model collapse),即随着时间的推移,模型在其前几代生成的数据上进行递归训练,性能下降,最终可能完全失去能力。
2)即使合成数据仅占总数据集的1%,也可能导致模型性能严重下降。研究表明,合成数据会使模型对不真实的数据模式进行过拟合,从而无法有效处理真实世界的数据多样性。
3)模型的参数规模越大,其崩溃程度越严重。这意味着大型语言模型(LLM)在面对合成数据时更容易出现性能下降。
4)作者提出了一些方法来避免这种崩溃现象,包括通过验证机制来确保合成数据的质量,以扩展其使用范围而不影响模型性能。
2.利用私有和特定领域的数据
组织可以利用其专有数据,这些数据通常比公开数据集更相关且更符合其需求。这些数据能够提供一般数据集中未涵盖的洞见,从而允许更量身定制的AI模型。正如专家所指出的,“每家公司的业务数据都是他们的金矿”。
互联网数据基本可以归为公共域的数据,在私域还有大规模的数据未被利用,私域数据包括存储在个人或者组织中为公布在互联网上的数据。但是如何利用这些数据同样存在挑战。
3.预训练时代已经结束,推理时计算时代来临
Ilya Sutskever认为,由于数据资源耗尽,预训练时代已经结束,推动AI继续前进的新范式是推理时计算。
AI分级及演进路径随着AI的快速进步,如何对不同能力的AI进行分级呢?OpenAI和Google分别提出了各自的方法。
1.OpenAI:级分类
OpenAI把AI分为五个等级,同时也是AI通向AGI的路径。5个级别分别是:Chatbot、Reasoners、Agents、Inovator、Organizations。
图6:AI OpenA I的五级分类这五个级别的定义为:
图7: 五级分类的定义OpenAI的GPT-4o、GPT-4、GPT-3.5都应归为Chatbot级别的AI,o1、o3可以归为Reasoners级别的模型。
2.Google:AGI五级分类
Google DeepMind团队根据性能、通用性和自治性对AI进行分级,见表I和表II。
表I:基于性能和通用性的分类
Level1:初级AI(Emerging)等于或略优于无技能的人类相等初级窄域人工智能
GOFAI4;简单基于规则的系统,例如,SHRDLU(Winograd,1971)初级通用人工智能(AGI)
ChatGPT(OpenAI,2023),Bard(Anil等,2023),Llama 2(Touvron等,2023)级别2:胜任级AI(Competent)
至少在熟练成年人中位数以上胜任级窄域人工智能
毒性检测器,如Jigsaw(Das等,2022);智能音箱,如Siri(Apple),Alexa(Amazon)或Google Assistant(Google);视觉问答系统,如PaLI(Chen等,2023);Watson(IBM);一些任务的最先进的大语言模型,如短文写作、简单编码等。胜任级通用人工智能(AGI)
尚未达到级别3:专家级AI(Expert)
至少在熟练成年人中位数的90%以上专家级窄域人工智能
拼写和语法检查器,如Grammarly(Grammarly,2023);生成图像模型,如Imagen(Saharia等,2022)或Dall-E 2(Ramesh等,2022)专家级通用人工智能(AGI)
尚未达到级别4:大师级AI(Virtuoso)
至少在熟练成年人中位数的99%以上大师级窄域人工智能
Deep Blue(Campbell等,2002),AlphaGo(Silver等,2016,2017)大师级通用人工智能(AGI)
尚未达到级别5:超人类级AI(Superhuman)
超过100%的人类表现超人类级窄域人工智能
AlphaFold(Jumper等,2021;Varadi等,2021),AlphaZero(Silver等,2018),StockFish(Stockfish,2023)人工超级智能(ASI)
尚未实现
表II:基于自主性的分级
自主性级别系统示例解锁AGI级别引入的分享示例自主性Level 0:没有人工智能(No AI),人类执行所有任务。模拟方法(例如,用铅笔在纸上素描)非人工智能数字工作流程(例如,在文本编辑器中键入;在绘图程序中绘图)没有人工智能(No AI)n/a(无适用,即现状风险)自主性Level 1:AI作为工具,人类完全控制任务,并使用人工智能来自动化单调的子任务。借助搜索引擎进行信息检索
借助语法检查程序进行写作修订
使用机器翻译应用阅读标识信息可能:
初级窄域人工智能
很可能:
胜任级窄域人工智能去技能化
(例如,过度依赖)
颠覆已建立的产业自主性Level 2:AI作为顾问,人工智能发挥实质性作用,但仅在人类调用时。依赖语言模型来总结一组文件
通过生成代码模型加速计算机编程
通过复杂的推荐系统消费大多数娱乐内容可能:
胜任级窄域人工智能
很可能:
专家级窄域人工智能;初级通用人工智能过度信任
激进化
有针对性的操纵自主性Level 3:AI作为合作伙伴,
AI和人类的合作平等;目标和任务的互动协调通过与象棋对弈AI的互动和分析来训练成为国际象棋选手
通过与由AI生成的虚拟个性进行社交互动来获取娱乐可能:初级通用人工智能
很可能:专家级窄域人工智能;胜任级通用人工智能拟人化(例如,偶像崇拜关系)
社会快速变革自主性Level 4:AI作为专家,AI驱动互动;人类提供指导和反馈,或执行子任务。使用AI系统推动科学发现(例如,蛋白质折叠)。可能:大师级窄域人工智能
很可能:专家级通用人工智能社会规模的倦怠
大规模劳动力替代
人类例外性的下降自主性Level 5:
AI作为代理,完全自主的AI。自主的AI助手(尚未解锁)很可能:大师级通用人工智能;超级智能(ASI)错位
权力集中
根据Google的5级分类,AlphaGo属于窄域Level4级AI,AlphaFold属于窄域Level5级AI,ChatGPT、Bard、Llama2属于Level1级通用AI。
AI发展展望本部分总结AI领域的关键人物和机构对AI发展的展望,包括未来一年或者更长时间的展望。
1.Ilya Sutskever:超级人工智能将取代现在所有用的AI
Ilya Sutskever认为当前的人工智能有非常多的超人表现,但是也有非常大的不可靠性,现在真的不知道如何协调这一点,而超级智能与我们现在所有用的AI非常不同,超级智能应该具有如下的特点:
真正的代理更强的推理,理解:从有限的数据中理解事物,拥有自我意识。2.Sam Altman:我们可能在几千天内拥有超级智能
OpenAI Ceo Sam Altman在《The Intelligence Age》一文中提到:
深度学习有效(Deep learning worked),随着规模的扩大,可以预见它会变得更好,我们为它投入了越来越多的资源。(deep learning worked, got predictably better with scale, and we dedicated increasing resources to it.)人工智能模型很快将成为自主个人助手,代我们执行特定任务,比如协调医疗护理。在未来的某个时刻,人工智能系统将变得如此优秀,以至于帮助我们创造出更好的下一代系统,并在各个领域推动科学进步。如果我们希望将人工智能交到尽可能多的人手中,我们需要降低计算成本,使其变得丰富(这需要大量的能源和芯片)。如果我们不建立足够的基础设施,人工智能将成为一种非常有限的资源,战争可能因此爆发,而它将主要成为富人的工具。我们预计这种技术将在未来几年对劳动市场产生重大变化(好与坏)。我们可能在几千天内拥有超级智能。3.Dario Amodei(达里奥·阿莫迪):强工智能(Powerful AI)最早可能在2026年出现
Anthropic CEO Dario Amodei(达里奥·阿莫迪)在《Machines of Loving Grace: How AI Could Transform the World for the Better》提出了强人工智能的特点:
就纯粹的智力而言,它在大多数相关领域都比诺贝尔奖获得者更聪明除了仅仅是一个"你可以对话的智能体",它还具备人类在虚拟工作中可用的所有"接口",包括文本、音频、视频、鼠标和键盘控制以及互联网访问它不只是被动地回答问题;相反,它可以接受需要数小时、数天或数周才能完成的任务,然后像一个聪明的员工那样自主去完成这些任务,在必要时寻求澄清它没有物理形态(除了存在于电脑屏幕上),但它可以通过计算机控制现有的物理工具、机器人或实验室设备;理论上它甚至可以为自己设计要使用的机器人或设备该模型可以以大约10-100倍于人类的速度吸收信息和产生行动。但它可能会受到物理世界响应时间或它所交互的软件的限制这数百万个副本可以独立执行不相关的任务,或者在需要时可以像人类合作那样一起工作,也许某些子群体经过微调后特别擅长特定任务同时,Dario Amodei预计强工智能(Powerful AI, Dario Amodei不喜欢AGI这个词)最早可能在2026年出现,并且在5个领域最有潜力直接提升人类生活质量:
生物学和身体健康神经科学和心理健康经济发展和扶贫和平与治理工作与意义4.红杉资本:AI的潜力正在凝结成真实和有形的东西
红杉资本将ChatGPT比作人工智能的"大爆炸",并预测2024年将是人工智能的"原始汤"之年,现在基础构件已经牢固就位。如果说2024年是充满新想法的一年,那么2025年将着重于筛选这些想法,看看哪些真正可行。
以下红杉资本对未来一年预测:
大语言模型提供商已发展出独特的超级能力——这将在2025年带来渐进式的差异化和激烈的等级之争,2024年,大模型竞赛的核心是达到GPT-4的水平。五家公司实现了这个目标(或接近实现):微软/OpenAI、亚马逊/Anthropic、谷歌、Meta和xAI。其他公司退出了竞争,最引人注目的是Inflection、Adept和Character。AI搜索正在成为杀手级应用——在2025年,它将大规模普及。AI搜索可能会使目前的单一市场分化,会产生很多垂直领域的AI搜索。在2025年,投资回报率将继续存在问题,资本支出将开始趋于稳定。大科技公司已经牢牢掌控了AI革命。他们不仅控制了支撑AI的绝大多数数据中心,还在大模型公司中拥有重要的股权,而且他们是新AI创业公司最大的支持者之一。我们认为2025年将是AI资本支出的稳定之年。5.Air Street Capital:
Air Street Capital是一家专注于人工智能(AI)和机器学习(ML)领域的风险投资公司,成立于2019年,总部位于伦敦,由Nathan Benaich创立,该公司主要投资于早期阶段的AI和ML初创公司,尤其关注那些利用AI技术解决实际问题的企业。
Air Street Capital从研究、产业、政治、安全四个方面对2024年做了全面而详细的总结,也对2025做了预测,这里仅提取要点,详细请阅读数据与AI爱好者:2024年人工智能现状报告(一)系列文章。
研究
前沿实验室的性能趋于收敛,但随着o1的发布,OpenAI保持其优势,同时规划和推理成为主要前沿领域。基础模型展示了其突破语言限制的能力,多模态研究推进到数学、生物学、基因组学、物理科学和神经科学领域。美国制裁未能阻止中国(超大型)语言模型在社区排行榜上的崛起。产业
NVIDIA仍是世界上最强大的公司,短暂进入3万亿美元俱乐部,同时监管机构调查生成式AI中的权力集中。更成熟的生成式AI公司带来数十亿美元的收入,而初创公司开始在视频和音频生成等领域获得牵引力。尽管公司开始从模型向产品转变,但定价和可持续性的长期问题仍未解决。在公共市场牛市的推动下,AI公司的价值达到9万亿美元,而私营公司的投资水平健康增长。政治
虽然全球治理努力停滞不前,但国家和地区的AI监管继续推进,美国和欧盟通过了具有争议的立法。计算需求的现实迫使大型科技公司正视规模扩大的现实物理限制和自身的排放目标。同时,政府自身建设能力的尝试继续落后。预期的AI对选举、就业和其他一系列敏感领域的影响尚未在任何规模上实现。安全
从安全到加速的氛围转变发生,此前警告我们人类即将灭绝的公司现在需要加快企业销售和消费者应用的使用。世界各国政府仿效英国,在AI安全领域建立国家能力,启动研究所并研究关键国家基础设施的潜在脆弱性。每个提出的"越狱"修复方案都失败了,但研究人员越来越关注更复杂的长期攻击。未来12个月的展望
一个主权国家对美国大型AI实验室的超过100亿美元投资将引发国家安全审查。由没有编程能力的人独立创建的应用或网站将爆红(如进入App Store前100名)。前沿实验室在案件进入审判阶段后,对数据收集实践进行实质性改变。由于立法者担心过度监管,欧盟AI法案的早期实施力度将低于预期。一个开源的替代方案将在一系列推理基准上超越OpenAI o1。挑战者未能对NVIDIA的市场地位产生任何实质性影响。由于难以实现产品与市场的匹配,类人机器人的投资将逐渐减少。苹果设备上的强大研究成果将加速推动个人设备上的AI发展。由AI科学家生成的研究论文将在一个主要的机器学习会议或研讨会上被接受。一款围绕与生成式AI元素互动的视频游戏将取得突破性成功。总结2024年,AI基础模型取得了突破性的进展,在越来越的领域达到或者超过了人类专家的水准;2025年,每个人都应该学会充分利用AI,提高个人的效率,提高企业的效率。
参考1.数据与AI爱好者:用神经网络进行序列学习: 多么美好的十年 --Ilya Sutskever 在 NeurIPS 2024上演讲
2.数据与AI爱好者:AI的现状和未来展望:Ilya Sutskever与黄仁勋的谈话
3.如何看待 Anthropic 的「模型上下文协议」MCP?有什么优点?
4.数据与AI爱好者:AI初创公司介绍:suno
5.数据与AI爱好者:福布斯Top50 AI公司简析42: Runway
6.数据与AI爱好者:福布斯2024-AI TOP50公司简介(十八):Perplexity
7.如何评价Grok 2,它是否有跻身LLM第一集团的实力?
8.Large-scale deep unsupervised learning using graphics processors,2009,Authors: Rajat Raina, Anand Madhavan, Andrew Y. Ng
9.数据与AI爱好者:英伟达BlackWell架构GPU性能介绍
10.MI300X vs H100 vs H200 Benchmark:MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive
11.DeepSeek-V3 Technical Report.
12.Gigawatt Clusters, Telecom Networking, Long Haul Fiber, Hierarchical & Asynchronous SGD, Distributed Infrastructure Winners,Source:Multi-Datacenter Training: OpenAI’s Ambitious Plan To Beat Google’s Infrastructure
13.AI models collapse when trained on recursively generated data,24 July 2024,Nature, Author:Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson & Yarin Gal
14.数据与AI爱好者:合成数据生成:定义、类型、技术和工具
15.数据与AI爱好者:超级人工智能时代来临了:OpenAI 12天发布总结
16.数据与AI爱好者:AGI分级:通向AGI之路的进展(一)
17.数据与AI爱好者:AGI分级:通向AGI之路的进展(二)
18.数据与AI爱好者:AGI分级:通向AGI之路的进展(三)
19.Levels of AGI: Operationalizing Progress on the Path to AGI,4 Nov 2023 ,author: Meredith Ringel Morris , Jascha Sohl-dickstein , Noah Fiedel , Tris Warkentin , Allan Dafoe , Aleksandra Faust , Clement Farabet and Shane Legg Google DeepMind
20.数据与AI爱好者:智能时代--超级智能宣言
21.The Intelligence Age, author: Sam Altman, Source:The Intelligence Age
22.Machines of Loving Grace: How AI Could Transform the World for the Better,Author: Dario Amodei, Source: Dario Amodei — Machines of Loving Grace
23.数据与AI爱好者:爱的机器:人工智能如何改善世界?(一)
24.数据与AI爱好者:人工智能2025: 牢固的基础已经就位/AI in 2025: Building Blocks Firmly in Place
25.AI in 2025: Building Blocks Firmly in Place,红杉资本
26.数据与AI爱好者:2024年人工智能现状报告(一),by Air Street Capital
27.数据与AI爱好者:2024年人工智能现状报告(二)
28.
29.
30.
31.
来源:走进科技生活