摘要:GPT-4.5项目启动于约两年前,目标是实现比GPT-4聪明10倍的模型,最终从有效算力投入上看是达到了。整个GPT-4.5项目在某种意义上是验证Scaling Law有效性的大型实验。结果证明Scaling Law持续有效,并可能在未来很长时间内依然有效。
4月11日,OpenAI CEO Sam Altman与GPT-4.5核心团队成员共同开启直播,爆料GPT-4.5的研发历程。
GPT-4.5项目启动于约两年前,目标是实现比GPT-4聪明10倍的模型,最终从有效算力投入上看是达到了。整个GPT-4.5项目在某种意义上是验证Scaling Law有效性的大型实验。结果证明Scaling Law持续有效,并可能在未来很长时间内依然有效。
预训练规模要实现下一个 10 倍或 100 倍增长,需要数据效率。GPT模型利用计算吸收信息效率极高,但从数据中获取洞察的深度似乎有上限。当算力增长远超数据增长时,数据成为瓶颈。
更好的预训练倾向于提升模型广泛的基础智能和泛化能力,这与推理能力的提升形成良好互补,推理能力是在特定方面提升更显著。
以下是本次直播实录
经数字开物团队编译整理
Sam Altman:我们通常做这类分享是为了讨论即将发布的新产品,但今天有些不同,我们会探讨产品背后的研究。发布 GPT-4.5 时,我们觉得大家会喜欢。我们对模型非常自豪,结果反响远超预期。人们反馈说:“从未想过能和模型有这种对话体验。”,“它和 GPT-4 太不一样了,在很多方面都强得多,有些显而易见,有些难以言喻。” 大家对 GPT-4.5 的研发过程非常感兴趣。
今天,我们请来了打造 GPT-4.5 的几位核心团队成员,聊聊这个话题,包括投入、经验教训,以及打造如此巨大的模型需要什么。我们就从这里开始:打造一个巨型模型,都需要什么?
Alex Paino:需要很多人、很多时间,还有很多算力。我是 Alex。我主要负责预训练数据,也领导了 GPT-4.5 的预训练机器学习工作。
Amin Tootoonchian:我是 Amin Tootoonchian,OpenAI 的首席系统架构师,负责 OpenAI 的系统和网络。
Daniel Selsam:我是 Dan,研究数据效率和算法。
Sam Altman:具体需要投入什么?
Alex PAIno:这个项目大约是两年前启动的。当时我们知道一个新的大型计算集群即将启用。
我们预见到这个机会,便开始大量准备,明确训练运行中要包含的特性,进行了多次大规模的风险规避运行,并制定了非常长期的计划。这涉及整个技术栈,从系统、机器学习到方方面面。在正式运行前,降低风险和准备工作的执行过程本身就很漫长,而运行本身也是一项极其庞大的工程。
Amin Tootoonchian:这个过程从项目构思阶段就需要机器学习团队和系统团队协作,一直持续到明确要训练的模型,然后才开始训练运行。以我们目前的工作节奏,尤其是要利用最新可用的算力,很难事先完美规划。因此,我们几乎总是带着许多未解决的问题进入启动阶段,尽管挑战重重,我们仍努力在运行期间不断推进,增加算力,解决预料之外的问题,并努力弥合预期与实际的差距。最后阶段是执行,需要大量人力、精力和持续的动力,在相当长的时间里完成训练。
Sam Altman:实际情况和预期有多接近?
Alex Paino:从最高层面看,项目目标是打造比 GPT-4 聪明 10 倍的 GPT-4.5。这是我们大约两年前设定的初步目标。过程中发生了很多事,我们也在思考能否做得更好或更差。这是一条复杂的路,但最终得到的模型,从投入的有效算力来看,达到了比 GPT-4 聪明 10 倍的目标。
Amin Tootoonchian:在开始阶段,尤其系统层面,我们通常离预期目标很远。总要面临选择:推迟启动等问题解决,还是早点启动、边做边解决。这需要在摸索前行和避免项目不合理延期之间找到平衡。几乎总会出现启动时未预见的问题,整个过程就是尽力处理已知问题,规划好训练运行的进行方式。随着取得进展,在推进中则要处理未知因素,比如运行成功需要多长时间这类可变性。
Sam Altman:差多远?花费的时间比预想的长吗?
Amin Tootoonchian:是的,但我们的目标是努力缩短时间,使其符合预期。
Sam Altman:这里编造一些数字,为什么把规模从 1万个 GPU 扩大到10万个GPU,会让问题困难得多?
Amin Tootoonchian:原因很多。大规模下观察到的问题,如果足够仔细,小规模下也能发现。并非只在大规模时才出现。但罕见的小问题,到大规模时就可能变成灾难性的,特别是如果事先没预料到。
Sam Altman:哪些类型的问题在大规模下会变成灾难性的?
Amin Tootoonchian:大家熟悉的有基础设施问题、故障率、故障的多样性(类型和数量)。
我们会观察到供应商都未见过的现象,因为样本池巨大。我们得以观察到庞大资源池完整的统计分布。互联结构(网络结构)、单个加速器都是因素。其魅力在于几乎所有组件都需按预期工作,结果才能成立。我们的任务就是将这种方差降到最低。
Sam Altman:在规模前沿探索极其困难。我们经常进行下一次、甚至更疯狂的训练运行。
但我也注意到,做那些已非前沿的工作,变得容易多了。打造 GPT-4.5 动用了数百人,几乎是 OpenAI 的全部力量。如果现在让你们随意挑选人手,利用我们掌握的所有知识、经验和系统,从头重新训练 GPT-4,最少需要多少人?
Alex Paino:达到 GPT-4 级别模型,可能需要 5 到 10 人。
Amin Tootoonchian:我们当时训练 GPT-4 大概就是这么多人。GPT-4.5 不同,其漫长的工作历史需要更多人协作,投入性质也截然不同。
Alex Paino:既然完成了这些工作,技术栈已改进很多。若要重新训练,我们在训练 GPT-4.5 过程中也部分实践了——我们训练了 GPT-4O,一个 GPT-4 级别的模型,利用了 GPT-4.5 研究项目的许多相同方法和成果。那次运行实际需要的人数少得多。
Sam Altman:为什么训练大模型这么难?Dan?
Daniel Selsam:做任何新事都很难。哪怕只是知道别人做成了某件事,都会容易得多。最难的是最初做这件事的信念。知道某件事“可能办到”这个事实本身,就像一个强大的“作弊码”,极大地简化了后续工作。
Alex Paino:我们每次进行 GPT 预训练运行,规模都比上次扩大 10 倍,总会发现当初不一定预料到的、有趣的、新的东西。
Sam Altman:预训练规模要实现下一个 10 倍或 100 倍增长,需要什么?
Daniel Selsam:数据效率。
Sam Altman:简单说,这是什么意思?我当然明白,但具体指什么呢?
Daniel Selsam:transformer或 GPT 模型在有效利用数据方面表现极为出色。它吸收信息,进行一定程度的压缩和泛化,但其决定性特征,或者说核心优势,在于利用计算资源极其高效地吸收信息。不过,它能从数据中获得的洞察深度似乎存在某种上限。所以到了一定程度,当计算资源持续增长,而数据增长速度远跟不上时,数据就成了这种标准模式的瓶颈。这就需要一些算法上的创新,以便能够投入更多的计算资源,从同等数量的数据中学到更多东西。
Sam Altman:除了这一点,要继续扩展还需要什么?
Amin Tootoonchian:这需要从系统层面来回答。即使在我们已经训练过的不同 GPT 模型之间比较,训练 GPT-4.5 所需的巨大工作量,或者说我们必须进行的那些改变,很大程度上是由模型本身的规格所决定的。
同样地,我们不可能用训练 GPT-4 的那套完全相同的技术栈来训练 GPT-4.5。举个例子,状态管理的方法就变了。我们必须扩展到使用更多的计算资源,而这些资源在一个集群内是无法满足的,所以我们必须转向多集群训练。可以想象,许多不同的工作流必须在短时间内协同起来,才能完成任务。而仅仅是为了实现下一个 10 倍的跨越,还有其他一些问题,我们可能早就知道它们的存在,只是为了加快执行速度,在当前版本中暂时跳过了它们。但对于下一个版本,这些问题必须解决,没有任何捷径可走。
而且往往就是这些选择,使得构建一个完美系统所需的时间大大延长。所以我们总是在权衡,寻找能最快达到目标的路径。系统本身并非终点,它所产生的产品才是。因此,对我而言,下一个 10 倍的关键在于容错性。我们需要的是一种能与工作负载协同设计的容错机制,这样我们就不必过多担心,维持如此大规模运行的操作负担能比我们之前的系统大大减轻。用我们之前的技术栈,GPT-4.5 已经达到了我们运维能力的极限。
Sam Altman:你知道在 GPT-4.5 的训练运行中,大概有多少百分比的步骤是因为某个环节的组件故障而失败的?
Amin Tootoonchian:我手头没有确切的数字,但这通常就是事情运作的方式,这挺有意思的。有些问题在早期就会暴露出来,尤其是在新一代硬件刚投入使用时,这些问题不一定被完全理解或充分研究过。我们就这样开始了训练过程,希望在存在这些问题的情况下也能向前推进。
当然,在训练初期,失败率会相当高。很有可能一旦我们找到根本原因并解决它,总的失败次数就会急剧下降。实际情况往往如此。这只是说明我们学到了更多,有些人会称之为理解关于基础设施的基本问题。系统的状态会显著改善,但早期的执行阶段几乎总是非常痛苦,因为我们既要摸索新基础设施中会出现哪些新的失败模式,又要同时设法取得进展。当然,如果你等得足够久,自然会知道系统是否稳定可靠。
Sam Altman:那其中有多少次是虚惊一场?比如有多少次你觉得“哦,这看起来糟透了”,但最后其实没事?
Alex Paino:相当频繁。大概能有一半时间吧。因为我们是一群容易过度紧张的人。所以,如果虚惊一场的情况少于一半,那说明我们还不够警惕。
Sam Altman:我来问几个快问快答的问题。如果在下一次大型训练运行之前,你能让任何一个机器学习问题得到解答,你最想知道的是什么?
Alex Paino:最主要的是,在某些数据有限的领域,我们应该采用什么样的算法。这是个挺大的问题,答案也很重要。
Sam Altman:如果你能对现有硬件做任何一项改变,比如发明一种新的网络技术,或者全新的芯片架构?那么,目前系统层面的限制因素是什么?
Amin Tootoonchian:这是关于传输层,网络传输层面的改变。也就是说,当有些故障可以在应用层之下的层面被绕过或解决时,我更希望传输层,网络传输层能自己处理好,保持运行并提供可用的带宽,而不需要我来操心。
Sam Altman:这方面有看到什么有希望的进展吗?
Amin Tootoonchian:是的,这个我们可以私下聊聊。
Sam Altman:好。至少有希望就好。Dan,一个包含两部分的问题问你。关于数据效率的问题,人类,不论我们在学习上有什么其他的缺点,似乎在数据效率方面高得不可思议。我们目前最好的算法,距离人类水平的数据效率还有多远?
Daniel Selsam:这真的很难进行严格的同类比较。在语言学习方面,差距是天文数字级别的。
Sam Altman:十万倍?一千倍?
Daniel Selsam:大概就在那个数量级。这取决于你是否把视神经接收到的每一个像素信息比特都算进去。但我们从算法上还不知道如何利用这些信息来达到人类处理文本的水平。所以从算法角度,进行同类比较的话,差距非常非常大。
Sam Altman:接着是第二部分,你认为以我们当前的方法或者发展方向,我们最终能达到人类水平的数据效率吗?还是说这根本不可能实现,或者其实也并不重要?
Daniel Selsam:几十年来,深度学习一直是围绕着计算效率展开的。除了数据和计算量的增长,真正神奇的地方在于,各种算法上的改进能够很好地叠加起来。世界各地不同的人,会发现某个能提升 10% 效果的小技巧,然后又有人发现能提升 20% 的方法,这些改进就这样不断累积。
只是目前还没有形成围绕数据效率的这种合力,因为过去这样做并不划算。因为当数据充足而计算资源是瓶颈时,投入精力去提升数据效率就不值得。所以,现在我们正进入 AI 研究的一个新阶段,在这个阶段,我们将开始积累数据效率方面的提升,这里提升 10%,那里提升 20%。现在就预测我们会遇到无法逾越的障碍可能有点草率,我个人没有任何理由预见这样的障碍。但是,大脑的运作无疑遵循着与我们现有方法 (哪怕是微小调整) 非常不同的算法原理。所以我们在这方面必须稍微保守一点。但我认为,前景还是非常乐观的。
Sam Altman:下一个问题对你们三位都一样。回答“是”或“否”,或者你也可以补充解释。人类最终会进行一次千万级 GPU (或更大规模) 的同步预训练运行吗?
Alex Paino:我不知道那是否会严格地算作一次预训练运行,但我认为可能会有某种形式的训练运行达到那个规模。千万级 GPU 的训练运行肯定会有。我不知道它会是什么样子,可能会和我们今天做的完全不同。但肯定会有某种继承了无监督学习精神、并且达到那种规模的东西。我认为会的。
Amin Tootoonchian:我会称之为半同步的。至于规模,我希望如此。那听起来非常令人兴奋。
Sam Altman:你会称之为半同步?
Amin Tootoonchian:是的,不会是完全同步的,这受限于物理定律,不可能完全违背它。
Daniel Selsam:它很可能会是更加去中心化的。肯定会有千万级别的 GPU 协同工作在一个学习和执行任务的 AI 系统上,但这可能并不意味着这个“大脑”的所有部分都需要时刻相互通信。
Sam Altman:关于更智能、更大规模的预训练模型与模型学习推理能力之间的关联,我们有什么已经了解或观察到的现象可以分享吗?
Alex Paino:我们观察到的现象是,更好的预训练和无监督学习往往能够提升模型广泛的基础智能,并且对提升泛化能力非常有帮助。我们发现这与推理能力的提升形成了很好的互补。推理能力的提升可能更倾向于呈现出更“尖锐”、更“块状”的特点,也就是说在某些特定方面的智能提升更显著。所以,它们两者是很好的互补关系。
Sam Altman:稍微跑个题,你们有没有这样一种直觉:预训练似乎能在所有方面带来如此普遍的提升,这很神奇;而当我们专门训练模型的推理能力时,却往往只能让它在某一类特定任务上表现优异。你们觉得这现象奇怪吗?或者说这其中有什么值得我们思考的?
Alex Paino:是的,我觉得这很有趣。当你审视预训练使用的数据时,看到这种普遍提升的结果其实并不算太意外。当你为预训练构建数据集时,其本质就是追求非常广泛的覆盖面,目标就是广度和多样性。而当你讨论进行强化学习,需要构建能够清晰获得良好奖励信号和优质环境的场景时,想要达到同等的广度往往就比较困难了。
Daniel Selsam:我同意,但我认为还有另一个因素:预训练本质上是在压缩数据。而压缩数据就是要发现不同事物之间的联系。推理则是针对特定问题,确实需要仔细思考的技能和技巧。而仔细思考能够帮助我们在不同领域解决多种多样的问题。但是,当像预训练那样跨领域压缩数据时,其实是在进行更抽象层面的学习。
Sam Altman:这说得通。我得调整一下问题。刚想到其他方面。在系统进展方面,什么会成为限制因素?是芯片或处理器、内存、网络,还是电力?继续扩大规模的主要瓶颈会是什么?
Amin Tootoonchian:这正是系统的精妙之处:如果进行协同设计,工作负载就能适应所构建的基础设施。我认为,不能笼统地说网络一定是瓶颈,或内存带宽是瓶颈,或算力是瓶颈。我们有能力调整资源需求,即使对相同规格的模型,也能通过调整创建一个更平衡的系统。
当然,预训练和推理等不同场景下的答案会有所不同。不过,拥有更多的内存带宽总归是件好事。确实,这个问题在没有具体限定条件的情况下很难回答。
Sam Altman:接着刚才的话题,在为可能是 GPT-4.5 的训练做准备时,你们团队在模型规格方面合作有多深入?合作到了什么程度?是你们直接参与决策吗?
Alex Paino:合作非常紧密。具体到我们想执行的矩阵乘法 (matmuls) 的形状,都要确保其得到良好优化。不过,这个项目的合作深度远超以往,可以回溯到训练启动前大约六到九个月。为了在这次训练中加入某些功能,以及达成 4.5 版本的目标,我们进行了一次规模非常大、专门用于‘降低风险’的训练。这次训练特别侧重于与系统团队的协同设计,目的是确保机器学习和系统能在规模化部署时良好协同工作。因此,在那次训练中,我们首次如此大规模地将重点完全放在协同设计上。这非常关键。
Amin Tootoonchian:是的,那是我记忆中第一次进行如此大规模的扩展尝试。其重点不仅在于微调某个方面,而是从根本上希望系统能维持某种特性。这种特性并非凭空产生,必须主动引导系统才能获得。因此,协同设计的努力塑造了模型的架构和架构元素,并在某种程度上将系统与机器学习层面结合起来。这也许是一种我们不太希望看到的耦合特性。理想情况下,我希望所有部分都是解耦的,以便提供最大的灵活性。但有时为了满足基础设施要求或达到预期运行方式,各部分就必须紧密绑定。通常总是希望构建一个平衡的系统,通信平衡,且系统类型高度对称。而我们手中最有效的调节手段始终是协同设计。
Sam Altman:我们距离你心中理想化的系统还有多远?就是那种让你完全满意、拥有所有想要硬件、并完美契合当前机器学习认知的系统。
Amin Tootoonchian:我们离理想状态还非常遥远。但虽然遥远,过程却充满乐趣。构建系统的实践本质就是如此,心中有一个关于事物应如何运作的理想化视图,然后不断调和 这个理想与现实的差距。我们做系统并非为了纯粹的理论探讨,或仅仅空谈理想状态。我们是想真正动手实现,尽最大可能逼近那个理想。因此,这对系统工程师而言,可能是最激动人心的时刻。你可以真正提出关于优秀系统设计的假设,以此为起点,并非常迅速地在实践中看到结果。对于过去那种‘这是一个优雅系统设计,但只有历史能评判其对错’的看法,现在不同了。我们拥有强大的计算资源,面临明确问题,也知道目标,可以直接去验证选择是否正确。
Sam Altman:当团队决定在训练中加入哪些内容时,会在多大程度上考虑系统设计的限制因素?
Alex Paino:是的,这对于进行大规模预训练运行而言,是极其重要的考量因素。自从 4.5 版本后,模型架构方面的许多工作,以及围绕进一步协同设计的持续努力,都在探索为未来硬件共同设计和构建的更多可能性。我认为自那时起,已涌现许多非常有前景的工作。
Sam Altman:好了,调整后的问题想问 Daniel,为什么无监督学习会有效?
Daniel Selsam:因为压缩。理想的智能形式被称为所罗门诺夫归纳法 (Solomonoff induction)。
基本上,这种智能不确定身处哪个宇宙,会设想所有可能的宇宙,并认为更简单的宇宙可能性更高。它完全遵循贝叶斯 (Bayesian) 原理,内部保留所有可能性,并随观察不断更新认知。可以通过寻找生成迄今所见一切的最短程序来近似这种智能。
而进行预训练,或理解预训练的一种方式,就是它在进行压缩——试图找到解释人类迄今产生的所有数据的最短程序。
Sam Altman:那为什么预测下一个 Token 这个任务能实现这种压缩?
Daniel Selsam:这其实是个微妙的问题。长期以来,统计学领域存在一个近乎悖论的现象:为什么深度网络似乎不压缩数据,却能很好地泛化?通常在统计学里,若有海量数据和小模型,且模型能预测数据,则可推断模型必然压缩了信息并学到了东西。
但在预训练中,模型通常非常庞大,规模大致与数据量成正比。所以一直存在疑问:它们到底是在压缩数据,还是仅在泛化?当然,也有批评者认为,这不过是记忆、插值 (interpolating) 和肤浅的模式匹配。
但是,存在一种理解预训练的角度,能看到它确实扮演了压缩器(compressor) 的角色,尽管方式不同寻常且不直观。这个想法被称为序列预测压缩 (prequential compression)。核心观点是,模型在训练中学习速度快,这个事实本身就意味着可以将其转化为高效的压缩器。
因此,即便模型权重参数量巨大,最终的二进制文件也不需存储所有这些权重。这个二进制程序可通过从头预训练来完成解压缩任务。模型学习极快这一事实表明,大部分数据可用极少比特编码。
所以,出于这个微妙原因,预训练确实是相当有效的压缩方法。这为解释其为何能真正导向智能,提供了一个相当令人满意的答案。
Sam Altman:两位有什么要补充的吗?
Alex Paino:没有了,他说得很棒。
Amin Tootoonchian:谢谢。
Sam Altman:有一个相关但还没讨论到的话题,是指标体系的严谨性。当你应用这些 Scaling Law、进行各种机器学习研究时,所获得的结果在很大程度上取决于你选择的那个指标。
Sam Altman:你具体指什么?
Daniel Selsam:你想详细说说吗?
Alex Paino:是指你用哪个测试集来评估模型的困惑度 (perplexity)。
Daniel Selsam:即使我们主要关注困惑度,部分听众或许会以为我们是在评估类似大学入学考试的标准,并非如此。
Sam Altman:那你能解释一下困惑度吗?
Daniel Selsam:有必要解释一下。人们很容易倾向于用那些人类容易理解的测试来评估模型的智能程度。但如果你这样做,很可能会倾向于选择那些让模型更容易记住信息的改进,其代价是牺牲了系统真正提升智能的潜力。因为如今我们几乎所有的公开测试,网上都能找到相似内容。那么与无法接触训练数据的人类所进行的测试相比,这些测试在一定程度上就失去了评估模型真实能力的意义。
因此,领域内的主流方法是评估模型在一些高质量、独立的保留数据上的压缩性能。即便如此,如果你对这些保留数据不够谨慎,如果它与训练数据过于相似,那么旨在增强算法记忆能力的训练调整,就会让模型看似更智能,因为它实质上已经‘见过’测试集了。
Alex Paino:而且我们不想只衡量记忆能力。我们追求的是泛化能力,而非单纯的记忆。特别是分布外泛化能力 (out-of-distribution generalization)。这或许就是 Dan 刚才提到的关键点。因此,我们极其关注所使用的关键测试集,必须确保它们丝毫没有出现在训练数据中。因为任何污染都会干扰我们验证 Scaling Law 的方法论。这一点至关重要。
Sam Altman:那么,我们用来确保测试数据纯净性的最佳参照标准是什么?
Alex Paino:是我们的内部代码库。我们确信这部分代码未曾公开。因此,它是一个优质的保留数据集 (held-out set)。
Sam Altman:经过多次模型迭代验证,它是否一直是我们最佳的参照标准?
Alex Paino:至今它仍是最佳标准。
Daniel Selsam:这确实非同凡响。我们甚至开玩笑说,模型的本质就体现在其代码库损失上。
Sam Altman:当你对模型进行预训练,会得到一个代码库损失值。令人惊讶的是,这个损失值能在很大程度上预测模型在各种下游任务中的表现。它甚至能预示一位哲学研究生对其回应细微之处的看法,这实在令人惊叹。
Sam Altman:最后一个相关的问题。从某种意义上说,我们投入的巨大人力、时间与资金所做的这一切,本质上是一个旨在进一步验证 Scaling Law 有效性的大型实验。
Alex Paino:是的。
Sam Altman:结果证明 Scaling Law 确实持续有效,并且很可能在未来很长一段时间内依然有效。我接受 Scaling Law,如同接受量子力学这类物理规律一样,但我仍不理解其根本原因。为何它会成为宇宙的基本规律之一?Scaling Law 究竟为何是宇宙的一种内在属性?
Daniel Selsam:我尝试回答一下。更好的压缩能力带来更高的智能水平,这一点有其哲学基础。问题在于,为何投入更多数据、训练更大模型、花费更长时间就能带来更好的压缩效果?
对此存在多种理论。我个人倾向的理论是:相关概念在真实世界的数据中呈稀疏分布。具体而言,其分布遵循幂律 (power law)。例如,重要性排在第 100 位的概念,或许仅出现在百分之一的文档中。这就形成了长尾效应。这是否意味着,若能构建完美的数据集并设计出极高数据效率的算法,Amin 就能高枕无忧了?
Daniel Selsam:这意味着,通过精细和智能的数据选择,有可能实现计算效率的指数级提升。
但基本上,若只是被动地大规模收集数据,则需要将计算资源与数据量扩大约十倍,才能捕捉到长尾分布中下一批等量的稀有信息。这个长尾持续延伸,非常长,可以不断从中挖掘价值,尽管正如你所提及,我们或许能通过更智能的方法来优化这个过程。
Sam Altman:今天的讨论就到这里吧。非常感谢各位,这次讨论很有启发。
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问进入。
牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力
AAAI 2025 关于人工智能研究未来研究报告
斯坦福:2025 斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191 页)
壳牌:2025 能源安全远景报告:能源与人工智能(57 页)
盖洛普 & 牛津幸福研究中心:2025 年世界幸福报告(260 页)
Schwab :2025 未来共生:以集体社会创新破解重大社会挑战研究报告(36 页)
IMD:2024 年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214 页)
DS 系列专题:DeepSeek 技术溯源及前沿探索,50 页 ppt
联合国人居署:2024 全球城市负责任人工智能评估报告:利用 AI 构建以人为本的智慧城市(86 页)
TechUK:2025 全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52 页)
NAVEX Global:2024 年十大风险与合规趋势报告(42 页)
《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页
2025 - 2035 年人形机器人发展趋势报告 53 页
Evaluate Pharma:2024 年全球生物制药行业展望报告:增长驱动力分析(29 页)
【AAAI2025 教程】基础模型与具身智能体的交汇,350 页 ppt
Tracxn:2025 全球飞行汽车行业市场研究报告(45 页)
谷歌:2024 人工智能短跑选手(AI Sprinters):捕捉新兴市场 AI 经济机遇报告(39 页)
【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习
《基于传感器的机器学习车辆分类》最新 170 页
美国安全与新兴技术中心:2025 CSET 对美国人工智能行动计划的建议(18 页)
罗兰贝格:2024 人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11 页)
兰德公司:2025 从研究到现实:NHS 的研究和创新是实现十年计划的关键报告(209 页)
康桥汇世(Cambridge Associates):2025 年全球经济展望报告(44 页)
国际能源署:2025 迈向核能新时代
麦肯锡:人工智能现状,组织如何重塑自身以获取价值
威立(Wiley):2025 全球科研人员人工智能研究报告(38 页)
牛津经济研究院:2025 TikTok 对美国就业的量化影响研究报告:470 万岗位(14 页)
国际能源署(IEA):能效 2024 研究报告(127 页)
Workday :2025 发挥人类潜能:人工智能(AI)技能革命研究报告(20 页)
CertiK:Hack3D:2024 年 Web3.0 安全报告(28 页)
世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告
迈向推理时代:大型语言模型的长链推理研究综述
波士顿咨询:2025 亚太地区生成式 AI 的崛起研究报告:从技术追赶者到全球领导者的跨越(15 页)
安联(Allianz):2025 新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33 页)
IMT:2025 具身智能(Embodied AI)概念、核心要素及未来进展:趋势与挑战研究报告(25 页)
IEEE:2025 具身智能(Embodied AI)综述:从模拟器到研究任务的调查分析报告(15 页)
CCAV:2025 当 AI 接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124 页)
《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页
《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》
全国机器人标准化技术委员会:人形机器人标准化白皮书(2024 版)(96 页)
美国国家科学委员会(NSB):2024 年研究与发展 - 美国趋势及国际比较(51 页)
艾昆纬(IQVIA):2025 骨科手术机器人技术的崛起白皮书:创新及未来方向(17 页)
NPL&Beauhurst:2025 英国量子产业洞察报告:私人和公共投资的作用(25 页)
IEA PVPS:2024 光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65 页)
AGI 智能时代:2025 让 DeepSeek 更有趣更有深度的思考研究分析报告(24 页)
2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37 页)
华为:2025 鸿蒙生态应用开发白皮书(133 页
《超级智能战略研究报告》
中美技术差距分析报告 2025
欧洲量子产业联盟(QuIC):2024 年全球量子技术专利态势分析白皮书(34 页)
美国能源部:2021 超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60 页)
罗马大学:2025 超级高铁(Hyperloop):第五种新型交通方式 - 技术研发进展、优势及局限性研究报告(72 页)
兰德公司:2025 灾难性网络风险保险研究报告:市场趋势与政策选择(93 页)
GTI:2024 先进感知技术白皮书(36 页)
AAAI:2025 人工智能研究的未来报告:17 大关键议题(88 页)
安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告
威达信:2025 全球洪水风险研究报告:现状、趋势及应对措施(22 页)
兰德公司:迈向人工智能治理研究报告:2024EqualAI 峰会洞察及建议(19 页)
哈佛商业评论:2025 人工智能时代下的现代软件开发实践报告(12 页)
德安华:全球航空航天、国防及政府服务研究报告:2024 年回顾及 2025 年展望(27 页)
奥雅纳:2024 塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28 页)
HSOAC:2025 美国新兴技术与风险评估报告:太空领域和关键基础设施(24 页)
Dealroom:2025 欧洲经济与科技创新发展态势、挑战及策略研究报告(76 页)
《无人机辅助的天空地一体化网络:学习算法技术综述》
谷歌云(Google Cloud):2025 年 AI 商业趋势白皮书(49 页)
《新兴技术与风险分析:太空领域与关键基础设施》最新报告
150 页!《DeepSeek 大模型生态报告》
军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态 - 250309(40 页)
真格基金:2024 美国独角兽观察报告(56 页)
璞跃(Plug and Play):2025 未来商业研究报告:六大趋势分析(67 页)
国际电工委员会(IEC):2025 智能水电技术与市场展望报告(90 页)
RWS:2025 智驭 AI 冲击波:人机协作的未来研究报告(39 页)
未来今日研究所 2025 年科技趋势报告第 18 版 1000 页
模拟真实世界:多模态生成模型的统一综述
中国信息协会低空经济分会:低空经济发展报告(2024 - 2025)(117 页)
浙江大学:2025 语言解码双生花:人类经验与 AI 算法的镜像之旅(42 页)
人形机器人行业:由 “外” 到 “内” 智能革命 - 250306(51 页)
大成:2025 年全球人工智能趋势报告:关键法律问题(28 页)
北京大学:2025 年 DeepSeek 原理和落地应用报告(57 页)
欧盟委员会 人工智能与未来工作研究报告
加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用
电子行业:从柔性传感到人形机器人触觉革命 - 250226(35 页)
RT 轨道交通:2024 年中国城市轨道交通市场数据报告(188 页)
FastMoss:2024 年度 TikTok 生态发展白皮书(122 页)
Check Point:2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议(57 页)
【AAAI2025 教程】评估大型语言模型:挑战与方法,199 页 ppt
《21 世纪美国的主导地位:核聚变》最新报告
沃尔特基金会(Volta Foundation):2024 年全球电池行业年度报告(518 页)
国际科学理事会:2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告(英文版)(118 页)
光子盒:2025 全球量子计算产业发展展望报告(184 页)
奥纬论坛:2025 塑造未来的城市研究报告:全球 1500 个城市的商业吸引力指数排名(124 页)
Future Matters:2024 新兴技术与经济韧性:日本未来发展路径前瞻报告(17 页)
《人类与人工智能协作的科学与艺术》284 页博士论文
《论多智能体决策的复杂性:从博弈学习到部分监控》115 页
《2025 年技术展望》56 页 slides
大语言模型在多智能体自动驾驶系统中的应用:近期进展综述
【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
皮尤研究中心:2024 美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28 页)
空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理 - 250224(33 页)
Gartner:2025 网络安全中的 AI:明确战略方向研究报告(16 页)
北京大学:2025 年 DeepSeek 系列报告 - 提示词工程和落地场景(86 页)
北京大学:2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用(99 页)
CIC 工信安全:2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42 页)
中科闻歌:2025 年人工智能技术发展与应用探索报告(61 页)
AGI 智能时代:2025 年 Grok - 3 大模型:技术突破与未来展望报告(28 页)
上下滑动查看更多
来源:人工智能学家