摘要:我们的一切都是从1993年开始的,当英伟达开始设计第一款游戏的GPU的时候,我们希望能够让整个的游戏机能做出普通游戏机不能实现的功能,因此我们在整个设计游戏的过程之中,我们的编程是采用了CUDA。后来的话,我们又把CUDA进一步的设计成统一的游戏架构。
在1月6日拉斯维加斯的CES峰会上,黄仁勋终于现身了!
出场就让直播间的评论区炸了,黄教主上身blingbling的新皮夹克引起了网友的好奇,这是鳄鱼皮的吗,有链接吗,这得几万刀吧(狗头)?
“大家喜欢我的新皮夹克吗?”
黄仁勋开场用了10分钟的时间介绍了英伟达的成长史,他回忆了GeForce显卡和CUDA、AI的容器三个阶段的标志性里程碑。
我们的一切都是从1993年开始的,当英伟达开始设计第一款游戏的GPU的时候,我们希望能够让整个的游戏机能做出普通游戏机不能实现的功能,因此我们在整个设计游戏的过程之中,我们的编程是采用了CUDA。后来的话,我们又把CUDA进一步的设计成统一的游戏架构。
最开始的时候,1999年,我们推出了“”GeForce”的显卡。6年之后,我们重新设计了另外一款可以编程的GPU。2006年,我们真正的发明了CUDA,它能够去以一种命令行、科学的方式去解释、去分享和表达我们的GPU。
最开始的时候是很难被人理解的,实际上我们花了数年的时间,甚至是6年或更久的时间,让人们去理解CUDA的这样一个编程。
所有的一切,都是从过去20多年的努力开始的,我们一直在GPU处理器上处于领先的地位,GPU也是让整个现代计算机的图像成型的基础处理器。
再后来就是2012年Alex和2018年的Transformer的诞生,以神经网络为代表的人工智能被落地在了GPU上。事实上GPU,在很多情况下都和AI的利益结合在一起,成为了AI的房屋,成为了AI的容器。现在我觉得AI已经到了类似GForce的这样一个阶段,人们可以像当年基于GeForce显卡一样实现不一样的游戏一样,用AI可以做出很多很酷的产品或功能,比如大家现在看到的实时计算机渲染图像的应用。
右手展示了自家最新的GPU——RTX 5090,左手则是用来对比的RTX 4090。
黄教主这次上来并没有直接突出说性能如何,上来就直接说价格:
那对于RTX 4090级性能表现的话,我们决定把它降价到549美元(4000块钱~)。如果没有人工智能,这个价格都是不可能的。
“对于RTX 4090,我知道大家都说它太贵了,它是1599美元。不过它也是大家目前为止能做出的最好的一个投资,对于1599美元,你带回家了一个价值上万的数字家庭影院,难道不是吗?”
新发布的GPURTX50系列,总共有四款AI处理器,其中RTX5070就可以用$549的价格来实现,4090级别的性能,直接省去了1000多刀。
这还没完,大家都知道如何让这些牛逼的GPU真正进入到大家的使用场景中,才是老黄关注的,(当然也是在CES这种场合必须要亮相实际AI产品),老黄直接抛出了英伟达新推出的基于RTX5070的笔记本,便于大家去使用和管理GPU,只需要4090机一半的能耗,定价1299美元(不到一万块钱,9500左右。)
这个是RTX5070电脑,1299美元,就可以有RTX4090的同样的性能表现。给大家展示一下我们最新这款计算机。大家可以看一下这款计算机。
至于RTX5090有多强?这里列出几个参数:920亿个晶体管、4000 AI TOPS(每秒万亿次操作)的性能,具备1.8 TB/s 的内存带宽,能够快速地读取和写入数据,能够实现380 RT TFLOPS(每秒万亿次浮点运算)的光线追踪性能,具有125 Shader TFLOPS 的着色器性能。
相信对于游戏开发者而言,更能品出来这意味着什么,3A大作的制作周期有望大大缩短了!
黄仁勋是这样讲的,相比上一代架构,Blackwell 在每瓦性能上提高了 4 倍,在 每美元性能 上提高了 3 倍。这意味着,在相同成本下,训练模型的规模可以增加 3 倍,而这些改进背后的关键是生成 AI token 。这些 token 被广泛应用于 ChatGPT、Gemini 和各种 AI 服务中,是未来计算的基础。
不过性能最强的RTX 5090也是卖出了高价:1999美元(约14651元),大家看情况要不要尝尝鲜。
此外,仍然值得一提的是老黄在Blackwell架构关键的互联技术也来了波新的——NVLink72。老黄称之为“整个处理中心的脊柱”。主要看下有哪些高光配置:
72个Blackwell GPU具备1.4 ExaFLOPS TE FP4计算能力晶体管数量达到130万亿拥有2592个 Grace CPU核心72个ConnectX - 8网络接口卡576个存储芯片,总容量14TB,带宽1.2PB/s18个NVLink交换机,全连接带宽130 TB/s为了介绍这个新的互联技术NVLink72,老黄甚至化身“美国队长”手持盾牌道具,整起活来。
黄仁勋是这样总结的新款GPU的——
Blackwell系统的奇迹在于其前所未有的规模,Blackwell芯片是人类历史上最大的单芯片;该系统的最终目标是增强我们在技术和创新方面的能力和体验。
而创建NVLink的根本目的是围绕主动型人工智能(Agentic AI),它展现了延长测试时间和提升客户互动的完美模型。
英伟达的目标是创建一个巨型芯片,该芯片将使用72个Blackwell GPU或144个芯片,超越世界上最快的超级计算机的能力。
黄仁勋透露,英伟达拥有多种(计算)系统,如NBLink 36x2和NBLink 72x1,能够满足全球几乎所有数据中心的需求,目前在约45家工厂生产。
小编解释一下:Blackwell 架构下的 72 块 GPU 组成了全球最大的单芯片系统,提供了高达 1.4 ExaFLOPS 的 AI 浮点性能,其内存带宽达到惊人的 1.2 PB/s,相当于全球所有互联网流量的总和。这种超级计算能力,使得 AI 能够处理更复杂的推理任务,同时显著降低成本,为更高效的计算奠定了基础。
据现场消息,Blackwell目前已全面投入生产,所有主要云服务提供商均已建立系统,提供约200种不同型号和配置,来自约15家硬件制造商。Blackwell相比于前一代在性能上实现了四倍的提升。黄仁勋宣布,基于Llama推出完整系列模型,采用NVIDIA Llama Nemo Tron语言基础模型。
那么除了造更强性能的芯片,英伟达这两年,都在跟客户忙那些新业务?
黄仁勋也不装了,紧接着在阐述了自己对于大模型现在存在的三种Scaling Law:预训练、后训练、测试时间计算之后,就开始了自己对于2025之后Agent的一些进展——
AI Agent 是新的数字劳动力,能够协助或代替人类完成任务。英伟达的 Agentic AI 构建模块、NEM 预训练模型和 Nemo 框架,帮助组织轻松开发并部署 AI Agent 。这些 Agent 可被训练为领域特定的任务专家。
以下是四个示例:
研究助理 Agent :能够阅读复杂文件,如讲座、期刊、财务报告等,并生成交互式播客,便于学习;
软件安全 AI Agent :帮助开发者持续扫描软件漏洞,并提示采取相应措施;
虚拟实验室 AI Agent :加速化合物设计与筛选,快速找到潜在药物候选者;
视频分析 AI Agent :基于 英伟达Metropolis 蓝图,分析来自数十亿摄像头的数据,生成交互式搜索、摘要和报告。例如,监控交通流量、设施流程,提供改进建议等。
“最后,我还有一个重要的内容想展示,所有这些都离不开我们十年前在公司内部启动的一个名为 Project Digits 的项目,完整名称为 Deep Learning GPU Intelligence Training System(深度学习 GPU 智能训练系统),简称 Digits。”
黄教主继续强化这样一种信号:英伟达不知是一家GPU公司,而是一个智能工厂!
在正式发布之前,我们对 DGX 进行了调整,使其与公司内部的 RTX、AGX、OVX 以及其他系列产品和谐一致。DGX1 的问世真正改变了 AI 的发展方向,而这也是英伟达对 AI 发展的一个里程碑。
DGX1 的初衷是为研究人员和初创企业提供开箱即用的 AI 超级计算机。想象一下,以往的超级计算机需要用户建造专属设施,设计和打造复杂的基础设施,才能实现其存在。而 DGX1 则是一台专门为 AI 开发设计的超级计算机,无需复杂操作,开箱即可使用。
“我还记得,2016 年我将第一台 DGX1 交付给一家初创公司—— OpenAI。当时,埃隆·马斯克(Elon Musk)、伊利亚·苏茨科维尔(Ilya Sutskever)以及 英伟达的许多工程师都在场,我们共同庆祝 DGX1 的到来。这台设备显著推动了 AI 计算的发展。”
不过,黄仁勋并没有满足于只服务于这些AI巨佬,黄仁勋想要让普通用户也能用得上这么强大的AI超级计算机。
“如今, AI 已经无处不在。不仅限于研究机构和初创企业实验室,正如我一开始提到的, AI 已经成为一种全新的计算方式和软件开发方式。每一位软件工程师、创意艺术家,甚至是使用电脑工具的普通用户,都需要一个 AI 超级计算机。所以,我一直希望 DGX1 能够更小一些。”
老黄顺势推出了英伟达最新的 AI 超级计算机,不过他还没有想好叫什么名字。
这款超级计算机可以运行 英伟达的完整 AI 软件栈,包括 DGX Cloud。它既可以用作云端超级计算机,也可以作为一台高性能的工作站,甚至是放在桌面上的分析工作站。最重要的是,它基于我们秘密开发的一款新芯片,代号 GB10,这是我们制造的最小型 Grace Blackwell。
我手里有一块芯片,给大家展示一下它的内部设计。这款芯片是与全球领先的 SoC 公司 联发科(MediaTek) 合作开发的。该 CPU SoC 专为 英伟达定制,使用 NVLink 芯片对芯片互连技术连接到 Blackwell GPU。这个小型芯片现在已经全面投产。我们预计这款超级计算机将在 5 月 左右正式上市。
该设备甚至提供了“双倍算力”的配置,可以将这些设备通过 ConnectX 连接在一起,支持 GPU 直通(GPUDirect)技术。它是一套完整的超级计算解决方案,能够满足 AI 开发、分析工作和工业应用的各种需求。
此外,还宣布了三款全新 Blackwell 系统的芯片量产、世界首个物理 AI 基础模型以及三大机器人领域的突破 —— 自主 AI Agent 机器人、人形机器人和自动驾驶汽车。(老黄理解的机器人分为三种:生成式AI机器人、类人机器人、自动驾驶汽车)
黄教主给出了三种例子——
首先是工业可视化方面,数字孪生工厂。
目前,全球有数百万工厂和数十万个仓库,它们构成了价值 50 万亿美元制造业的骨干。未来,这一切都需要实现软件定义和自动化,并融入机器人技术。我们与全球领先的仓库自动化解决方案提供商 Keon,以及全球最大的专业服务提供商 Accenture 合作,专注于数字化制造,共同创造一些非常特别的解决方案。我们的市场推广方式与其他软件和技术平台类似,通过开发者和生态系统合作伙伴进行,并且越来越多的生态伙伴接入了 Omniverse 平台。这是因为每个人都希望可视化工业的未来。在这 50 万亿美元的全球 GDP 中,有如此多的浪费,也有如此多的自动化机会。
来看 Keon 和 Accenture 与我们合作的这个示例:
Keon(供应链解决方案公司)、Accenture(全球专业服务领军者)和 英伟达正将物理 AI 引入价值万亿美元的仓库和配送中心市场。管理高效的仓库物流需要应对复杂的决策网络,这些决策受到不断变化的变量影响,例如每日及季节性需求变化、空间限制、劳动力供应,以及多样化机器人和自动化系统的整合。今天,要预测物理仓库的运营关键绩效指标(KPIs)几乎是不可能的。
为了解决这些问题,Keon 正在采用 Mega(一个 英伟达Omniverse 蓝图)来构建工业数字孪生,以测试和优化机器人车队。首先,Keon 的仓库管理解决方案将任务分配给数字孪生中的工业 AI 大脑,例如将货物从缓冲区位置移动到穿梭存储解决方案。机器人车队在 Omniverse 中的物理仓库模拟环境中,通过感知和推理执行任务,规划下一步动作并采取行动。
数字孪生环境使用传感器模拟,让机器人大脑可以看到任务执行后的状态,并决定接下来的动作。在 Mega 的精确追踪下,整个循环持续进行,同时测量操作 KPI,如吞吐量、效率和利用率,所有这些都在对物理仓库进行改动之前完成。
借助英伟达的合作,Keon 和 Accenture 正在重新定义工业自治的未来。
未来,每个工厂都将拥有一个数字孪生,这个数字孪生与实际工厂完全同步。您可以利用 Omniverse 和 Cosmos 生成大量未来场景,AI 将决定最优的 KPI 场景,并将其作为实际工厂部署的约束条件和 AI 编程逻辑。
然后是,自动驾驶汽车。
自动驾驶革命已经到来。经过多年的发展,无论是 Waymo 还是 Tesla 的成功,都证明了自动驾驶技术的成熟。我们的解决方案为这一行业提供了三种计算机系统:用于训练 AI 的系统(如 DGX 系统)、用于模拟测试和生成合成数据的系统(如 Omniverse 和 Cosmos),以及车内的计算机系统(如 AGX 系统)。全球几乎所有主要汽车公司都在与我们合作,包括 Waymo、Zoox、Tesla,以及世界最大的电动车公司 BYD。
黄仁勋算了一笔账,每年有 1 亿辆汽车制造,全球道路上有 10 亿辆汽车行驶,每年行驶总里程高达万亿英里。这些将逐渐实现高度自动化或完全自动化。这一行业预计将成为首个价值数万亿美元的机器人行业。
还有即将推出创新车型的 Mercedes、Lucid、Rivian、小米和沃尔沃等公司。Aurora 则正在使用 英伟达技术开发自动驾驶卡车。
今天,我们宣布推出下一代车载计算机 Thor。它是一个通用机器人计算机,能够处理摄像头、高分辨率雷达、激光雷达等传感器的大量数据。Thor 是目前行业标准 Orin 的升级版,计算能力是其 20 倍,现已全面量产。同时,英伟达的 Drive OS 是首个被认证达到功能安全最高标准(ISO 26262 ASIL D)的 AI 计算机操作系统。
此外,这还没完,自动驾驶数据工厂也是一个亮点。
英伟达利用 Omniverse AI 模型和 Cosmos 平台创建自动驾驶数据工厂,通过合成驾驶场景大幅扩展训练数据。这包括:
OmniMap:融合地图和地理空间数据,构建可驾驶的 3D 环境;神经重建引擎:利用传感器日志生成高保真的 4D 仿真环境,并为训练数据生成场景变体;Edify 3DS:从资产库搜索或生成新的资产,创建用于仿真的场景。通过这些技术,我们将几千次的驾驶场景扩展为数十亿英里的数据,用于更安全、更先进的自动驾驶系统的开发。
最后,则是让人兴奋的通用机器人。
通用机器人的时代即将到来。推动这一领域突破的关键在于训练。
对于人形机器人来说,模仿数据的获取相对困难,但 英伟达的 Isaac Groot 提供了解决方案。它通过模拟生成海量数据集,并结合 Omniverse 和 Cosmos 的多宇宙仿真引擎,进行政策训练、验证和部署。
例如,开发者可以通过 Apple Vision Pro 远程操作机器人,捕捉数据而无需实体机器人,并在无风险环境中教学任务动作。通过 Omniverse 的领域随机化和 3D 到真实场景扩展功能,生成指数级增长的数据集,为机器人学习提供海量资源。
老黄最后来了一句:“一切皆仿真!”(当然是指在AI世界中。)
你看,无论是工业可视化、自动驾驶,还是通用机器人,黄仁勋都一个也不会放过,统统要用英伟达的技术去引领、去征服!
所以说,英伟达的3万亿美元市值绝对不只是靠GPU撑起来的,英伟达自己正在做类似于1999年12月推出GeForce显卡同样的事情,黄仁勋用了6年多的时间来教育市场,用CUDA完成了市场用户的心智占领,用可编程的生态工具,让人们相信可以造出不一样、更酷的游戏!
而这一次,英伟达用更强的Blackwell芯片和与之搭档的三大张略级计算工具,
告诉世界:通过AI,英伟达的真正野心是——
引导这个世界进“物理AI”时代!
来源:51CTO