GTC25 | NVIDIA CUDA 库开拓新市场

360影视 欧美动漫 2025-03-27 17:32 2

摘要:NVIDIA CEO 黄仁勋在近期的精彩主题演讲中再次强调了 NVIDIA CUDA 库的重要性。在此,NVIDIA 企业开发者社区总结了典型 CUDA 库以及相关应用博客,希望对相关领域的开发者朋友能够有所帮助!

NVIDIA CEO 黄仁勋在近期的精彩主题演讲中再次强调了 NVIDIA CUDA 库的重要性。在此,NVIDIA 企业开发者社区总结了典型 CUDA 库以及相关应用博客,希望对相关领域的开发者朋友能够有所帮助!

PHYSICS

WARP

NVIDIA Warp 是一个开发者框架,用于在 Python 中构建和加速数据生成和空间计算。Warp 让程序员能够轻松编写用于仿真 AI、机器人开发和机器学习(ML)的 GPU 加速、基于内核的程序。借助 Warp,Python 开发者可以创建 GPU 加速的 3D 仿真工作流,从而在 PyTorch、JAX、Modulus 和 NVIDIA Omniverse™ 中驱动 ML 工作流。优势包括仿真性能等同于原生 CUDA 代码,以及 Python 的便捷性和开发者工作效率。

▶ 相关博客(详情请点击文末“阅读原文”,下同):

开始使用 NVIDIA RTX 套件进行神经渲染

使用 NVIDIA Nsight Graphics 优化图形应用的 GPU 工作负载

Warp 1.5.0 引入图块化编程

DATA SCIENCE & PROCESSING

cuDF

cuDF(“KOO-dee-eff”)发音为是一个用于加载、连接、聚合、过滤和以其他方式操作数据的 GPU DataFrame 库。cuDF 利用 libcudf(一个超快的 C++/CUDA 数据帧库)和 Apache Arrow 列格式来提供 GPU 加速的 pandas API。

▶ 相关博客:

使用 NVIDIA cuDF,pandas 读取 JSON 行文件速度提升100倍

掌握 cudf.pandas Profiler 实现 GPU 加速

Databricks 上的 RAPIDS: GPU 加速数据处理指南

RAPIDS cuDF 在 Google Colab 上瞬间加速 pandas 达 50 倍

RAPIDS cuDF 可将 pandas 加速近 150 倍,且无需更改代码

cuML

cuML 是一套快速的 GPU 加速机器学习算法,专为数据科学和分析任务而设计。我们的 API 与 Sklearn 的 API 相同,我们为从业者提供简单的拟合 - 预测 - 转换范式,而无需在 GPU 上编程。

▶ 相关博客:

利用 RAPIDS cuML 加速时间序列预测

适用于数据科学的 GPU 加速入门

COMPUTER AIDED ENGINEERING

cuDSS

NVIDIA cuDSS(预览版)是经过优化的第一代 GPU 加速的直接稀疏求解器库,用于求解具有超稀疏矩阵的线性系统。直接稀疏求解器是数值计算的重要组成部分,适用于自动驾驶和过程模拟等实时应用,在这些应用中,日益复杂和高吞吐量需要强大的直接求解器。

▶ 相关博客:

开始使用 NVIDIA RTX 套件进行神经渲染

使用 NVIDIA Nsight Graphics 优化图形应用的 GPU 工作负载

cuSPARSE

用于稀疏计算的 GPU 库 API。cuSPARSE 主机 API 提供 GPU 加速的基本线性代数例程,cuSPARSELt 主机 API 提供结构化稀疏支持,可利用稀疏张量核心实现 GEMM。稀疏技术在机器学习、AI、计算流体动力学、地震勘探和计算科学领域得到广泛应用。

▶ 相关博客:

使用 RAPIDS RAFT 进行机器学习和数据分析的可重用计算模式

cuFFT

NVIDIA cuFFT 库提供 GPU 加速的快速傅立叶变换 (FFT) 实现,用于构建跨学科的应用程序,例如深度学习、计算机视觉、计算物理学、分子动力学、量子化学以及地震和医学成像。

▶ 相关博客:

CUDA 12.0 编译器使用 nvJitLink 库支持运行时 LTO

AMGX

AmgX 提供了一条在 NVIDIA GPU 上加速核心求解器技术的简单路径。AmgX 可为模拟的计算密集型线性求解器部分提供高达 10 倍的加速,特别适合隐式非结构化方法。

DEEP LEARNING

TRT-LLM

NVIDIA TensorRT-LLM 为用户提供易于使用的 Python API 来定义大语言模型(LLM),并构建包含先进优化的 NVIDIA TensorRT 引擎,以便在 NVIDIA GPU 上高效执行推理。TensorRT-LLM 还包含用于创建用于执行 TensorRT 引擎的 Python 和 C++ 运行时的组件。

▶ 相关博客:

利用 NVIDIA Triton 和 NVIDIA TensorRT-LLM 及 Kubernetes 实现 LLM 扩展

使用 NVIDIA NeMo 和 NVIDIA TensorRT 模型优化器对 LLM 进行训练后量化

Megatron

NVIDIA Megatron-Core 是一个基于 PyTorch 的开源库,可在数千个 GPU 上以惊人的速度大规模训练大型模型。它采用 GPU 优化的训练技术,采用先进的系统级创新技术,所有这些创新均可通过可组合的 API 访问。Megatron-Core 与 NVIDIA NeMo™ 无缝集成,提供端到端云原生解决方案,用于构建、自定义和部署大语言模型(LLM)。

▶ 相关博客:

使用 Whisper 和 Canary 架构部署 NVIDIA Riva 多语种 ASR,同时选择性地停用 NMT

利用新的 NVIDIA Megatron-Core 功能高效训练生成式 AI 模型

使用 NVIDIA NeMo 和 NVIDIA TensorRT 模型优化器对 LLM 进行训练后量化

NCCL

NVIDIA 集合通信库(NCCL)可实现针对 NVIDIA GPU 和网络进行性能优化的多 GPU 和多节点通信基元。NCCL 提供了 all-gather、all-reduce、broadcast、reduce、reduce-scatter、point-to-point send 和 receive 等例程,这些例程均经过优化,可通过节点内的 PCIe 和 NVLink 高速互联以及节点间的 NVIDIA Mellanox 网络实现高带宽和低延迟。

▶ 相关博客:

在 NVIDIA DGX 云上确保模型训练可靠性

NVIDIA 集合通信库 2.23 促使新的缩放算法和初始化方法的诞生

cuDNN

NVIDIA CUDA® 深度神经网络库(cuDNN)是一个 GPU 加速的深度神经网络基元库,能够以高度优化的方式实现标准例(如前向和反向卷积、池化层、归一化和激活层)。

▶ 相关博客:

AI 基础模型增强癌症诊断并实现个性化治疗

使用 NVIDIA cuDNN 9 加速多个 Transformer

神经网络通过检查绘画的笔触来精确定位艺术家

CUTLASS

CUTLASS 是 CUDA C++ 模板抽象的集合,用于在 CUDA 内的所有级别和规模上实现高性能矩阵乘法(GEMM)。

▶ 相关博客:

优化 CUDA C++ 编译时间

cuBLAS

cuBLAS 库可提供基本线性代数子程序(BLAS)的 GPU 加速实现。cuBLAS 利用针对 NVIDIA GPU 高度优化的插入式行业标准 BLAS API,加速 AI 和 HPC 应用。cuBLAS 库包含用于批量运算、跨多个 GPU 的执行以及混合精度和低精度执行的扩展程序。通过使用 cuBLAS,应用将能自动从定期性能提升及新的 GPU 体系架构中受益。cuBLAS 库包含在 NVIDIA HPC SDK 和 CUDA 工具包中。

▶ 相关博客:

在 cuBLAS 中引入分组 GEMM API 以及更多性能更新

QUANTUM CHEMISTRY

cuEquivariance

cuEquivariance 是一个 Python 库,旨在促进使用分段张量乘积构建高性能等方差神经网络。cuEquivariance 提供了一个全面的 API,用于描述分段张量乘积,以及用于执行这些乘积的优化 CUDA 核函数。此外,cuEquivariance 还为 PyTorch 和 JAX 提供绑定,确保广泛的兼容性和易于集成。

▶相关博客:

NVIDIA cuEquivariance 数学库助力药物和材料研发加速

cuTENSOR

NVIDIA cuTENSOR 是一个 GPU 加速的张量线性代数库,用于张量收缩、归约和元素级运算。借助 cuTENSOR,应用可以利用 NVIDIA GPU 上的专用 Tensor Core 实现高性能张量计算,并加速深度学习训练和推理、计算机视觉、量子化学和计算物理工作负载。

▶ 相关博客:

cuTENSOR 2.0:应用程序和性能

cuTENSOR 2.0:用于加速张量计算的全面指南

QUANTUM COMPUTING

cuQuantum

作为一个包含经过优化的库和工具的 SDK,NVIDIA cuQuantum 可用于加速量子计算工作流。借助 NVIDIA Tensor Core GPU,开发者可以使用 cuQuantum 将基于状态向量和张量网络方法的量子电路模拟加速一个数量级。

▶ 相关博客:

借助新的量子动力学功能加速 Google 的 QPU 开发

借助 NVIDIA cuQuantum 23.10 加速量子电路模拟

借助宝马集团和 NVIDIA cuQuantum 对量子计算应用程序进行基准测试

CUDA Quantum 0.5 为量子经典计算提供新功能

量子经典超级计算机的编程

CUDA-Q

CUDA-Q 是一个开源量子开发平台,它编排了运行有用的大规模量子计算应用所需的硬件和软件。

▶ 相关博客:

NVIDIA CUDA-Q 在 Infleqtion QPU 上运行突破性逻辑 Qubit 应用

隆重推出用于加速量子超级计算的 NVIDIA CUDA-QX 库

WEATHER ANALYTICS

EARTH-2

NVIDIA Earth-2 将 AI、GPU 加速、物理仿真和计算机图形的强大功能相结合,以超高的准确性和速度在全球范围内模拟和可视化天气和气候预测。该平台由用于 AI、可视化和仿真微服务及参考实现组成。

▶ 相关博客:

MEDICAL IMAGING

MONAI

MONAI 框架是 Project MONAI 创建的开源基础。MONAI 是一个免费的、社区支持的、基于 PyTorch 的框架,用于医疗健康成像领域的深度学习。它提供针对领域优化的基础功能,用于在原生 PyTorch 范式中开发医疗健康成像训练工作流。

▶ 相关博客:

MONAI 成立 5 周年,庆祝开放科学和企业 AI 创新

借助 NVIDIA MONAI Cloud API 加速 3D 医学影像的 AI 工作流

在研究突破和临床采用的推动下, MONAI 达到 100 万下载里程碑

GENE SEQUENCING

Parabricks

NVIDIA® Parabricks® 是一个可扩展的基因组学分析软件套件,能够充分利用全栈加速计算在几分钟内处理数据。它与所有领先的测序仪器兼容,支持多种生物信息学工作流程,并集成了 AI,有助于实现超高的准确性,并允许用户随心定制。Parabricks 是一种经济高效且节省空间的解决方案,非常适合用于侧重推进疾病理解和管理的大型基因组学项目。

▶ 相关博客:

利用 NVIDIA Parabricks 加速 Pangenome 比对挖掘新的生物学发现

用于空间组学的细胞成像特征提取和形态聚类

借助 NVIDIA AI 基础模型 VISTA-2D 推进细胞分割和形态分析

借助 GPU 加速和生成式 AI 加速多组分析

借助 NVIDIA Parabricks v4.2 加速任何测序器的基因组分析

GENE SEQUENCING

Parabricks

▶ 相关博客:

DECISION OPTIMIZATION

cuOpt

NVIDIA® cuOpt™ 能够借助加速计算更快地做出更好的决策,从而优化运营。cuOpt 能够帮助团队解决具有多重约束的复杂路线规划问题,并且能够提供动态重新规划路线、作业调度和机器人仿真等新功能,同时实现亚秒级求解器响应时间。凭借 23 项创下世界纪录的基准,cuOpt 包揽了过去三年内最大路线规划基准方面的世界纪录。

▶ 相关博客:

突破性的 NVIDIA cuOpt 算法将路线优化解决方案的速度提高 100 倍

体验 NVIDIA cuOpt 加速优化,提高运营效率

NVIDIA cuOpt 加速大型线性编程问题解决

聚焦:clicOH 借助 NVIDIA cuOpt 将最后一英里交付速度提高 20 倍

5G/6G SIGNAL PROCESSING

AERIAL

NVIDIA Aerial 是一套用于设计、模拟和操作无线网络的加速计算平台、软件和服务。Aerial 包含用于电信公司、云服务提供商(CSP)和构建商业 5G 网络的企业的强化 RAN 软件库。学术和行业研究人员可以访问云端或本地 Aerial 设置,用于 6G 方面的高级无线、人工智能和机器学习(ML)研究。

▶ 相关博客:

2024 年 NVIDIA 6G 开发者日的 5 大关键收获

借助 NVIDIA Aerial CUDA 加速 RAN,增强 5G/6G 的 DU 性能和工作负载整合

借助 NVIDIA 6G 开发者计划加速无线通信的未来

SIONNA

Sionna™ 是一个 GPU 加速的开源库,用于链路级模拟。此开源库支持对复杂的通信体系架构进行快速的原型设计,并为在 6G 信号处理中机器学习集成提供原生支持。

▶ 相关博客:

实时神经接收器推动 AI-RAN 创新

使用 NVIDIA Sionna 进行跨接链路级模拟

COMPUTATIONAL LITHOGRAPHY

cuLITHO

NVIDIA cuLitho 是一个库,包含优化的工具和算法, 用于 GPU 加速计算光刻和半导体制造工艺, 比目前基于 CPU 的方法多个数量级。

▶ 相关博客:

SDK 加速行业 5.0 、数据管道、计算科学等在 GTC 2023 上亮相

NUMERICAL COMPUTING

cuPyNumeric

NVIDIA cuPyNumeric 立志成为 NumPy 的嵌入式替代库,将 NVIDIA 平台上的分布式和加速计算引入 Python 社区。

▶ 相关博客:

借助 NVIDIA cuPyNumeric,将 NumPy 无缝扩展从笔记本电脑到超级计算机

GTC25 | NVIDIA CUDA 库开拓新市场 - CUDA - NVIDIA 开发者论坛

来源:NVIDIA英伟达中国

相关推荐