斯坦福华人天团意外爆冷!AI用纯CUDA-C编内核,竟干翻PyTorch
本想练练手合成点数据,没想到却一不小心干翻了PyTorch专家内核!斯坦福华人团队用纯CUDA-C写出的AI生成内核,瞬间惊艳圈内并登上Hacker News热榜。团队甚至表示:本来不想发这个结果的。
本想练练手合成点数据,没想到却一不小心干翻了PyTorch专家内核!斯坦福华人团队用纯CUDA-C写出的AI生成内核,瞬间惊艳圈内并登上Hacker News热榜。团队甚至表示:本来不想发这个结果的。
下面是一个使用PyTorch构建的CIFAR-10图像分类模型,通过深度卷积神经网络(CNN)和多种优化技术达到接近90%的准确率(在CIFAR-10数据集上接近1的准确率实际上是指接近人类水平识别精度,约94-96%,但完全达到100%几乎不可能)。
近年来,深度学习在从大型语言模型(LLM)到机器人技术再到医疗人工智能的众多领域展现出了显著成效。随着研究资源的持续投入,这一领域通过架构创新、更大规模的数据集和先进硬件而不断发展。然而,深度学习的基础构建模块——人工神经元,自1943年首次数学表述以来几乎保
近年来,PyTorch已在学术界和工业界稳固了其作为主流深度学习框架的地位。随着PyTorch 2.0的发布,其核心功能之一torch.compile为用户提供了显著的性能优化能力。本文将从实用角度出发,介绍一些torch.compile的核心技巧,以提升日常
近日,摩尔线程正式发布Torch-MUSA v2.0.0版本,这是其面向PyTorch深度学习框架的MUSA扩展库的重要升级。新版本基于MUSA Compute Capability 3.1计算架构,支持原生FP8数据类型,支持PyTorch 2.5.0,并通
在神经网络研究的前沿,我们正面临着模型精度与运行效率之间的权衡挑战。尽管架构优化、层融合和模型编译等技术已取得显著进展,但这些方法往往不足以同时满足边缘设备部署所需的模型尺寸和精度要求。
在探索三维重建技术的过程中,从传统的多视图几何到现代深度学习方法,神经辐射场(NeRF)技术凭借其简洁而高效的特性脱颖而出。本文旨在提供一个全面的NeRF实现指南,基于PyTorch框架从基础原理到完整实现进行详细阐述。
在我最近发表的几篇文章中,我谈到了生成式深度学习算法,这些算法大多与文本生成任务有关。所以,我认为现在转向图像生成的生成算法研究会很有趣。我们知道,如今已经有很多专门用于生成图像的深度学习模型,例如自动编码器、变分自动编码器(VAE)、生成对抗网络(GAN)和
近期发布的LLaMA 4模型引入了混合专家(Mixture of Experts, MoE)架构,旨在提升模型效率和性能。尽管社区对LLaMA 4的实际表现存在一些讨论,但MoE作为一种重要的模型设计范式,继Mistral等模型之后再次受到关注。
在深度学习工程实践中,当训练大型模型或处理大规模数据集时,上述错误信息对许多开发者而言已不陌生。这是众所周知的CUDA out of memory错误——当GPU尝试为张量分配空间而内存不足时发生。这种情况尤为令人沮丧,特别是在已投入大量时间优化模型和代码后遭
扩散模型(Diffusion Models)和流匹配(Flow Matching)是用于生成高质量、连贯性强的高分辨率数据(如图像和机器人轨迹)的先进技术。在图像生成领域,扩散模型的代表性应用是Stable Diffusion,该技术已成功迁移至机器人学领域,
2025年6月7日,PyTorch Day将首次登陆中国大陆,作为2025智源大会(BAAI Conference)最重要的分论坛之一,PyTorch Day China由PyTorch基金会与北京智源人工智能研究院 (BAAI) 联合主办。现诚挚邀请全球开发
论文 linux基金会 pytorch pytorchday 2025-04-08 12:03 7
在大规模深度学习模型训练过程中,GPU内存容量往往成为制约因素,尤其是在训练大型语言模型(LLM)和视觉Transformer等现代架构时。由于大多数研究者和开发者无法使用配备海量GPU内存的高端计算集群,因此掌握有效的内存优化技术变得尤为关键。本文将系统性地
import torchimport torch.nn as nnimport torch.optim as optim# 生成数据x = torch.randn(100, 1)y = 2 * x + 1 + 0.1 * torch.randn(100, 1)
本系列是对《动手学深度学习》2.0.0书中代码的复现,这本书由阿斯顿·张,李沐等编写,其介绍了深度学习领域的一些基本的背景知识,概念逻辑,使用PyTorch框架实现了一些基本的神经网络结构。
在 PyTorch中存在有很多预先收集好的数据集合,比如在 Vision中就包含有很多图片训练集合,下面下载 FASHION MNIST 数据集合到本地,检查一下对应的数据格式。
导语自 2015 年 TensorFlow 开源以来,伴随着深度学习的迅猛发展,通用深度学习框架经历了 10 年的高速发展,大浪淘沙,余者寥寥。曾几何时,也有过性能与易用性之争,也有过学术界和工业界之分,但随着本轮大模型应用的推波助澜,PyTorch 无疑已经
设置PyTorch云服务器需选择云平台,创建合适的GPU实例,安装操作系统、Python及Anaconda,创建虚拟环境,根据CUDA版本安装PyTorch,配置环境变量,最后验证安装。过程中需考虑GPU加速和并行计算优化。完成后,定期监测资源使用情况以优化