- 移动版

主题：刚刚，英伟达CUDA迎来史上最大更新！

爱我中华发表于 2025-12-07 14:10

ype」（结果类型）列，用于区分 Tile 核函数与 SIMT 核函数。详情页新增「Tile Statistics」（Tile 统计）部分，总结 Tile 维度和重要管线（pipeline）的利用率。源码页支持将指标映射到高层级的 cuTile 核函数源码。源码页Nsight Compute 分析，重点展示了分析输出中的 Tile Statistics 部分此次发布的 Nsight Compute 还增加了对设备端启动的图（device-launched graphs）中 CUDA 图节点的分析支持，并改进了源码页导航，为编译器生成和用户生成的标签提供了可点击的链接。编译时修补NVIDIA Compute Sanitizer 2025.4 通过 -fdevice-sanitize=memcheck 编译器标志，增加了对 NVIDIA CUDA 编译器（NVCC）编译时修补（patching）的支持。这种修补增强了内存错误检测能力，并提升了 Compute Sanitizer 的性能。编译时插桩（instrumentation）可将错误检测直接集成到 NVCC 中，从而实现更快的运行速度，并通过高级的基址 - 边界分析（base-and-bounds analysis）捕捉更隐蔽的内存问题（如相邻分配间的非法访问）。这意味着开发者可以在不牺牲速度的情况下调试内存问题，运行更多测试并保持生产力。目前，该功能仅支持 memcheck 工具。要使用此新功能，请使用如下 NVCC 标志编译代码：nvcc -fdevice-sanitize=memcheck -o myapp myapp.cu然后使用 memcheck 工具运行你的应用：compute-sanitizer --tool memcheck myappNVIDIA Nsight SystemsNVIDIA Nsight Systems 2025.6.1 与 CUDA Toolkit 13.1 同步发布，带来了多项新的追踪功能：系统级 CUDA 追踪：--cuda-trace-scope 可开启跨进程树或整个系统的追踪。CUDA 主机函数追踪：增加了对 CUDA Graph 主机函数节点和 cudaLaunchHostFunc 的追踪支持，这些函数在主机上执行并会阻塞流（stream）。CUDA 硬件追踪：在支持的情况下，基于硬件的追踪现在成为默认模式；使用 --trace=cuda-sw 可恢复为软件模式。Green Context 时间轴行现在会在工具提示中显示 SM 分配情况，帮助用户理解 GPU 资源利用率。数学库核心 CUDA 工具包数学库的新功能包括：NVIDIA cuBLAS：一项全新的实验性 API，支持 Blackwell GPU 的分组 GEMM 功能，并兼容 FP8 和 BF16/FP16 数据类型。针对上述数据类型，支持 CUDA 图的分组 GEMM 提供了一种无需主机同步的实现方式，其设备端形状可实现最高 4 倍的加速，优于 MoE 用例中的多流 GEMM 实现。NVIDIA cuSPARSE：一种新的稀疏矩阵向量乘法 (SpMVOp) API，与 CsrMV API 相比性能有所提升。该 API 支持 CSR 格式、32 位索引、双精度以及用户自定义的后缀。NVIDIA cuFFT：一套名为 cuFFT 设备 API 的全新 API，提供主机函数，用于在 C++ 头文件中查询或生成设备功能代码和数据库元数据。该 API 专为 cuFFTDx 库设计，可通过查询 cuFFT 来生成 cuFFTDx 代码块，这些代码块可以与 cuFFTDx 应用程序链接，从而提升性能。针对新的 Blackwell 架构，现已推出性能更新。用户可选择关键 API 进行更新，并查看性能更新详情。cuBLAS Blackwell 性能CUDA Toolkit 12.9 在 NVIDIA Blackwell 平台上引入了块缩放的 FP4 和 FP8 矩阵乘法。CUDA 13.1 增加了对这些数据类型和 BF16 的性能支持。图 2 显示了在 NVIDIA Blackwell 和 Hopper 平台上的加速比。在 NVIDIA Blackwell 和 Hopper 平台上的加速比cuSOLVER Blackwell 性能CUDA 13.1 继续优化用于特征分解的批处理 SYEVD 与 GEEV API，并带来了显著的性能增强。其中，批处理 SYEV（cusolverDnXsyevBatched）是 cuSOLVER 中 SYEV 例程的统一批处理版本，用于计算对称／Hermitian 矩阵的特征值与特征向量，非常适合对大量小矩阵进行并行求解的场景。图 3 展示了在批大小为 5,000（矩阵行数 24–256）的测试结果。与 NVIDIA L40S 相比，NVIDIA Blackwell RTX Pro 6000 Server Edition 实现了约 2 倍的加速，这与预期的内存带宽提升相吻合。在批大小为 5000（矩阵行数 24–256）的测试结果对于复数单精度和实数单精度两类矩阵，当行数N = 5时，加速比约为1.5×，并随着行数增大逐渐提升，在N = 250 时达到 2.0×。图 4 显示了 cusolverDnXgeev (GEEV) 的性能加速比，该函数用于计算一般（非对称）稠密矩阵的特征值和特征向量。GEEV 是一种混合 CPU/GPU 算法。单个 CPU 线程负责在 QR 算法中执行高效的早期降阶处理，而 GPU 则处理其余部分。图中显示了矩阵大小从 1,024 到 32,768 的相对性能加速比。cusolverDnXgeev (GEEV) 的性能加速比当矩阵行数n = 5000时，加速比约为1.0，并随着矩阵规模增大逐渐提升，在n = 30000 时达到约 1.7。NVIDIA CUDA 核心计算库NVIDIA CUDA Core 计算库 (CCCL) 为 CUB 带来了多项创新和增强功能。确定性浮点运算简化由于浮点加法不具备结合律，cub::DeviceReduce 历史上只能保证在同一 GPU 上每次运行得到位上完全相同的结果。这被实现为一个两遍算法。作为 CUDA 13.1 的一部分， NVIDIA CCCL 3.1 提供了两个额外的浮点确定性选项，您可以根据这些选项在确定性和性能之间进行权衡。不保证：使用原子操作进行单次归约。这不能保证提供位上完全相同的结果。GPU 间：基于 Kate Clark 在 NVIDIA GTC 2024 大会上演讲中可复现的降维结果。结果始终逐位相同。可以通过标志位设置确定性选项，如下面的代码所示。演示代码数据对比更便捷的单相 CUB API几乎所有 CUB 算法都需要临时存储空间作为中间暂存空间。过去，用户必须通过两阶段调用模式来查询和分配必要的临时存储空间，如果两次调用之间传递的参数不一致，这种模式既繁琐又容易出错。CCCL 3.1 为一些接受内存资源的 CUB 算法添加了新的重载，从而用户可以跳过临时存储查询 / 分配 / 释放模式。演示代码CUDA Tile 资源链接：https://developer.nvidia.com/cuda/tileCUDA Toolkit 13.1 下载地址：https://developer.nvidia.com/cuda-downloads参考链接https://developer.nvidia.com/blog/focus-on-your-algorithm-nvidia-cuda-tile-handles-the-hardwarehttps://developer.nvidia.com/blog/nvidia-cuda-13-1-powers-next-gen-gpu-programming-with-nvidia-cuda-tile-and-performance-gainshttps://x.com/NVIDIAAIDev/status/1996976702732620271https://developer.nvidia.com/blog/simplify-gpu-programming-with-nvidia-cuda-tile-in-python© THE END本文来自微信公众号“机器之心”，36氪经授权发布。

回帖(9)：

9 ^# huwg
12-08 00:31

谢谢分享

8 ^# huwg
12-08 00:31

了解一下

7 ^# huwg
12-08 00:31

来看看了

6 ^# srwam
12-07 22:13

看后续

5 ^# srwam
12-07 22:13

了解一下

4 ^# srwam
12-07 22:13

来看看

3 ^# hanxiao129
12-07 15:56

学习经验，努力生活

2 ^# hanxiao129
12-07 15:55

不错的导读，谢谢楼主分享

1 ^# hanxiao129
12-07 15:53

楼主分享非常不错的

全部回帖(9)»