GPU 测试开发的一些概念总结

张

张建站

2026/6/2 1:08:24

10分钟阅读

1. 常见概念1. NCCLNVIDIA Collective Communications Library做什么专门优化多 GPU / 多节点的集体操作AllReduce最常用梯度汇总Broadcast、Reduce、AllGather 等特点拓扑感知自动识别 NVLink / PCIe / InfiniBand选最优路径通信计算融合一个 kernel 做完通信和算术延迟低谁在用PyTorch DDP、DeepSpeed、Megatron-LM 底层默认就是 NCCL2. NVSHMEMNVIDIA SHMEM一句话把整个集群所有 GPU 显存拼成一个 “全局大内存”GPU 直接读写远程显存不用 CPU 中转。NVIDIA模型PGAS分区全局地址空间每个 GPU 都能直接访问别人的显存通信方式单边通信one‑sidedshmem_put写远程显存shmem_get读远程显存原子操作NVIDIA特点GPU 发起通信CUDA kernel 里直接发网络请求不用 CPU 启动适合细粒度、频繁的小数据访问比如 MoE 路由、稀疏计算和 NCCL 区别NCCL主打集合通信AllReduceNVSHMEM主打单边、点到点、细粒度3. UCXUnified Communication X一句话HPC/AI 的 “万能通信底座”统一 RDMA、共享内存、TCP 等所有底层传输上层MPI/NCCL/OpenSHMEM都可以基于它。定位通信框架的框架把不同硬件IB、RoCE、PCIe、共享内存统一成一套 API分层UCT底层传输层RDMA、SHM、TCPUCP高层协议层MPI、RMA 等特点性能接近原生硬件开销极低NCCL 可插 UCX 插件NVSHMEM、OpenMPI 都能用 UCX场景超算、大模型分布式训练、存储系统4. GDRCopyGPU Direct RDMA Copy一句话基于 GPUDirect RDMA 的CPU ↔ GPU 显存超低延迟拷贝库 **小数据比 cudaMemcpy 快很多。**传统 cudaMemcpy走 GPU 拷贝引擎 → 有 6–7us 固定开销小数据慢GDRCopy把 GPU 显存直接映射到用户态CPU 直接读写显存绕过内核、绕过系统内存微秒级延迟用途高频、小块 CPU ↔ GPU 数据交换UCX、NVSHMEM、OpenMPI 底层都用它加速限制CPU 占用更高只支持 Tesla/Quadro 卡5. GPUDirect RDMA一句话硬件级能力让网卡或其他 PCIe 设备直接读写 GPU 显存 **完全绕开 CPU 和主机内存。**NVIDIA传统路径GPU → 主机内存 → 网卡 → 网络两次拷贝 CPU 参与GPUDirect RDMA网卡 DMA 直接访问 GPU 显存零拷贝、无 CPU 干预NVIDIA条件GPU 网卡如 ConnectX‑6同 PCIe 根复合体NVIDIA地位GDRCopy、NVSHMEM、UCX、NCCLIB/RoCE 路径都依赖它大模型跨节点通信的性能基石6. 区别和联系GPUDirect RDMA✅硬件能力底层通道✅ 面向网卡 / 存储 ↔ GPU✅ CPU不能直接用只能第三方 PCIe 设备用NVIDIAGDRCopy✅软件库基于上述能力✅ 面向CPU ↔ GPU✅ 把显存暴露给 CPU用户态直接访问NVIDIA

3d旋转实战笔记

<!DOCTYPE html> <html lang="zh-CN"> <head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0, user-scalable=no"><title>3D模型旋转 - 固定旋转…...

2026/6/2 1:01:01 阅读更多 →

解锁MacBook Touch Bar在Windows的隐藏力量：DFRDisplayKm驱动深度解析

解锁MacBook Touch Bar在Windows的隐藏力量：DFRDisplayKm驱动深度解析【免费下载链接】DFRDisplayKm Windows infrastructure support for Apple DFR (Touch Bar) 项目地址: https://gitcode.com/gh_mirrors/df/DFRDisplayKm 你是否曾经为MacBook Pro的Touc…...

2026/6/2 1:00:27 阅读更多 →

Paperxie 破局双检困局：新一代论文降重与 AIGC 率协同优化技术实战

paperxie-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AI PPT降重复率 - PaperXie智能写作PaperXie免费论文查重检测-首款免费论文检测软件,为毕业生提供专业的论文重复率检测、论文降重、Aigc检测、智能排版、论文写作等一站式服务。https://www.paperxie.cn/…...

2026/6/2 0:57:18 阅读更多 →

智能水印工具终极指南：如何批量为照片添加专业相机参数水印

智能水印工具终极指南：如何批量为照片添加专业相机参数水印【免费下载链接】semi-utils 一个批量添加相机机型和拍摄参数的工具，后续「可能」添加其他功能。项目地址: https://gitcode.com/gh_mirrors/se/semi-utils 还在为数百张照片手动添加相…...

2026/5/31 0:06:17 阅读更多 →

Go语言可扩展性设计：水平扩展

Go语言可扩展性设计：水平扩展1. 引言在互联网时代，业务的快速增长对系统的扩展性提出了极高的要求。水平扩展（Scale Out）作为分布式系统的核心设计理念，能够通过增加服务器节点来提升系统的整体处理能力。与垂直扩展&…...

2026/6/1 0:54:56 阅读更多 →

Claude Code Tool System 与 Permission 机制深度解析

代码解析 Claude Code Tool System 与 Permission 机制深度解析 0. 背景与定位 Claude Code 是一个运行在终端的 Agentic 编码工具，其核心能力来自工具系统（Tool System）——AI 通过调用工具与文件系统、Shell、网络、子 Agent 交互。而**权…...

2026/6/1 3:24:00 阅读更多 →