Pytorch Cuda Streams Introduction

yewentao 收录于类别 Pytorch

2023-10-03 2025-08-24 约 2157 字预计阅读 10 分钟

Summary

本文探讨了Cuda **流(Stream)的基本概念、并行执行和多GPU同步策略。我们分析了使用多个Cuda流的优势，以及如何通过Cuda事件(Event)**确保任务同步，利用Cuda流优化程序性能。

Q：Cuda 流是什么？它的主要用途是什么？

Q：默认情况下，PyTorch Cuda 操作在哪个流上执行？

Q：我们为什么可能需要使用多个 Cuda 流？

Q：为什么说实际并行度取决于GPU的硬件资源？

原因很多，我们选取主要的说明：

流多处理器(Streaming Multiprocessors, SMs) 的数量：SMs是并行处理任务的基本单元，每个SM有一定数量的计算单元（ALUs），更多的SMs意味着更多的并行线程。例如V100有80个SM，GTX 1050只有6个
硬件功能级别：NVIDIA GPU有不同计算能力级别（Compute Capability），如3.5的设备可能支持 Hyper-Q 和动态并行等特性，而2.0的设备就不支持。
全局内存带宽和缓存：更快的数据传输速度（主机到设备、设备到设备）和内存访问速度能有效提升并行性。

Q：为什么我们需要同步？

Q：如何使用 Cuda 流重叠 GPU 计算和数据传输？一个简单的思路：

有的同学可能会问了，我们刚才介绍了依赖关系必须同步，比如先从host copy tensor到gpu，需要确保数据完整传输后才能开始计算。那同步了的话和在一个流上执行有什么区别呢？

这是因为我们可以在计算过程中提前开始下一个批次的数据传输：

如 B 正在运算，如果在一个流上执行，此时我们只运算，没有数据传输。而如果在两个流上执行，B 运算时我们就可以利用 A 来进行数据传输，这样就起到了最基本的重叠并行效果，能够大大加快深度学习训练效率。

注意事项：

Q：Cuda 事件 (torch.cuda.Event) 与 Cuda 流有何关系？

Event 是标记 stream 中特定点的工具，我们使用 Event来监控和同步流的执行。它可主要用于：

同步：相对于cuda.syncronize（阻塞CPU，确保设备上所有流的所有操作都完成），我们可以通过事件来进行更细粒度的同步控制。例如我们可以在流 A 中记录一个事件，在流 B 中等待该事件完成，实现同步。
性能测量：可以使用 Event来测量 Cuda 操作的时间，以进一步了解和优化程序性能。

Q：如何使用 Cuda 事件精确测量 Cuda 操作（op）的时间？

一个简单的思路：使用两个 Cuda 事件完成

Q：当使用多个 GPU 时，如何保证每个 GPU 上的流操作正确地同步？

此外，我们也可以使用 直接设备间通信（Peer-to-Peer，P2P） 优化同步效率：通过 P2P 我们可以直接将数据从一个GPU转移到另一个GPU，无需经过host中转，节省时间和带宽。（如NVIDIA的NVLink技术）

为了在复杂的多GPU应用中实现准确运算和高性能，我们除了考虑流的同步外，还需要考虑高效地进行设备间通信，使用all-reduce，broadcast等原语，这部分内容在笔者之前的文章distribution-training有进行介绍，感兴趣的小伙伴可以进行扩展阅读。