Pytorch Compiler Introduction
本文介绍了 Pytorch 的编译功能,我们从代码示例开始展示使用编译对代码执行的加速效果,随后补充介绍了pytorch
FX
相关基础知识,最后整体介绍了 TorchDynamo相关内容,包括对 Python 字节码的调整、Guard
、Cache
等。FX
相关基础知识,最后整体介绍了 TorchDynamo相关内容,包括对 Python 字节码的调整、Guard
、Cache
等。torch.distributed
的核心组件,深入探讨了Distributed Data-Parallel Training (DDP)、RPC-Based Distributed Training、Collective Communication (c10d) 等内容。malloc
、free
、realloc
函数。通过这个实验,我们能更好理解内存布局与管理,并在空间利用率和时间效率上做权衡,实现一套高效内存管理机制。handleDimInMultiDimIndexing
、index_put
等内容。contiguous
算子为例,深入探究 PyTorch 的内部运作机制,包括Python接口如何调度到c++代码、算子调度和注册机制、算子执行等内容。