Home avatar

Wentao's Blog

Pytorch Compiler Introduction

本文介绍了 Pytorch 的编译功能,我们从代码示例开始展示使用编译对代码执行的加速效果,随后补充介绍了pytorch FX 相关基础知识,最后整体介绍了 TorchDynamo相关内容,包括对 Python 字节码的调整、GuardCache等。

Pytorch Cuda Streams Introduction

本文探讨了Cuda **流(Stream)的基本概念、并行执行和多GPU同步策略。我们分析了使用多个Cuda流的优势,以及如何通过Cuda事件(Event)**确保任务同步,利用Cuda流优化程序性能。

Overview of PyTorch Distributed Training

本文提供了一个关于PyTorch分布式训练能力的全面概述,涵盖了torch.distributed的核心组件,深入探讨了Distributed Data-Parallel Training (DDP)RPC-Based Distributed TrainingCollective Communication (c10d) 等内容。

MallocLab

在malloc lab中,我们将开发我们自己的mallocfreerealloc函数。通过这个实验,我们能更好理解内存布局与管理,并在空间利用率和时间效率上做权衡,实现一套高效内存管理机制。

ShellLab

在shell lab中,我们将通过开发一个简洁但完整的unix shell程序来对进程控制、信号机制等概念有进一步的认知。源码:[https://github.com/yewentao256/CSAPP_15213/tree/main/shelllab]