Home avatar

Wentao's Blog

ProxyLab

在proxy lab中,我们构建了一个简单的web proxy,包含多线程处理并发请求和一个LRU cache快速返回静态资源。

Pytorch Compiler Introduction

本文介绍了 Pytorch 的编译功能,我们从代码示例开始展示使用编译对代码执行的加速效果,随后补充介绍了pytorch FX 相关基础知识,最后整体介绍了 TorchDynamo相关内容,包括对 Python 字节码的调整、GuardCache等。

Pytorch Cuda Streams Introduction

本文探讨了Cuda **流(Stream)的基本概念、并行执行和多GPU同步策略。我们分析了使用多个Cuda流的优势,以及如何通过Cuda事件(Event)**确保任务同步,利用Cuda流优化程序性能。

Overview of PyTorch Distributed Training

本文提供了一个关于PyTorch分布式训练能力的全面概述,涵盖了torch.distributed的核心组件,深入探讨了Distributed Data-Parallel Training (DDP)RPC-Based Distributed TrainingCollective Communication (c10d) 等内容。

MallocLab

在malloc lab中,我们将开发我们自己的mallocfreerealloc函数。通过这个实验,我们能更好理解内存布局与管理,并在空间利用率和时间效率上做权衡,实现一套高效内存管理机制。