GPU Puzzles

yewentao 发布于 2024-12-02 收录于类别 Pytorch

本篇文章提供了 Sasha Rush 的 GPU Puzzles 的解决方案

Tensor Puzzles

yewentao 发布于 2024-11-09 收录于类别 Pytorch

本博客提供了 Sasha Rush 的 Tensor Puzzles 的解决方案

yewentao 发布于 2024-06-10 收录于类别 Llm

本文介绍了RAG的基础概念，并基于llama_index的源码解读进一步演示了RAG的流程，包括data loader、transformation、index、query等。此外，本文也对llama_index RAG流程进行了一些性能上的分析并给出了对应优化建议。

yewentao 发布于 2024-06-10 收录于类别 Llm

本文介绍了RAG的基础概念，并基于llama_index的源码解读进一步演示了RAG的流程，包括data loader、transformation、index、query等。此外，本文也对llama_index RAG流程进行了一些性能上的分析并给出了对应优化建议。

yewentao 发布于 2024-05-25 收录于类别 Pytorch

这篇博客介绍了PyTorch TensorIterator 针对任意输入tensor计算output stride的过程。

yewentao 发布于 2024-04-13 收录于类别 Pytorch

这篇博客介绍了分布式并行训练策略，包括 Data Parallelism (DP), Zero Redundancy Optimizer (Zero), Pipeline Parallelism (PP) 和 Tensor Parallelism (TP)。

yewentao 发布于 2024-02-13 收录于类别 Pytorch

这篇文章主要介绍了 PyTorch 设备 copy的细节，包含D2H/H2D和D2D（在同一设备与不同设备上）等内容。

yewentao 发布于 2024-02-10 收录于类别 Csapp

在proxy lab中，我们构建了一个简单的web proxy，包含多线程处理并发请求和一个LRU cache快速返回静态资源。

yewentao 发布于 2024-01-06 收录于类别 Pytorch

本文深入探讨了 PyTorch 中的数据类型提升(dtype promotion)机制，包含 promotion 的基本规则、scalar 如何被 wrapped 成 tensor、TensorIterator 在计算数据类型时的作用等细节。

yewentao 发布于 2023-12-03 收录于类别 Pytorch

在本文中，我们将深入探讨 PyTorch 中的结构化内核（Structured Kernel）和张量迭代器（TensorIterator），包括在Structured Kernel中的meta、impl函数及 TensorIterator 的构建和算子计算调用的过程。