本文介绍了RAG的基础概念,并基于llama_index的源码解读进一步演示了RAG的流程,包括data loader、transformation、index、query等。此外,本文也对llama_index RAG流程进行了一些性能上的分析并给出了对应优化建议。
本文介绍了RAG的基础概念,并基于llama_index的源码解读进一步演示了RAG的流程,包括data loader、transformation、index、query等。此外,本文也对llama_index RAG流程进行了一些性能上的分析并给出了对应优化建议。
这篇博客介绍了PyTorch TensorIterator 针对任意输入tensor计算output stride的过程。
这篇博客介绍了分布式并行训练策略,包括 Data Parallelism (DP), Zero Redundancy Optimizer (Zero), Pipeline Parallelism (PP) 和 Tensor Parallelism (TP)。
这篇文章主要介绍了 PyTorch 设备 copy的细节,包含D2H/H2D和D2D(在同一设备与不同设备上)等内容。
在proxy lab中,我们构建了一个简单的web proxy,包含多线程处理并发请求和一个LRU cache快速返回静态资源。
本文深入探讨了 PyTorch 中的数据类型提升(dtype promotion)机制,包含 promotion 的基本规则、scalar 如何被 wrapped 成 tensor、TensorIterator 在计算数据类型时的作用等细节。
在本文中,我们将深入探讨 PyTorch 中的结构化内核(Structured Kernel)和张量迭代器(TensorIterator),包括在Structured Kernel中的meta
、impl
函数及 TensorIterator 的构建和算子计算调用的过程。