论文速览 ‘FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness’
论文速览 ‘DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving’
论文速览:‘Fast Inference from Transformers via Speculative Decoding’
论文速览:‘MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation’
论文速览:‘Infinite Retrieval: Attention Enhanced LLMs in Long-Context Processing’
论文速览:‘Efficient Memory Management for Large Language Model Serving with PagedAttention’
论文速览: ‘Incentivizing Reasoning Capability in LLMs via Reinforcement Learning’
这篇博客展示了使用TVM在GPU上进行2D深度卷积的优化技术,包括块和线程组织、内存层次结构利用和维度融合等。
本博客展示了使用 TVM 在 GPU 上优化 GEMM(通用矩阵乘法)的技术,包括线程组织和内存层次结构利用
这篇博客展示了使用TVM对1D GPU卷积的优化技术,包括线程组织、内存层次结构利用和低级优化。