Wentao's Blog

TVM: 1D convolution GPU Optimization

yewentao published on 2025-04-03 included in category Tvm

This blog demonstrates optimization techniques for 1D GPU convolution using TVM, including thread organization, memory hierarchy exploitation, and low-level optimizations.

Summary: ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

yewentao published on 2025-04-02 included in category Paper_summary

Summary for paper ‘ZeRO: Memory Optimizations Toward Training Trillion Parameter Models’

TVM: 1D convolution CPU Optimization

yewentao published on 2025-03-31 included in category Tvm

This blog demonstrates optimization techniques for 1D convolution using TVM, including parallelization, loop tiling, vectorization, and unrolling.

Summary: Communication-Efficient Learning of Deep Networks from Decentralized Data

yewentao published on 2025-03-25 included in category Paper_summary

Summary for paper ‘Communication-Efficient Learning of Deep Networks from Decentralized Data’

2025 Technical Notes(2)

yewentao published on 2025-03-20 included in category Technical_notes

Technical notes during 2025 (2).

Summary: Large Scale Distributed Deep Networks

yewentao published on 2025-03-18 included in category Paper_summary

Summary for paper ‘Large Scale Distributed Deep Networks’

Summary: TVM: An Automated End-to-End Optimizing Compiler for Deep Learning

yewentao published on 2025-03-15 included in categories Paper_summary Tvm

Summary for paper ‘TVM: An Automated End-to-End Optimizing Compiler for Deep Learning’

Summary: TinyML

yewentao published on 2025-03-03 included in category Paper_summary

Summary for paper ‘TinyML: Current Progress, Research Challenges, and Future Roadmap’

Summary: NAS with RL

yewentao published on 2025-02-25 included in category Paper_summary

Summary for paper ‘Neural Architecture Search with Reinforcement Learning’

Summary: Learning both Weights and Connections for NNs

yewentao published on 2025-02-22 included in category Paper_summary

Summary for paper ‘Learning both Weights and Connections for Efficient Neural Networks’