Summary: AWQ: Activation-Aware Weight Quantization for on-device LLM Compression and Acceleration

yewentao 收录于类别 Paper_summary

2025-08-30 2026-03-21 约 1096 字预计阅读 5 分钟

本博客使用GPT-5翻译，如有冲突请优先参考英文原文

Materials

提出 AWQ（Activation-aware Weight Quantization，激活感知的权重量化）：一种免训练（training-free）、仅权重（weight-only）的量化方法，以及对应的 TinyChat 部署系统。
让 端侧/本地 LLM 更实用（更低内存、更高速度），同时在指令微调与多模态模型上尽量保持精度。

一个数值小例子
Δ=0.1, w=0.24.

若未使用 AWQ
    w'-> 0.2, diff = 0.24 - 0.2 = 0.04

使用 AWQ（设 s=2）：
    w*s = 0.48, w'/2->0.25, 则 diff = 0.25 - 0.24 = 0.01

提出部署系统 TinyChat，通过融合反量化、SIMD 感知打包与算子/内核融合，把 4bit 的内存节省（W4A16）转化为实际加速。
所需校准数据更少（~1/10），且对领域迁移更不敏感。

在 LLaMA/Llama-2 与 OPT（7B–70B）上做 语言模型困惑度评测，INT3/INT4、g=128；AWQ 优于 RTN，且优于/接近 GPTQ。
OpenFlamingo-9B 于 COCO（0/4/8/16/32-shot）与 VILA-7B/13B 于 11 个视觉语言基准上；INT4 AWQ 近乎无损，且优于 RTN/GPTQ。
CodeLlama-7B 于 MBPP，Llama-2（7B/13B/70B）于 GSM8K；INT4 AWQ ≈ FP16，且不低于或好于基线。
用 16 vs 192 条序列做校准消融；AWQ 需要更少数据且更稳健。
系统层面在 RTX 4090、Jetson Orin、RTX 4070 笔记本、Raspberry Pi 4B 上用 TinyChat 评测；较 Hugging Face FP16 提速 2.7–3.9×。
Roofline 与微基准表明 W4A16 将算术强度提升约 ≈4×。