@stevessr 在 KVTC:在 LLM 推理 中 进行 KV 缓存 变换编码 以 实现 紧凑存储 | NVIDIA 中发帖
[!abstract]+
大规模服务大型语言模型(LLM)需要高效的键值(KV)缓存管理。KV 缓存可以通过共享前缀提示在对话回合中重复使用,这在迭代代码编辑和聊天中很常见。然而,陈旧的缓存会消耗稀缺的 GPU 内存,需要卸载或强制重新计算。我们介绍的 KVTC 是一种轻量级转换编码器,可压缩 KV 缓存,实现紧凑的 GPU 上和 GPU 外存储。KVTC 借鉴了经典的媒体压缩技术,结合了基于 PCA 的特征去相关性、自适应量化和熵编码。它只需要简单的初始校准,模型参数保持不变。通过利用 KV 缓存中的冗余,KVTC 在保持推理和长文本准确性的同时实现了高达 20 倍的压缩率,在特定使用情况下,压缩率可达 40 倍或更高。我们使用 Llama 3、Mistral NeMo 和 R1-Qwen 2.5 模型对 KVTC 进行了测试,测试基准包括 AIME25、GSM8K、LiveCo...