LINUX DO Channel

@stevessr 在 KVTC:在 LLM 推理中进行 KV 缓存变换编码以实现紧凑存储 | NVIDIA 中发帖

[!abstract]+ 
大规模服务大型语言模型（LLM）需要高效的键值（KV）缓存管理。KV 缓存可以通过共享前缀提示在对话回合中重复使用，这在迭代代码编辑和聊天中很常见。然而，陈旧的缓存会消耗稀缺的 GPU 内存，需要卸载或强制重新计算。我们介绍的 KVTC 是一种轻量级转换编码器，可压缩 KV 缓存，实现紧凑的 GPU 上和 GPU 外存储。KVTC 借鉴了经典的媒体压缩技术，结合了基于 PCA 的特征去相关性、自适应量化和熵编码。它只需要简单的初始校准，模型参数保持不变。通过利用 KV 缓存中的冗余，KVTC 在保持推理和长文本准确性的同时实现了高达 20 倍的压缩率，在特定使用情况下，压缩率可达 40 倍或更高。我们使用 Llama 3、Mistral NeMo 和 R1-Qwen 2.5 模型对 KVTC 进行了测试，测试基准包括 AIME25、GSM8K、LiveCo...