📌 一句话总结:英伟达发布动态内存稀疏化(DMS)技术,可将大语言模型推理的 KV 缓存压缩最高 8 倍、吞吐量提升 5 倍,且仅需约 1000 步微调即可应用于现有模型,无需重新训练。
2026年2月15日 · 资讯分享 · 阅读时间约 4 分钟
大语言模型的推理成本一直是行业痛点。模型在生成长链推理(chain-of-thought)时,KV 缓存会随着 token 数量线性增长,迅速吃满显存,导致单台服务器能同时处理的请求数量大幅受限。英伟达最新发布的 DMS 技术,正是瞄准了这个瓶颈。
DMS 是什么?怎么做到的?
DMS 的全称是 Dynamic Memory Sparsification(动态内存稀疏化)。它的核心思路是:让模型自己学会判断 KV 缓存中哪些 token 是关键的、哪些可以安全丢弃。
具体来说,DMS 复用了注意力层中的神经元,让它们在生成每个 token 时额外输出一个「保留」或「驱逐」信号。被标记为可驱逐的 token 不会立即删除,而是进入一个「延迟驱逐」窗口(通常几百步),确保模型能提取完残余上下文后再释放内存。
问题不仅仅在于硬件数量,而在于你的基础设施是在用同样的成本处理 100 个推理线程还是 800 个。
— 来源:VentureBeat - Piotr Nawrot, 英伟达高级深度学习工程师
最关键的一点:DMS 不需要从头训练模型。它采用类似 LoRA 的方式,冻结基础权重,仅需约 1000 步微调,在单台 DGX H100 上几小时即可完成适配。目前已验证兼容 Llama 3、Qwen 3 等主流开源模型。
实测数据:不是纸上谈兵
| 指标 | 效果 | 测试条件 |
|---|---|---|
| KV 缓存压缩 | 最高 8 倍 | 多模型验证 |
| 推理吞吐量 | 提升 5 倍 | Qwen 3-8B |
| 数学推理(AIME 24) | 同等内存下得分高 12 分 | Qwen-R1 32B |
| 长上下文检索 | 优于未压缩版本 | 大海捞针测试 |
| 适配成本 | 约 1000 步微调 | 单台 DGX H100 |
值得注意的是,在「大海捞针」检索测试中,经过 DMS 处理的模型反而比原版表现更好。这说明激进的缓存压缩不仅没有损害长上下文推理能力,反而可能通过去除噪声 token 提升了注意力的聚焦度。
对行业意味着什么?
DMS 的实际意义在于:同样的 GPU 硬件,能同时服务更多用户、支持更长的推理链。对于部署 AI 智能体、客服机器人或实时分析系统的企业来说,这直接意味着运营成本的大幅下降。
英伟达已将 DMS 集成到其 Model Optimizer 框架中,开发者可以通过标准 API 调用。该技术兼容 FlashAttention 和即将推出的 Multi-Head Latent Attention 架构,也可以与量化、张量并行等其他优化技术叠加使用。
更重要的是,DMS 的「最低可用基础设施」就是一个标准的 Hugging Face 推理管线,不需要定制 CUDA 扩展或专用硬件。这大大降低了技术落地的门槛。
富贵点评
英伟达这次做的事情很聪明——不是让你买更多 GPU,而是让你手里的 GPU 更能干活。KV 缓存一直是长链推理的「隐形杀手」,尤其是现在 AI 智能体动不动就要思考几千步,显存不够用是真实痛点。DMS 用一个轻量级的微调就能把内存占用砍到八分之一,而且精度不降反升,这个性价比相当炸裂。当然,英伟达的算盘也很清楚:你用 DMS 省下来的显存,大概率会拿去跑更多任务、部署更大模型——最终还是要买更多卡。但至少在当下,这对中小团队和个人开发者来说是实打实的好消息。
📋 要点回顾
- 技术原理:DMS 通过让注意力层自主判断 token 重要性,动态驱逐低价值 KV 缓存条目,实现内存压缩最高 8 倍
- 落地门槛极低:类似 LoRA 的微调方式,约 1000 步即可适配现有模型,兼容 Hugging Face 标准管线
- 性能不降反升:在 AIME 24 数学测试中同等内存下得分高 12 分,长上下文检索也优于原版
- 企业级可用:已集成到英伟达 Model Optimizer 框架,可与量化、FlashAttention 等技术叠加使用
❓ 常见问题
Q: DMS 需要重新训练模型吗?
A: 不需要。DMS 采用类似 LoRA 的方式冻结基础权重,仅需约 1000 步微调即可适配,在单台 DGX H100 上几小时就能完成。
Q: 压缩 KV 缓存会不会导致模型变笨?
A: 实测数据显示不会。在数学推理和长上下文检索测试中,DMS 处理后的模型表现反而优于原版,可能是因为去除了噪声 token 提升了注意力聚焦度。
Q: 哪些模型可以用 DMS?
A: 目前已验证兼容 Llama 3、Qwen 3 等主流开源模型,并支持 FlashAttention 和即将推出的 Multi-Head Latent Attention 架构。
作者:王富贵 | 发布时间:2026年2月15日
参考来源:VentureBeat · Archyde