英伟达发布 DMS 技术:大模型推理内存压缩 8 倍、吞吐量提升 5 倍,仅需千步微调

📌 一句话总结:英伟达发布动态内存稀疏化(DMS)技术,可将大语言模型推理的 KV 缓存压缩最高 8 倍、吞吐量提升 5 倍,且仅需约 1000 步微调即可应用于现有模型,无需重新训练。

2026年2月15日 · 资讯分享 · 阅读时间约 4 分钟

大语言模型的推理成本一直是行业痛点。模型在生成长链推理(chain-of-thought)时,KV 缓存会随着 token 数量线性增长,迅速吃满显存,导致单台服务器能同时处理的请求数量大幅受限。英伟达最新发布的 DMS 技术,正是瞄准了这个瓶颈。

DMS 是什么?怎么做到的?

DMS 的全称是 Dynamic Memory Sparsification(动态内存稀疏化)。它的核心思路是:让模型自己学会判断 KV 缓存中哪些 token 是关键的、哪些可以安全丢弃。

具体来说,DMS 复用了注意力层中的神经元,让它们在生成每个 token 时额外输出一个「保留」或「驱逐」信号。被标记为可驱逐的 token 不会立即删除,而是进入一个「延迟驱逐」窗口(通常几百步),确保模型能提取完残余上下文后再释放内存。

问题不仅仅在于硬件数量,而在于你的基础设施是在用同样的成本处理 100 个推理线程还是 800 个。
— 来源:VentureBeat - Piotr Nawrot, 英伟达高级深度学习工程师

最关键的一点:DMS 不需要从头训练模型。它采用类似 LoRA 的方式,冻结基础权重,仅需约 1000 步微调,在单台 DGX H100 上几小时即可完成适配。目前已验证兼容 Llama 3、Qwen 3 等主流开源模型。

实测数据:不是纸上谈兵

指标 效果 测试条件
KV 缓存压缩 最高 8 倍 多模型验证
推理吞吐量 提升 5 倍 Qwen 3-8B
数学推理(AIME 24) 同等内存下得分高 12 分 Qwen-R1 32B
长上下文检索 优于未压缩版本 大海捞针测试
适配成本 约 1000 步微调 单台 DGX H100

值得注意的是,在「大海捞针」检索测试中,经过 DMS 处理的模型反而比原版表现更好。这说明激进的缓存压缩不仅没有损害长上下文推理能力,反而可能通过去除噪声 token 提升了注意力的聚焦度。

对行业意味着什么?

DMS 的实际意义在于:同样的 GPU 硬件,能同时服务更多用户、支持更长的推理链。对于部署 AI 智能体、客服机器人或实时分析系统的企业来说,这直接意味着运营成本的大幅下降。

英伟达已将 DMS 集成到其 Model Optimizer 框架中,开发者可以通过标准 API 调用。该技术兼容 FlashAttention 和即将推出的 Multi-Head Latent Attention 架构,也可以与量化、张量并行等其他优化技术叠加使用。

更重要的是,DMS 的「最低可用基础设施」就是一个标准的 Hugging Face 推理管线,不需要定制 CUDA 扩展或专用硬件。这大大降低了技术落地的门槛。

富贵点评

英伟达这次做的事情很聪明——不是让你买更多 GPU,而是让你手里的 GPU 更能干活。KV 缓存一直是长链推理的「隐形杀手」,尤其是现在 AI 智能体动不动就要思考几千步,显存不够用是真实痛点。DMS 用一个轻量级的微调就能把内存占用砍到八分之一,而且精度不降反升,这个性价比相当炸裂。当然,英伟达的算盘也很清楚:你用 DMS 省下来的显存,大概率会拿去跑更多任务、部署更大模型——最终还是要买更多卡。但至少在当下,这对中小团队和个人开发者来说是实打实的好消息。

📋 要点回顾

  • 技术原理:DMS 通过让注意力层自主判断 token 重要性,动态驱逐低价值 KV 缓存条目,实现内存压缩最高 8 倍
  • 落地门槛极低:类似 LoRA 的微调方式,约 1000 步即可适配现有模型,兼容 Hugging Face 标准管线
  • 性能不降反升:在 AIME 24 数学测试中同等内存下得分高 12 分,长上下文检索也优于原版
  • 企业级可用:已集成到英伟达 Model Optimizer 框架,可与量化、FlashAttention 等技术叠加使用

❓ 常见问题

Q: DMS 需要重新训练模型吗?

A: 不需要。DMS 采用类似 LoRA 的方式冻结基础权重,仅需约 1000 步微调即可适配,在单台 DGX H100 上几小时就能完成。

Q: 压缩 KV 缓存会不会导致模型变笨?

A: 实测数据显示不会。在数学推理和长上下文检索测试中,DMS 处理后的模型表现反而优于原版,可能是因为去除了噪声 token 提升了注意力聚焦度。

Q: 哪些模型可以用 DMS?

A: 目前已验证兼容 Llama 3、Qwen 3 等主流开源模型,并支持 FlashAttention 和即将推出的 Multi-Head Latent Attention 架构。

作者:王富贵 | 发布时间:2026年2月15日

参考来源:VentureBeat · Archyde