英伟达发布 DMS 技术：大模型推理内存压缩 8 倍、吞吐量提升 5 倍，仅需千步微调

📌 一句话总结：英伟达发布动态内存稀疏化（DMS）技术，可将大语言模型推理的 KV 缓存压缩最高 8 倍、吞吐量提升 5 倍，且仅需约 1000 步微调即可应用于现有模型，无需重新训练。

2026年2月15日 · 资讯分享 · 阅读时间约 4 分钟

大语言模型的推理成本一直是行业痛点。模型在生成长链推理（chain-of-thought）时，KV 缓存会随着 token 数量线性增长，迅速吃满显存，导致单台服务器能同时处理的请求数量大幅受限。英伟达最新发布的 DMS 技术，正是瞄准了这个瓶颈。

DMS 是什么？怎么做到的？

DMS 的全称是 Dynamic Memory Sparsification（动态内存稀疏化）。它的核心思路是：让模型自己学会判断 KV 缓存中哪些 token 是关键的、哪些可以安全丢弃。

具体来说，DMS 复用了注意力层中的神经元，让它们在生成每个 token 时额外输出一个「保留」或「驱逐」信号。被标记为可驱逐的 token 不会立即删除，而是进入一个「延迟驱逐」窗口（通常几百步），确保模型能提取完残余上下文后再释放内存。

问题不仅仅在于硬件数量，而在于你的基础设施是在用同样的成本处理 100 个推理线程还是 800 个。
— 来源：VentureBeat - Piotr Nawrot, 英伟达高级深度学习工程师

最关键的一点：DMS 不需要从头训练模型。它采用类似 LoRA 的方式，冻结基础权重，仅需约 1000 步微调，在单台 DGX H100 上几小时即可完成适配。目前已验证兼容 Llama 3、Qwen 3 等主流开源模型。

实测数据：不是纸上谈兵

指标	效果	测试条件
KV 缓存压缩	最高 8 倍	多模型验证
推理吞吐量	提升 5 倍	Qwen 3-8B
数学推理（AIME 24）	同等内存下得分高 12 分	Qwen-R1 32B
长上下文检索	优于未压缩版本	大海捞针测试
适配成本	约 1000 步微调	单台 DGX H100

值得注意的是，在「大海捞针」检索测试中，经过 DMS 处理的模型反而比原版表现更好。这说明激进的缓存压缩不仅没有损害长上下文推理能力，反而可能通过去除噪声 token 提升了注意力的聚焦度。

对行业意味着什么？

DMS 的实际意义在于：同样的 GPU 硬件，能同时服务更多用户、支持更长的推理链。对于部署 AI 智能体、客服机器人或实时分析系统的企业来说，这直接意味着运营成本的大幅下降。

英伟达已将 DMS 集成到其 Model Optimizer 框架中，开发者可以通过标准 API 调用。该技术兼容 FlashAttention 和即将推出的 Multi-Head Latent Attention 架构，也可以与量化、张量并行等其他优化技术叠加使用。

更重要的是，DMS 的「最低可用基础设施」就是一个标准的 Hugging Face 推理管线，不需要定制 CUDA 扩展或专用硬件。这大大降低了技术落地的门槛。

富贵点评

英伟达这次做的事情很聪明——不是让你买更多 GPU，而是让你手里的 GPU 更能干活。KV 缓存一直是长链推理的「隐形杀手」，尤其是现在 AI 智能体动不动就要思考几千步，显存不够用是真实痛点。DMS 用一个轻量级的微调就能把内存占用砍到八分之一，而且精度不降反升，这个性价比相当炸裂。当然，英伟达的算盘也很清楚：你用 DMS 省下来的显存，大概率会拿去跑更多任务、部署更大模型——最终还是要买更多卡。但至少在当下，这对中小团队和个人开发者来说是实打实的好消息。

📋 要点回顾

技术原理：DMS 通过让注意力层自主判断 token 重要性，动态驱逐低价值 KV 缓存条目，实现内存压缩最高 8 倍
落地门槛极低：类似 LoRA 的微调方式，约 1000 步即可适配现有模型，兼容 Hugging Face 标准管线
性能不降反升：在 AIME 24 数学测试中同等内存下得分高 12 分，长上下文检索也优于原版
企业级可用：已集成到英伟达 Model Optimizer 框架，可与量化、FlashAttention 等技术叠加使用

❓ 常见问题

Q: DMS 需要重新训练模型吗？

A: 不需要。DMS 采用类似 LoRA 的方式冻结基础权重，仅需约 1000 步微调即可适配，在单台 DGX H100 上几小时就能完成。

Q: 压缩 KV 缓存会不会导致模型变笨？

A: 实测数据显示不会。在数学推理和长上下文检索测试中，DMS 处理后的模型表现反而优于原版，可能是因为去除了噪声 token 提升了注意力聚焦度。

Q: 哪些模型可以用 DMS？

A: 目前已验证兼容 Llama 3、Qwen 3 等主流开源模型，并支持 FlashAttention 和即将推出的 Multi-Head Latent Attention 架构。

作者：王富贵 | 发布时间：2026年2月15日

参考来源：VentureBeat · Archyde