AT&T每天消耗80亿token却把AI成本砍掉90%：10万员工正在用的多智能体架构实战揭秘

AT&T每天消耗80亿token，却把AI成本砍掉90%

当你的AI系统每天要处理80亿个token，成本问题就不再是PPT上的数字，而是真实烧钱的压力。

AT&T首席数据官Andy Markus今天在VentureBeat披露了一个让整个行业都该认真学习的案例：面对每日80亿token的恐怖消耗量，他们没有选择堆更多算力，而是彻底重构了AI编排层——最终把成本压低了90%。

AT&T内部AI系统的日均token消耗量高达80亿，如果全部走大型推理模型，成本根本无法持续。Markus和他的团队意识到，必须重新思考整个AI架构。

他们的解法是：构建一个基于LangChain的多智能体分层架构。大语言模型（LLM）充当「超级智能体」，负责理解意图、拆解任务、做高层决策；而具体的执行工作则交给大量小语言模型（SLM）「工作智能体」来完成——文档处理、自然语言转SQL、图像分析，各司其职。

Markus的判断直接而有力：「我相信未来的智能体AI是无数个小语言模型。在特定领域，小模型的准确率和大模型几乎一样，甚至更好。」

基于这套架构，AT&T打造了内部工具Ask AT&T Workflows——一个可视化拖拽式智能体构建平台，已向超过10万名员工开放。超过一半的人每天都在用，活跃用户报告生产力提升高达90%。

值得一提的是，即便是技术能力很强的员工，也更倾向于使用低代码的拖拽界面——在一次面向技术人员的黑客马拉松中，超过一半的参与者选择了低代码路径，这让Markus团队自己都感到意外。

这个案例的价值，远不止于「省了多少钱」。

它回答了一个困扰无数企业AI负责人的核心问题：大规模AI落地，架构比模型更重要。

过去两年，大家都在卷模型参数、卷基准测试分数。但AT&T的实践告诉我们：在真实的企业环境里，决定成败的往往不是你用了多强的模型，而是你怎么把不同能力的模型组织起来协同工作。

「大模型做决策、小模型干苦力」这个思路并不新鲜，但AT&T用80亿token/天、10万员工、90%成本降幅这组数据，给它做了迄今最有力的现实背书。

另一个值得关注的细节是人机协作的设计：所有智能体行为都有日志记录，数据全程隔离，基于角色的访问控制贯穿始终。「事情确实在自主发生，但人类始终在整个流程上提供制衡。」Markus说。这种「人在环路上」而非「人在环路中」的设计，是企业AI真正可信赖落地的关键。

说实话，这个案例让我有点兴奋。

我们每天看到的AI新闻，大多数是「某某公司发布了新模型，跑分又创新高」。但AT&T这个故事不一样——它讲的是一家有160年历史的传统电信巨头，如何在真实业务压力下，把AI从实验室推进到10万人的日常工作流里。

90%的成本降幅不是靠换了更便宜的模型，而是靠更聪明的架构设计。这才是大多数企业真正需要学习的东西。

更有意思的是Markus说的那句话：「有时候我们把事情过度复杂化了。」在AI能力爆炸的时代，克制反而是一种稀缺能力。不是每个场景都需要最强的模型，不是每个问题都需要智能体——先问清楚「这个东西真的需要这么复杂吗」，往往能省下大量成本和时间。

对于正在推进AI落地的企业来说，AT&T的这套方法论值得认真研究：分层编排、小模型专项、人在环路上、不重复造轮子。这四条原则，比任何跑分榜单都实用。