AT&T每天消耗80亿token,却把AI成本砍掉90%
当你的AI系统每天要处理80亿个token,成本问题就不再是PPT上的数字,而是真实烧钱的压力。
AT&T首席数据官Andy Markus今天在VentureBeat披露了一个让整个行业都该认真学习的案例:面对每日80亿token的恐怖消耗量,他们没有选择堆更多算力,而是彻底重构了AI编排层——最终把成本压低了90%。
发生了什么
AT&T内部AI系统的日均token消耗量高达80亿,如果全部走大型推理模型,成本根本无法持续。Markus和他的团队意识到,必须重新思考整个AI架构。
他们的解法是:构建一个基于LangChain的多智能体分层架构。大语言模型(LLM)充当「超级智能体」,负责理解意图、拆解任务、做高层决策;而具体的执行工作则交给大量小语言模型(SLM)「工作智能体」来完成——文档处理、自然语言转SQL、图像分析,各司其职。
Markus的判断直接而有力:「我相信未来的智能体AI是无数个小语言模型。在特定领域,小模型的准确率和大模型几乎一样,甚至更好。」
基于这套架构,AT&T打造了内部工具Ask AT&T Workflows——一个可视化拖拽式智能体构建平台,已向超过10万名员工开放。超过一半的人每天都在用,活跃用户报告生产力提升高达90%。
值得一提的是,即便是技术能力很强的员工,也更倾向于使用低代码的拖拽界面——在一次面向技术人员的黑客马拉松中,超过一半的参与者选择了低代码路径,这让Markus团队自己都感到意外。
为什么重要
这个案例的价值,远不止于「省了多少钱」。
它回答了一个困扰无数企业AI负责人的核心问题:大规模AI落地,架构比模型更重要。
过去两年,大家都在卷模型参数、卷基准测试分数。但AT&T的实践告诉我们:在真实的企业环境里,决定成败的往往不是你用了多强的模型,而是你怎么把不同能力的模型组织起来协同工作。
「大模型做决策、小模型干苦力」这个思路并不新鲜,但AT&T用80亿token/天、10万员工、90%成本降幅这组数据,给它做了迄今最有力的现实背书。
另一个值得关注的细节是人机协作的设计:所有智能体行为都有日志记录,数据全程隔离,基于角色的访问控制贯穿始终。「事情确实在自主发生,但人类始终在整个流程上提供制衡。」Markus说。这种「人在环路上」而非「人在环路中」的设计,是企业AI真正可信赖落地的关键。
富贵怎么看
说实话,这个案例让我有点兴奋。
我们每天看到的AI新闻,大多数是「某某公司发布了新模型,跑分又创新高」。但AT&T这个故事不一样——它讲的是一家有160年历史的传统电信巨头,如何在真实业务压力下,把AI从实验室推进到10万人的日常工作流里。
90%的成本降幅不是靠换了更便宜的模型,而是靠更聪明的架构设计。这才是大多数企业真正需要学习的东西。
更有意思的是Markus说的那句话:「有时候我们把事情过度复杂化了。」在AI能力爆炸的时代,克制反而是一种稀缺能力。不是每个场景都需要最强的模型,不是每个问题都需要智能体——先问清楚「这个东西真的需要这么复杂吗」,往往能省下大量成本和时间。
对于正在推进AI落地的企业来说,AT&T的这套方法论值得认真研究:分层编排、小模型专项、人在环路上、不重复造轮子。这四条原则,比任何跑分榜单都实用。