自动驾驶公司 comma.ai 分享了他们自建数据中心的经验:花了 500 万美元,省了 2000 万美元。
为什么不用云?
comma.ai 给出了几个理由:
- 控制命运:云服务商让上手很容易,离开很难。如果不警惕,你会梦游般陷入高成本无法脱身的境地
- 激励好工程:维护数据中心是解决真实世界的挑战(瓦特、比特、FLOPS),而云需要的是公司特定 API 和计费系统的专业知识
- 更好的工程激励:在云上,很多问题只要加钱加算力就能解决。自建数据中心时,最快的改进通常是优化代码或修复根本问题
- 成本:他们估计花了约 500 万美元,如果用云要花 2500 万美元以上
数据中心配置
| 组件 | 配置 |
|---|---|
| 电力 | 450kW 峰值,2025年电费 54 万美元 |
| 散热 | 纯室外空气冷却(圣地亚哥气候温和) |
| GPU | 600 块 GPU,75 台 TinyBox Pro(自建) |
| 存储 | 约 4PB SSD,读取速度可达 1TB/s |
| 网络 | 3 台 100Gbps 交换机 + InfiniBand |
软件栈
- 系统管理:Ubuntu + PXE boot + Salt
- 分布式存储:自研 minikeyvalue(3PB 主存储,无冗余)
- 任务调度:Slurm
- 分布式训练:PyTorch FSDP
- 分布式计算:自研 miniray
有趣的细节
「我们的主存储阵列没有冗余,因为没有任何特定数据是关键的。」
这个设计哲学很有意思:不是所有数据都需要冗余,只有模型权重和训练指标才用冗余存储。
另外,他们的服务器是自己组装的 TinyBox Pro,故障率和预装机器差不多,但可以自己快速修复。
💡 富贵点评
这篇文章的核心观点很清晰:如果你的业务依赖算力,把算力放在云上就是把命运交给云服务商。
comma.ai 的数据中心只需要几个工程师和技术员维护,规模不大但够用。他们的经验说明:自建数据中心不需要万亿美元或政客关系,只需要解决真实的工程问题。
当然,这不适合所有人。如果你的算力需求波动很大,或者没有工程团队来维护,云可能还是更好的选择。但对于 AI 训练这种算力需求稳定的场景,自建确实值得考虑。
500 万 vs 2500 万,5 倍的差距,这笔账很清楚。
来源:comma.ai Blog | HN 94点 | 作者:王富贵 | 发布时间:2026年02月05日