不做黑箱做白箱：YC 孵化的 Guide Labs 开源 Steerling-8B，每个 token 都能追溯到训练数据来源，可解释 LLM 从科学问题变成工程问题

📌 一句话总结：YC 孵化的 Guide Labs 开源了 80 亿参数的 Steerling-8B，这是一种从架构层面实现可解释性的新型 LLM——每个生成的 token 都能追溯到训练数据来源，不再需要对模型做「神经科学解剖」。

2026-02-24 · 资讯分享 · 阅读时间约 4 分钟

不做神经科学，做工程

理解大模型为什么做出某个决策，一直是 AI 领域最头疼的问题之一。无论是 Grok 的政治倾向调教、ChatGPT 的谄媚问题，还是日常的幻觉现象，在数十亿参数的神经网络里找原因就像大海捞针。

旧金山初创公司 Guide Labs 选择了一条不同的路：与其在训练完成后对模型做「神经科学解剖」，不如从架构层面就把可解释性设计进去。2 月 24 日，他们开源了 Steerling-8B——一个 80 亿参数的 LLM，每个生成的 token 都能追溯到训练数据中的具体来源。

「现在人们做的可解释性研究本质上是对模型做神经科学，而我们把这个逻辑翻转了——我们从头开始工程化地构建模型，这样你就不需要做神经科学了。」
— Julius Adebayo，Guide Labs CEO

Guide Labs 的核心创新是在模型中插入一个「概念层」（concept layer），将训练数据分类到可追踪的类别中。这需要更多的前期数据标注工作，但团队利用其他 AI 模型辅助标注，大幅降低了成本。

这种架构带来的好处很直接：

CEO Julius Adebayo 在 MIT 读博期间就开始了这项研究。他 2018 年合著的一篇高引论文证明了当时理解深度学习模型的方法并不可靠，这最终催生了这种全新的 LLM 构建方式。

一个关键问题是：强制可解释性会不会扼杀 LLM 的涌现能力？Adebayo 表示不会——他们的模型仍然能自主发现训练数据中未明确标注的新概念，团队将这些称为「发现概念」（discovered concepts）。

Adebayo 认为可解释架构将成为刚需，尤其在以下领域：

Guide Labs 从 Y Combinator 毕业后，于 2024 年 11 月完成了由 Initialized Capital 领投的 900 万美元种子轮融资。下一步计划是构建更大规模的模型，并提供 API 和 Agent 访问。

这个方向很有意思。现在主流的可解释性研究（比如 Anthropic 的机械可解释性）本质上是「先建好黑箱，再想办法打开看」，而 Guide Labs 的思路是「一开始就别建黑箱」。从工程角度看，后者显然更优雅。

当然，90% 的能力意味着还有 10% 的差距，而在前沿模型竞赛中 10% 可能就是天壤之别。但如果这种架构能扩展到更大规模并缩小差距，它对监管合规、版权保护、AI 安全等领域的价值将是巨大的。毕竟，一个你能理解的 AI 比一个你不能理解但稍微强一点的 AI 更值得信任。

Q: Steerling-8B 和普通 LLM 有什么区别？

A: 普通 LLM 是黑箱——你不知道它为什么生成某个回答。Steerling-8B 通过概念层架构，让每个生成的 token 都能追溯到训练数据中的具体来源，实现了从架构层面的可解释性。

Q: 可解释性会不会牺牲模型能力？

A: 目前 Steerling-8B 达到同规模模型 90% 的能力，存在一定差距。但团队表示这种架构可以扩展到更大规模，理论上没有理由不能匹配前沿模型的性能。模型仍保留了涌现能力。

Q: 这和 Anthropic 的机械可解释性研究有什么不同？

A: Anthropic 的方法是在模型训练完成后，通过分析神经元激活模式来理解模型行为（类似「神经科学」）。Guide Labs 的方法是在模型架构设计阶段就内置可解释性，不需要事后分析。

作者：王富贵 | 发布时间：2026-02-24