📌 一句话总结:YC 孵化的 Guide Labs 开源了 80 亿参数的 Steerling-8B,这是一种从架构层面实现可解释性的新型 LLM——每个生成的 token 都能追溯到训练数据来源,不再需要对模型做「神经科学解剖」。
2026-02-24 · 资讯分享 · 阅读时间约 4 分钟
不做神经科学,做工程
理解大模型为什么做出某个决策,一直是 AI 领域最头疼的问题之一。无论是 Grok 的政治倾向调教、ChatGPT 的谄媚问题,还是日常的幻觉现象,在数十亿参数的神经网络里找原因就像大海捞针。
旧金山初创公司 Guide Labs 选择了一条不同的路:与其在训练完成后对模型做「神经科学解剖」,不如从架构层面就把可解释性设计进去。2 月 24 日,他们开源了 Steerling-8B——一个 80 亿参数的 LLM,每个生成的 token 都能追溯到训练数据中的具体来源。
「现在人们做的可解释性研究本质上是对模型做神经科学,而我们把这个逻辑翻转了——我们从头开始工程化地构建模型,这样你就不需要做神经科学了。」
— Julius Adebayo,Guide Labs CEO
怎么做到的?概念层架构
Guide Labs 的核心创新是在模型中插入一个「概念层」(concept layer),将训练数据分类到可追踪的类别中。这需要更多的前期数据标注工作,但团队利用其他 AI 模型辅助标注,大幅降低了成本。
这种架构带来的好处很直接:
- 可以精确追溯模型引用的事实来源
- 可以理解模型对幽默、性别等复杂概念的编码方式
- 可以可靠地开启或关闭特定概念的影响
CEO Julius Adebayo 在 MIT 读博期间就开始了这项研究。他 2018 年合著的一篇高引论文证明了当时理解深度学习模型的方法并不可靠,这最终催生了这种全新的 LLM 构建方式。
性能如何?
| 指标 | 表现 |
|---|---|
| 参数量 | 80 亿(8B) |
| 能力水平 | 达到同规模现有模型 90% 的能力 |
| 训练数据 | 因架构优势,所需训练数据更少 |
| 涌现能力 | 保留,模型自主发现了量子计算等新概念 |
| 开源 | 是,GitHub 已发布 |
一个关键问题是:强制可解释性会不会扼杀 LLM 的涌现能力?Adebayo 表示不会——他们的模型仍然能自主发现训练数据中未明确标注的新概念,团队将这些称为「发现概念」(discovered concepts)。
应用场景
Adebayo 认为可解释架构将成为刚需,尤其在以下领域:
- 消费级 LLM:精确屏蔽版权材料、控制暴力/药物等敏感内容输出
- 金融监管:贷款审批模型需要考虑财务记录但不能考虑种族
- 科学研究:蛋白质折叠等领域需要理解模型为什么选择特定组合
Guide Labs 从 Y Combinator 毕业后,于 2024 年 11 月完成了由 Initialized Capital 领投的 900 万美元种子轮融资。下一步计划是构建更大规模的模型,并提供 API 和 Agent 访问。
富贵点评
这个方向很有意思。现在主流的可解释性研究(比如 Anthropic 的机械可解释性)本质上是「先建好黑箱,再想办法打开看」,而 Guide Labs 的思路是「一开始就别建黑箱」。从工程角度看,后者显然更优雅。
当然,90% 的能力意味着还有 10% 的差距,而在前沿模型竞赛中 10% 可能就是天壤之别。但如果这种架构能扩展到更大规模并缩小差距,它对监管合规、版权保护、AI 安全等领域的价值将是巨大的。毕竟,一个你能理解的 AI 比一个你不能理解但稍微强一点的 AI 更值得信任。
📋 要点回顾
- 产品:Steerling-8B,80 亿参数开源可解释 LLM
- 核心创新:概念层架构,从模型构建层面实现可解释性,每个 token 可追溯到训练数据来源
- 性能:达到同规模模型 90% 能力,所需训练数据更少,保留涌现能力
- 团队:CEO Julius Adebayo(MIT PhD),YC 孵化,900 万美元种子轮
- 下一步:构建更大模型,提供 API 和 Agent 访问
❓ 常见问题
Q: Steerling-8B 和普通 LLM 有什么区别?
A: 普通 LLM 是黑箱——你不知道它为什么生成某个回答。Steerling-8B 通过概念层架构,让每个生成的 token 都能追溯到训练数据中的具体来源,实现了从架构层面的可解释性。
Q: 可解释性会不会牺牲模型能力?
A: 目前 Steerling-8B 达到同规模模型 90% 的能力,存在一定差距。但团队表示这种架构可以扩展到更大规模,理论上没有理由不能匹配前沿模型的性能。模型仍保留了涌现能力。
Q: 这和 Anthropic 的机械可解释性研究有什么不同?
A: Anthropic 的方法是在模型训练完成后,通过分析神经元激活模式来理解模型行为(类似「神经科学」)。Guide Labs 的方法是在模型架构设计阶段就内置可解释性,不需要事后分析。
作者:王富贵 | 发布时间:2026-02-24
参考来源:TechCrunch - Guide Labs debuts a new kind of interpretable LLM | GitHub - Steerling