📌 一句话总结:芬兰初创公司 Taalas 将 Llama 3.1 8B 的权重直接「刻」进硅片,单芯片推理速度达到 17,000 tokens/s——是 Cerebras 的 8 倍、英伟达 Blackwell 的 48 倍,且成本低 20 倍、功耗低 10 倍,代价是每颗芯片只能跑一个模型。这是 AI 芯片行业迄今为止最极端的「专用化」赌注。
2026-02-22 · 深度解读 · 阅读时间约 8 分钟
从 ENIAC 到「模型即计算机」:Taalas 在赌什么?
2026 年 2 月,一家成立仅 2.5 年、团队只有 24 人、总共只花了 3000 万美元的芬兰公司 Taalas,在 Hacker News 上引爆了一场关于 AI 推理未来的讨论。他们的第一款芯片 HC1 跑出了一个让整个行业侧目的数字:单用户 17,000 tokens/s。
作为对比,当前最快的竞争对手 Cerebras 在 Llama 3.1 8B 上大约能做到 2,000 tok/s,SambaNova 约 900,Groq 约 600,而英伟达最新的 Blackwell 架构(B200)在 Taalas 的内部测试中只跑到约 350。换句话说,Taalas 比当前最快的方案快了近 8 倍,比 GPU 方案快了近 48 倍。
这个数字意味着什么?17,000 tok/s 大约相当于每秒输出 30 页 A4 纸的文字。对于人类来说,这已经不是「快」的问题——这是「瞬间」。
"我们寻找的是那些愿意在灵活性上做出痛苦妥协、以换取经济性和速度的场景。"
— Ljubisa Bajic,Taalas CEO,前 Tenstorrent 联合创始人兼 CTO,EE Times 采访
技术原理:为什么把模型「刻」进芯片能快这么多?
要理解 Taalas 的突破,先要理解 GPU 推理的核心瓶颈。
传统 GPU 推理的工作方式是:输入进入计算核心 → GPU 从显存(HBM/VRAM)中读取第 1 层权重 → 做矩阵乘法 → 把中间结果写回显存 → 再读取第 2 层权重……如此循环。以 Llama 3.1 8B 的 32 层为例,生成一个 token 就需要 32 次「读权重 → 计算 → 写回」的往返。这就是所谓的「内存墙」(Memory Wall)——计算单元在等数据,数据在等带宽。
英伟达的解决方案是堆更多的 HBM、更宽的总线、更先进的封装(如 CoWoS)。这条路有效,但代价是芯片越来越贵、功耗越来越高、散热越来越难。一块 B200 的 TDP 高达 1000W,必须液冷。
Taalas 的思路完全不同:既然瓶颈是内存和计算之间的数据搬运,那就把内存和计算合二为一。
具体做法是:将模型的 32 层权重按顺序「蚀刻」到硅片上,每一层都是物理电路。输入信号进入第 1 层的晶体管阵列,完成乘法后,电信号直接沿物理导线流入第 2 层——没有显存读写,没有总线传输,没有缓存未命中。数据像水流过管道一样,从头到尾一气呵成。
更关键的是,Taalas 声称发明了一种用单个晶体管同时存储 4-bit 参数并完成乘法运算的技术。传统方案中,存储和计算需要不同的电路单元;Taalas 把两者融合到了一个晶体管上。这使得芯片密度可以接近 DRAM 级别,同时保持全数字计算的精度。
| 指标 | Taalas HC1 | 英伟达 B200 | Cerebras |
|---|---|---|---|
| 推理速度(tok/s/user) | ~17,000 | ~350 | ~2,000 |
| 功耗 | ~250W(风冷) | ~1000W(液冷) | ~15kW(整系统) |
| 百万 token 成本 | 0.75 美分 | 数美分级别 | 数美分级别 |
| 制程 | TSMC N6 | TSMC 4NP | TSMC 7nm |
| 灵活性 | 仅限单一模型 | 通用 | 通用 |
「两层掩膜」的秘密:如何做到两个月出芯片?
Taalas 最聪明的设计决策之一,是借鉴了 2000 年代「结构化 ASIC」的思路。
传统全定制 ASIC 需要修改芯片的所有掩膜层(通常 30-50 层),从设计到流片需要 12-18 个月,成本数千万美元。Taalas 的做法是:底层芯片架构固定不变(包含大规模的通用逻辑门阵列和晶体管网格),每次换模型只需要修改顶部两层掩膜。这两层掩膜同时控制模型权重的存储和数据在芯片中的流动路径。
这意味着:
- 从拿到新模型到芯片出厂,只需两个月
- 每次流片成本远低于全定制 ASIC
- 可以按年度节奏更新芯片,跟上模型迭代
这个时间线在芯片行业是「疯狂」的。但在 AI 行业,两个月已经是「慢」的了——毕竟一周就可能出一个新的 SOTA 模型。这恰恰是 Taalas 面临的核心矛盾。
能跑 DeepSeek-R1 吗?多芯片扩展的现实与挑战
8B 模型只是起点。Taalas 已经模拟了 DeepSeek-R1 671B 的多芯片方案:大约需要 30 颗定制芯片,预计可以达到 12,000 tok/s/user(GPU 方案目前约 200 tok/s/user),成本为每百万 token 7.6 美分——不到 GPU 方案的一半。
但 30 颗芯片意味着 30 次独立流片。即使每次只改两层掩膜,这仍然是一个不小的工程和供应链挑战。Taalas 的第二代芯片 HC2 计划将 SRAM 分离到独立芯片上,使单芯片密度提升到约 200 亿参数(MXFP4 格式),这将大幅减少大模型所需的芯片数量。
谁会买单?极端专用化的市场逻辑
Taalas 的方案显然不适合所有人。如果你需要今天跑 Llama、明天跑 Mistral、后天跑 Qwen,GPU 仍然是唯一选择。但有几类场景天然适合这种「一芯一模型」的极端方案:
- 大规模 API 服务商:如果你的业务就是提供某个特定模型的推理服务(比如 Llama 系列),那么用 Taalas 芯片可以把成本压到竞争对手的 1/20
- 边缘设备和嵌入式场景:250W 风冷、单芯片完整模型,这意味着可以部署在标准服务器机架甚至工业设备中
- 实时 Agent 应用:当推理延迟降到亚毫秒级别,很多之前因为延迟而不可行的 AI Agent 应用突然变得可能
- 对数据主权有要求的企业:本地部署一颗芯片,比租用云端 GPU 集群更简单、更安全
历史的回声:从 CD-ROM 到 ASIC 的类比
Taalas 的模式让人想起计算史上的一个经典模式:当某个计算任务足够重要、足够稳定时,它最终会从通用硬件迁移到专用硬件。
比特币挖矿从 CPU → GPU → FPGA → ASIC 的演进就是最好的例子。视频编解码从软件解码到硬件解码器(每部手机里都有)也是同样的路径。甚至网络处理,从通用 CPU 到专用网络芯片(如 Barefoot/Intel Tofino),也遵循这个规律。
Taalas 的赌注是:AI 推理已经重要到值得走这条路了。而且,与比特币 ASIC 不同的是,AI 模型会持续迭代——这既是挑战(芯片可能很快过时),也是机会(持续的换代需求意味着持续的收入)。
富贵点评
说实话,第一次看到 Taalas 的数据我是震惊的。17,000 tok/s,这不是渐进式改进,这是数量级的跳跃。但冷静下来想想,这本质上是用「灵活性」换「性能」的极端交易——就像把一本书印成铅字,读起来比手抄快一万倍,但你没法改一个字。
最让我兴奋的不是速度本身,而是它揭示的一个趋势:当 AI 推理的需求大到一定程度,「通用计算」这条路的天花板就会被看见。英伟达的护城河不是不深,但 Taalas 证明了护城河外面还有一片完全不同的战场。24 个人、3000 万美元、2.5 年——这个团队的效率本身就是对「AI 需要烧钱」叙事的一记响亮耳光。
当然,风险也很明显:模型迭代太快怎么办?客户愿意为一颗只能跑一个模型的芯片承诺一年吗?但 Taalas 的创始人 Bajic 说得好——「没人去过这个角落,因为大家都觉得太冒险。但我们想看看角落里藏着什么。」有时候,最大的发现就藏在别人不敢去的地方。
📋 要点回顾
- 核心突破:Taalas 将 LLM 权重直接蚀刻到硅片上,消除了内存墙瓶颈,单芯片 Llama 3.1 8B 推理达 17,000 tok/s
- 性能对比:比 Cerebras 快 8 倍,比英伟达 Blackwell 快 48 倍,成本低 20 倍,功耗低 10 倍
- 关键创新:单晶体管同时存储 4-bit 参数并完成乘法;只需修改两层掩膜即可适配新模型,两个月出芯片
- 核心代价:每颗芯片只能运行一个特定模型,灵活性为零
- 扩展路线:已模拟 DeepSeek-R1 671B 方案(约 30 颗芯片,12,000 tok/s),第二代 HC2 将大幅提升单芯片密度
- 团队效率:24 人团队,总花费仅 3000 万美元(融资超 2 亿),堪称 AI 硬件领域的精益典范
❓ 常见问题
Q: Taalas 的芯片能跑其他模型吗?
A: 不能。每颗 HC1 芯片在制造时就固定了一个特定模型的权重,无法更换。但芯片保留了小容量 SRAM,支持 LoRA 微调和 KV Cache,因此可以在同一个基础模型上做一定程度的定制化。
Q: 17,000 tok/s 的质量如何?会不会因为量化损失太大?
A: Taalas 承认第一代芯片使用了「激进的量化」(3-bit 和 6-bit 混合),确实存在一定的质量损失。第二代芯片将采用标准 4-bit 浮点格式(MXFP4),预计会显著改善输出质量。
Q: 这对英伟达构成威胁吗?
A: 短期内不会。Taalas 瞄准的是特定的高吞吐量推理场景,而非通用 AI 训练和推理市场。但它证明了一个重要信号:在推理侧,专用化硬件可以实现数量级的效率提升,这可能会催生一个全新的芯片细分市场。
Q: 普通开发者能用到 Taalas 的芯片吗?
A: 目前 Taalas 提供在线聊天演示(chatjimmy.ai)和推理 API 服务申请。开发者可以通过 API 体验亚毫秒级延迟的推理,但暂时无法购买独立芯片。
作者:王富贵 | 发布时间:2026-02-22
参考来源:Taalas 官方博客 · EE Times 深度报道 · Anurag K 技术解析