📌 一句话总结:多伦多初创公司 Taalas 发布 HC1 芯片,将整个 LLM 硬编码进硅片,实现 17000 tokens/s 的推理速度,比 Nvidia B200 快两个数量级、便宜 20 倍,24 人团队仅花 3000 万美元研发。
2026年02月24日 · 资讯分享 · 阅读时间约 4 分钟
把大模型「焊死」在芯片里
传统 AI 推理的工作方式是:GPU 从内存中加载模型权重,逐步计算每个 token。这个过程涉及大量数据搬运,内存带宽成为瓶颈,功耗居高不下。
Taalas 的思路完全不同:直接把整个大语言模型——包括参数、权重和计算逻辑——硬编码进定制 ASIC 芯片。没有内存加载,没有数据搬运,模型就是芯片本身。
HC1 基于台积电 6nm 工艺制造,芯片面积 815 平方毫米,集成 530 亿个晶体管。它目前固化了 Meta 的 Llama 3.1 8B 模型,实测推理速度达到 14,357–16,960 tokens/s,峰值超过 17,000 tokens/s。一个详细的二战历史问答,0.138 秒就能生成完整回答。
碾压级的性能数据
| 指标 | Taalas HC1 | Nvidia B200 / H200 |
|---|---|---|
| 推理速度 | 17,000 tokens/s | 约 170 tokens/s |
| 推理成本 | 0.75 美分/百万 token | 20–49 美分/百万 token |
| 机架功耗 | 12–15 kW | 120–600 kW |
| 散热方式 | 风冷 | 多数需液冷 |
| HBM 需求 | 不需要 | 需要大量 HBM |
HC1 还比目前最快的推理平台 Cerebras 晶圆级引擎快 10 倍。单卡功耗仅约 200W,通过标准 PCIe 接口接入服务器,部署门槛极低。
24 人团队,3000 万美元
最让人惊讶的不只是性能数据,而是研发成本。Taalas 成立仅 2.5 年,整个 HC1 项目由 24 人团队完成,总研发投入仅 3000 万美元。作为对比,Nvidia 每年的研发支出超过 100 亿美元。
公司已累计融资超过 2 亿美元,包括最近一轮 1.69 亿美元。CEO Ljubisa Bajic 是 Tenstorrent 前高管,他表示:「我们决定以 beta 服务的形式发布,让开发者探索当 LLM 推理以亚毫秒延迟和接近零成本运行时,什么变得可能。」
目前 Taalas 提供两种商业模式:推理即服务(通过 chatjimmy.ai 和 API 访问)以及硬件销售。
代价:灵活性
HC1 的核心取舍很明确:用灵活性换极致性能。每颗芯片只能运行一个固定模型,想换模型就得换芯片。模型更新需要修改两层金属层,从新模型发布到硬化硅片的周转时间约两个月。
不过 HC1 支持通过 LoRA(低秩适配器)进行微调,保留了一定的定制空间。上下文窗口也可配置。
Taalas 的路线图包括:2026 年春季在 HC1 上支持中等规模推理模型;2026 年冬季推出 HC2 第二代平台,支持 TB 级前沿模型,采用多芯片设计和 4-bit 浮点格式。
富贵点评
HC1 的思路其实很朴素:既然你 90% 的推理请求都在跑同一个模型,为什么要用一个通用计算设备?直接把模型变成硬件就好了。这和早年网络设备从通用 CPU 转向专用 ASIC 的逻辑一模一样。问题在于 AI 模型的迭代速度远快于网络协议——Llama 3.1 8B 今天是主流,半年后可能就不是了。两个月的芯片周转时间听起来很快,但在 AI 领域可能还是太慢。HC1 最适合的场景是那些模型稳定、请求量巨大的部署——比如大型客服系统、搜索引擎的推理后端。如果 HC2 真能在冬季支持 TB 级模型,那才是真正改变游戏规则的时刻。不过 24 人团队花 3000 万美元做出这个东西,本身就已经是对「AI 必须烧钱」叙事的一记响亮耳光。
📋 要点回顾
- 核心创新:将完整 LLM(Llama 3.1 8B)硬编码进定制 ASIC 芯片,消除内存加载开销
- 性能数据:17,000 tokens/s,比 Nvidia B200 快两个数量级,推理成本低 20 倍以上
- 能效优势:机架功耗 12-15 kW(GPU 机架 120-600 kW),风冷设计,无需 HBM
- 研发成本:24 人团队,3000 万美元,公司成立仅 2.5 年
- 核心取舍:每颗芯片固定一个模型,灵活性有限,适合高流量稳定部署场景
❓ 常见问题
Q: HC1 能运行 GPT-5 或 Claude 这样的大模型吗?
A: 目前不能。HC1 当前固化的是 Llama 3.1 8B(80 亿参数),前沿模型通常有数千亿参数。Taalas 计划在 2026 年冬季推出 HC2 平台,采用多芯片设计支持 TB 级模型。
Q: 这会威胁到 Nvidia 的地位吗?
A: 短期内不会。HC1 针对的是高流量、单模型的推理场景,而 Nvidia GPU 的优势在于通用性——训练、推理、多模型切换都能做。两者更像是互补而非替代关系。但如果专用推理芯片被大规模采用,Nvidia 在推理市场的份额可能会受到侵蚀。
Q: 模型更新了怎么办?需要换芯片吗?
A: 是的,模型更新需要新的芯片。不过 Taalas 表示只需修改两层金属层,从新模型发布到新芯片出货约两个月。同时支持 LoRA 微调,在不换芯片的情况下可以做一定程度的定制。
作者:王富贵 | 发布时间:2026年02月24日
参考来源:Financial Express · Yahoo Finance