把大模型焊进芯片里:Taalas HC1 实现 17000 tokens/s 推理速度,比 Nvidia B200 快百倍、便宜 20 倍,24 人团队仅花 3000 万美元

📌 一句话总结:多伦多初创公司 Taalas 发布 HC1 芯片,将整个 LLM 硬编码进硅片,实现 17000 tokens/s 的推理速度,比 Nvidia B200 快两个数量级、便宜 20 倍,24 人团队仅花 3000 万美元研发。

2026年02月24日 · 资讯分享 · 阅读时间约 4 分钟

把大模型「焊死」在芯片里

传统 AI 推理的工作方式是:GPU 从内存中加载模型权重,逐步计算每个 token。这个过程涉及大量数据搬运,内存带宽成为瓶颈,功耗居高不下。

Taalas 的思路完全不同:直接把整个大语言模型——包括参数、权重和计算逻辑——硬编码进定制 ASIC 芯片。没有内存加载,没有数据搬运,模型就是芯片本身。

HC1 基于台积电 6nm 工艺制造,芯片面积 815 平方毫米,集成 530 亿个晶体管。它目前固化了 Meta 的 Llama 3.1 8B 模型,实测推理速度达到 14,357–16,960 tokens/s,峰值超过 17,000 tokens/s。一个详细的二战历史问答,0.138 秒就能生成完整回答。

碾压级的性能数据

指标 Taalas HC1 Nvidia B200 / H200
推理速度 17,000 tokens/s 约 170 tokens/s
推理成本 0.75 美分/百万 token 20–49 美分/百万 token
机架功耗 12–15 kW 120–600 kW
散热方式 风冷 多数需液冷
HBM 需求 不需要 需要大量 HBM

HC1 还比目前最快的推理平台 Cerebras 晶圆级引擎快 10 倍。单卡功耗仅约 200W,通过标准 PCIe 接口接入服务器,部署门槛极低。

24 人团队,3000 万美元

最让人惊讶的不只是性能数据,而是研发成本。Taalas 成立仅 2.5 年,整个 HC1 项目由 24 人团队完成,总研发投入仅 3000 万美元。作为对比,Nvidia 每年的研发支出超过 100 亿美元。

公司已累计融资超过 2 亿美元,包括最近一轮 1.69 亿美元。CEO Ljubisa Bajic 是 Tenstorrent 前高管,他表示:「我们决定以 beta 服务的形式发布,让开发者探索当 LLM 推理以亚毫秒延迟和接近零成本运行时,什么变得可能。」

目前 Taalas 提供两种商业模式:推理即服务(通过 chatjimmy.ai 和 API 访问)以及硬件销售。

代价:灵活性

HC1 的核心取舍很明确:用灵活性换极致性能。每颗芯片只能运行一个固定模型,想换模型就得换芯片。模型更新需要修改两层金属层,从新模型发布到硬化硅片的周转时间约两个月。

不过 HC1 支持通过 LoRA(低秩适配器)进行微调,保留了一定的定制空间。上下文窗口也可配置。

Taalas 的路线图包括:2026 年春季在 HC1 上支持中等规模推理模型;2026 年冬季推出 HC2 第二代平台,支持 TB 级前沿模型,采用多芯片设计和 4-bit 浮点格式。

富贵点评

HC1 的思路其实很朴素:既然你 90% 的推理请求都在跑同一个模型,为什么要用一个通用计算设备?直接把模型变成硬件就好了。这和早年网络设备从通用 CPU 转向专用 ASIC 的逻辑一模一样。问题在于 AI 模型的迭代速度远快于网络协议——Llama 3.1 8B 今天是主流,半年后可能就不是了。两个月的芯片周转时间听起来很快,但在 AI 领域可能还是太慢。HC1 最适合的场景是那些模型稳定、请求量巨大的部署——比如大型客服系统、搜索引擎的推理后端。如果 HC2 真能在冬季支持 TB 级模型,那才是真正改变游戏规则的时刻。不过 24 人团队花 3000 万美元做出这个东西,本身就已经是对「AI 必须烧钱」叙事的一记响亮耳光。

📋 要点回顾

  • 核心创新:将完整 LLM(Llama 3.1 8B)硬编码进定制 ASIC 芯片,消除内存加载开销
  • 性能数据:17,000 tokens/s,比 Nvidia B200 快两个数量级,推理成本低 20 倍以上
  • 能效优势:机架功耗 12-15 kW(GPU 机架 120-600 kW),风冷设计,无需 HBM
  • 研发成本:24 人团队,3000 万美元,公司成立仅 2.5 年
  • 核心取舍:每颗芯片固定一个模型,灵活性有限,适合高流量稳定部署场景

❓ 常见问题

Q: HC1 能运行 GPT-5 或 Claude 这样的大模型吗?

A: 目前不能。HC1 当前固化的是 Llama 3.1 8B(80 亿参数),前沿模型通常有数千亿参数。Taalas 计划在 2026 年冬季推出 HC2 平台,采用多芯片设计支持 TB 级模型。

Q: 这会威胁到 Nvidia 的地位吗?

A: 短期内不会。HC1 针对的是高流量、单模型的推理场景,而 Nvidia GPU 的优势在于通用性——训练、推理、多模型切换都能做。两者更像是互补而非替代关系。但如果专用推理芯片被大规模采用,Nvidia 在推理市场的份额可能会受到侵蚀。

Q: 模型更新了怎么办?需要换芯片吗?

A: 是的,模型更新需要新的芯片。不过 Taalas 表示只需修改两层金属层,从新模型发布到新芯片出货约两个月。同时支持 LoRA 微调,在不换芯片的情况下可以做一定程度的定制。

作者:王富贵 | 发布时间:2026年02月24日

参考来源:Financial Express · Yahoo Finance