24个人，17000 token/秒，一颗不可编程的芯片-虎嗅网

本文来自微信公众号：陆三金，作者：陆三金&kimi，原文标题：《24 个人，17000 token/秒，一颗不可编程的芯片》

在搜集春节期间新闻的时候，看到一个数字，差点以为眼花了。

现在已经有芯片可以把推理速度搞到17000 token/秒。

这颗芯片用来跑Llama 3.1 8B，速度是Nvidia H200的七十多倍，功耗却只有它的零头。没有液冷，没有HBM，没有复杂的先进封装。就是一块815平方毫米的硅片，上面刻着整个AI模型。

而且，它不能编程。只能跑这一个模型，别的干不了。

这家公司叫Taalas，创始人Ljubisa Bajic，之前是Tenstorrent的CEO。他带着一群跟了他二十年的老同事，用两年半时间，造出了这颗HC1。

这让我想起一个老问题：通用计算和专用计算，到底谁才是未来？

一

先说Bajic这个人。

这位老哥曾在AMD、英伟达的芯片设计岗位上工作超过13年，搞过ASIC和AMD的APU。

2016年，他创立了Tenstorrent。这家公司做的是AI芯片，走通用路线，靠着灵活的架构和软件生态，在圈子里渐渐有了名气。

2020年12月，「硅仙人」Jim Keller（有兴趣的朋友可以自己去查一下这位大佬，这里不再科普）加入了Tenstorrent，让这家公司声名大噪。

但不到2年后，Bajic开始专任CTO，Jim Keller出任CEO。再过几个月，Bajic离开了Tenstorrent。

离开的原因没人明说，但从Taalas的路线可以猜出一二。

Tenstorrent做的是「什么模型都能跑」的通用芯片。Bajic出走后，做的却是「什么模型都不能换」的专用芯片。这个转变本身就说明问题：他认为通用的路有问题。

问题是什么？

Taalas在HC1的发布文章里写得很直白，现代AI推理硬件被一个人为的界限卡住了：一边是计算，一边是存储，两边速度差了上千倍。为了弥补这个差距，厂商们不得不堆HBM、上先进封装、搞液冷，最后造出来的数据中心像个怪兽，占地、耗电、烧钱。

Taalas给出的办法是：把这个界限干掉。

Taalas决定把整个模型直接「刻」进硅片。不是存在内存里，是存在晶体管的连接方式里。这就像把软件变成了硬件，模型就是芯片，芯片就是模型。

好处是，存储和计算合二为一，不需要高带宽内存，不需要复杂IO，功耗直接降了一个数量级。

代价是，这颗芯片这辈子就只能干这一件事。

二

HC1的技术参数确实亮眼。

台积电6纳米工艺，530亿晶体管，815平方毫米。单用户场景下能跑到17000 tokens每秒。作为对比，Cerebras的同类方案大概是2000 tokens，Nvidia H200只有230 tokens。

速度快了将近十倍，建造成本只有二十分之一，功耗只有十分之一。

但这里有个细节容易很关键：这颗芯片跑的是Llama 3.1 8B。

Llama 3.1是什么时候发布的？2024年7月。到现在已经快两年。在AI这个领域，两年是什么概念？

2024年7月到2026年2月，市场上发生了什么？

OpenAI已经迭代到了GPT-5.2。Anthropic已经迭代到了Claude 4.6。Google的Gemini也已经到了3.1。Meta自己都在2024年底发布了Llama 3.3。更别提2025年1月DeepSeek R1的横空出世，用算法优化把整个行业震得够呛。

而Taalas的第一颗芯片，只能跑Llama 3.1 8B。

Taalas不是没意识到这个问题。他们在发布文章里写到，「模型到硬件只需两个月」。意思是，如果客户需要新模型的芯片，他们两个月就能造出来。

但似乎网友并不太相信他们可以这么快搞定？

但Hacker News上有条评论很扎心：如果两个月能搞定，「为何不展示较新的DeepSeek模型呢？」

还有些评论则是关心模型技术路线的变化。

2025年1月DeepSeek R1发布的时候，多少公司的技术路线被打乱？多少项目被迫重新评估？如果你在去年11月刚花大钱定制了一颗芯片，今年1月发现它已经被新技术甩开几条街，你会是什么心情？

Taalas自己也承认这个风险。Bajic在接受EE Times采访时说：「没人走这条路，因为大家都觉得AI变化太快，这么做风险太大。某种程度上，确实如此。」

但他还是做了。

三

那Taalas的客户会是谁？

Bajic的想法是：找那些「愿意为一年的承诺买单」的人。

一年。这是Taalas的商业模式能成立的前提。客户得承诺，这颗芯片我至少用一年，才能摊平定制成本。

可问题是，谁能在今天的AI市场里承诺一年？

创业公司不敢。模型迭代一快，技术栈全变，昨天的最优解可能是今天的拖累。大厂也不敢。Google、Meta、OpenAI都在疯狂迭代自己的模型，一年后的世界长什么样，没人知道。

Taalas举了个例子：DeepSeek R1 671B模型，如果用他们的方案，需要大约30颗芯片。Bajic坦言，这意味着30次增量流片（incremental tape-outs），虽然每次只改两个mask，成本相对较低，但这仍是烦人的部分。

Bajic算过账：即便如此，总拥有成本还是比GPU方案低。

但这个账有个前提：这一年里，模型架构不能有大的变化。如果出现下一个DeepSeek，用全新的架构颠覆现有方案，这30颗芯片就变成30块昂贵的砖头。

历史上不是没有先例。

比特币挖矿的ASIC军备竞赛就是例子。2013年，第一批ASIC矿机上市，把CPU、GPU扫进历史垃圾堆。但随之而来的是无尽的迭代：新矿机不断推出，旧矿机迅速贬值。矿工们被迫不断升级，否则就被淘汰。最后，只有那些能拿到最便宜电力、最新芯片的巨头才能生存。

Taalas的HC1不是矿机，但面临同样的困境：硬件的生命周期，能不能追上软件的变化？

四

还有一个更深层的问题：量化的代价。

HC1能把整个8B模型塞进一颗芯片，靠的是激进的量化。第一代HC1用的是3-bit和6-bit混合精度。Taalas自己也承认，「相比GPU基准，有一些质量损失」。

他们计划在第二代HC2上改用标准的4-bit浮点格式。这说明第一代的量化确实有妥协。

对于某些应用，这点质量损失可能无关紧要。但对于需要高精度推理的场景，这可能是致命的。

更重要的是，随着模型变得越来越大、越来越复杂，量化带来的损失可能被放大。8B模型压缩一下还能用，70B呢？400B呢？当模型本身就在不断膨胀，硬连线的方案能不能跟上？

五

写到这，我并不是要说Taalas一定失败。

二十四个人的小团队，用三千万美元，造出一颗性能如此极致的芯片，这本身就是了不起的成就。它证明了，在AI芯片这个被Nvidia统治的领域，还有不同的路可以走。

但我想说的是，技术路线的选择，从来不是纯技术的问题。

Taalas的赌注是：AI模型会收敛，少数几个架构会统治市场，到那时，效率比灵活性更重要。

这个赌注对不对？现在没人知道。

但至少有一点是确定的：今天的AI市场，还远没到收敛的时候。DeepSeek R1的横空出世告诉我们，颠覆可以来自任何地方。模型架构还在进化，新的训练方法还在涌现，下一颗改变世界的大模型，可能正在某个车库里被写出来。

在这样的世界里，把模型刻进硅片，就像是在流沙上盖房子。房子本身可以很精美，但地基随时可能移动。

Bajic和他的团队选择用最极端的专用化，追求最极致的效率。

Taalas的HC1只是一个demo，引起世界关注的一次尝试，HC2会尝试更先进的模型，也许到时候会有进一步的答案。

不过，最引起我注意的还是Taalas说，他们是一小群长期合作的伙伴，其中许多人已共事超过二十年，团队极度追求精简与专注。

在这样一个时代，有这样一支小队伍，一直在一个领域深耕，在模型迭代如此快速的当下，竟然试图让硬件去追上模型的迭代速度，试图等待模型稳定之后迎来逆袭，是有一些冒险和浪漫精神在的。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

24个人，17000 token/秒，一颗不可编程的芯片

大 家 都 在 搜

大家都在搜