扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
2026-02-23 13:42

24个人,17000 token/秒,一颗不可编程的芯片

本文来自微信公众号: 陆三金 ,作者:陆三金&kimi,原文标题:《24 个人,17000 token/秒,一颗不可编程的芯片》


在搜集春节期间新闻的时候,看到一个数字,差点以为眼花了。


现在已经有芯片可以把推理速度搞到17000 token/秒。


这颗芯片用来跑Llama 3.1 8B,速度是Nvidia H200的七十多倍,功耗却只有它的零头。没有液冷,没有HBM,没有复杂的先进封装。就是一块815平方毫米的硅片,上面刻着整个AI模型。



而且,它不能编程。只能跑这一个模型,别的干不了。


这家公司叫Taalas,创始人Ljubisa Bajic,之前是Tenstorrent的CEO。他带着一群跟了他二十年的老同事,用两年半时间,造出了这颗HC1。


这让我想起一个老问题:通用计算和专用计算,到底谁才是未来?



先说Bajic这个人。


这位老哥曾在AMD、英伟达的芯片设计岗位上工作超过13年,搞过ASIC和AMD的APU。



2016年,他创立了Tenstorrent。这家公司做的是AI芯片,走通用路线,靠着灵活的架构和软件生态,在圈子里渐渐有了名气。


2020年12月,「硅仙人」Jim Keller(有兴趣的朋友可以自己去查一下这位大佬,这里不再科普)加入了Tenstorrent,让这家公司声名大噪。


但不到2年后,Bajic开始专任CTO,Jim Keller出任CEO。再过几个月,Bajic离开了Tenstorrent。


离开的原因没人明说,但从Taalas的路线可以猜出一二。


Tenstorrent做的是「什么模型都能跑」的通用芯片。Bajic出走后,做的却是「什么模型都不能换」的专用芯片。这个转变本身就说明问题:他认为通用的路有问题。


问题是什么?


Taalas在HC1的发布文章里写得很直白,现代AI推理硬件被一个人为的界限卡住了:一边是计算,一边是存储,两边速度差了上千倍。为了弥补这个差距,厂商们不得不堆HBM、上先进封装、搞液冷,最后造出来的数据中心像个怪兽,占地、耗电、烧钱。



Taalas给出的办法是:把这个界限干掉。


Taalas决定把整个模型直接「刻」进硅片。不是存在内存里,是存在晶体管的连接方式里。这就像把软件变成了硬件,模型就是芯片,芯片就是模型。


好处是,存储和计算合二为一,不需要高带宽内存,不需要复杂IO,功耗直接降了一个数量级。


代价是,这颗芯片这辈子就只能干这一件事。



HC1的技术参数确实亮眼。


台积电6纳米工艺,530亿晶体管,815平方毫米。单用户场景下能跑到17000 tokens每秒。作为对比,Cerebras的同类方案大概是2000 tokens,Nvidia H200只有230 tokens。


速度快了将近十倍,建造成本只有二十分之一,功耗只有十分之一。


但这里有个细节容易很关键:这颗芯片跑的是Llama 3.1 8B。


Llama 3.1是什么时候发布的?2024年7月。到现在已经快两年。在AI这个领域,两年是什么概念?


2024年7月到2026年2月,市场上发生了什么?


OpenAI已经迭代到了GPT-5.2。Anthropic已经迭代到了Claude 4.6。Google的Gemini也已经到了3.1。Meta自己都在2024年底发布了Llama 3.3。更别提2025年1月DeepSeek R1的横空出世,用算法优化把整个行业震得够呛。


而Taalas的第一颗芯片,只能跑Llama 3.1 8B。


Taalas不是没意识到这个问题。他们在发布文章里写到,「模型到硬件只需两个月」。意思是,如果客户需要新模型的芯片,他们两个月就能造出来。


但似乎网友并不太相信他们可以这么快搞定?


但Hacker News上有条评论很扎心:如果两个月能搞定,「为何不展示较新的DeepSeek模型呢?」



还有些评论则是关心模型技术路线的变化。


2025年1月DeepSeek R1发布的时候,多少公司的技术路线被打乱?多少项目被迫重新评估?如果你在去年11月刚花大钱定制了一颗芯片,今年1月发现它已经被新技术甩开几条街,你会是什么心情?


Taalas自己也承认这个风险。Bajic在接受EE Times采访时说:「没人走这条路,因为大家都觉得AI变化太快,这么做风险太大。某种程度上,确实如此。」



但他还是做了。



那Taalas的客户会是谁?


Bajic的想法是:找那些「愿意为一年的承诺买单」的人。


一年。这是Taalas的商业模式能成立的前提。客户得承诺,这颗芯片我至少用一年,才能摊平定制成本。


可问题是,谁能在今天的AI市场里承诺一年?


创业公司不敢。模型迭代一快,技术栈全变,昨天的最优解可能是今天的拖累。大厂也不敢。Google、Meta、OpenAI都在疯狂迭代自己的模型,一年后的世界长什么样,没人知道。


Taalas举了个例子:DeepSeek R1 671B模型,如果用他们的方案,需要大约30颗芯片。Bajic坦言,这意味着30次增量流片(incremental tape-outs),虽然每次只改两个mask,成本相对较低,但这仍是烦人的部分。



Bajic算过账:即便如此,总拥有成本还是比GPU方案低。


但这个账有个前提:这一年里,模型架构不能有大的变化。如果出现下一个DeepSeek,用全新的架构颠覆现有方案,这30颗芯片就变成30块昂贵的砖头。


历史上不是没有先例。


比特币挖矿的ASIC军备竞赛就是例子。2013年,第一批ASIC矿机上市,把CPU、GPU扫进历史垃圾堆。但随之而来的是无尽的迭代:新矿机不断推出,旧矿机迅速贬值。矿工们被迫不断升级,否则就被淘汰。最后,只有那些能拿到最便宜电力、最新芯片的巨头才能生存。


Taalas的HC1不是矿机,但面临同样的困境:硬件的生命周期,能不能追上软件的变化?



还有一个更深层的问题:量化的代价。


HC1能把整个8B模型塞进一颗芯片,靠的是激进的量化。第一代HC1用的是3-bit和6-bit混合精度。Taalas自己也承认,「相比GPU基准,有一些质量损失」。


他们计划在第二代HC2上改用标准的4-bit浮点格式。这说明第一代的量化确实有妥协。


对于某些应用,这点质量损失可能无关紧要。但对于需要高精度推理的场景,这可能是致命的。


更重要的是,随着模型变得越来越大、越来越复杂,量化带来的损失可能被放大。8B模型压缩一下还能用,70B呢?400B呢?当模型本身就在不断膨胀,硬连线的方案能不能跟上?



写到这,我并不是要说Taalas一定失败。


二十四个人的小团队,用三千万美元,造出一颗性能如此极致的芯片,这本身就是了不起的成就。它证明了,在AI芯片这个被Nvidia统治的领域,还有不同的路可以走。


但我想说的是,技术路线的选择,从来不是纯技术的问题。


Taalas的赌注是:AI模型会收敛,少数几个架构会统治市场,到那时,效率比灵活性更重要。


这个赌注对不对?现在没人知道。


但至少有一点是确定的:今天的AI市场,还远没到收敛的时候。DeepSeek R1的横空出世告诉我们,颠覆可以来自任何地方。模型架构还在进化,新的训练方法还在涌现,下一颗改变世界的大模型,可能正在某个车库里被写出来。


在这样的世界里,把模型刻进硅片,就像是在流沙上盖房子。房子本身可以很精美,但地基随时可能移动。


Bajic和他的团队选择用最极端的专用化,追求最极致的效率。


Taalas的HC1只是一个demo,引起世界关注的一次尝试,HC2会尝试更先进的模型,也许到时候会有进一步的答案。


不过,最引起我注意的还是Taalas说,他们是一小群长期合作的伙伴,其中许多人已共事超过二十年,团队极度追求精简与专注。



在这样一个时代,有这样一支小队伍,一直在一个领域深耕,在模型迭代如此快速的当下,竟然试图让硬件去追上模型的迭代速度,试图等待模型稳定之后迎来逆袭,是有一些冒险和浪漫精神在的。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

大 家 都 在 搜