分享即学习- AI时代-虎嗅网

本文来自微信公众号： caoz的梦呓，作者：caoz，原文标题：《分享即学习 - AI时代》

最近关于AI的快速发展，一些分享过程中学到的东西，也想在这里回顾一下，当然，老规矩，如果真被事实打脸，也是成长的合理代价。

去年Deepseek的火爆，我也蹭了两三篇十万加，很侥幸，今天翻出来看，我觉得经得起时间检验，没有贬低，没有吹捧，Deepseek的持续表现（非常质量高的论文）很好的证明了自己的价值，但确实也没达到某些盲目自High的人的预期。

很遗憾，我一直以为春节前后能看到Deep seek让人惊喜的版本更新，但目前看似乎还需要继续等待，这大概也算是我预判错误的一个案例了。不过前段时间看到有人开始提及适配国产芯片的话题，又是一些各种自High的讨论，那忍不住就在我的读者群里聊了几句，然后没想到这个话题引发了一连串的延伸讨论，而这里也引出了专业人士的评价，弥补了我的认知空白。

1，Deepseek适配的是推理芯片，目前没有证据证明它的训练是国产芯片，没有任何官方（无论是deepseek还是国产芯片厂商）确认这个训练采用了国产芯片，从我的逻辑判断和专业人士的解读来看，应该依然是英伟达训练的，有个基本逻辑，如果真的是国产芯片训练的，就算是deepseek自己低调，芯片厂商也会高调宣布。

2，推理芯片诉求正在指数级增长，我去年文章就提过，中国的推理芯片这个故事从概念到跑通成立，是deepseek引爆的，这个是业内top算力平台高管给我科普的，不是我自己瞎猜的。去年国产芯片企业的订单暴增，股价暴增，都要感谢Deepseek，所以我说国产芯片目前主要是在做推理，并不是贬低他们。

3，没有给海外芯片做提前适配，不代表抛弃了海外芯片适配，一个很重要的常识，在当前大模型的训练和推理中，鉴于流行的生态，英伟达默认是不需要提前适配的。当然，对TPU和AMD来说，确实不是好消息。

4，那么话题到这里开始延展，有读者跟我说智谱Glm5大模型是国产芯片训练的，基于习惯，我使用chatgpt求证这个传言，得到了属实的回复，并解释了一遍为什么智谱可以，而deepseek不行的各种因果，当然，这里不展开，因为后面会反转。

我觉得这是我的认识盲区，并决定采纳了AI给我的信息，但专业人士出来说，绝不可能。于是我开始第二次和AI求证，让chatgpt跟我核对信源，这下发现，所有说智谱来自于国产芯片训练的，都是一些技术社区里的个人言论，并没有官方证实或证伪，我倒不觉得一定是有人在撒谎，但是我觉得分不清推理和训练的人还是很多的。

后来读者在寻求证据的时候又拿出来一个官方的确认说明，智谱的多模态大模型确实是国产芯片训练的，这时候专业认识回复了一句，多模态模型的参数只有十几B，而大模型的参数是1.x T，数字我肯定记不清了，但底层逻辑却通了，国产芯片训练是个非常好的宣传点，如果是国产芯片训练的官方一定会拿出来讲，这个多模态模型就是案例，如果官方表达模糊，没确认来讲，那基本上就意味着。。。

所以这里其实并没有得到绝对百分百的确认，但基于掌握的信源追溯和逻辑分析，倾向于认为，在大模型训练上，国产芯片依然任重道远。

5，直播的时候连续被听众问到一些AI芯片趋势，好几个是我没听说的，但所谓分享即学习，还是很努力的去补课，跟上时代。

第一个是读者问的怎么看cerebras，我是第一次听说，不搜不知道，搜了吓一跳，估值已经飙升到230亿美金（最近六个月从80亿美金飙升到230亿），而且已经大规模部署并在网上应用到某巨头最新模型推理。是AMD投资的一个创业团队，采用整个晶圆成型方式，极大减少芯片间信息传输的损耗和延时，实现token吞吐的大幅度提升，那也看到有读者问了非常专业的问题，这么搞良品率岂不是要崩，再次让AI调研，其实人家用的是架构容错，整体芯片上是大量堆叠的重复芯片，并不需要100%完好率，允许一定范围的损坏率并且有自动容错的机制。

不过目前国内尚无对应项目。

之后又看到读者问Taalas，又是一个推理破局者，又是读者不问我都不知道的东西，把推理算法关键部分直接做成硬件，感觉这是一个新的赛道，毕竟推理成本指数级下降，推理效率指数级上升，这个市场不疯狂才怪，当然，这也是有成本的，通用性受到限制，每一代产品的生命周期可能会比较局限，很可能无法跟随大模型前进的步伐，但我觉得这个赛道也确实是有足够的空间和机会，和cerebras属于点亮不同方向的技能树，暂时还无法判断谁会成为最后的赢家。

然后又是matx，TPU团队出来创建的项目，刚开始就拿到巨额融资，目前问了问AI，但我知识有限，看不太懂，还不是很知道他们技术路线的突破到底在哪里。

但有一点，我也问了一家国产芯片的创始人，感觉目前国内就是想追，难度都不低。

所以综上，好消息是，国产芯片推理能力已经展露锋芒，市场化推进也非常成功。

坏消息是，似乎在验证那句讲了很多次的判断，美国那边做底层结构创新，我们做工程优化。我们可以把已知结构内做到极致，但当结构发生颠覆的时候、很多努力都需要重新开始。

美国最近这三家芯片创业公司都是狠抓高吞吐低延迟的场景，而且有一家已经规模化部署了，如果事实证明人家走出来一条新的路线，涉及到基础结构的创新，我们可能又需要从头追赶。而在这个环节上，我们目前欠缺的，可不仅仅是光刻机。

这是最近对AI芯片的了解，说实话，基本上都是来自于和读者的交流，讨论中获得新的关键词，新的情报，然后再通过AI去核对，去求证，以及基于逻辑去判断。

分享越多，收获越多。

btw，最近什么最火，当然是openclaw。我有一个风向标，可以分享给大家，我有事没事就看看知识星球的畅销榜，看看都有哪些新面孔上榜了，最新的就是教人怎么玩龙虾的，而且排名极高。

确实很赚钱，据说网上各种付费帮人家装龙虾的，没办法，我慢好几拍，我mac mini上已经装了，但是到让我授权的环节我就没操作，还是有点怂，又怕它乱搞又怕它费钱。所以我自己还没体验，也没好意思靠这个去宣传自己的星球。

我最近还是在cursor编程，第四个产品其实已经发布了（第二个产品暂时搁置不做了，所以之前其实完整发布了两款产品），但谷歌又让我封测14天，慢慢熬ing(封测也好，已经发现并解决了致命bug)，苹果直接给拒了，说同质化严重，正在申诉。所以目前还没有公开产品下载地址，等产品彻底发布成功，我会做一次复盘，其实这里也有分享即学习的案例。另外第五个项目也在开发测试中，这个是帮朋友公司忙的事情，也不会公开发布。说句自我感动的话，其实还是很努力的。但你看，这才短短几个月，用cursor的已经是落伍的表现了有没有。但我还是理解不了所谓用个agent就能一次打造完整产品的经历，至少以我目前的开发来看，反复打磨是非常消耗精力的事情，也许是我太笨了吧，也许是我太抠了吧。（氪金就会变强，以前游戏圈的梗，现在可以完美适用在AI时代）

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

分享即学习- AI时代

大 家 都 在 搜

大家都在搜