扫码打开虎嗅APP
本文来自微信公众号: caoz的梦呓 ,作者:caoz,原文标题:《分享即学习 - AI时代》
最近关于AI的快速发展,一些分享过程中学到的东西,也想在这里回顾一下,当然,老规矩,如果真被事实打脸,也是成长的合理代价。
去年Deepseek的火爆,我也蹭了两三篇十万加,很侥幸,今天翻出来看,我觉得经得起时间检验,没有贬低,没有吹捧,Deepseek的持续表现(非常质量高的论文)很好的证明了自己的价值,但确实也没达到某些盲目自High的人的预期。
很遗憾,我一直以为春节前后能看到Deep seek让人惊喜的版本更新,但目前看似乎还需要继续等待,这大概也算是我预判错误的一个案例了。不过前段时间看到有人开始提及适配国产芯片的话题,又是一些各种自High的讨论,那忍不住就在我的读者群里聊了几句,然后没想到这个话题引发了一连串的延伸讨论,而这里也引出了专业人士的评价,弥补了我的认知空白。
1,Deepseek适配的是推理芯片,目前没有证据证明它的训练是国产芯片,没有任何官方(无论是deepseek还是国产芯片厂商)确认这个训练采用了国产芯片,从我的逻辑判断和专业人士的解读来看,应该依然是英伟达训练的,有个基本逻辑,如果真的是国产芯片训练的,就算是deepseek自己低调,芯片厂商也会高调宣布。
2,推理芯片诉求正在指数级增长,我去年文章就提过,中国的推理芯片这个故事从概念到跑通成立,是deepseek引爆的,这个是业内top算力平台高管给我科普的,不是我自己瞎猜的。去年国产芯片企业的订单暴增,股价暴增,都要感谢Deepseek,所以我说国产芯片目前主要是在做推理,并不是贬低他们。
3,没有给海外芯片做提前适配,不代表抛弃了海外芯片适配,一个很重要的常识,在当前大模型的训练和推理中,鉴于流行的生态,英伟达默认是不需要提前适配的。当然,对TPU和AMD来说,确实不是好消息。
4,那么话题到这里开始延展,有读者跟我说智谱Glm5大模型是国产芯片训练的,基于习惯,我使用chatgpt求证这个传言,得到了属实的回复,并解释了一遍为什么智谱可以,而deepseek不行的各种因果,当然,这里不展开,因为后面会反转。
我觉得这是我的认识盲区,并决定采纳了AI给我的信息,但专业人士出来说,绝不可能。于是我开始第二次和AI求证,让chatgpt跟我核对信源,这下发现,所有说智谱来自于国产芯片训练的,都是一些技术社区里的个人言论,并没有官方证实或证伪,我倒不觉得一定是有人在撒谎,但是我觉得分不清推理和训练的人还是很多的。
后来读者在寻求证据的时候又拿出来一个官方的确认说明,智谱的多模态大模型确实是国产芯片训练的,这时候专业认识回复了一句,多模态模型的参数只有十几B,而大模型的参数是1.x T,数字我肯定记不清了,但底层逻辑却通了,国产芯片训练是个非常好的宣传点,如果是国产芯片训练的官方一定会拿出来讲,这个多模态模型就是案例,如果官方表达模糊,没确认来讲,那基本上就意味着。。。
所以这里其实并没有得到绝对百分百的确认,但基于掌握的信源追溯和逻辑分析,倾向于认为,在大模型训练上,国产芯片依然任重道远。
5,直播的时候连续被听众问到一些AI芯片趋势,好几个是我没听说的,但所谓分享即学习,还是很努力的去补课,跟上时代。
第一个是读者问的怎么看cerebras,我是第一次听说,不搜不知道,搜了吓一跳,估值已经飙升到230亿美金(最近六个月从80亿美金飙升到230亿),而且已经大规模部署并在网上应用到某巨头最新模型推理。是AMD投资的一个创业团队,采用整个晶圆成型方式,极大减少芯片间信息传输的损耗和延时,实现token吞吐的大幅度提升,那也看到有读者问了非常专业的问题,这么搞良品率岂不是要崩,再次让AI调研,其实人家用的是架构容错,整体芯片上是大量堆叠的重复芯片,并不需要100%完好率,允许一定范围的损坏率并且有自动容错的机制。
不过目前国内尚无对应项目。
之后又看到读者问Taalas,又是一个推理破局者,又是读者不问我都不知道的东西,把推理算法关键部分直接做成硬件,感觉这是一个新的赛道,毕竟推理成本指数级下降,推理效率指数级上升,这个市场不疯狂才怪,当然,这也是有成本的,通用性受到限制,每一代产品的生命周期可能会比较局限,很可能无法跟随大模型前进的步伐,但我觉得这个赛道也确实是有足够的空间和机会,和cerebras属于点亮不同方向的技能树,暂时还无法判断谁会成为最后的赢家。
然后又是matx,TPU团队出来创建的项目,刚开始就拿到巨额融资,目前问了问AI,但我知识有限,看不太懂,还不是很知道他们技术路线的突破到底在哪里。
但有一点,我也问了一家国产芯片的创始人,感觉目前国内就是想追,难度都不低。
所以综上,好消息是,国产芯片推理能力已经展露锋芒,市场化推进也非常成功。
坏消息是,似乎在验证那句讲了很多次的判断,美国那边做底层结构创新,我们做工程优化。我们可以把已知结构内做到极致,但当结构发生颠覆的时候、很多努力都需要重新开始。
美国最近这三家芯片创业公司都是狠抓高吞吐低延迟的场景,而且有一家已经规模化部署了,如果事实证明人家走出来一条新的路线,涉及到基础结构的创新,我们可能又需要从头追赶。而在这个环节上,我们目前欠缺的,可不仅仅是光刻机。
这是最近对AI芯片的了解,说实话,基本上都是来自于和读者的交流,讨论中获得新的关键词,新的情报,然后再通过AI去核对,去求证,以及基于逻辑去判断。
分享越多,收获越多。
btw,最近什么最火,当然是openclaw。我有一个风向标,可以分享给大家,我有事没事就看看知识星球的畅销榜,看看都有哪些新面孔上榜了,最新的就是教人怎么玩龙虾的,而且排名极高。
确实很赚钱,据说网上各种付费帮人家装龙虾的,没办法,我慢好几拍,我mac mini上已经装了,但是到让我授权的环节我就没操作,还是有点怂,又怕它乱搞又怕它费钱。所以我自己还没体验,也没好意思靠这个去宣传自己的星球。
我最近还是在cursor编程,第四个产品其实已经发布了(第二个产品暂时搁置不做了,所以之前其实完整发布了两款产品),但谷歌又让我封测14天,慢慢熬ing(封测也好,已经发现并解决了致命bug),苹果直接给拒了,说同质化严重,正在申诉。所以目前还没有公开产品下载地址,等产品彻底发布成功,我会做一次复盘,其实这里也有分享即学习的案例。另外第五个项目也在开发测试中,这个是帮朋友公司忙的事情,也不会公开发布。说句自我感动的话,其实还是很努力的。但你看,这才短短几个月,用cursor的已经是落伍的表现了有没有。但我还是理解不了所谓用个agent就能一次打造完整产品的经历,至少以我目前的开发来看,反复打磨是非常消耗精力的事情,也许是我太笨了吧,也许是我太抠了吧。(氪金就会变强,以前游戏圈的梗,现在可以完美适用在AI时代)