正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-04-24 11:19
聊聊AI硬件:取代iPhone的,一定不会是“AI手机”

本文来自微信公众号:脑放电波(ID:BrainAMP),作者:脑放电波,原文标题:《和怒喵李楠聊AI硬件:取代iPhone的可能是耳机、项链、眼镜,“AI手机”不是正确答案 vol47》,题图:Meta智能眼镜,来自视觉中国

文章摘要
本文探讨了AI硬件的发展趋势和未来可能取代iPhone的产品类型,以及怒喵科技CEO李楠对AI硬件的看法和最新产品爆料。

• 💡 AI硬件未来趋势展望,可能取代iPhone的产品形态涉及耳机、项链、眼镜等多种选择

• 🚀 AI硬件设计理念和发展方向,重点关注加速算力革命、可穿戴设备作为计算中心的发展

• 🎧 怒喵科技CEO李楠透露的AI耳机产品信息和对AI硬件开源化的看法

技术的进步正在酝酿一场针对AI硬件的革命:从高开低走的Ai Pin,到口碑丰收的Ray-Ban Meta智能眼镜和即将发货的Rabbit R1,这些新闻也正在占据我们的眼球。


正在研发 AI耳机的李楠(怒喵科技CEO,前魅族副总裁)参与播客“脑放电波”的录制,这次对谈有四个部分,涵盖对AI硬件的20个重要判断。


以下为文章目录及对应的关键判断,可以选择感兴趣的部分快速查看。


1. 盘点热门案例,哪些硬件难以成功?“少就是多”的取胜之道?


  • 三年内所有带显示的AI硬件都扑街;


  • 原生视觉的大模型出现会大大增强AI硬件关于拍摄的能力。


2. AI硬件完整分析:加速算力革命、可穿戴作为计算中心的未来、商业格局


  • 基于加速算力设计的AI硬件,不是在今天的手机和电脑上增加“AI算力”的补丁,我们正在从“计算机农业社会”进化到“AI游牧社会”;


  • “原有产品品类+AI”的逻辑,短期内会有更高胜率;


  • 下一代个人计算中心:轻巧便宜可穿戴,戴在头上;


  • 下一代个人计算中心的产品形态暂时不明确,因为技术能力在快速变化,眼镜、项链、耳机都是可选方案;


  • AI 硬件,一定会解决原来解决不了的问题:不需要揣在兜里的传感器、以及作为个人助理帮你生活工作娱乐(AIGC 是一个误导人的概念,更重要的是会推理和执行的AI)


  • AI硬件大概率也是不会强依赖显示的:GUI (图形界面)因为效率比不上直接执行代码,注定会死掉;


  • 算力提升和效率工程(flow/pipeline engineering)是比摩尔定律更恐怖的存在;


  • AI硬件的正确范式一旦被明确,三年渗透率超过50%;


  • 在AI硬件作为计算中心的时代,经典互联网的程序员和产品经理都面临职业危机,产品经理先死;


  • AI硬件的最佳“品类原型”尚未出现,眼镜、项链、耳机不同形态会有阶段性的赢家;


  • 对比当下,硬件公司会变得更重要,因为设计生产和制造的知识经验暂时还不在 AI 的能力范畴之内;


  • 未来有可能还会出现新的一种公司,叫做边缘算力、向量数据库的提供商;


  • 生产力的跃迁,未来公司会更小;原有的“嘴炮”型人群会更强,因为他们洞悉需求且具备利用AI来帮助他们实现需求的能力,容错率更高了。


3. 为什么“AI 手机”注定是个“伪命题”?Apple 的落后如何追赶?


  • 手机还会有20年的生命,但不会因为AI带来大的变革了,今天的AI手机可能是先锋,也可能是先烈;


  • Apple 在 Transformer 时代落后了,但拥抱开源和自研芯片是后手;


  • “AI手机”可能是伪命题,因为手机厂商厌恶损失,来自App分发的收入会让他们船大难掉头,但手机厂商也不至于死掉。


4. 怒喵在研 AI 耳机爆料:为什么这款产品不惧抄袭?为什么AI硬件是真风口?


  • 设计思路:超长佩戴时长、高端版本带摄像头、未来可能具备低功耗5G、不惧抄袭和社区共创“透明做产品”;


  • AI 时代的软硬件开源,堪称“科技行业的共产主义运动”,创新不来自大公司和少数研究团队,这是真“风口”。


一、盘点热门案例,哪些硬件难以成功?“少就是多”的取胜之道?



主播Nixon:先介绍下Ai Pin,一个别在胸口的硬件,有三个特点,一个是它是通过激光投射在你的手上来去做交互。第二个特点是它有一个摄像头,它能够去知道你面前有什么样的东西。第三个特点是它是通过语音来跟你进行交互。当然这些东西的背后都是它是 GPT 来去驱动它。


故事是这样,当年乔布斯的产品经理(Ai Pin 创始人来自iPhone 团队)出来拿了 OpenAI Sam Altman 的投资做了这个,但是非常可惜,这款产品已经被若干个主流的媒介评为史上最差,前所未有的高开低走。


主播Thomas:从交互上来说看似做了一些创新,其实并没有简化整个手机的交互,它实际上还增加了一个更加复杂的基于激光投影的一套交互逻辑,我在看到它的第一天就是不看好这个产品的。


李楠:


我们回归产品的最基本的逻辑,首先它有一个问题,就是它做了太多的加法,我们如果事后诸葛亮地说要砍掉什么,首先砍掉投影,对吧?如果没有投影情况我相信会好很多。(投影容易发热,显然产品的工程构建是有比较大的问题。)


我可以下一个更大的结论,有可能是三年以内,所有带显示的 AI 设备都要扑街。倒不是认为技术真的不ready,我是从另一个维度来看的,因为今天手机行业的折叠屏已经开始上量了,vivo 的 X Fold 3 卖得不错,还有华为的X5。我们可以想象一下,三年之后是不是一个有钱人的兜里都会揣着一折叠屏,如果屏幕就在我兜里,还是那么大的一个触控屏的话,你用什么显示能打败它呀?


如果让我来说那就是AR,但是三年内 AR 是不会有非常棒的显示,同时又很轻,并且有很长的续航的,那在三年以后,其实我们还是期待有一个 AI 的 AR 的设备可以实现这一点吧。


我们定义产品,首先要有一个基本的方向性的判断,这个方向性的判断是以手机为根据的,它会比手机更大、更重吗?或者它会比手机更小、更随身呢?我觉得这个方向性的判断绝大多数人都不会错的,它一定是比手机更小、更轻、更随身、更便宜的,这个逻辑我们还能排除掉Vision Pro。


主播Nixon:我们接下来我们再来聊一个没有显示的设备,就是 Meta Ray-Ban glass。这个产品就是太阳眼镜上面加了两个东西,一个是摄像头,第二个是麦克风,核心的功能一个是声音的播放暂停(语音指令),第二个就是拍照和拍视频。Meta 宣称有大语言模型视觉搜索问答,这个 AI 视觉功能截至目前还在内测,也就是说它是一个半吊子的功能,为什么李楠在用过之后都对这个产品给予高度好评?我很疑惑。


主播Thomas:首先它很轻,它真的就是一个眼镜的重量,我专门跟朋友的框架眼镜去做了一下对比,重量上大概在 10 克以内的差距;第二就是它的基础体验非常好,交互上是很符合直觉的,语音通话跟它的画质,我是感觉超预期的,最大的惊喜来自于那个五个麦克风组成的阵列,降噪效果非常好。


李楠:


它是第二代产品。对,然后第一代我也买了。它本质上就是一个所谓的音频眼镜,音频眼镜的基础功能肯定是很完善的,因为第一代已经被用户骂得狗血喷头了。第二代产品它加了什么呢?第一,它强调收音,就阵列麦。第二个他加了摄像头的体验,我认为是噱头性质的吧。它有一个很重要的点,就刚才我们说的没做显示,所以它能维持重量和一个相对过得去的续航(我也不认为它的续航非常的好),还有一些堪称“逗你玩”的 AI 功能,我们不要把AI 想的太高级了,最常见的使用方式就是拿来设闹钟之类的。


它是一个好产品,就给你三个功能,但是每个都做到 95 分,那一定会超越一个十个功能,但是每个都只有六七十分的产品。


这其实涉及两个问题啊。第一个问题是我们叫做用户一想象产品就头疼,或者上帝就发笑,一个好的产品,其实控制用户的期待是很重要的一个环节,否则所有产品都是不完美的,没有任何产品会超预期,所以其实那个我觉得 Meta 正确的控制用户预期的一个很重要的点是它上一代产品表现很一般,所以其实早期大家的期待并不高。


第二个就是你说的这个多模态的应用,虽然现在有一堆模型号称多模态了,但是从现在的消息来看,很有可能都是混合模型,多个模型拼凑在一起,然后支持一些图片的理解,或者是文生图等等的功能。但是真正的多模态的理想大模型应该是所谓的原生视觉,我这个模型训练就是用文字、图片跟视频混合训练出来的。天然理解视觉的混合模型在今天应该是还没有。虽然 OpenAI 内部的状况我们并不非常清楚,但是行业内的人认为 GPT 5 才是一个真正的混合模型,是一个真正原生的多模态大模型,这种期待我认为还是等原生多模态视觉大模型出现之后会更合理一点。


已经有人演示了用 GPT 来识别冰箱里的食品,然后去搜索菜单了,但它并不是完全使用大模型的能力,它使用了以前的一些图像识别的技术。那这个最大的问题是,如果我们今天非常清晰地知道我们离能理解视觉的大模型已经很近了的时候,原先那些技术都会被抛弃的,在这上面费力不讨好地做是否真的值得?



主播Nixon:我们盘点几个其他的产品, limitless 是一个项链,这家公司之前我们报道过叫做Rewind,它之前是一个安装在你的这个 Mac OS 和 iOS 系统上,然后把你的屏幕做个截屏,记录下所有信息的一个无限记忆的一个助手,那现在他们把它变成了一个硬件实体,这个项链的核心能力就是它能够录下你和周围的人说的所有话,然后给你转录,给你总结,告诉你下一步该干什么,帮你记住所有事情。


第二个产品,马上开始发货叫做 Rabbit R1,概念上其实跟 Ai Pin 很相似,它是一个又有显示又有摄像头的产品,只不过它的显示没有那么激进,你可以理解就是一个更小屏幕的手机,也有触屏,然后强调语音交互。


第三个产品是来自中国深圳的团队做的,叫做 Plaud 录音机,它就是贴在你手机背面上的,类似于贴在手机上的一个无线充电宝,帮你做实时的录音,然后用 GPT 做转录、做总结。好像现在做语音的成功的概率都蛮高的,对吧?( 录制的时候,Rabbit R1还在接受大量用户社群和媒体的质疑)


李楠:


作为2C 产品,我们认为Ray-ban有机会,然后Plaud已经成功了,而且我们认为Rabbit R1有可能会扑街,然后这里面有另外一个点,产品的概念如果不能用一句话清晰地说明白就很危险。如果我总结 rewind(指Limitless项链) ,它就是memory,我用一个词就说明白,Plaud它就是 AI 录音机,所以我也很清楚,但你告诉我 Rabbit R1是什么(Rabbit R1的发布会的开场概念叫做这是一个 time saver)?你比较一下这个概念的清晰程度,完全两码事儿。


这里有两个矛盾的概念。第一个概念是我们认为好的产品,它一定是可以 reference 以前的东西的,所谓的录音机加AI,很典型的例子,它的成功概率高。但我们还有另外一个概念,就是说我们认为是软件定义硬件的,软件决定性的变化的时候,硬件应该从零为它的能力而在设计,所以这就又要求你要颠覆以前的东西,所以现在 AI Device 这么混乱,就是所有人的意见都不一样,就因为这两个东西在冲突。


两种哲学都是对的,但提出的要求完全相反,一个是告诉你别瞎搞,领先半步,另外一个是告诉你要创新,要从最根本的算力变革想问题。


二、AI硬件完整分析:加速算力革命、可穿戴作为计算中心的未来、商业格局


主播Nixon:我觉得大家肯定更关注的是第二种逻辑,就是我既然是软件定义硬件,或者是说大模型和 AI 定义硬件,那所有的一切推倒重来,我们从头开始想怎么做,对吧?


李楠:


我们首先做一个比喻,老黄(黄仁勋)已经给 AI 的算力发明了一个词叫加速算力。他为什么要发明一个新的词叫加速算力?是因为它要针对以前的经典算力做出根本性的区别。什么叫经典算力?亚马逊云、阿里云上跑那些东西全是经典算力,它是冯·诺伊曼结构的计算机跑的确定性的代码,然后输入跟输出之间的关系是我们人知道的,是我们自己写的,而且它是精确的,你可以把它看成是种地。


而加速算力它是一个大模型,它是用一些基本的 Transformer 等等的东西训练出来的,然后整个神经网络生长的过程实际上是我们不可控的。然后它训练出来之后我们发现它能用,我们就给弄上去,然后你使用它来推理,然后这个叫加速算力,那加速算力你可以把它类比为放羊。


这次 AI 算力的变革,它的力度之大,让我们从一个农业社会进入了一个游牧社会(当然在人类历史上的那个先进程度是反着的,但是我们认为游牧社会的这个能力是更先进的),因为它的动态更高,它的结果更不可预测,对吧?然后所以它更像是放羊,但是最重要的是两代完全不同的生产力,所以基于此,我们的确应该重新根据全新的算力去考虑一些事情。


举个例子,经典算力下最典型的图片处理 Photoshop 它是对象和命令的方式,弄好多窗口,好多命令。但是今天加速算力下的经典的图片处理Midjournery,它是用自然语言描述你的想象,它给你生成图,你会发现这两个东西完全就不一样,种地所需要的工具和放羊所需要的工具完完全全的不一样。基于此,那么硬件理论上其实也会像软件那样。如果要是种地的话,我需要的是联合收割机。放羊的话,我只需要一小摩托或者一无人机。因为那个生产的生产力本身变化了,对应它的工具就变了。


当然 Photoshop 里面也可以加入 AI 功能,但它一定不是一个很可靠的形态。所以我觉得又回到一个经典悖论:已有产品加AI,短期内是高胜率的。


但是从算力的变革从头考虑问题,就是人类的一些根本的需求是不变的,但是交互的逻辑有根本性的变化(从对象和命令变成自然语言)。我们如果想走第二条路,就是打造一个最适合放羊的硬件,然后我觉得要把这些变跟不变的东西想清楚。


主播Nixon:之前李楠你认为不同的这个设备应该是有不同的站位,然后它会有不同的算力分布,这个你可以展开讲吗?


李楠:


整个 3C 科技行业一直有一个关于个人计算设备尺度的一个预言,而这个预言到今天为止一直是有效的。这个预言是当年乔布斯在示例,在有一个叫马克·维瑟的工程师提出来的,他认为个人计算设备是至少有一个电视大小的,像一面墙一样;然后同时有一个像 iPad 大小子,就今天他当年提出来的预言叫Tablet,但今天其实我们知道它是 iPad 大小的一个,可以捧在手里像书本一样的平板;然后手机的那个就不说了,但他又预言了更加未来的事情,他认为我们肯定还有 Wearable device。那今天其实我们已经看到了 Ai Pin 失败了,但是Meta 的眼镜成功了,这是明确的, Apple watch 也算。


那他又预言,说 Wearable device 的崛起以及传感器的无处不在。其实今天也是了,就是摄像头已经遍地都是了,最终会让个人计算完全地隐形化。我觉得最理想的状态是我们出门就带张脸,啥都能干,我忘把手机放家里又怎样?


隐形计算或者计算无处不在,我可能不太相信,但是 Wearable 我是 100% 相信的,还有一场经典争论是Handspring(PALM 智能手机前身),我不知道你们知不知道这个公司,这家公司的 CEO 当时做智能手机搞得焦头烂额,然后跟乔布斯有一场会议,这俩哥们在白板上,乔布斯画了一张图,就是那个人计算设备的最核心笔记本,他把自己的那个 MacBook 画上去了,然后他周围画了一圈,什么手机、手表乱七八糟的,然后都围绕着笔记本,笔记本是个人算力的中心。Handspring CEO 怒了,说不对,他把手机放中间了。乔布斯不同意,可能后来回去自己想了想就做了iPhone,所以如果此时此刻再画一下手机,仍然是重心,如果会发生变化,谁会在中间呢?


主播Nixon:我相信这里很多人可能就会有疑问,今天我们的可穿戴设备的计算处理能力都非常的弱,即便是最成熟的智能手表,类似于像华为这些品牌出的待机 30 天,执行的是 RTOS 系统的穿戴设备,目前看不到它成为个人计算中心的潜力的。我不知道这个问题会怎么样去发展?


李楠:Handspring CEO,在白板上给乔布斯画那张图的时候,手机有一模一样的问题。


主播Thomas:我觉得未来可能不是某一个设备永远呆在中间,它实际上是人因驱动的,根据你现在使用的设备而随机切换的这样的一个状态。就比如说我现在在用电脑,就是我的中央设备。那如果我走到街上我只带了一张脸,当然不止脸,我可能有一个 Wearable 的设备,在我身上的时候它就变成我的中央设备,然后它可以调用,不管是端还是云,还是你其他的设备的算力和其他的能力去完成一些在当下你需要完成的一些应用,这个有可能是未来的一个方向。


我觉得五年内可能很可能那个地方还是手机待在那里,那可能在五年以后也许会有其他的方式去共享这个算力,但是在那个时候可能那个设备也是一个切换的状态。


李楠:


同意,但是我不同意的是timing,你这是第四步。施乐的关于个人计算设备的演进的这个大的途径已经被过去几十年证明了,最终到隐形计算的那一天,的确就是我们带一张脸,然后那个数据跟算力都随时可以调用。过程当中是否会出现一个第三步?就是它是一个比手机更轻、更小、更便宜的设备,它会更随身。它成为中心的理由不是因为算力更高,因为手机也不是因为算力成为的中心,它成为中心的理由是它更容易访问,手机比笔记本就更容易访问了。但是你会发现今天 Meta glasses 会比手机更容易访问,因为 Meta glasses 戴在脸上,但手机揣在兜里。同时它更侧重于传感器而不是算力,然后同时它有网络连接能力。


我觉得第三步是有可能会出现的,就是会有一个可穿戴设备,更随身、更小、更轻、更便宜,有更强的感知能力,以及更强的网络访问能力,那它有可能是我们的第三步。


形态下不了结论,我们可以下的结论是什么?第一它一定得从兜里掏出来,放在兜里没有意义,对吧?我再给一个暴论,越靠近头部越好嘛:第一个方面是从人的维度来考虑,既然人的传感器都在脸上, AI 的传感器靠近脸是一个合理选择嘛,然后但从另外一个维度考虑就是你看(人形)机器人他们是不是(传感器)都给怼脸上?


眼镜、耳机、项链,形态跑不出这三个,是可以下结论的。


但我一直不明确最终形态,就是因为其实我们还有另外一个考虑的维度,这些需求以今天的技术能力,设备的尺度和重量的合理的点是变化的。今天我用 70 克可以达成的东西,三年之后我可能只需要 40 克,然后再过三年也许我只需要 15 克。其实耳机经历了这个过程的,原来七八十克甚至 110 克的,但今天 Airpods 5 克。一旦你明确了大概的方向跟需要的东西以及解决方案,但是它的重量变化的话,那么就意味着它的位置会变化,所以我认为这个答案不是明确的,此时此刻也许真的一个帽子更合理,说不定对吧?


主播Nixon:形态聊清楚了,这个戴在头上的东西它应该帮我们解决什么问题?或者它是怎么工作?我觉得这是我要问李楠的问题。一个 Wearable 的东西,如果它成为中心,它解决我们生活当中哪些问题呢?


李楠:


我们今天已经积累了几十年,无数天才的个人计算设备的所有的解决方案,那如果真的有一个中心式的设备出现,那么一定意味着它要解决以前没有解决的问题,不太可能重新解决一个旧的问题了。


你从今天所有关于 AI Device 的新的问题,以及挑逗起来的新的欲望里面看,什么问题没有被真正的解决,甚至压根就没有解决?其实是传感器,原来笔记本上的传感器很少,然后我们在手机上加了无数的传感器,今天手机是一个超级感知设备的时候,我们没有解决问题的,最大的问题是这揣在兜里。我们首先是需要看掏出来的在合适位置上的更多的传感器,我们解决了电池问题之后,我们让它更长时间地工作,最终电力完全不是问题的时候,我们让它  always on(或者是首先是 Instant on 才可以更快的启动)


传感器是一个极高价值的新的需求,而且这个东西没有以前的天才给解决好。(理想情况是应该复原一个每天都跟在你身边的一个助理一样,他了解你看过、听过的所有东西,然后他甚至能够帮你去完成一些事情。)


所以如果我们从人的需求、欲望和本能来分析的话,是我没有一个 always on 的,或者 always ready,然后Instantly on的传感器的集合在外面,对吧?不可能揣在兜里。


主播Nixon:补充一下,就是有了传感器之后的事情,最近看到一些研究,包括就是那个 Rabbit R1,基于一种新的模型,叫做 language action model 大行动模型,这个模型它重点不是理解语言和序列数据,它的重点理解你那个数字交互界面上的东西,然后自动的去帮你去执行需要在软件里面做的操作,这是完整链路。


李楠:


但这里面我觉得要区分,就是说我个人不太看好R1的一个很重要的原因是它仍然假设 GUI 存在,我觉得这个是一个很线性的思维模式,没有问题。但是我强烈建议大家关注另外一个斯坦福两个中国小孩搞出来的东西叫 Octopus(一个模型,也被称为章鱼,八爪鱼)。首先是基于人类欲望自然语言,然后自动执行,这是所有人都知道的事情,一定会达成的事情,但章鱼的路径更直接,就直接写脚本,跳过了GUI。但我觉得跳过 GUI 是大概率了,因为 GUI 本质上是给人看的,不是给 AI 看的


这并不激进,它更简单,从各方面都有优势:第一它的模型更小,然后第二它的执行效率更高,第三它的速度更快。而最重要的,因为我们说未来如果有新的(计算)中心,它一定是比手机更小、更随身的设备的时候,它的电力消耗更低。就是我觉得让 AI 操作的最傻的地方是 GUI 本来很耗电,我又弄了 17B 或者更大的大模型,然后这大模型又在这设备上操作更耗电。(高通的最新旗舰手机支持最大70-100亿参数,但今天Octopus 只需要10亿参数就能实现准确性、延迟方面超越了 GPT-4,并将上下文长度减少了 95%。)


主播Nixon:其实今天还有一条路径我觉得是很清晰的,现在一些论文把它叫做 flow engineering 或者 pipeline engineering,能够把大模型的算力的需求以及大模型的上下文需求以及它的准确性都做更高效率的提升。比如 Rabbit R1它能把大模型的响应时间缩短十倍,美团的光年之外,他们受到一个项目叫做 stream diffusion,就是能够实现每秒 100 帧的图像生成的一个项目的启发,他们做了一个产品叫做 DodoBoo,毫秒级,无需prompt 就生成图片。


想想一年之前我们还需要和Discord 的对话框互动好几轮才能得到一张图,对比起来,算力的提升,加上整个工程链路的迭代,这个确实是一个比摩尔定律更加恐怖的一个事情。


主播Thomas:前两天这个 Meta 刚刚发布了最新的开源大模型 LLAMA 3,他们官方就说它的这个训练效率就已经提升了50%,就是同样训练出这么大一个模型,它比上一代LLAMA 2要效率高了很多,这就是刚才提到的效率的提升,而不是单纯算力的提升啊。聊到这里我觉得 Wearable Device 普及的可能性没有这么遥远了。


李楠:


我认为三年之内,渗透率从零到50%:互联网技术几十年,智能手机从iPhone 到渗透率超过50%用了六年,下一代迭代会更快(因为产业链主要在中国), AI device 一旦出现“iPhone时刻”三年应该就能过半。就像这几天中国新增乘用车里面电动车的渗透率超过了50%的新闻,它之所以是新闻,就是它比大家想象的都要快。


主播Nixon:还有个问题,一个人想要实现什么欲望?大模型自动去写代码去帮它实现。那未来开发者怎么办?就开发者还存不存在,或者开发者帮大家解决哪些问题呢?


李楠:


现在已经有很多很有名的人,比如说 C 语言的创始人好像是,然后包括老黄,都在预言两件事,第一是 5 年之内程序员会消失,第二是人人都可编程,其实他们说的是一件事儿。


主播Nixon:我还有不同的看法,可能开发者倒不至于完全消失,但不像今天这么有价值。比如说有的开发者的他就可以去针对一些垂直的场景去做一些模型的一些优化,对吧?我觉得这是一个方向,还有另外一个方向是说在很短的时间之内,至少今天看来我们还没有看到一个人跟 AI 很好的一个交互范式。这个交互范式怎么理解?比如说今天如果你是想要买,在淘宝上买个东西,其实你的欲望不止包括下单的那个动作,你的欲望还包括说你要浏览,你要有对比,你要有那个购买的过程,它是一个精神性的一个需求。我觉得这些需求可能还是需要一些交互,还是需要一些产品经理和设计师去解决的一些问题。


李楠:


我认为比程序员先死的就应该是产品经理,过去几十年移动互联网以及 GUI 横行的时代,培训了大量的产品经理。但是以后他们所相信的所有的东西都不重要了,以前的产品经理一定是说,我怎么把这个重要的按钮排到那个常用的位置上,然后怎么给用户明确的提示?全是基于 GUI 的?全是基于对象和命令的,对吧?然后号称研究一些人性,但是今天你在Midjournery的这种交互模式下, GUI 重要吗?不重要。


所以其实我觉得这些产品经理如果不能抛弃掉以前的东西,越成功的产品经理越会成为他的职业负担。而且还有另外一个很有意思的事情,就是说 Adobe 这种公司,它做一个图像编辑或者是图像生成的软件,它需要动用多少资源?多少人?而今天Midjournery在Discord里,它连自己的 APP 都不写。我如果连 APP 都没有,我为什么需要产品经理?这当然也需要了。对,但是不需要那么多那么重要的产品经理。


这里指的是过去范式的这种互联网软件产品经理,我觉得硬件会相对好很多,硬件产品经理最核心的能力不在 GUI。没错, AI 可以代替大量的程序员,对吧?然后 AI 可以消灭GUI,对吧?但是 AI 现在还没有黑灯工厂, AI 还是造不出硬件的。当然现在也有人用 AI 给自己设计自己的数据中心,但是完整的硬件的、全流程的黑灯工厂,AI 完全从零开始设计的,这件事儿应该是在未来 15 年我们见不到的吧。从整个 AI 演进的路线图上, 5 年后才解决 3D 建模,就红杉有过这么一个路线图。


主播Nixon:对,而且从 3D 建模到它能变成一个在生产线上加工的模具,这中间还有巨长的路,未来有可能还会出现新的一种公司,叫做边缘算力的提供商,很有可能觉得是通讯公司的转型,他现在给你提供的是通讯网络,但未来可能是一个云端加密的一个向量数据库,你所有的数据都通过你的  Wearable  device 传输到那里了,那未来可能这个提供商给你提供两种服务,第一种服务是帮你存储,第二种服务是它确保这些数据部署在离你很近的位置,你在调用这些数据的时候,信号不是从深圳传到北京,而是从深圳传到深圳市的一个机房,满足你的很多相对低延时的需求。


李楠:


还有很确定性的几件事情会发生。第一个是我们说程序员和工程师会变得不重要,会变得更少。一开始是刀耕火种种地,那后来出现了联合收割机之后,会有更值钱的修收割机的人。那未来维护 AI 的人其实刚才已经提到了,就是对 AI 做剪枝蒸馏效率优化的人,他们不会消失,他们会更强势。


第二点是我们看最早期的软件公司几万人或者十几万人很正常,比如说,微软。然后像互联网时代 Discord 的这种公司 500 人,Midjournery十几个人,未来会更少,一个很重要的理由是,今天已经有人说我一个人加 7 个 AI 开店了。对,所以生产力的进一步的跃升,会导致商业组织的人数越来越少。所以可能未来都是项目以及项目分成的模式,自由组合。


洞悉需求的人,以前可能只是我们所说的嘴炮,是一直以来我们鄙视的对象,他们之所以被鄙视的一个很重要的原因是未被满足的需求一定低胜率,它的失败的概率就是99%,所以它会不停的被嘲笑。但是当今天我们的组织变得更小,我们的生产力更高,我们失败的成本更低的时候,这些不停地洞悉全新的需求,并且能承受 99 次失败的人会越来越成功。


三、为什么“AI 手机”注定是个“伪命题”?Apple 的落后如何追赶?


主播Thomas:今天我觉得我们如果从硬件生态、硬件设备的角度去切入,我们看到的就是不管是手机、PC,又或者是其他的什么设备,大家都在做 AI 手机或者AI PC,那它是不是还有 5 到 10 年的生命力?在这个过程中它跟 AI 要如何去结合呢?我觉得我们也想听一听李楠的看法。


李楠:手机还有 20 年的生命力,因为今天笔记本也很有生命力,所以手机肯定是有生命力的,而且手机的加 AI 是必然的。但是我们做商业机构的时候,我们有一句话,就是说所有人都会进步的地方没有优势,加 AI 赛道是一个很卷的赛道,而且大家卷完的结果是其实不赚钱。


主播Thomas:


我完全认同,因为现在其实有一些手机厂商在我看来它可能卷的方向就不太对,自己去做 AI 的大模型,它可能花了几百上千人写了一个类似LLama的东西,然后把它用在了自己的设备上。我其实觉得这种方向就不是一个手机设备厂商应该做的事情,不管是 Rabbit 还是Rewind,我相信他们不会自己去做这个大模型的基座的,他们实际上是在应用 AI 的成果,而不是说我重新把轮子去生产一遍。李楠也提到了说做 AI 可能激进会死得更快,我觉得其实指的就是这些跑在前面亲身去做 OpenAI 的这些人。他们自己想重新写一个模型,其实我也不看好这件事情。


李楠:这个我是两方面看的,一方面是有先例,具体举例就是苹果跟三星,他们分别在几个比较重要的垂类上掌握了核心技术,比如三星的柔性屏、苹果的 m 系列及 a 系列芯片,以及三星的存储。但如果我可以举出这两个正向例子的话,那反例至少有 200 个,小米的芯片、OPPO关闭的哲库芯片。


主播Thomas:大家都说苹果落后了,我们是不是就在这聊一聊那苹果的 AI 的可能性?在端侧,我认为其实它相对是更领先的,因为我们现在听说的状况就是云侧的 AI 都是通过跟合作的方式来接入一个云端的大模型。比如说在海外目前的信源主要指向的是Gemini(就是 Google 的大模型),然后在国内消息说是跟百度的文心一言合作,你怎么看?


李楠:


苹果其实很早就不停地收购一些 AI 公司,其实它也使用了很多 AI 的技术,但是我觉得在这里面我们首先要非常明确地把 AI 也给画一个带,就是 2023 年 GPT-4 的发布,基于 Transformer 的大规模神经网络的 AI 是一种AI。但是之前的那些AI,比如说NLP、自然语言处理等等,它是另一种AI,包括今天的视觉识别方案其实是跟大模型没关系的。苹果真正落后的是基于 Transformer 的大规模神经网络的AI。应该说 2023 年 OpenAI 真正把这事搞成了全世界当头棒喝的时候,导致了今天苹果的被动。


但是苹果有两个后手,第一个后手很简单,就拥抱开源,微软就是这么起死回生的嘛。其实苹果完全可以拥抱开源,像刚才我们说的那个八爪鱼(新模型Octopus),对吧?其实它今天装到 iPhone 上就会比 Siri 好用。比如MacOS和iOS的底层free BSD就是开源的,所以它也会用,只不过是苹果在商业上的考虑会更多,他选 free BSD 的一个很重要的原因是商业许可证对它来说更灵活。所以开源阵营表现并不弱,它可以保障苹果的底线。


然后那第二点,苹果还有杀手锏。OK,也许算法、数据训练等等这些东西,我已经不可能从头追赶,但是苹果可以设计芯片啊。我们在去年年底的时候就知道苹果找三星要新的内存速率、数据吞吐量提升至少 5 倍,去年年底的时候,我们并不非常清晰的能搞清楚他图啥,但是今天来看应该是跟 AI 相关的,因为 Transformer 就是一个典型的对于内存和读写带宽有极高要求的一个模型架构。


主播Thomas:这里给听友解释一下,因为过去我们的理解就是内存小一点可能速度会慢,对吧?但是 Transformer 的架构决定了它就是没有办法运行,如果你内存没有到某一个尺寸,或者带宽不够的话,它是跑不了的。这就是为什么 Nvidia 在卖它的 AI 的卡和卖它的游戏卡的最大区别其实是它的这个显存的带宽和显存的这个大小。


李楠提到的这个苹果找三星要求它提升 5 倍存储速度,指的是它的这个闪存,就是用来存储东西的这个设备。我们其实现在的 MacBook 里面,大家就如果你买的是那种,比如 8GB 内存的这种看起来已经甚至内存比手机还要小的这样的设备的时候,其实你大量的应用已经是跑在你的闪存上了,是跑在你的存储器上了。


苹果的这个要求刚才李楠也提到了,我们只能想到一个原因,就是他希望能够用存储的这个能力来运行 Transformer 架构,那这件事情的想象空间其实是很大的,因为如果能做到的话,那么每一台电脑,因为我们知道至少都有 256G 或者是 512G 以上的这种存储能力,如果说苹果能做到这一点,那么苹果的设备将是一个非常强大的端侧,能够运行 Transformer 架构的大模型的这样一个设备。对,简单的科普一下。


主播Nixon:李楠一直在微博上说,现在的手机厂商去做AI device 或者 AI 手机的话,有一个本质性的问题,就是手机应用生态开发者传播和营收的一个渠道,对吧?这些公司本身也有一个很重要的业务,是要跟开发者收钱,李楠一直认为这会是手机 AI 化的一个障碍,我不知道你能不能展开讲解一下。


李楠:


今天的手机品牌的竞争在某些价位上因为两个原因被挤压利润,然后第一个原因就是品牌之间的竞争互相杀价嘛。然后另外一个原因是除了华为和苹果这种有自研芯片的品牌,他们都要用高通,高通实际上是在不停提价的,就是也许几年前我们 70 美金可以搞定的芯片,今天需要 140 美金,那就意味着其实他们整个的硬件销售是处在一个非常微利甚至会亏的状态,就有了后向指标,然后小米是行业内很优秀的后向(收入)指标(指广告、金融等互联网收入),它能在获取销售的10%。OK,那也许我可以亏5%,但是最后我总体看来我赚了5%。


所以今天实际上,基于 APP 分发的,尤其是游戏分发的后向收费已经是手机品牌的盈利的非常重要的来源,或者是你可以认为是生死线。但 anyway 它都是关于 APP 的生意。如果你想给用户更超越的体验,就比如说我们刚才看那个八爪鱼之类的这些新的 AI 模型,那你会发现它会不停地想办法跳过APP,甚至Ai Pin,也完全不需要 APP 生态,你即使用那个 Meta 的glasses,现在供应链数据 1Q卖 30 万条的眼镜,然后它的 APP 其实没什么用,然后所以在这种情况之下,那我是否有动力去分发APP,然后再给手机品牌钱?其实,嗯, Meta 应该是没有的。


手机行业的品牌面临一个两头挤,就是第一:实际上我是非常需要 APP 生态带来的一系列的应用分发,优先发跟广告分发的利润来去确保我赚钱的。但另一方面我想获取更多的用户,就要提供超越的体验,而这个体验很有可能要求我要把我赚钱的这个生态干掉或者削弱。但在这种情况之下,船越大,掉头就越难。


主播Thomas:我们假设有一个 Wearable 的 device 变成了中央设备,那它的盈利模式或者它的模型可能是一个新的一个赚钱的模型,对吧?它会是什么样子的?


李楠:to C 生意的商业世界的一个最基本的逻辑是,我赚钱是因为我为用户提供价值。这个设备如果能做到为用户提供价值,他不会想不到收钱的办法。当然也许今天不是非常清楚。


主播Thomas:


如果是这样的话,我觉得对手机我可能相对更乐观一些,当然手机厂商转向一个更好用的,一个基于大模型的这种设备,它会有这种传统的收入的限制带来的这种它的这个转型的困难吗?因为它内部有很多利益要平衡,它的收入的体系要变革。但是刚才其实李楠也提到了,在这个生态里面其实最赚钱的是游戏嘛。那如果说手机这个设备 5 到 10 年内都存在,然后用户其实还是需要用它来玩一个比如说王者荣耀这样的游戏的话,它仍然会需要在手机这个设备上做一些传统的事情,那这些事情应该还是能够保证手机厂商比较核心的部分的收入的。


然后新增的部分那也是一样的,就是如果说它有一个其他的方式可以通过 AI 来给用户带来价值,那可能也会有顺应出现的新的这种盈利模式,来确保这些目前看起来已经是一个消费电子里面最头部的这几家公司的整体的生意规模,他有办法通过这种方式来满足的,这个是我相对乐观一些,就我觉得手机厂商它也不是一个等死的状态,因为它也能看到它的未来,如果就守着自己的这个目前的这一亩三分地,它肯定是有危险的。但是它在保证它的基本盘不死的前提下,我相信他会做一些改变。当然这种改变不足以影响我们刚才的推论,就是毕竟它还是在兜里,对吧?


李楠:


我们现在处在行业变革期的话,其实我们看以前的例子,诺基亚不知道 iPhone 是革命性的东西,对吧?所以实际上有两点是高度有疑问的,第一点是什么呢?第一点是这帮人在现在成功的手机品牌里身居高位,为什么电车新势力会把什么一汽大众打的找不着北满地找牙一样?嗯,因为在那些人里面做发动机的人是位置很高的人,你要把发动机跟变速箱革命掉了,对吧?所以这是一个从组织上面的判断,给手机做后向的人,影响我最终公司整体盈亏的人身居高位。


第二个问题是人性很根本的点就是贪婪。获得一块钱跟你损失一块钱,你的痛苦是成倍的,公司也是一样的。基于这个贪婪,我有这么庞大的组织架构,然后我养这么多的人,对吧?嗯,我只要动动嘴,后面那么多的一级的团队加外包给我干活,而我们刚才说了会有新的组织变革,然后也许另外那家公司他没有这么大一条船的时候,他造了一个摩托艇,甚至造了一个无人船,或者他不需要承担那些贪婪了,因为我压根就没有那么多人,对吧?Midjournery,你只有十几个人,对吧?他不需要承担 Photoshop 上万人的,其实他们肯定还是有危机的,而且这个危机不是认识可以解决的,很有可能是不是认识可以解决的。


但反过来说,诺基亚没有死,诺基亚也仍然在做功能机和智能机。而我觉得还有一个很好的例子,就是传音,传音是在智能手机时代被干掉的功能手机公司,它以前是波导的人,波导这些积累了这么多组织能力和财富的公司不那么容易死,然后包括黑莓。我们说的成败无非就是你在不在浪潮上而已,其实不涉及死活。


四、怒喵在研 AI 耳机爆料:为什么这款产品不惧抄袭?为什么AI硬件是真风口?


怒喵x魅族 联名AI 耳机信息,图源发布会及李楠微博


主播Nixon:我们最后聊一聊李楠正在做的设备吧。怒喵的产品好像开发的过程都挺透明的,比如说之前就直接在魅族的发布会上,联名产品的就直接出渲染图了,可能很多听众都能拼出来一些李楠要做的方向,我还是希望李楠从头讲一讲设计的理念。


李楠:


第一个假设是我们首先要解决好音频,原生视觉的 GPT-5 到底 2024 年能否发布还是疑问,对吧?所以我们首先把确定性的东西做到足够高的分数,所以那就意味着一定是音频、眼镜或者耳机;


然后第二个,我们在考虑体验的时候我们认为这个设备如果真的有价值,就一定需要更长的使用时间,这是一个悖论。举一个 Meta glasses 的 use case 就是提示我只有 10% 的电了,然后我是个近视,我把它放到充电盒里,充电的时候我还得再把另外一个眼镜找出来,所以对我来说这是一种强买强卖。对,你得买俩。我们的第二个选择是认为如果他真的能给用户提供更高的价值,它应该有更长的续航,至少一天 8 个小时能撑得住。那基于这两点,你会最终确定这个产品的重量,你会发现 40 克以上的重量挂在脸上,挂在鼻子上,我们认为是不可接受的,Meta glasses 应该是 40 克左右吧。


那第三个点就是我为用户提供的真实的价值,它随着时间如何变化,我们认为那个 AI 会越来越聪明,这个我觉得没有人会怀疑了,甚至有人都说 AGI 要出现了,那我们会越来越依赖它,让它能提供越来越高的价值。今天它在胡说八道,但是也许 6 个月之后它就会非常靠谱,因为我现在已经看到了很多不胡说八道的新闻搜索AI。


基于这三点推测,我们认为目前应该是耳机,就是随着短时间 AI 的能力越来越强,然后导致我们音频的交互越来越靠谱,我们每天要使用更多的对话,与此同时我不愿意把它摘下来。那目前看来,其实只有挂镜或头戴耳机才能承受 60 克以上的重量达成这个结果。


可以带摄像头,我们会设计两个版本高低端,然后一个无摄像头的便宜一些,一个有摄像头的贵一些。


主播Thomas:这个摄像头它会承载什么样的功能?它跟 Meta glasses 是一样的吗?


李楠:


我们不太 care 拍照的效果,就是它的本质是 AI 的眼睛吗?其实这个摄像头的产品定义完全Follow Ai Pin,理由是谁都不知道 GPT-5 的视觉能力到底对硬件会提出什么样的要求,因为这东西还不存在,但最接近这个东西的人一定是 OpenAI 的团队。奥特曼投了Ai Pin,所以 Ai Pin 的那个上头的参数应该不是胡乱确定的:一个 1300 万的广角。


主播Thomas:那这个设备它的算力,其实它的 AI 算力其实在云端的,对吧?


李楠:


Ai Pin 算力也在云端,然后 Meta Glass 的算力也在云端。你可以认为它的本质是传感器加通讯。另外看你给他什么样的网络能力。如果是蓝牙和 WiFi 的话,它是手机的配件。对,如果是 4G 或者5G,现在小天才手表70g 可以做到4G,作为参考(满足戴在头上的场景)


我们在中国我们会有一种误解,嗯,就是 5G 网络已经遍布各个角落了,但真实情况下在海外 5G 的覆盖率没有那么好。(因为)以前没有出现这么强的穿戴设备的直连网络潮流。然后实际上高通发布的新一代算力平台芯片,尤其是针对穿戴设备,比如说 W35 这种,它是低功耗5G,冲的是什么?一定不是手机。


主播Thomas:大概价格?在整个行业里,您现在有看到哪一些有可能成为竞品的这样的一个团队或者是产品吗?


李楠:


价格不行,对,哈哈哈,如果我现在透露价格,那么我只能告诉你,那一定很贵,我要拉价格预期,对吧?我们的信条叫Young Money,我们不赚穷人的钱。如果我们的设备领先到没有竞争对手的时候,在行业发展早期其实追求一些高价格,第一是合理的,第二它不一定是坏事。


为什么我们都是这么透明的在开发产品啊?就是因为我们做了多年消费硬件,然后我们就发现一个很有意思的事情,就是我们用语言描述一个产品,它一般来说是 12 个月之后的东西,然后如果很不幸的话搞到 18 个月甚至 24 个月。然后我们用语言在最开始描述的这个东西,然后到最终生产出来,你弄 100 个团队同时干同样的描述,他们拿出来的会完全不一样。这很有意思。


对,然后那个这里面涉及的产品决策,因为一旦做一下,你会知道非常的邪,包括那使用什么样的材料,怎样影响重量,用什么样的表面处理,等等,这些你可能需要做 1000 个决策,不可能这些团队都做得一模一样,而这里边有至关重要的影响生死的决策,可能有 5~10 个。我觉得 100 个团队全部选一样的概率也不高。


主播Nixon:确实,比如耳机加摄像头的事情,上个月有媒体分析就信誓旦旦说苹果在做有摄像头的耳机原型,苹果一定是在做空间声场。说的有鼻子有眼,我当时看得我特别兴奋,我还转发给了好多人,现在我看我觉得确实就是李楠说的这个情况,看到同一个摄像头,大家对它的想象是完全不一样。回到这个耳机,我觉得大家可以期待一下。


李楠:


我刚才说了,整个公司的组织架构也可能发生变化,然后我们也欢迎对这个有兴趣的人一起干,如果你是技术人员,你不会愁卖,如果你是软件人员,有人替你搞定硬件。


还有一个点,硬件最终我认为也是会走向开源的,因为我以前是做软件的。然后当你真正经历了开源的浪潮,真正见到他能打败甲骨文这种级别的公司的时候,你相信了它的时候,甚至你可以把它叫做科技行业的共产主义运动,而且这个潮流是兑现了的,是不可阻挡的。


主播Thomas:昨天还有另外一个新闻,就是 stable diffusion 发了第三代的产品,然后据说它已经打败了闭源的midjourney。


主播Nixon:今天我们可能提到的一些我们应用的一些论文,比如 pipeline engineering,比如Octopus,它都不是大公司出来的,这波算力包括工程效率带来的提升,它就是属于那些舞台聚光灯之外的一些公司和团队,你要做的就是静静地等他们出现,然后去相信某些事情是对的,然后 follow 他们。


李楠:这就是风口的特点,这就意味着它是一个风口。未来 3 到五年,我觉得对于硬件创业者来说前途无量。


本文来自微信公众号:脑放电波(ID:BrainAMP),作者:脑放电波

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
文集:
频道:

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: