扫码打开虎嗅APP
围绕人工智能科技,科技巨头展开了军备大战,硅谷密探采访了Samsung美国人工智能实验室总监Michael Wei (卫岸)。我们探讨了关于人工智能对智能手机的影响,人工智能的新硬件创新机会,以及人工智能时代如何战略布局。
人工智能将成为手机的基础能力,关系到生存权
手机厂商投资人工智能,一个重要的原因就是这可能关系到生存权的问题。围绕手机未来的发展可能存在两个趋势:
第一个是手机从卖产品逐渐向卖服务过渡
以Google Pixel为例,一般的硬件厂商卖的是硬件,而Google Pixel的卖点主要不是硬件,而是在卖智能能力。Google从自身软件特点出发,在Pixel中融入了大量的人工智能的技术,把手机卖成了服务(service),虽然其硬件本身就不错,但和其他手机厂商的区分度是通过其自带的人工智能服务区分开。
Pixel是软件和硬件结合的一个产品,因为谷歌掌握了上层的软件和底层的硬件,可以做结合硬件的软件优化或者结合软件的硬件优化,比单纯从软件角度或者从硬件角度做手机更能发挥智能的能力。
另外一个软硬结合的例子,就是Google Home,只用了两个麦克风阵列,结合软件优化,就达到了比较好的语音识别的效果,但从软硬结合的角度,Amazon的Echo技术更加成熟和领先。
从卖硬件到卖服务的变化,这是一个思维模式的改变。在现有硬件技术趋于极限,并且不断趋同化的大背景下,这是一个战略的选择。但是这个转型并不容易,各大厂商尚在不断努力中。
第二个是未来人工智能会成为手机的基础能力
随着人工智能技术的发展,人工智能可能成为手机上像水和电一样的基础设施,没有人工智能就像没水没电。但是,人工智能是否能够成为一个独立的“卖点”,业界还在不断地探索中,尚没有定论。
人工智能服务的一个挑战就是很难有明确的区分度,而利用人工智能基础能力上来提供的服务可能反而有区分度,所以人工智能可能会成为一个基础的能力,成为隐形的服务。人工智能基础功能和手机的关系,就会像水电和房子的关系,人们不会因为有水有电大家就来买房,而没水没电大家肯定不会买。
当然,软件服务会不会成为手机卖点也是大家在研究的东西,大家有没有可能因为喜欢某项服务而购买手机,比如因为喜欢Google Assistant所以来买台Pixel手机。用户想要和用户想花钱买之间区别很大,不过软硬结合然后让自己的软件和硬件都更有竞争力是一个值得尝试的方案。
随着人工智能产品的发展,用户体验和软件服务会如何颠覆是值得思考的问题。比如很多GUI通过语音就可以完成时,过去的复杂的用户交互可能荡然无存。
总结一下,在硬件走向极致,技术更新变慢和趋同时,如果别人有很好的以人工智能等为基础的软件服务并以此构建差异化优势,而且这些服务又能被用户接受为“卖点”,形成新的竞争平台的时候,你就可能会被吃掉。
人工智能关系到厂商未来的发展问题
人工智能不仅是关系到生存权,也是关系到发展的问题。大家都意识到人工智能是一个很重要的基础能力,拥有人工智能的技术储备,未来才能在终端战争中有一席之地。
但拥有人工智能不是唯一的事情,拥有人工智能不代表拥有一切。比如不是有计算机视觉的技术,就能造好无人车,硬件其实很重要。如何从应用角度出发,找到核心问题所在,定位切入点,创造好产品的价值反而更重要。
人工智能还有一个有意思的现象,大家都觉得人工智能很好,但直接卖人工智能的技术公司目前来说成功的很少。人工智能有可能很难单独成为一个独立的行业,但是它可能成为很多行业的基础技术。类似于之前的大数据,直接做大数据基础设施比如spark的公司并没有直接获益太多,但是各个行业都因为大数据技术而获得效益提升。
下一代终端是什么?
手机市场相对已经成熟了,让手机变得更智能可能只是锦上添花,大家都是在打保卫战。不可否认,这其中会有一些异军突起的情况发生,但留给后来者创造利润的空间已经不大了。相比之下,大家更关心的是下一代终端是什么?
智能终端的变化有一条最重要的主线,就是人机交互界面。晶体管时代是打孔机,大型机时代是键盘,PC时代是鼠标让人类进入图形用户界面时代,而真正创造智能手机时代的是触摸屏,多点触控技术一举改变了手机键盘操作笨拙的问题,让人类进入移动互联网时代。
那么下一个终端是什么?这是大家在寻找和不断探索的问题。
有几个基本的规律,下一代的终端应该是让我们做到以前做不到的事情,能够深入到过去鼠标和触摸屏做不到或者不方便的一些用户场景。最典型的例子就是Amazon Echo,亚马逊推出的一款圆柱形的小型桌式音箱,Echo让计算进入以前PC和手机的“盲区”。
关于下一代终端的用户交互形态不止语音一种,有很多方向都在尝试,AR也是一种可能。不管是什么方式,最大的瓶颈就是对用户习惯的改变。而改变用户的习惯需要有持续的吸引力,就是“seed of gravity”,如果不能达到就只能是昙花一现。
用户习惯具有非常强的粘性,需要找到一些对用户价值很高的应用场景作为突破口,或者带来十倍以上的效率和体验上提升,才有可能改变已有的用户习惯。比如在手机上已经很习惯而且很方便的使用触摸屏的时候,某些场景再增加语音是很难改变用户习惯的,但是也不排除在新的场景或新的用户群下切入语音是合理的。
我们的一个观测是,有小孩的家庭使用Amazon Echo后,小朋友非常习惯和Echo对话。
语音识别不是一个已经解决的问题
语音识别在过去的7年中突破非常大,但还不是一个已经解决的问题,这其中依然存在两个瓶颈:
首先是技术瓶颈,语音识别在技术上依旧有难度,在“远距”和“重噪”的环境下,很多公司所谓的智能音箱都没得到很好的解决。很多产品只要稍微离得远一些或者没有对着说话就识别不出来。语音入门容易,但如果不能解决“远距”和“重噪”的问题,很多最重要的用户场景就不能实现,语音就失去了意义。
其次就是生态瓶颈,没有一个好的生态和服务,语音作为入口就失去了意义,所以要有良好的生态。这两个瓶颈决定了对语音的投入不是短期行为,很多厂商都希望短期投入后就立马有产品,这其实是个误区,语音识别并不是一个已经解决的问题。
做语音还是需要长期的投入,比如从声源的识别、音道识别、降噪、语义理解,其实都需要很多的声学和语音的技术积累。像亚马逊做Amazon Echo团队有几百人,而Google做Google Home也很早就开始了,经过至少两年才有产品推出。
终端升级换代的危机和机遇
终端每次升级换代都倾向于换一批厂商,因此用户终端的公司能挺过两代的并不多。
比如小型机时代DEC就在后来的终端升级中消亡了,IBM、Dell和HP等PC厂商在手机时代被拉下了,摩托罗拉和诺基亚也在智能手机时代被淘汰,三星等智能手机基本都是新的一批手机厂商,基本和功能机时代不是同一批。苹果的手机业务也基本是从快倒闭的PC业务上涅槃重生,这里面至少有三点原因:
第一,技术革新没有掌握老的厂商手里,新的技术大多是边缘突破,革命性的技术往往被其他人掌握;
第二,传统厂商放弃原有优势的抉择困难,新的技术往往意味着旧优势的丧失,需要极大的动力去主动放弃才能重建,这在以收入为主导的企业中很难实现;
第三,新的终端和原有的商业模式不匹配,新的终端往往会有新的商业模式。
在下一代终端变迁的时候,大家都有机会,不过大家比较迷茫两个点:
第一是时间点,大家还不知道这个产品什么时候出现和崛起;
第二是新的产品形态,都还不清楚新的产品形态是怎么样的。
厂商在06年07年也陷入过迷茫期,不知道下一步怎么做,在苹果手机出现之后,真正走出这条路的时候,大家才恍然大悟。回顾智能手机发展的早期,跟苹果跟的最早的是HTC,先和微软合作做智能手机,后来又和谷歌合作做手机。
如何布局人工智能?
那么,人工智能时代的最重要的布局点会是哪些地方?是一个值得思考的问题。
第一是思考数据战略在公司中的定位
有一个确定和一致的数据战略的公司,在智能大赛中将会得到很大的优势。但是数据战略并不是简单粗暴的通吃,而需要细致的思考和规划。
在数据战略中,隐私和智能是一对矛盾,如何抉择是一个需要思考的战略问题。另外,大家都知道数据是很重要的,但现有的数据对未来的应用到底有多重要?会不会过去积累的数据由于应用的变迁变得没有用。布局数据的一大威胁是,数据是和应用绑定的,今天产生的数据,可能放在以后都没有用。
第二是思考布局哪些可能的新硬件
新的终端形态非常有可能是建立在一种新的交互技术上,而这种交互形式将会围绕人、机器和环境之间的交互。我们目前可以看到几个非常有潜力的方向,但具体的突破还有待市场的不断验证。除了Amazon Echo这类产品,可能VR/AR也是一个可能的新终端。而无人车和自动驾驶也是一个可能的方向,因为这个也显著改变人和机器、机器和环境的交互方式。
第三就是技术储备和人才
不过无论是哪一种交互方式,人工智能的技术都会成为一项基础能力。所以储备技术和人才或许是一个非常有价值的事情。谷歌最强的软件能力和产品化能力,以人才为基础,可能比谷歌积累的数据更重要。一个典型的例子是,谷歌推出的神经网络翻译,最早并不是谷歌发明的,而是加拿大蒙特利尔大学Yoshua Bengio教授和他的学习一起做的,但是谷歌最快把这个技术产品化和商业化。
跟随战略
跟随战略可能在新的经济体系中成功的机会越来越小,在人工智能时代也是如此,有几个基础的观察。
第一个点是技术和产品的生存周期趋向于缩小,导致这个跟随的时间窗口变短,或者变成没有利润的跟随。以前的产品生命周期可能是几十年,而现在的产品三到五年就更新换代了,想跟随都跟不上。比如智能手机生命周期有七年,出现了跟随的时间窗口,但是最后发现跟随的手机厂商都没有赚到钱,因为利润都被早期的人吃光了,后期变成了红海。
第二个点是云计算和网络效应的原因,给跟随的人机会越来越少,云计算等服务能够让新成品快速的扩张,会放大“First Mover Advantage”,产品迅速占据市场。
总结一下,跟随战略是一种战略选择,减少前期投资,但是也意味着放弃了前期的利润。
所以大公司都在各个方向布局,对于大公司来说都害怕错过新的机会,即使跟随也要成为第一个跟随者。
软硬结合其实是个很难的事情
软硬结合是很难完成的事情,这个世界上很少有软硬结合做得很好的公司。所谓软硬结合,一定要有侧重的,还是要落到硬件或者软件上。因为在流程控制上和在公司的管理上,软硬件实在很难去结合。
硬件公司非常强调控制,硬件厂商强调用流程来控制,在硬件上不能犯错,因为返工和替换的成本非常高,回收的成本也非常高。但软件公司强调快和发散,可以快速迭代,放松流程控制,可以犯错,和硬件公司截然不同。
硬件的工作周期长,因此倾向于做预算,通常一年为一期的预算,包含具体项目的计划,通常是在行动之前要花至少几个月的规划期,而软件公司很少做如此长期的具体预算和计划。
所以目前的观察是,硬件厂商做不好软件,软件厂商做不好硬件。这是由企业基因决定的:管理,流程和文化上有鸿沟。、目前来看,能够同时把硬件和软件都做好的公司,都是把软件和硬件在管理,组织,流程和文化分开来的。
比如IBM就是把软件和硬件分开来做,分成单独的集团,用不同的流程甚至不同的文化来管理。
另外一个近期成功的公司就是GE,而GE用的是体外孵化的思路创造了一个完全不同的文化、流程和管理思路来做软件。GE最早是做硬件,它在体外投资了一个完全独立运营的公司来做软件,然后由这个公司把它的软件能力建立起来并形成规模,再回过头来合并两个公司,用新的公司带动老的团体进行软件转型。
软件公司和硬件公司这里面确实存在物理世界的一个必然的规律,就是管理、流程和文化的差异。必须要清楚意识到软件世界和硬件世界是有很大区别的,必须有意识的去规避这两个世界之间的碰撞。很多硬件公司想做软件转型没成功,都因为没有意识到这个区别。
关于chatbot的应用场景
chatbot最重要的不是产品形态,更重要的是应用场景。到底未来是Amazon Echo的形式,还是出现在手机上的形式,可能都不是最重要的。要想清楚chatbot的使用场景,到底chatbot在哪里有用:
第一个场景,物理上决定了眼睛和手被占据的时候,都非常适合chatbot (No hands No eyes)。最典型的就是在家里,我们不愿意去找手机在哪里,只需要声音就能完成,因为语音是人的物理延伸。车里就是很典型的另外一个场景,眼睛和手都被占据了。从目前市场的反应来看,大家对chatbot在家庭领域的应用基本都是认可。
第二个是,chatbot可能也非常适合交互很多的场景。以前我们的交互,都是通过图形界面(GUI)来完成,但GUI并不是一个完美的方案,这只是一个权宜之计。
举个例子,人类最早的购物模式中有一大类是交互式的,我们可能没有特别明确要买什么,通过与店员或者导购的交流来决定买什么。我们过去的电商,在互联网时代把网络购物模式固化了,大家都是通过图形界面,通过分类和搜索的方式来完成。但其实这种购物模式是可以被打破的,因为自然语言是最好的交互方式,通过聊天这种自然灵活的方式来做电商,是非常值得电商领域来探索的。
目前整个工业界都在尝试,最近这两年的进步是比较快的。Amazon Lab、微软、Google和Facebook都在试。现在chatbot的问题是,需要有对目的性和灵活性的平衡。这两个问题分开来都相对容易达到,但是要结合在一起,针对具体应用场景进行平衡优化就非常难了。
最早的chatbot基于规则,可以有很强的目的性,但是没有很强的灵活性,现在也出现了像微软小冰这种非常灵活的chatbot,但是缺乏目的性。类似于微软小冰这种很强的灵活性的chatbot,非常适合娱乐和教育。而基于规则的chatbot,比如订Pizza的系统,目的性非常强,但不够灵活。
目前可能没有一个通用的系统能做到既有很强的灵活性又有很强的的目的性,大都落在了上面这个扇形里面。值得注意的是,随着技术的进步,这个扇形会不断扩大。我们需要做的事,找到需要解决的问题空间,平衡好灵活性和目的性,或者从技术出发,寻找合适的场景,或者从场景出发,寻找合适的技术,看看chatbot能否满足要求。未来两三年内chatbot会在商业上有比较大的进展。
注:以上仅代表个人观点,与供职单位无关。
本文为硅谷密探旗下《AI严肃说》专栏文章,作者:严肃 ,“硅谷密探主笔,麻省大学人工智能方向研究生毕业,与通用汽车合作过为期两年的无人驾驶科研项目,在国际人工智能联合会议(IJCAI)等学术会议上发表过多篇论文,在写一系列AI的文章”