扫码打开虎嗅APP
从6月开始,湖南娱乐频道播出了自制综艺节目《乘风破浪的姐姐》,吸引了很多宅男的目光,想要一睹那些过气女神的芳容。节目没有在湖南卫视播出,而是选择了一个地面频道,摆明了就是告诉观众去芒果TV大火箭刷起来。
有一些姐姐,像金晨、蓝盈盈、沈梦辰,对于90后来说还是很上眼的小姐姐;像万茜、许飞、吴昕、黄圣依这些对我们80后来说,也能算是姐姐。可是伊能静、钟丽缇、宁静这些女星,是谁的姐姐呢?她们应该是“乘风破浪的大姨”才对。
不过,节目打造的价值标签倒是政治正确,女性的独立、奋斗、个人魅力,30+的姐姐阿姨们以一种重新打包的形象出道,光是故事就足够感人了。不管姐姐们的过往有多么辉煌,都要接受评审的公开打分,从声乐表现力、舞台表现力、成团力和个人特质四个角度来评判,这样严格的标准、毒辣的眼光,姐姐们要“重新出道”真是不容易。
人工智能会不会取代人类主播?
在端午节前几天,网上也有一位小姐姐出道了,一位相貌古典的姑娘穿着汉服,在视频里为观众表演绕口令。仔细一看,这位小姐姐不是真人,而是AI合成的主播。原来是京东数科发布了新的AI主播形象,你看人家京东数科玩的多高级,整个AI主播报菜名,可甜可咸,互联网果然套路深哪。
其实类似的AI主播视频,国内外已经有不少巨头科技公司尝试过。这些AI小姐姐出道的时间有先后,她们的颜值和舞台表现力也各不相同,今天,我们就客串一把科技评审,用乘风破浪的标准来给AI小姐姐们打打分,如果组建AI主播天团该有哪些姐姐入选吧。
2016年AlphaGo击败了围棋世界冠军李世石,引发全球对AI的关注,这一年也被称作人工智能元年。但是这个元年并不是真正的第一年,首先要交代一个背景,我们今天看到的各种AI技术繁荣,已经是人工智能概念提出以来的第三波浪潮。这波浪潮能在2016年兴起AlphaGo只是表象,它的真正原因是,移动互联网把现实世界高度数据化。有了数据,才能训练出人工智能,所以它是客观条件成熟之后自然发展起来的。
2016年油管上出现了一位名叫“绊爱”的虚拟主播,她是由日本漫画家森仓圆创作出来的二次元小姐姐。绊爱面世之后,她还出现在日本的很多电视节目、动漫作品和游戏里,在小破站也圈了许多粉。
虽然绊爱的声乐表现力、舞台表现力还不错,赢得了不少观众缘。但如果仔细看就会发现,绊爱其实是把真人演员的动作捕捉用到了3D模型上,而且绊爱的声音也完全是演员配的,所以这个形象只有人工,没有智能,不能算是AI主播。成团力和个人特质0分。总分40分。
AI小姐姐出道站上C位
在合成AI主播方面,搜狗可以说是中国军团的老师傅了。2018年互联网大会期间,搜狗和新华社联合发布了首个AI合成主播,这位1.0版本的AI主播当时只能动嘴唇,面部表情和四肢看起来还不太协调。
到2019年2月,搜狗又发布了2.0版本站立式的AI主播,增加了一些手势肢体动作,也解锁了更多的身体姿态。搜狗的“分身技术”得到进一步提升。
2020年5月搜狗发布了3D合成的AI主播“新小微”,这位主播可以在画面中走动,这说明搜狗的图像合成技术有了新的突破。新小微在今年两会期间亮相,播报两会的新闻资讯。搜狗的AI主播全都采用了新华社真实记者的形象,也成为一大亮点。
好了,下面进入点评打分环节。我们就把今年最新款“新小微”作为搜狗的代表。首先,她是一个3D主播,而且能在画面里行走,全身动作也比较协调,所以在舞台表现力上获得了满分。声乐表现力也非常不错,AI的声音非常流畅,也获得高分。但是“新小微”的形象有点让观众失望,一看就是3D动画,距离真人小姐姐差距较大,也很难给观众留下深刻印象,所以个人特质方面分数较低。总分80分。
下一位选手来自安徽合肥的科大讯飞。2019年3月科大讯飞推出AI主播小晴,这位AI小姐姐不仅颜值高,还精通多种语言,播报时可以在中文、日语、英语、韩语等多语种里随意切换,还可以说出全国各地的主要方言,并且发音准确,十分专业。
2017年国家发布了一批新一代人工智能开放创新平台,科大讯飞成为智能语音平台。他们在自然语言识别方面积累了不少技术成果,也变相获得了官方认证。但科大讯飞在图像处理层面相对较弱,比如2018年同样是合作的虚拟主播“康晓辉”,就把康辉的形象做的不忍直视。
下面对AI主播小晴打分,会说多门外语,有一技之长,声乐表现力满分。其他三项的表现一般,总体得分70分。
接下来开始表演的,是刚才提到的京东数科。今年5月京东数科发布了AI主播“小妮”,从视频画面来看,小妮和这次发布的“小可”表情细腻,色彩还原精度高,肉眼很难分辨出到底是AI还是真人。这主要得益于京东数科把2D模型和3D模型做了打通,将传统方法和深度学习进行了结合。
简单地说,3D模型的追踪技术可以保证AI主播在说话时口型准确、表情细腻、头部运动自然,而2D模型能生成更细腻的画质,京东数科打通了这两种模式的壁垒,所以做出来的AI小姐姐才更加真实。
视频中,小妮的声音听起来比较自然,京东数科采用了轻量级对抗语音合成技术。我们做一点简单科普,把信息从文字转化成语音,人工智能就要像个孩子一样去模拟真实主播的声音,可是AI怎么知道自己模拟的像不像呢?对抗语音合成技术是一种机器学习的方法,它造出生成器和判别器两个部分,自己监督自己。前者生成语音,判别器负责把那些跟样本声音不一样的分辨出来。
这两个东西相互博弈,相互对抗,就像军事演习里的红蓝双方一样,模拟对抗自我提高。这个技术可以优化AI主播的音色,甚至模拟出人的呼吸和换气,也能大幅提高音视频的生成速度。
通过视频可以发现,小妮和小可的身体动作比较少,也无法移动,说明京东数科的多模态AI技术还在进步当中。当然,京东数科能在短时间内发布相对成熟的AI主播,已经跻身到AI技术巨头当中。
我们给“小可”打分,小可的声乐表现力和个人特质表现优异,但是成团力和舞台表现力还相对欠缺,总分80分。
不要低估技术的长期影响
除了这三家主力之外,BAT也都做过虚拟主播。腾讯最近推出“冯宝宝虚拟直播”,为自己的一款游戏造势;淘宝的首位虚拟主播也在这个月出道,二次元主播“赛门”在淘宝上直播卖货;百度大脑的AI虚拟主持人小灵,2019年曾经登陆央视。这三家公司的AI主播,都采用了虚拟IP,形象设计总觉得哪里土土的,就不把他们当做参赛选手了。
总体上说,搜狗的“新小微”出道较早,技术成熟,而京东数科有后发优势,在听觉、视觉和语言三个方面快速积累了深厚经验,两家得分旗鼓相当;科大讯飞稍逊一筹,但也具备了相当的实力。这三家公司他们总体上代表了中国在唇语识别和合成技术上的水平,三家可以组成一个多模态AI技术的中国天团了。
其实,AI主播只是给普通人刷新认知打了一个样,它背后的技术有很高的落地使用价值。比如,人工客服的成本很高,质量也参差不齐,用AI小姐姐来代替人工客服,可以提升客服效率。再比如,在招聘场景中有很多重复的基础性问题,AI小姐姐同样可以温柔的向虚求职者提问,有效节省人力。甚至AI主播真的替换掉一些媒体主播岗位,也可以替换掉直播带货的主播,24小时不吃不喝不断电。
2001年一家英国科技公司,推出了世界上第一个虚拟主持人阿娜诺娃,虽然这个形象今天看起来无比山寨,但媒体还是把她描述成“堪比有血有肉的主播。”2004年央视推出了一个男性虚拟主播。据说,这个形象从策划到实际制作,历时一年花费上百万,引起了观众的轰动。
技术的飞速进步消解了我们对AI的神秘感。比如,京东数科的AI主播,只需要几小时就能合成新内容。以至于当我们看到跟真人无比接近的AI主播时,反而没有那么激动了,因为AI真的走进了我们的生活。可这一切,距离千禧年不过十多年时间。所以说,不要高估了技术的短期影响,更不要高估了技术的长期影响。