重新定义主播：看AI小姐姐如何乘风破浪-虎嗅网

从6月开始，湖南娱乐频道播出了自制综艺节目《乘风破浪的姐姐》，吸引了很多宅男的目光，想要一睹那些过气女神的芳容。节目没有在湖南卫视播出，而是选择了一个地面频道，摆明了就是告诉观众去芒果TV大火箭刷起来。

有一些姐姐，像金晨、蓝盈盈、沈梦辰，对于90后来说还是很上眼的小姐姐；像万茜、许飞、吴昕、黄圣依这些对我们80后来说，也能算是姐姐。可是伊能静、钟丽缇、宁静这些女星，是谁的姐姐呢？她们应该是“乘风破浪的大姨”才对。

不过，节目打造的价值标签倒是政治正确，女性的独立、奋斗、个人魅力，30+的姐姐阿姨们以一种重新打包的形象出道，光是故事就足够感人了。不管姐姐们的过往有多么辉煌，都要接受评审的公开打分，从声乐表现力、舞台表现力、成团力和个人特质四个角度来评判，这样严格的标准、毒辣的眼光，姐姐们要“重新出道”真是不容易。

人工智能会不会取代人类主播？

在端午节前几天，网上也有一位小姐姐出道了，一位相貌古典的姑娘穿着汉服，在视频里为观众表演绕口令。仔细一看，这位小姐姐不是真人，而是AI合成的主播。原来是京东数科发布了新的AI主播形象，你看人家京东数科玩的多高级，整个AI主播报菜名，可甜可咸，互联网果然套路深哪。

其实类似的AI主播视频，国内外已经有不少巨头科技公司尝试过。这些AI小姐姐出道的时间有先后，她们的颜值和舞台表现力也各不相同，今天，我们就客串一把科技评审，用乘风破浪的标准来给AI小姐姐们打打分，如果组建AI主播天团该有哪些姐姐入选吧。

2016年AlphaGo击败了围棋世界冠军李世石，引发全球对AI的关注，这一年也被称作人工智能元年。但是这个元年并不是真正的第一年，首先要交代一个背景，我们今天看到的各种AI技术繁荣，已经是人工智能概念提出以来的第三波浪潮。这波浪潮能在2016年兴起AlphaGo只是表象，它的真正原因是，移动互联网把现实世界高度数据化。有了数据，才能训练出人工智能，所以它是客观条件成熟之后自然发展起来的。

2016年油管上出现了一位名叫“绊爱”的虚拟主播，她是由日本漫画家森仓圆创作出来的二次元小姐姐。绊爱面世之后，她还出现在日本的很多电视节目、动漫作品和游戏里，在小破站也圈了许多粉。

虽然绊爱的声乐表现力、舞台表现力还不错，赢得了不少观众缘。但如果仔细看就会发现，绊爱其实是把真人演员的动作捕捉用到了3D模型上，而且绊爱的声音也完全是演员配的，所以这个形象只有人工，没有智能，不能算是AI主播。成团力和个人特质0分。总分40分。

AI小姐姐出道站上C位

在合成AI主播方面，搜狗可以说是中国军团的老师傅了。2018年互联网大会期间，搜狗和新华社联合发布了首个AI合成主播，这位1.0版本的AI主播当时只能动嘴唇，面部表情和四肢看起来还不太协调。

到2019年2月，搜狗又发布了2.0版本站立式的AI主播，增加了一些手势肢体动作，也解锁了更多的身体姿态。搜狗的“分身技术”得到进一步提升。

2020年5月搜狗发布了3D合成的AI主播“新小微”，这位主播可以在画面中走动，这说明搜狗的图像合成技术有了新的突破。新小微在今年两会期间亮相，播报两会的新闻资讯。搜狗的AI主播全都采用了新华社真实记者的形象，也成为一大亮点。

好了，下面进入点评打分环节。我们就把今年最新款“新小微”作为搜狗的代表。首先，她是一个3D主播，而且能在画面里行走，全身动作也比较协调，所以在舞台表现力上获得了满分。声乐表现力也非常不错，AI的声音非常流畅，也获得高分。但是“新小微”的形象有点让观众失望，一看就是3D动画，距离真人小姐姐差距较大，也很难给观众留下深刻印象，所以个人特质方面分数较低。总分80分。

下一位选手来自安徽合肥的科大讯飞。2019年3月科大讯飞推出AI主播小晴，这位AI小姐姐不仅颜值高，还精通多种语言，播报时可以在中文、日语、英语、韩语等多语种里随意切换，还可以说出全国各地的主要方言，并且发音准确，十分专业。

2017年国家发布了一批新一代人工智能开放创新平台，科大讯飞成为智能语音平台。他们在自然语言识别方面积累了不少技术成果，也变相获得了官方认证。但科大讯飞在图像处理层面相对较弱，比如2018年同样是合作的虚拟主播“康晓辉”，就把康辉的形象做的不忍直视。

下面对AI主播小晴打分，会说多门外语，有一技之长，声乐表现力满分。其他三项的表现一般，总体得分70分。

接下来开始表演的，是刚才提到的京东数科。今年5月京东数科发布了AI主播“小妮”，从视频画面来看，小妮和这次发布的“小可”表情细腻，色彩还原精度高，肉眼很难分辨出到底是AI还是真人。这主要得益于京东数科把2D模型和3D模型做了打通，将传统方法和深度学习进行了结合。

简单地说，3D模型的追踪技术可以保证AI主播在说话时口型准确、表情细腻、头部运动自然，而2D模型能生成更细腻的画质，京东数科打通了这两种模式的壁垒，所以做出来的AI小姐姐才更加真实。

视频中，小妮的声音听起来比较自然，京东数科采用了轻量级对抗语音合成技术。我们做一点简单科普，把信息从文字转化成语音，人工智能就要像个孩子一样去模拟真实主播的声音，可是AI怎么知道自己模拟的像不像呢？对抗语音合成技术是一种机器学习的方法，它造出生成器和判别器两个部分，自己监督自己。前者生成语音，判别器负责把那些跟样本声音不一样的分辨出来。

这两个东西相互博弈，相互对抗，就像军事演习里的红蓝双方一样，模拟对抗自我提高。这个技术可以优化AI主播的音色,甚至模拟出人的呼吸和换气，也能大幅提高音视频的生成速度。

通过视频可以发现，小妮和小可的身体动作比较少，也无法移动，说明京东数科的多模态AI技术还在进步当中。当然，京东数科能在短时间内发布相对成熟的AI主播，已经跻身到AI技术巨头当中。

我们给“小可”打分，小可的声乐表现力和个人特质表现优异，但是成团力和舞台表现力还相对欠缺，总分80分。

不要低估技术的长期影响

除了这三家主力之外，BAT也都做过虚拟主播。腾讯最近推出“冯宝宝虚拟直播”，为自己的一款游戏造势；淘宝的首位虚拟主播也在这个月出道,二次元主播“赛门”在淘宝上直播卖货；百度大脑的AI虚拟主持人小灵，2019年曾经登陆央视。这三家公司的AI主播，都采用了虚拟IP，形象设计总觉得哪里土土的，就不把他们当做参赛选手了。

总体上说，搜狗的“新小微”出道较早，技术成熟，而京东数科有后发优势，在听觉、视觉和语言三个方面快速积累了深厚经验，两家得分旗鼓相当；科大讯飞稍逊一筹，但也具备了相当的实力。这三家公司他们总体上代表了中国在唇语识别和合成技术上的水平，三家可以组成一个多模态AI技术的中国天团了。

其实，AI主播只是给普通人刷新认知打了一个样，它背后的技术有很高的落地使用价值。比如，人工客服的成本很高，质量也参差不齐，用AI小姐姐来代替人工客服，可以提升客服效率。再比如，在招聘场景中有很多重复的基础性问题，AI小姐姐同样可以温柔的向虚求职者提问，有效节省人力。甚至AI主播真的替换掉一些媒体主播岗位，也可以替换掉直播带货的主播，24小时不吃不喝不断电。

2001年一家英国科技公司，推出了世界上第一个虚拟主持人阿娜诺娃，虽然这个形象今天看起来无比山寨，但媒体还是把她描述成“堪比有血有肉的主播。”2004年央视推出了一个男性虚拟主播。据说，这个形象从策划到实际制作，历时一年花费上百万，引起了观众的轰动。

技术的飞速进步消解了我们对AI的神秘感。比如，京东数科的AI主播，只需要几小时就能合成新内容。以至于当我们看到跟真人无比接近的AI主播时，反而没有那么激动了，因为AI真的走进了我们的生活。可这一切，距离千禧年不过十多年时间。所以说，不要高估了技术的短期影响，更不要高估了技术的长期影响。

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

重新定义主播：看AI小姐姐如何乘风破浪

最新评论

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜