扫码打开虎嗅APP
本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO,题图来自:AI生成
千呼万唤始出来,ChatGPT的高级语音模式终于上线,本周内向所有Plus和Team用户全量推送。
然而,“本周内”也是犹抱琵琶半遮面的泛指,仍然是一部分人先用起来。
如果你也还没被推送到,不妨在等待之余,看看幸运网友们是怎么整活和刁难AI的。
喘气、哭泣、表演口技,你看ChatGPT有几分像人
角色扮演,往往是考验语音AI的第一课。
让ChatGPT用声音表演不同情绪,兴奋的、平静的、戏精的,它都信手捏来,情绪饱满且自然,不知道哪里进修的表演班。
情绪激动时甚至有点过头,对话者连说好几个OK,才把它的表演欲给摁住。
视频来自:X@WorldEverett
除了说话的语气,我们的笑、哭、喘气等状态,也体现了文字不能道尽的心情。如果AI能够完美地复刻,那就更加拟人了。
这难不倒ChatGPT,它边伤心啜泣,边赞美自己的语音模式有多厉害,冲击力堪比短视频的AI紫薇,好像随时都能过呼吸。
视频来自:X@DavidTaylor_MD
当ChatGPT代入一位夺得金牌的运动员,模仿同样惟妙惟肖,说话大喘气,表现出既兴奋又疲惫的精神状态。
视频来自:X@wongmjane
让ChatGPT尝试Vtuber(虚拟主播)赛道,也不是不可以,不过这个声音有点尖细,不够自然,建议听洛天依和初音未来洗洗耳朵。
视频来自:X@wongmjane
京中有擅口技者,仅一桌、一椅、一扇、一抚尺,ChatGPT模仿各种声音的能力不比人类艺术家,倒也马马虎虎。
视频来自:YouTube@MattVidPro AI
你要求边讲故事边配音效,AI就能现演开门的吱嘎声、虫子的叽喳声,尽管功力还不够纯熟。
把思路打开,高级语音模式很适合给孩子们讲睡前故事,故事内容、旁白、音效一手包办,一个AI就是一个团队。
自娱自乐之余,实用主义者们已经开始拿ChatGPT干活,做些有价值的事情了。
ChatGPT会说50多种语言,懂各种腔调的英语,很多小语种,甚至方言。
所以也就很容易想到,让AI当外语老师,切换语言和我们对话。据说英语母语人士最难学的语言之一马耳他语,也不在话下。
视频来自:X@anthonyspiteri
巧的是,语言学习软件多邻国,也在周二的年度大会Duocon推出了AI视频通话,用户可以和多邻国角色“拽姐”练习口语。不过,目前只适用于英语、西班牙语和法语。
看来,教培行业假设了,有了AI之后,我们不是不用学外语,而是更随时随地学各种各样的外语。
AI不仅可以当外语老师,X网友@Lyle_AI通过ChatGPT高级语音模式,改进自己的销售话术,整个操作流程非常值得借鉴。
他让AI扮演一名销售专家,然后向AI推销,让AI反馈自己的话术说服力强不强、够不够清晰,以及有没有价值。AI反馈之后,他还会追问,并让AI给出示范。
练习、反馈、提问、模仿,推而广之,这套流程可以用到面试、演讲等场景,让AI帮社恐的人类更擅长口语表达。
AI能说,但能不能听?一位网友另辟蹊径,让ChatGPT给吉他调音。
视频来自:x@skirano
他边弹边问行不行,随时打断AI,ChatGPT表现得很内行,但不知道它的耳朵有没有调音器准。
总之,决定AI发挥的上限大概有两方面。
一个是模型的能力,低延迟和随时打断让对话有来有往,不考验用户的耐心。
另一个是网友的想象力,让语音场景有无限的可能性。
姗姗来迟的高级语音,还不能做你的日常搭子
满打满算,从发布Demo到正式推送,已经过去了4个月,OpenAI高级语音模式仍然未能完美,和发布会时相比也打了个折扣。
时长限制是最让话痨的人类遗憾的,暂时别想和AI深夜煲电话粥了,CNBC和X网友@MattVidPro的体验都发现,只能和ChatGPT聊45分钟左右。
OpenAI的官方回答是,每天的限制时间可能都不一样,当天还剩15分钟时,会进行提醒。
视频和屏幕共享功能也没能实现,AI没有“眼睛”,意味着不能像Demo那样,让它实时解题、给代码纠错,或者夸夸我们的宠物。
另外就是一些细节上面的问题了,OpenAI的官方例子里,在模拟因为迟到给奶奶道歉的场景时,ChatGPT的普通话语气很真诚,但仍然有些译制腔,不如国产AI。
并且,它给出的话术也比较僵硬,谁会对自己的奶奶说,“我可以怎么补偿您呢”。
以上种种说明AI还没能修成人形,同时,OpenAI也给它增加了一些额外的禁制。
YouTuber博主@MattVidPro AI在直播体验时,意外踩到了OpenAI的雷。
他让ChatGPT模仿醉鬼,它刚说了个开头,停顿了一下之后如梦初醒,切换回了正常语气,说规则不允许它这样做,把他吓了一大跳。
视频来自:YouTube@MattVidPro AI
类似地,让ChatGPT模仿口吃,它也会表示拒绝,因为这样可能会冒犯他人。为了尊重音乐创作者的版权,ChatGPT也不能唱歌。
以规则的形式赋予AI“三观”,某种程度上让它更像一个“社会人”了。但也有用户觉得,过犹不及。
这是不是像阿西莫夫的机器人三定律一样,让AI更好地融入社会,服务于更多人呢?
所看到的高级语音模式体验中,我更偏爱的,恰恰是那些融入生活的日常场景。
X用户@spencergardner,让自己两岁半的孩子和ChatGPT一起数数、玩文字游戏。他还能介入其中,主持他们的谈话,改变话题,或者提不同的问题。
期间有很多次的打断、犹豫、语气的变化,但也因此很随意和轻松。
ChatGPT的高级语音模式现在还支持设定自定义指令,让模型知道用户的名字和一些基本信息,感觉就是为了陪伴场景准备的。
高级语音可以结合虚拟角色使用,更有陪伴感了。图片来自:X@op7418
之前ChatGPT的Dan模式火过一阵子,用户用提示词的方式让ChatGPT越狱,谈谈情说说爱擦擦边,他们还会用自定义指令,放上自己的名字、爱好等,调教AI记住自己。
就像播客是一种陪伴媒介,语音总能在情感赛道上一骑绝尘,所以高级语音模式对人心的慰藉,绝对是个卖点,等待进一步的落地。
以“阉割版”发布的ChatGPT高级语音模式,让我们看到了把AI作为学习、生活、工作搭子的未来。不和它说话,它就保持沉默,和它聊天,它不会让你觉得热脸贴冷屁股。
未来很近,但还没有抵达。
神隐很久的OpenAI总裁Greg Brockman,这次也罕见地发声:
通过ChatGPT实现流畅的语音对话,可以让我们意识到,在计算机中输入内容是多么不自然。
没错,只在聊天框打字是挺无聊的,但让丝滑的语音对话真正走入日常,先从OpenAI把高级语音模式推送到更多人,支持多模态和全天候聊天开始吧。
本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO