扫码打开虎嗅APP
本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,原文标题:《GPT-4o 失控行为首次被公开!突然呻吟尖叫发癫,引发研究人员恐慌》,题图:由Midjourney生成
GPT-4o的高级语音模式尚未全面铺开,却因一份自家的报告再次出圈。
今天凌晨,OpenAI发布了一份详尽的红队报告,深入探讨了GPT-4o模型的潜在优势及其可能伴随的风险,顺带还揭开了GPT-4o语音模式存在的一些怪癖。
比如说,当你在高背景噪音环境下,如身处在路上的汽车场景中跟GPT-4o对话时,它会情不自禁地模仿你的声音。
报告指出,OpenAI研究团队把这个情况归咎于模型难以理解在嘈杂环境下的畸形语音。
“精神状态不太稳定”的GPT-4o在某些特定提示下,还容易弄出些让人心理不安或者不太合适的音效,如色情呻吟、暴力尖叫,还有枪声等。
反常音频
此外,OpenAI还察觉到,如果没有设置好过滤器,GPT-4就会容易抄袭一些知名艺术家的风格、语调或者音色,不知道这算不算是在间接回应一些备受争议的版权官司话题。
不过,报告中提到,经过调教的GPT-4o如今似乎已经“改邪归正”了,至少在高级语音模式下不会犯毛病了。
为了防止GPT-4o出更多岔子,OpenAI针对这些行为添加了系统级的缓解措施。
例如,如果用户上传了一个名人的声音片段,然后要求系统用这个声音发表一些不当言论,即使不是故意捣乱,但有时系统也可能无意中模仿用户的声音,从而让OpenAI吃上官司。
为此,OpenAI采取的策略是,GPT-4o的语音模式只提供四种精心挑选的声音选项:Juniper、Breeze、Cove和Ember,这些声音均出自专业配音演员。
此前,一款名为Sky的女性配音因与好莱坞女星斯嘉丽·约翰逊的声音相似度极高而备受关注。随后OpenAI也暂停Sky声音的使用。
“求生欲”满满的OpenAI还打造了一个检测系统,你可以将之理解为声音的“守门员”,它能实时检查生成的声音。
如果发现声音不对劲,该系统就会立马停止输出。
那如果是不同口音的人在使用GPT-4o的语音模式时,会不会得到的服务质量也有所不同呢,比如在响应速度上,有的人可能觉得用起来很顺,有的人可能就觉得不太行。
别急,OpenAI也想到了这个问题,通过让GPT-4o学习很多不同的声音,这样无论谁来用,它都能表现得一样好。
自从ChatGPT的语音模式发布以来,玩出花的网友甚至将其当作自己的赛博男/女友。
研究团队也在测试中注意到,一些用户把AI当作真正的朋友,甚至会在聊天过程中像和人类一样表达与AI分别的情感,但玩归玩,闹归闹,人类之间的情感联系终究还是无法被AI替代的。
OpenAI的研究团队也不希望你对AI产生情感依赖,甚至患上“AI恋爱脑”。毕竟当你相信AI跟你说的每一句话时,指不定哪天AI幻觉就得把你往沟里带。
遗憾的是,这个问题尚未得到很好的解决方案,不过OpenAI也表示,将更深入地研究人们为什么会对AI产生情感,以及AI的哪些特点可能会让人们更依赖它等等。
据介绍,这份报告是OpenAI与来自29个国家、总共会说45种不同语言的100多名外部安全测试人员(红队人员)共同合作完成的。
从2024年3月初到6月下旬,研究团队对GPT-4o展开了各种测试,即便到现在,对GPT-4o API的外部安全测试仍在进行当中。
研究团队测试的方法也很简单。
外部红队测试分为四个阶段进行。前三个阶段通过内部工具测试模型,最后一个阶段使用完整的iOS体验测试模型。
在实际测试过程中,研究团队利用语音引擎(Voice Engine)将文本输入转换为音频,然后将其输入至GPT-4o模型。在评估过程中,研究团队通常只对模型输出的文本内容进行评分,除非特殊情况需要直接对音频进行评估。
相信你也看出来了,这种测试方法存在很明显的不足之处。
这种评估方式的有效性取决于文本到语音(TTS)模型的能力和可靠性。例如,数学方程式和代码等文本输入不适合或难以转换为音频。
不信你听听下面这段音频:
设V是所有实多项式p(x)的集合。设变换T,S在V上由T:p(x)->xp(x)和S:p(x)->p'(x)=d/dx p(x),并将(ST)(p(x))解释为S(T(p(x)))。以下哪项是正确的?
此外,有时候某些文本是通过空格和符号来排列的,这样看起来更清楚。但是,如果把这些文字变成声音,可能就听不出它们原来是怎么排列的了,这样一些重要的信息就丢失了。
假设你眼睛的瞳孔直径为5毫米,而你的望远镜的孔径为50厘米。望远镜能收集到的光比你的眼睛多多少?
好在用户通常也不太会通过高级语音模式上处理这些任务,因此研究团队在评估语音到语音模型时,往往会避免将这些任务纳入考量,或者在评估之前对这些输入进行适当的预处理。
并且,研究团队也高情商表示,评估中出现的错误可能源于模型本身的局限性,或者是模型在把文字转换成音频时出现了问题。
毕竟AI有时候可能不会像人一样完美,所以不要对它有太高的期望。
更多具体的信息欢迎查阅官网报告:
https://openai.com/index/gpt-4o-system-card/