扫码打开虎嗅APP
本文作者:毕安娣,编辑:王靖,头图来自:视觉中国
聊天机器人ChatGPT的利用价值迅速被人类发掘:学生用它写作业、程序员让它帮忙写代码、新闻网站用它“水”文章……于是,学校不高兴了,公司不高兴了,创作者也不高兴了。
如今,ChatGPT的“造物主”OpenAI亲自出马,要解决各方人士利用这个工具“作弊”的问题。
2月1日,OpenAI宣布推出名为AI文本检测器(AI Text Classifier)的新工具,来辅助辨别文本到底是人类编写的,还是AI编写的。
目前,该工具已经可以免费试用。提交文本后,分类器会生成评估结果,包括以下5种:非常不可能、不太可能、不确定、可能、非常可能(是AI生成的)。
不过,这个AI文本分类器离成熟还很远。不仅只能识别1000字符以下的文本,而且可靠性还有待提高。
一名AI研究员Sebastian Raschka用莎士比亚《麦克白》的第一章测试该工具,得到的评估结果是“非常可能”是AI创作的。Sebastian 在推特有14万粉丝,他贴出截图后评论区有人戏谑道:“电影灵感:ChatGPT是一个时空穿越者,实际上人类的创作语言从一开始就是由它影响。”
OpenAI其实对该工具的“不完美”也开诚布公,在网页的说明部分明确写着,根据他们的测试,只有约26%的AI生成文本识别为“非常可能”,还有9%的人类创作会被误判。OpenAI表示:“它仍然存在一些局限性,因此它应该被作为确定文本来源的辅助工具,而非主要判定工具。”
与其说“不完美”,不如说这个工具还很初级。但即便如此OpenAI也迫不及待地将之发布,一方面是需要各方反馈完善工具,另一方面也是对ChatGPT引发的主要争议的一种回应。
我的罪,我自己先治了,姿态有时候比结果还重要。
一
ChatGPT已经在美国教育界引起了广泛的担忧。
美国的在线课程网站Study.com向1万名18岁以上的学生发起调查,询问他们使用ChatGPT的情况,结果竟然有89%的学生表示自己会使用ChatGPT完成作业,还有48%的学生用它完成测验,53%的学生用它写论文,22%的学生用它生成论文大纲。
即便是考虑到调查规模不大、样本代表性不佳等问题,这样的比例依然令人震惊。
《纽约时报》曾报道一个例子。美国北密歇根大学教授安东尼·奥曼(Antony Aumann)在批改学生的世界宗教课作业的时候,看到一篇文章以罩袍禁令的道德影响为题,行文段落简洁,例子准确,逻辑严密,在一众作业中很出挑。
但是安东尼教授没有直接给高分,他起了疑心。在教授的质问下,该学生向他承认,这篇文章其实是用ChatGPT生成的。
虽然教育界也有一种声音,认为应当将ChatGPT这样的新工具纳入到教学当中,而不是千方百计抵制它。也的确有一些大学开始这么做,支持的教育者认为这就像是在数学课上使用计算器,如果能减轻学生负担,用用也没问题,这可以使他们有更多时间思考深层次的问题。
但反对的声音似乎更加响亮。
1月3日,以“担心对学生学习的负面影响”以及“对内容的安全性和准确性的担忧”为由,纽约市颁布了ChatGPT禁令,不管是老师和学生,都不能通过公立学校的网络和设备使用ChatGPT。
纽约市教育局发言人称:虽然该工具能够为问题提供快速简单的答案,但并不能培养批判性思维和解决问题的能力,而这对学术成就和终生发展都至关重要。
这是一个强有力的信号:纽约市拥有全美最大的公立学校系统。
OpenAI也察觉到了争议的严重性,该公司CEO山姆·阿尔特曼(Sam Altman)曾提出要尝试用水印标记ChatGPT生成的内容。即将信号嵌入到生成的文本中,人类不能一眼看出,但是机器一验便知。
但在OpenAI还在提议时,外界早已开始行动,例如马里兰大学的几位研究者已经对语言模型输出的水印进行了深入研究。而如OpenAI新推出的工具那样直接判断文本是否为AI创作的第三方检测工具也已经流行多时。
二
一些大学已经行动起来,包括斯坦福大学在内的一些机构,联合推出名为DetectGPT的工具,来辨别AI生成的文本。
而要说第三方检测工具中,最受欢迎是GPTZero。这个工具出自一位22岁的普林斯顿大学华裔学生爱德华(Edward Tian)之手,今年1月3日上线,一周内就有超过3万人使用,一度导致程序崩溃。而推特上的演示视频,更是吸引了超过700万人次的观看。
近日,爱德华又发布了迭代版本GPTZeroX,升级的最大特点是可以识别“人类+AI”混写的文本,检测出来后由ChatGPT生成的内容会被黄色高亮标记出来。
而且GPTZeroX还可以批量导入文件,支持word、PDF和TXT等格式。这对于教师来说是一个很实用的功能,毕竟学生的作业动辄就是几十份。
GPTZero上线一天之内,已经涌进了40万访问量,收到了220万次服务请求。
爱德华表达了对教育工作者的支持,他曾在推特上表示:我承诺,本网站对个体教师和教育工作者保持免费。
除了教育领域以外,ChatGPT还带来了其他的困扰。和“学术欺诈”类似的,已经有不少程序员利用ChatGPT写代码。
此前已经有人在网上发帖称,作为初级程序员经常使用ChatGPT,但是近期突然发现在公司无法访问该工具了。
除此之外,早在去年12月,IT技术问答网站Stack Overflow就已经推出新政策,禁止用ChatGPT生成的内容在该社区回答问题。
“由于 GPT 足以让网站用户相信答案有价值,社区通常用来确定其同行贡献合法性的信号经常无法检测到 GPT 生成的答案存在严重问题。结果,客观上错误的信息进入了网站。在目前的状态下,GPT 可能会破坏读者对我们网站提供由主题专家撰写的答案的信任。”Stack Overflow如是说明。
可以说,OpenAI在2月的第一天发布AI文本辅助检测工具,不是一个令人惊讶的消息,甚至显得有些姗姗来迟。
三
根据OpenAI的说法,ChatGPT的走红实属意料之外的事情,这也可以解释为什么如今的争议OpenAI看起来毫无准备。
《财富》杂志近期的一篇深度报道称,OpenAI发布ChatGPT是抱着“孤注一掷”的态度,公司联合创始人兼现任总裁格雷戈·布罗克曼表示:“我承认,我当时的立场是,不知道它能否成功。”
OpenAI此前已经拥有全世界最强大的大预言模型之一GPT-3,以约三分之二的互联网、整个维基百科和两个大型图书数据进行集中训练,但是给出的结果总是差强人意。于是有团队提出了“强化学习”的方案,也就是让它直接与人类对话,在试错中学习。
而ChatGPT就是在这样的背景之下被推出的。
相比之下,谷歌的自然语言平台LaMDA早在2021年5月的开发者大会上初次亮相,2022年谷歌又发布了LaMDA2。在演示中,LaMDA也表现出了极其强悍的能力。甚至在去年中旬,“LaMDA已经具备意识”的都市传说曾经闹得沸沸扬扬。
但是谷歌一直不愿向公众发布LaMDA。谷歌表示,部分原因在于LaMDA存在较高的误差,且容易对用户造成伤害。此类瑕疵被谷歌称为“有毒性的”,谷歌担心贸然推出LaMDA会对公司的声誉造成影响。
而ChatGPT爆火后引发的一连串混乱,也恰恰印证了谷歌的担忧。
ChatGPT已经成为OpenAI重要的一款产品,尽管公司称走红不在计划内,这个工具还引发了各种争议,ChatGPT依然进一步使得AIGC(人工智能自动生成内容)成为当今最热门的赛道,也加速了OpenAI向商业世界的迈进。
微软和OpenAI的合作关系快速升温。在2019年就首次向OpenAI投资10亿美元的微软,在1月24日宣布已经扩大双方的合作:微软将向OpenAI进行一项为期多年、价值数十亿美元的投资,并将OpenAI的模型纳入微软的消费级和企业级产品中。
有知情人士称,投资数额将高达100亿美元。
此外,有消息称微软计划在3月将ChatGPT融入到搜索引擎必应中。谷歌也已经坐不住了,也已经发出“红色警报”,要重新思考人工智能策略,计划发布20款支持人工智能的新产品,并将在今年发布搜索聊天界面的演示版本。
2月1日,CNBC报道称谷歌正在测试一款名为“学徒巴德(Apprentice Bard)”的聊天机器人,该产品基于LaMDA,将直接与ChatGPT抗衡。最关键的是,它的回答可以包括最近的事件,而ChatGPT对2021年之后几乎一无所知。
OpenAI看起来在用一款产品去打击另一款产品,实际上是在为ChatGPT的多领域应用铺平道路。
在可以预见的将来,这个赛道将硝烟四起。ChatGPT将只是“抛砖引玉”的里程碑式印迹,还是一款长青的商业产品,还有待时间的检验。
参考资料:
1.财联社:《加码豪赌人工智能!微软官宣向大火的OpenAI追加数十亿投资》
2.硅星人:《用魔法打败魔法:抓住AI枪手 ChatGPT检测器“千呼万唤始出来”》
3.量子位:《“ChatGPT克星”升级:老师可以把全班作业丢进去检测了》
4. 新智元:《学校封杀,大厂禁用,ChatGPT引发大面积恐慌!》
5. 澎湃新闻:《聊天机器人ChatGPT成作弊工具,教育如何应对科技挑战》