正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2023-12-04 08:06

生成式AI是工具,真正的原创者还在反击

本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究,题图来自:《银翼杀手2049》

文章摘要
最近北京互联网法院就人工智能生成图片版权归属问题做出了裁决,认定使用人工智能创作的内容具备独创性并享有著作权保护。然而,这一判决没有解决生成式AI在训练中使用原作者作品的保护问题。

• 💡 生成式AI的作品被认定为享有著作权保护,体现了人的独创性智力投入。

• 💡 使用大模型生成图片的原作者也应该主张自己的权益。

• 💡 关于生成式AI是否构成侵权的争议主要集中在训练数据集是否利用了受版权保护的内容。

近日,北京互联网法院有关人工智能生成图片版权归属的一项裁决,迈出了生成式AI发展历史上具有里程碑意义的一步。


案件本身并不复杂;原告使用AI生成图片,发布于某社交平台上;被告发布文章时使用了该图片,原告因此起诉。


案件的核心点在于:使用人工智能创作的内容,是否构成作品,并享有著作权?


对此,北京互联网法院认为,涉案人工智能生成图片具备“独创性”要件,体现了人的独创性智力投入,应当被认定为作品,受到著作权法保护等。


“现阶段,AI仍只是工具”


生成式人工智能自诞生之日起,其版权归属问题一直引发热议。一般而言,著作权通常归属于创作者,但在人工智能生成内容的情境下,“创作者”的定义边界变得更加模糊。


一种观点主张,AI及其生成的内容版权归属,应该类似于照相机和照片之间的关系,即照相机在制作初始图像时做了大量的机械工作,人类摄影师做出各种决定(主题、构图、布光、后期等)才决定了最终的结果。同样地,使用AI来生成内容的创作者,不仅仅是点击几次按钮而已,而是需要尝试不同的提示词,做出多种组合,并对生成结果做适当的编辑和组合,才得到了最终的结果。


在上述案件中,北京互联网法院认为:从原告构思涉案图片起,到最终选定涉案图片止,整个过程来看,原告进行了一定的智力投入,比如设计人物的呈现方式、选择提示词、安排提示词的顺序、设置相关的参数、选定哪个图片符合预期等。涉案图片体现了原告的智力投入,具备了“智力成果”要件。


法院认为,现阶段,“人们利用人工智能模型生成图片时......本质上仍然是人利用工具进行创作,即整个创作过程中进行智力投入的是人而非人工智能模型。鼓励创作,被公认为著作权制度的核心目的......人工智能生成图片,只要能体现出人的独创性智力投入,就应当被认定为作品,受到著作权法保护。”


但这一判决,没有穿透至“真正的原创者”:生成式AI在训练中,用到的原作者的作品,同样存在保护问题。如果使用大模型生成图片的原告,都可以主张权益,那么,那些受到保护的著作权人,在作品被用于大模型的训练时,难道不可以主张自己的权益吗?


“以变革性方式使用受保护内容并不构成侵权”


国外关于生成式AI是否构成侵权的争议,更多地落在用于训练大模型的数据集是否利用了受版权保护的内容,从而造成了侵权这一点上。


今年7月至9月间,包括《权力的游戏》原著作者乔治·马丁、好莱坞编剧萨拉·西弗曼在内的一众作者,和美国作家协会一起,陆续提起了多桩诉讼,他们的主要诉求是:OpenAI和Meta公司在未经许可或未支付报酬的情况下批量复制他们的作品,并将受版权保护的材料输入大型语言模型。对这些作者而言,ChatGPT等大模型的每一次输出都是一个侵权衍生作品。


美国作家协会声称,OpenAI公司在未经许可或未支付报酬的情况下批量复制他们的作品,并将受版权保护的材料输入大型语言模型。“这些算法是被告企业的核心,而算法的核心则来源于大规模、系统性的窃取。”


起诉书称,OpenAI的大型语言模型允许任何人总结或改写书籍的衍生作品,这可能会损害作家的利益。


这不是生成式人工智能第一次遇到此类诉讼。今年7月,有两位美国作家对OpenAI提起了类似的诉讼,同样声称他们的书籍在未经同意的情况下,被用来训练该公司的聊天机器人。


此外,2月Getty Images起诉Stability AI,指控这家文本转图像生成器公司复制了其1200万张图像作为训练数据。1月,Stability AI、Midjourney和DeviantArt因其人工智能图像生成器的版权问题,同样遭受集体诉讼。


对此,OpenAI辩称,作者们“误解了版权的范围,没有考虑到限制和例外(包括合理使用),而这些限制和例外为创新留下了空间,例如目前处于人工智能前沿的大型语言模型”。此外,作者的书籍只是ChatGPT庞大数据集的“一小部分”,“创新者以变革性方式使用受版权保护的材料并不侵犯版权”。因此,OpenAI认为,任何与作者作品相关的ChatGPT输出都类似于“图书报告或评论”。


此类诉讼的最新进展是,当地时间11月21日,一名联邦法官驳回了西弗曼提起的大部分诉讼:“没有指控或证据表明LLaMA模型已经根据现有的受版权保护的作品进行了重铸、改造或改编”。


但这并非最终的结论。


大模型是否真正进行了创作?


有人认为,生成式AI系统只是一种“21世纪的拼贴工具”,将其算法吸收的内容片段拼接在一起,而非产生独特的输出。


持有这一观点的人对生成式AI的工作原理理解不够充分。事实上,生成式AI是一类能够生成新的、原创性内容的技术,其主要特点是具备学习和创造的能力,生成式AI系统使用大量的训练数据来创建复杂的预测模型,并应用这些预测模型来生成新颖的、此前未见过的内容。因此,其在许多领域都具有创造性和创新性,例如艺术创作、自然语言生成、图像合成等。


那么,一个值得深刻探讨的问题是:生成式AI输出的内容,是精妙的模仿,是高科技的抄袭,还是真正的创作?


让ChatGPT自己回答下吧,看来也没有定论:



文生图模型如Midjourney和Stable Diffusion所使用的技术,被称为扩散模型,从初始的随机噪音分布开始,然后一层一层地“随机”地逼近对原作品的相似度——这是创作,是模仿,还是高科技的抄袭,或者如原告所说“是原作的衍生作品”?


目前,这是一个涉及法律、伦理和创作权的复杂问题,需要在法律和社会层面进行深入探讨。随着技术的不断发展,这些法律和伦理问题可能会变得更为复杂,未来必然需要更多的相关讨论和立法。


至少,在法律明确前,要保持足够的透明:大模型在训练中用到了哪些数据,需要清晰标注;大模型参与生成的内容,需要添加水印。


但在这一大变革的趋势下,那些拥有自己的作品和数据的公司,正在迅速学会使用生成式AI捍卫自己的权益,或者创新自己的业务模式。拥有大量金融数据的彭博,训练出了BloombergGPT。Adobe也用其获授权的作品,训练出了Firefly模型。


拥有最大图片库的Getty,用自己的图片数据,训练出了一个专有的图片生成模型,从中产生的图片,都会受到Getty的保护。它以后将鼓励其图片生成AI的用户,用自己的作品去训练出自己风格。


本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
文集:
频道:

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: