扫码打开虎嗅APP
本文来自微信公众号:林华(ID:gh_4d992808ffdf),作者:林华,题图来自:视觉中国
一、法律是回应性的制度变迁
文明的重大演化基本都沿着技术作为最底层变革因素推动社会发展,人类依赖制度变迁回应技术变革的路径发展。法律是所有制度中最根本的制度。自从GPT-3在2020年6月问世后,从大幅进化的GPT-4到Sora和新近震动音乐圈的Suno,AI技术迅速发展几乎在迫使人工智能立法加速。
传统民法尤其是物权法制度和权利客体的物理边界不可分割。从设定占有到确认所有,物权边界都建立在财产有形的物理形态之上,借助物的外观就可以规定权利状态。即使物权发展到产生抵押和质押制度,本质也是物权的债权化,物权体系的基础并没有改变。
著作权制度在400年前开局就脱离了物权所见即所得的设定,权利的物理外观在著作权框架下被精巧的语言界定代替。用最简单的象形思维理解,Copyright设立之初就不是直接指向有形或者具象的客体,而是通过描述赋予权利人对“copy”行为的控制。发展到改编、表演、广播和网络传播权之后,著作权也始终通过语言逻辑而不是有形外观描述权利的边界,不开动想象力很难准确把握著作权的范围。
人工智能背景下的著作权形态变得更加复杂。学界公认著作权法是因复制技术的发达而诞生,早期著作权制度自然围绕复制。广播电视尤其互联网技术诞生后,著作权法关注的重点从复制转移到传播。生成式技术证明AI可以具有强大内容生成能力后,AI开始挑战只有人类才能创作的默认。
“创作”及相关的“独创性”概念是著作权保护和法理的原点,承受住互联网技术考验的著作权法理论在AI挑战下如同平面几何遇到黎曼问题,人工智能的突然横穿让著作权法理论陷入混沌。
二、AI立法与合规风险
本文集中讨论的著作权争议只是人工智能立法面临的挑战之一。人工智能立法包含数据与隐私监管及AI伦理,后者可以视为狭义的合规。合规对人工智能的发展也有极其重要的影响。苹果在中国努力寻找iPhone智能系统的本地AI服务商,核心原因是从境外提供服务难以解决AI用户敏感信息出入境以及从数据训练开始的伦理监管等合规条件。
不论人工智能立法和还是任何意义上的AI合规,对法律人都有重大影响。法律与合规都追求确定性,只有在最底线的确定性中才能判断决策在未来的合法与合理性。法律本应是合规的基础,但这一前提正在受到政策优先和法律演变等多重不确定因素的削弱。包括美国国会预备强制剥离TikTok所代表的政治因素干预法律,以及法律在新技术推动下被动变革导致的无所适从,全球法律人共同感受不安。
正是因为法律不确定性因素增加,依靠法律评估行为后果的信心降低,相当多企业转而依赖GR强化政府关系以降低未来的不确定性,但这不仅影响法律在合规中的基本地位也导致个案沟通取代治理标准统一。
立法着重规则建立,合规着重规则落地,两者本应分别论述。但法律人无法回避如何在席卷而来的AI激流中冲浪,人工智能立法结果将在很大程度上影响AI以及法律人能否赢得稳定而合理的未来预期,所以本文思考和推演始终结合立法与合规两个考量维度,这也有助于从法律效果角度反观立法设计是否能解决真正的挑战。法律人渴望确定性,但并不希望丧失立法的准确性作为代价。
三、立法模式选择
(一)欧洲
中国、美国和欧盟的人工智能立法和法律实践是最值得关注的动态。欧洲议会于2024年3月13日高票通过《人工智能法案》(EU AI Act),法案离生效只剩欧洲理事会批准的例行程序。这部全球首个人工智能法案为AI治理模式树立了典范,但考虑到以下几点理由,欧盟立法在知识产权规则方面基本没有借鉴意义:
首先,欧盟《人工智能法案》立法目的是确保人工智能技术的安全和可靠,保证AI发展符合欧盟基本价值观和人权保障。欧盟法案虽然体量庞大,但主要围绕AI系统监管的风险级别分类,并没有实质性涉及包括著作权在内的知识产权问题;
其次,欧盟立法模式过度依赖建构理性,极其考验立法者对新技术催生社会变革的前瞻能力。但预测未来这一点在理论上就已经是典型的信息不对称,人类理性不足几乎是必然的;
再次,欧盟人工智能立法结构相当复杂,从监管到侵权责任以及知识产权等法律问题平行展开立法,这对立法和执行资源都是相当的考验;
最后,相比中国和美国,欧洲明显欠缺人工智能在产业和社会应用方面的实践基础(至多算上在MoE混合专家架构上领先的Mistral),立法资源不充分。迄今为止欧洲对人工智能领域的主要贡献除了立法就是......罚款。欧洲议会刚通过人工智能法案,法国竞争管理局就以谷歌Bard(即现在的Gemini)未经许可使用新闻内容用于AI预训练为由处罚谷歌2.5亿欧元的罚款,但从本文以及较多版权学者观点来看,对预训练的处罚是有点可Xiao(四声)了。当然对欧洲来说这倒也正常,谷歌连在搜索列表中提供新闻摘要都被处罚过。
总结来看,欧盟立法是以欧洲文化和理念为起点的治理模式。欧盟人工智能立法虽然有逻辑严谨、规定细致的优点,但从反面看这也是以放弃应对技术发展不确定性的必要弹性为代价的。
(二)美国
实用主义是美国法律传统的特征,是和欧洲传统建构理性相左的实践理性。霍姆斯大法官在《普通法》中留下“The life of law doesn't lie in logic, but experience”(法律生命不在逻辑而在经验)的名句的确有力挑明了美国法的精髓。
人工智能有史以来所有重大技术突破都是在美国完成,执技术牛角的OpenAI和DeepMind都是美国企业,美国法院也受理了全球数量和类型都最多的AI版权纠纷。但美国至今除了通过版权办公室发布人工智能相关版权登记指南这一行政规章之外,立法节奏集中在国会主持的大规模调研阶段。美国似乎愿意让自己更多处在观察的位置,在司法实践中沉淀规则,在广泛调研中提高理解。
美国政府和国会高度重视人工智能安全和行业发展,并在每个层面都拥有极佳的AI立法资源。在模式上美国保持经验先行的实用主义,用司法资源在法律纠纷解决中反复测试,立法机关和国会两党都积极调研需求和风险,随时可以启动实质立法。从美国版权法1790年立法至今保持的旺盛进化力来看,美国人工智能立法也会延续既稳健又灵活的模式,在回应新技术的制度建设上保持充分的弹性。
(三)中国
中国人工智能技术能力和产业发展水平仅次于美国,产业实践资源丰富。在AI立法上,有网信办等部委在2023年联合发布《生成式人工智能服务管理暂行办法》(以下称“生成式暂行办法”)。在司法实践中,有引起广泛关注的北京互联网法院一审判决的(2023)京0491民初11279号AI图片版权纠纷等案件(以下称“北互AI图片案”)。在学术研究上,有中国政法大学等多个机构组织起草的人工智能法学者建议稿(以下称“专家建议稿”)。
中国和美国一样拥有人工智能立法的良好条件。具体而言,中国人工智能立法还具有以下特点:
首先,法治是最好的营商环境,中国企业非常期待人工智能行业尽早有稳定和完善的规则。但人工智能立法不应牺牲立法质量来换取立法速度,否则推倒重来才是最昂贵的代价。在确定性和必要弹性之间,中国需要在新技术立法中寻求折衷。
其次,《生成式暂行办法》虽然作为行政法规立法级别不高,涉及著作权的规则也不够具体明确,但面对技术革命的多重变数,立法宜优先确立价值导向、基本框架和必要的核心规则,给未来细化预留空间。
最后,人工智能对技术本身以及历史的革命性影响已经不可阻挡,中国立法需要深入了解人工智能技术特征,以积极包容的态度参与和推动AI正向的发展趋势。
人工智能相关著作权规则的立法主要集中在三个问题:大模型预训练材料的版权规则,AI生成内容的可版权性或者独创性判断,以及侵权规则。本文以下将依此展开论述。
四、训练素材的法律安排
(一)训练素材的侵权争议
国际知识产权组织(WIPO)在2024年3月发布的《生成式AI知识产权导航》手册侵权风险章节中提到:“关于使用受知识产权保护的材料训练人工智能、使用经过训练的人工智能模型及其产生的输出结果是否构成知识产权侵权,全球范围内尚有待决诉讼”。在风险解决方案部分,WIPO手册给出以下建议:
“仅在许可的公共领域或用户自己的训练数据上进行训练的生成式人工智能工具;选择人工智能工具时,选择愿意对知识产权侵权(特别是版权侵权)提供合适补偿担保的供应商;在训练或微调生成式人工智能时彻底审查数据集,验证 IP 所有权、AI训练许可证覆盖范围以及知识共享许可证的合规性[1]。”
一言以蔽之,WIPO手册认为使用第三方受版权保护内容训练AI是否侵权尚未有定论,为避免争议应获得授权再进行训练。
不仅部分法学专家认为人工智能数据训练需要获得许可,不少媒体观点也排斥AI利用公开内容进行训练。有美国媒体像描述审讯一样报道华尔街日报在Sora发布后对OpenAI CTO Murati的采访[2],部分国内媒体立刻抓住这波流量,更添加一大串脑补色彩的形容词讽刺Murati回避记者对是否用YouTube、Facebook和Instagram视频训练的提问。
事实上全球没有一个主流国家的立法、司法或行政机关确定人工智能预训练需要授权,即使广州互联网法院判决某未披露名称的AI接口服务商侵犯新创华公司奥特曼著作权的(2024)粤0192民初113号判决书,裁判针对的也是生成结果而不是预训练本身。YouTube和Facebook等平台背靠的谷歌(大模型Gemini)、Meta(大模型LLaMA)都是OpenAI的直接竞争者,但权利人从未对OpenAI预训练有过任何质疑。一些媒体对AI预训练的排斥态度远比权利人积极。
(二)合理使用是必然选项
1. 数据训练符合合理使用规则
对生成式大模型数据训练法律问题包括技术解读在内的详细论证,可以参考在先《人工智能数据训练的法律竞争》一篇,本处直接给出AI数据训练应当适用合理使用的结论,即数据训练在正常情况下不需要权利人许可而可以直接适用合理使用。
数据训练应当适用合理使用的根本原因,是数据训练符合著作权合理使用规定的条件。生成式大模型在预训练阶段只需要对语料进行临时复制,模型在训练中捕捉语料数据结构特征后不保留也不需要保留原始数据,而是将数据特征并入模型参数/权重(如语言大模型)或者映射到潜在空间(如使用GAN对抗网络的图像大模型)。如果发生AI原样输出任何训练素材,都属于出现程序bug,因为生成式的根本设定就是生成新内容而不是复制。
有观点认为可以援引最高人民法院2011年发布《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》支持数据训练阶段适用合理使用。最高院意见第8条规定:“……在促进技术创新和商业发展确有必要的特殊情形下,考虑作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素,如果该使用行为既不与作品的正常使用相冲突,也不至于不合理地损害作者的正当利益,可以认定为合理使用”。
以上观点的确是一种可探讨的思路,但数据训练尽管符合其中技术创新的条件,司法解释第8条规定的其它考量因素还是具有较多依赖主观判断,不同裁判可能给出不同结论。
本文认为大模型数据训练是机器学习的核心环节,只要将AI行为视为个人行为,数据训练就可以直接援引《著作权法》第24条“为个人学习、研究或者欣赏”可适用合理使用的规定。机器学习和大模型预训练都是既往著作权立法中从未想象过的技术。放弃对机器是不是个人的形式判断,根据机器学习行为本质判断合理使用的适用,是很合理的思辨和法理进步。
2. 生成式技术特点需要适用合理使用
生成式大模型和传统人工智能在理论基础和实现路径上都有很多区别,以Transformer代表的生成式大模型技术核心不是依赖数据标注等人工介入,而是通过海量语料数据自训练提炼语料特征,进而理解语料及其背后的现实世界。
生成式AI的技术路径,使得训练数据规模几乎可以决定训练结果和AI智能水平。正因为此,据说OpenAI要求所有研发人员像读圣经一样诵读深度学习鼻祖之一Richard Sutton的著作《The Bitter Lesson》。Richard在这本当下名著中反复强调AI技术发展不要依赖人类学习的经验,而应该充分利用规模法则(ScalingLaw),通过大算力和大规模数据训练获得智能。按流传颇广的说法,GPT-4训练数据集包含多达13万亿token[3]。
在规模法则影响下,生成式大模型训练对语料规模的要求一定程度上超过对语料质量的要求。低质量语料可以通过AI自主噪音识别和人工标注纠正,预训练数据量的不足则难以补救。GPT代表的大语言模型甚至采取混合架构的图像大模型Sora都披露建构AI自己的世界模型[4]。从基本逻辑反推,不经过世界规模的大量数据训练就不可能建立对应庞大真实世界的模型。数据训练的规模远超日常经验想象,以许可为前置条件等于收紧AI智商的氧气管。所以前述WIPO手册给出考虑法律不确定的风险从严控制训练语料授权的建议,是脱离现实的。
3. 立法比较和建议
网信办等发布的《生成式暂行办法》第4条规定:“提供和使用生成式人工智能服务,应当……遵守以下规定:……(三)尊重知识产权”;第7条规定:“生成式人工智能服务提供者(以下称提供者)应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:(一)使用具有合法来源的数据和基础模型;(二)涉及知识产权的,不得侵害他人依法享有的知识产权;……”。
从《生成式暂行办法》相关规定可以得出两个结论:办法并没有强制规定AI预训练使用数据必须获得授权,但通过禁止侵权的规定又给出晦涩的暗示。
《专家建议稿》对预训练的规定和暂行办法有明显不同。建议稿第24条规定:“人工智能开发者使用他人享有著作权的数据进行模型训练时,如果该使用行为与数据原本的使用目的或功能不同,并且不影响该数据的正常使用,也没有不合理地损害数据权利人的合法权益,则该使用行为属于数据合理使用。对于符合上述合理使用情形的数据使用行为,人工智能开发者可以不经数据权利人许可,不向其支付报酬,但是应当以显著的方式标注数据来源”。
建议稿第24条除了标注数据来源一项需要权衡出一个可落地的规则,其对AI预训练适用合理使用的规定非常合理。稍有遗憾的是未见建议稿附专门解释,不能充分了解第24条起草突破成规的理由。本文认为在规定预训练适用合理使用的前提下,立法需要明确时间、目的、禁止复制三项要素。具体而言:
1)对训练数据适用合理使用应当限制在模型训练期间(第24条表述为“进行模型训练时”),训练完成后不再适用;
2)对数据的合理使用应当限用于训练目的(第24条表述为“该使用行为与数据原本的使用目的或功能不同”),超过目的即不再适用;
3)在满足前述全部条件情况下,增加开发者负有保证模型不因技术错误而保留训练素材复制件的义务,违反保证应承担侵权责任。
4. 并未消失的博弈
人类第一次面对生成式人工智能,选择对训练数据实施包括合理使用在内的任何法律设置,社会都会对新规则产生一段不适。很多主张对大模型训练实施许可制度的作者/著作权人会认为自己将因此完全丧失应有收益和与人工智能服务方博弈的能力,但本文认为考虑多纳入几个考虑维度可以发现新规则产生的阶段性摩擦是有限的:
1)AI训练完成后并不复制保存语料,机器学习和人类学习受到平等对待本身并非出于单纯扶持AI发展的产业政策,而是适用合理使用具有相当合理性;
2)合理使用并不损害拥有数据量最多的内容平台利益。不仅因为AI和平台对内容的使用方法与目的都不同,而且平台可以合法使用著作权技术措施限制爬虫技术等外部获取路径。AI服务商有动力为稳定获取训练数据和内容平台合作。OpenAI通过自定的数据伙伴计划和Tumblr, WordPress等合作,自身拥有海量数据的Google仍以6000万美元代价获取Reddit对数据训练的授权,而OpenAI创始人奥特曼正是Reddit大股东;
3)对训练阶段实施合理使用,并不妨碍权利人一旦发现人工智能生成内容有侵权嫌疑即进行维权。
五、 AI生成内容的可版权性
(一)法律与技术:未相交的轨迹
对人工智能生成内容尤其通过文生图方式所生成的内容是否可以受到著作权保护,学术观点一直有很大的争议。引起全球关注的北互AI图片案判决和美国版权复审委员会驳回AI作品《太空歌剧院》版权登记申请的决定,两个裁决的共同点是都不接受人工智能可以成为作者(及著作权人),不同之处在于北互AI图片案判决认可使用文生图工具创作的自然人因其智力投入产生的个性化表达获得著作权,美国版权复审委员会认为申请人举证不足以证明创作提示词是作品独创性(所谓“作者身份要素”)的来源。
正当我们热烈纠结于《太空歌剧院》创作中的624个提示词是否对AI文生图结果具有独创性贡献,突然杀出的Sora演示了只用“Historical footage of Californiaduring the gold rush”这类简单命令就生成宏大而逼真场景的超能力。提示词的意义对融合Diffusion与Transformer双架构的Sora直线跌落,从剧情到细节都靠AI自己脑补。
很多学者坚持认为生成式只能拼凑结果而不具有真正创作能力,我们似乎应该担心AI创作内容被冒充人类作品。但事实居然是在Sora发布后很多人都在用人类制作的真实视频冒充AI生成结果博取流量—Sora镜头这么强,反正你也分不清是人类还是AI在创作[5]。
困扰人工智能法律研究最大的问题之一,是技术发展明显快于全社会的反应。即使支持人工智能正在彻底改变世界的专家,很多人也会乐观地认为将来很长时间里人类和人工智能会在版权领域中各自负责创意和表达。实际我们能看到的是,经过超大规模数据训练启发的人工智能已经展现出可观的理解、逻辑和想象力。除了颠覆性原创能力还要假以时日,AI正在通吃创意和表达的创作全链条。
如果对AI技术的认知落后于技术的实际发展,在这样基础上的理论建构及立法显然失之千里。
(二)AI生成内容可版权性的三个问题
以文生图模式为例,人工智能生成内容是否可以受著作权保护实际可以拆分成三个具体问题:人工智能是否有成为作者或著作权人的法律资格;(人类提供的)提示词对AI文生图结果是否有独创性贡献;人工智能是否有能力生成独创性内容。
1. 著作权主体资格
这个问题如果用逻辑分析会很复杂,但作为法律事实问题就可以直接以法条规定做简单判断。目前中美两国代表的主流立法例都以人类(含拟制人如法人)为单一法律权利主体,司法实践也未超越法条文字范围。
2. 提示词的独创性贡献
人类使用AI文生图时设计的提示词对AI生成结果是否可以有独创性贡献,按北互AI图片案判决和美国版权办公室(版权局)2023年初发布的《含AI生成内容的作品版权登记指南》,答案都是肯定的。美国版权复审委员会驳回AI作品《太空歌剧院》版权登记申请的决定仍然是以前述登记指南作为依据,只是没有认可申请人证明自己举证的证明内容。
前文提到Sora无需具象提示词就可以自行创作具有强大和复杂表现力的内容,证明技术发展已经将提示词版权问题甩在身后,法律热点刚刚出现就退出前沿。不仅技术发展正在拉大和法律的距离,产业实践同样在拉大和法学理论的距离。影视制作在动画化,而动画正在AI化。人工智能极大概率将在5年内完全改变内容创作现状,并且当下就已以显性和隐性方式全面影响内容和娱乐产业。央视和上广电今年来分别推出国内首部文生图系列动画《千秋诗颂》和首部AIGC公益广告《因AI向善》,国内AI动画发布频率已达两天一部。
如此量级的内容不能得到版权保护,伤害的并不是AI而是人类作者,版权法的意义也应当受到质疑。
3. 人工智能是否有能力生成独创性内容
美国AI版权登记指南在这一点上存在不可调和的自我矛盾。指南首先规定“作者传统身份要素”(traditional elements of authorship)指对“文学、艺术或音乐表达或选择、安排等要素”,即可视为对独创性的另一种表达。在此基础上,指南一方面拒绝(AI)机器可以成为版权主体,另一方面又认为技术可以生成“作者传统身份要素”。版权复审委员会甚至在《太空歌剧院》案中,根据该规定以“作者传统身份要素”是由技术而不是人类用户决定和执行为由,做出驳回版权登记申请的决定。
(三)AI生成内容版权的立法分析
1. 权利归属
美国AI版权登记指南对AI生成内容是否可能具有独创性的回答是肯定的,但对独创性属于人类还是AI创作结果给出了含混和自相矛盾的意见。
网信办等部委发布的《生成式暂行办法》未对AI生成内容的版权规则进行规定。从立法级别来看,由行政规章规定著作权生成和归属问题会有僭越人大常委会立法权的问题,AI生成内容的著作权规则的确合适交给《著作权法》或者进退灵活的司法解释去规定。
国内学者起草的《专家建议稿》第36条第一款和第二款规定:
“利用人工智能生成的内容,根据使用者对内容最终呈现的贡献程度,当符合著作权法对作品认定的条件或者专利法对发明创造的认定条件时,可以作为作品获得著作权法保护或者依法申请专利保护,但是获得著作权的主体或者申请专利的主体必须为自然人或者法人等法律主体。将利用人工智能生成的内容作为作品或者申请专利保护的,使用者应当主动披露相关内容是否主要由人工智能生成。”
前述第36条第一款规定和北互AI图片案裁判思路一致,排除人工智能以独立主体身份成为作者的资格,但接受以人类对AI生成内容的独创性贡献判断AI使用者是否可以享有著作权。该条规则和美国专利商标局(USPTO)在2024年2月13日发布的《Inventorship Guidance forAI-Assisted Inventions》[6]涉及含AI辅助发明的专利申请规定也相吻合。如《妥协是渐进的艺术——从中美案例与规则看AI生成内容的版权逻辑》所分析,从实用主义角度看,人类智慧在当下AI立法中能实现的合理极限很可能止步于此。
2. 约定归属
人工智能建议稿第36条三款规定:“人工智能提供者与使用者应当对利用人工智能生成的内容权属进行约定,没有约定或者约定不明的,相关权利应当由使用者享有”。这一款规定是以私法意思自治原则为基础,以提供者和使用者自行约定作为AI生成内容著作权归属的依据。
本文原则同意以约定作为权利归属的依据,但考虑到人工智能提供者在与使用者关系中的压倒优势,以及在未来特定阶段法律对人工智能部分领域进行更多干预的可能,建议用“可以”代替“应当”。对于前一项考虑的现实依据,有法院依据暴雪游戏在《魔兽争霸对战平台作者合作协议》中约定所有使用该平台创作内容都属于平台方,认定平台用户无法证明其拥有自己在对战平台创作游戏地图的著作权,并驳回用户要求他人承担侵权责任的主张[7]。
本文同意前述案件裁判思路,但认为对战平台的著作权约定因显失公平而可撤销。
3. AI用户协议例
1)用户输入内容
a,讯飞星火
AI服务商可以安排和用户之间就AI模型输出内容的权属关系,用户使用模型时输入内容的权属当然不因输入而变动。不过也确实有AI产品在用户协议中把用户输入内容权利打包带走,本文认为该项约定显失公平而不具有约束力:
科大讯飞星火《用户协议》第四条 知识产权:……4.2 “您理解并且同意,除非有相反证明,您使用本平台服务上传、发布或传输内容即代表了您不可撤销地授予科大讯飞及关联方非排他的、无地域限制的、永久的、免费的许可使用(包括存储、使用、复制、修订、编辑、发布、展示、翻译、分发上述内容或制作派生作品等商业或非商业使用)及可再许可第三方使用的权利,以及可以自身名义对第三方侵权行为取证及提起诉讼的权利”[8]。
b,字节豆包
字节豆包的《用户协议》首先确认用户输入的内容原有权利归属不变,随后规定用户输入即同意对豆包为提供及优化模型服务使用数据。虽然在转许可等方面仍然规定过宽,但豆包的用户协议仍可视为和星火用户协议相区别的另一类规定代表:
字节豆包《用户协议》8.1 ……“你提供的输入的知识产权归属于你或者依法享有这些知识产权的权利人。公司不主张输出内容的所有权;……对于你通过本软件及相关服务输入、生成、发布、传播的信息内容之全部或部分(合称信息内容),你授予公司和/或关联方一项免费的、全球范围内的、永久的许可,允许公司和/或关联方可以使用你提供的信息内容来优化模型和服务。上述许可是可以转让的,也是可以进行分许可或再许可的”[9]。
c,百度文心一言
百度文心一言相关规定和豆包类似,但在授权范围用抽象约定更加拓宽。如果遇到争议,文心一言用户协议对用户输入内容的授权会被缩限在文心一言AI服务必须的相关范围:
百度文心一言《用户协议》:5.4……“您理解并同意百度将在法律允许的范围内为实现本服务目的对您上传、发布的内容进行存储及使用(包括但不限于复制、分发、传送、公开展示、编辑等)。”[10]
2)模型输出内容
中国主流AI产品的用户协议多约定模型输出内容的权利归属AI服务提供人,以下举例文心一言和豆包用户协议:
a,百度文心一言
《用户协议》……5.2 “百度在本服务中提供的内容(包括但不限于软件、技术、程序、代码、用户界面、网页、文字、图片、图像、音频、视频、图表、版面设计、商标、电子文档等)的知识产权(包括但不限于著作权、商标权、专利权和其他知识产权)属于百度所有,但相关权利人依照法律规定应享有权利的除外。”
b,字节豆包
《用户协议》……8.2 “……公司在本软件及相关服务中提供的内容(包括但不限于软件、技术、程序、网页、文字、图片、图像、音频、视频、图表、版面设计、电子文档等)的知识产权与相关权益属于公司所有。……”
视角转移到国外,对模型输出内容的权利归属虽然同样存在不同规定模式,但OpenAI和Llama代表的主流AI的用户协议都规定模型生成内容的知识产权属于用户,和中国AI画风属实不同。这种差异可能是OpenAI作为非营利机构而Llama作为开源AI的理念所决定的。
a,OpenAI使用协议[11]
OpenAI用户协议规定严密细致而且具有专业上的精致。本文限于篇幅和主题,在此只引用模型输出内容的权利约定部分,其余不做展开:
“内容的所有权。在您和 OpenAI 之间,在适用法律允许的范围内,您 (a) 保留您对输入的所有权,并且 (b) 拥有输出的所有权。我们特此将我们对输出的所有权利、所有权和利益(如果有)转让给您。”
b,Llama2 Community License Agreement [12]
Llama2是Meta一款开源AI,允许包括商业用户在内第三方下载、修改和使用模型[13],并允许任何遵守协议的第三方对模型修改和衍生部分拥有权利。在Llama2没有限制模型用户对输出内容主张权利情况下,参照第三方对模型修改和衍生部分享有权利的设定,模型用户对使用模型生成内容享有著作权并无障碍。
关于修改模型部分权利归属的约定比较绕口,以下将英文原文和译文一并列出。其中提及的“Llama材料”即为大模型本身:
“5.Intellectual Property. ……b. Subject to Meta’s ownership of Llama Materials andderivatives made by or for Meta, with respect to any derivative works andmodifications of the Llama Materials that are made by you, as between you andMeta, you are and will be the owner of such derivative works and modifications.”
“5.知识产权……b. 在Meta拥有的Llama材料及为Meta制作衍生品的前提下,你所制作的任何衍生作品和对Llama材料的修改,在你和Meta之间,你是这些衍生作品和修改的所有者。”
3)用户协议的合规考量
AI产品需要高度重视用户协议在合规中的地位。包括用户个人信息保护和隐私政策在内的用户协议体系是互联网产品的核心合规依据,同时对用户协议的不同安排也是对应不同商业模式和产品策略的必然举措。
约定对AI生成内容权利归属方面具有优先地位,除非约定与法律禁止范围抵触。个人认为在用户输入内容的权利归属一块,并不建议学习讯飞星火一桌打包的模式,而文心一言模式有弹性但实操中容易引起较多关于约定真空区域的争议。字节豆包约定明确而合理,是值得参考的模式。
关于对模型生成内容权利归属的约定,法律在当下并没有预设禁区。所以是按OpenAI模式还是百度模式,AI提供者有根据自身利益和商业模式选择的空间。但本文认为AI提供者一揽子拿过用户利用AI创作内容的权益,对AI作为创作辅助工具的定位来说有些过分。
例如用户输入一篇文章要求校订语法错误,按用户协议规定修订结果的权利就归属AI提供者,显然并不合情理。考虑到北互AI图片案审理已推定使用者可以对AI文生图结果具有独创性贡献,模型提供者独占权利的约定会有面临被挑战法律效力。尤其在使用者可能还是付费用户(如文心一言4.0为收费版),工具提供方截获本属于用户知识产权的约定难言公平,大概率会落入《民法典》第四百九十七条对“提供格式条款一方排除对方主要权利”属于格式条款无效情形的规定。
4. AI标识义务
《专家建议稿》第48条规定:“人工智能提供者应当在产品和服务内容的合理位置、区域添加隐式标识,并且建立隐式标识的信息溯源机制,确保隐式标识的可读性和安全性。人工智能产品和服务可能导致公众混淆或者误认的,提供者应当采取技术措施,在产品和服务内容的合理位置、区域添加不影响使用者使用的显式标识,以显著方式向公众提示人工智能产品和服务的必要信息。任何组织和个人不得采用技术手段删除、篡改、隐匿人工智能产品和服务中依法添加的标识”。
前述条款规定的AI标识义务是有争议的事项。一方面AI强大生成能力经常被用作违法模拟他人等欺诈用途,另一方面利用AI的合法创作几乎都不会希望作品上出现标记。隐性标记比显性标记具有一定合理性,但是否在技术及实际运用上具有可指向性,需要留待在技术和实操两方面观察。
六、著作权侵权规则
(一)AI侵权责任
AI生成内容侵害著作权只是人工智能可能承担侵权责任的一部分。完整意义上的人工智能侵权责任制度包括治理人工智能生成内容侵害著作权,侵害隐私、名誉、商业秘密等其它民事权利,以及因AI幻觉生成错误和误导信息等的规则。关于AI法律责任的整体分析可参考《以进为路—AI法律责任的分析和建构》,借助个案的分析可参考《从第一案抢跑看OpenAI vs.Journalism的未来》。
本文集中分析AI生成内容侵害他人著作权一项。网信办等发布的《生成式暂行办法》在第九条对AI侵害著作权责任设置一条总则性规定:“生成式人工智能服务提供者应当依法承担网络信息内容生产者责任……”。
事实上人工智能生成内容侵权责任的场景,远比《生成式暂行办法》的抽象规定复杂得多。AI内容责任的行为因果链条中包括模型提供者、模型使用者、模型接口服务/集成服务提供者的不同主体,每个主体都可能因自己的行为导致侵权发生,并且每个主体在不同场景下也可能具有不同的侵权法主体地位,这些都会实质性影响侵权行为认定的判断。
AI生成内容的著作权侵权规则在立法以及合规上都非常重要。《专家建议稿》在这个问题上的尝试颇有质量,比暂行办法进步与完善很多。以下以建议稿设立的著作权侵权规则为例具体分析。
(二)建议稿规则比对
《专家建议稿》在第88条规定了大模型提供者(人工智能产品提供者)的产品责任,对生成内容侵权责任的规定由第85条“提供者归责原则”、第86条“使用者归责原则”和第87条“服务提供者避风港规则”所覆盖。相关规定如下:
第85条:“人工智能产品和服务造成他人损害的,提供者未尽到本法规定义务的,应当承担侵权责任。关键人工智能产品和服务造成他人损害,提供者不能证明自己没有过错的,应当承担侵权责任。法律规定赔偿限额的,依照其规定,但是关键人工智能开发者、提供者有故意或者重大过失的除外”。
第86条:“使用人工智能产品和服务造成他人损害,使用者有过错的,应当承担侵权责任。人工智能开发者、提供者未尽到本法规定义务的,承担相应的侵权责任。法律另有规定的,依照其规定归责”。
第87条:“使用者利用人工智能服务实施侵权行为的,权利人有权通知人工智能服务提供者采取屏蔽提示词、关闭或撤销侵权账号等必要措施。通知应当包括构成侵权的初步证据及权利人的真实身份信息。人工智能服务提供者接到通知后,应当及时将该通知转送相关使用者,并进行侵权风险提示:未及时采取必要措施的,对损害的扩大部分与该使用者承担连带责任。人工智能服务提供者知道或者应当知道使用者利用其提供的人工智能服务侵害他人民事权益,未采取必要措施的,与使用者承担连带责任。“
从前述第85条和86条来看,建议稿将模型及服务提供者以及使用者都纳入到损害责任体系中。《生成式暂行办法》第九条只规定生成式人工智能服务提供者作为责任主体,即使将第二十二条对服务提供者的定义扩大解释到覆盖集成服务商,也遗漏了对模型使用者的规定。模型使用者实际同样处在各类侵权行为的高发区,例如大量用户使用AI修改他人内容并以自己名义使用,美国政府和韩国三星都爆过雇员使用AI时违规上传机密内容的事故。对使用者侵权的分析可参见《从第一案抢跑看OpenAI vs.Journalism的未来》中的详述。
《专家建议稿》第85条和86条将人工智能服务提供和使用过程中产生的侵权责任规定为过错责任,这和著作权法中至少停止侵权一项属于无过错责任相悖(我认为著作权侵权责任总体都属于无过错责任,比如返还侵权获利),在正式立法中可能会予调整。
《专家建议稿》第87条对服务提供者可以利用避风港的规定在立法思路上很可能是对前两条无过错责任规定的沿续。所谓避风港规则即版权法针对技术服务平台提供的有限免责,平台通常对第三方发布内容没有事先审核义务,只在接侵权通知应当依法及时处理。本文认为在确认对人工智能预训练素材采取合理使用前提下,人工智能的发展已经站在了包括公有信息和受著作权保护内容的基础上,如果不加区分对人工智能技术和服务提供者都适用避风港规则,法律实施效果可能会打破技术与社会公众(如广大著作权权利人)之间的平衡。因此对第87条设立的避风港规则,建议应做修改。
参考文献:
[1] <Generative AI: Navigating Intellectual Property>,https://www.wipo.int/export/sites/www/about-ip/en/frontier_technologies/pdf/generative-ai-factsheet.pdf
[2] <In Cringe Video, OpenAI CTO Says She Doesn’t Know Where Sora’sTraining Data Came From" I'm actually not sure aboutthat.">https://futurism.com/video-openai-cto-sora-training-data
[3] 《终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了》,https://mp.weixin.qq.com/s/E_V5r-KrZf-wdTZye7mrsQ
[4] Sora官网:“Sora serves as a foundation formodels that can understand and simulate the real world, help people solveproblems that require real-world interaction”, https://www.openaisora.video/
[5] 《给真实视频标注“该作品由人工智能Sora生成”,成了当下的流量密码》,https://mp.weixin.qq.com/s/_Dok3LfhNnefUuvzyA4Raw
[6] 美国专利商标局:<Inventorship Guidance forAI-Assisted Inventions>https://www.govinfo.gov/content/pkg/FR-2024-02-13/pdf/2024-02623.pdf
[7] 上海市宝山区人民法院(2023)沪0113 民初 7686 号判决书
[8] 科大讯飞星火《SparkDesk用户协议》,https://www.xfyun.cn/doc/spark/ExperienceRules.html
[9] 《豆包用户协议》,https://www.doubao.com/legal/terms
[10] 《文心一言用户协议》https://yiyan.baidu.com/infoUser
[11] <Terms of use>,https://openai.com/policies/terms-of-use
[12] <Llama 2 Community License Agreement>,https://ai.meta.com/llama/license/
[13] https://llama.meta.com/llama2/
本文来自微信公众号:林华(ID:gh_4d992808ffdf),作者:林华