点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI训练数据的版权保护:公地的悲剧还是合作的繁荣?
首页> 科技频道> 综合新闻 > 正文

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

来源:机器之心Pro2024-06-27 09:53

  机器之心报道

  机器之心编辑部

  就算是 OpenAI 在舆论场也无法逃过版权保护的呼声。 GPT-4o内置声音模仿「寡姐」一案闹的沸沸扬扬,虽然以OpenAI发布声明暂停使用疑似寡姐声音的「SKY」的语音、否认曾侵权声音为阶段性结束。但是,一时间「即便是AI,也得保护人类版权」这一话题甚嚣尘上,更刺激起了人们本来就对AI是否可控这一现代迷思的焦虑。

  近日,普林斯顿大学、哥伦比亚大学、哈佛大学和宾夕法尼亚大学共同推出了一项关于生成式AI版权保护的新方案,题为《An Economic Solution to Copyright Challenges of Generative AI》。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

  生成式人工智能(AI)技术的快速进展已经深刻影响了文艺产业,带来了文学、视觉艺术和音乐等领域中由AI生成的内容时代。这些AI模型如大型语言模型和扩散模型能够创作出能够与人类艺术家的作品媲美乃至可能取代的高复杂性内容。

  这种能力的迅速增长引发了关于大模型训练数据作者权利的法律和道德界限的重要问题,特别是在版权侵犯方面的争议。

  版权保护一直以来都是各国法律中不可或缺的一部分。保护创作者的权益,可以更有利于调动创作者的积极性,使得文化事业更加繁华。版权保护为创作者不止提供了精神支持,也同时提供了物质支持 (利益分配),这也是为创作者进一步提供了再创作的物质基础和精神动力。

  另一方面,版权保护也更利于优秀作品的传播,因为版权保护也是在保护传播者的正当权益和保护公众对于分享知识文化成果的权利。诚然,一部作品的诞生,不是为了孤芳自赏,更多的是为了以某种形式分享给大众,为大众所用。而且, 版权保护也可以让创作者更加合理地使用他人的结果,避免引发剽窃等诸多麻烦。

  因此,目前有几家AI公司因涉嫌生产侵犯版权的内容而卷入法律诉讼。比如说 《纽约时报》起诉 Chatgpt的开发者 OpenAI [1],控诉后者将数百万篇 《纽约时报》的文章被用于训练智能聊天机器人(例如ChatGPT )。这些机器人现在作为新闻消息源与《纽约时报》展开竞争。

  《纽约时报》声称,OpenAI和微软大型语言模型 (LLM)能够模仿《纽约时报》的文字风格从而生成类似内容,有时候甚至能原封不动生成已有的内容,这种现象影响到《纽约时报》通过订阅和广告获得收入,并且有违版权许可。

  起诉书中,《纽约时报》提及到一个例子 – 微软的「以必应浏览(Browse With Bing)」中的功能,能够几乎一字不差地重现《纽约时报》旗下网站「The Wirecutter」的内容,但完全没有为提供相关的链接进行引用。这个例子充分体现了AI 非法使用版权内容。

  目前,针对OpenAI的类似诉讼案件正在不断增加,例如近来GPT-4o内置声音模仿「寡姐」一案 [2]。但由于对于AI 非常使用版权内容难以界定,诉讼案件尚在激烈讨论中。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

  图1:NY Times指控ChatGPT生成内容和NY Times文章高度一致。

  为了缓解训练数据版权所有者与AI开发者之间的紧张关系,人们已经开始尝试修改生成模型的训练或推理过程,以减少生成侵权内容的可能性。然而这些改动可能会因为排除了高质量的受版权保护的训练数据或限制内容生成而损害模型性能。版权法的复杂性和模糊性增加了额外的难度,使得区分侵权和非侵权成果变得模糊不清。

  这种不确定性可能导致双方在法庭争议中浪费大量资源。

  本文提出一种在AI开发者和版权所有者之间建立互利的收益分享协议的方案,此提议呼应了经济学中最近提倡的观点。然而,模型训练和内容生成的「黑箱」特性使得传统的按比例直接分成方法不再适用。

  因此,需要一种新的框架来公平合理地处理这些新出现的版权问题,确保在鼓励创新的同时,也保护数据提供者的合法权益。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

  图2:该工作被Ethan Mollick宣传。

  Shapley版权分享框架

  该文章的框架分为两步:

  第一步是评估模型在整个数据集的每一个可能子集上训练的效用。直观上,如果在某数据子集上训练的模型能够有很大的可能性生成与部署模型相似的AI生成内容(例如艺术作品),那么该数据子集的效用就会很大。

  第二步是根据第一步的效用使用合作博弈论工具(即Shapley值)来确定任何训练数据版权所有者的应得份额。简而言之,如果将其数据包括在模型训练中能够增加效用,那么版权所有者的份额就会大。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

  图3:基于Shapley值的版权分配框架。

  不同数据源组合的效用

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

  版权所有者间的版税分配

  效用v(S)可以解释为所有S成员为训练生成式AI模型提供数据所应得的总补偿。下一步是基于所有可能的数据源组合的效用来确定每个个别版权所有者的收益。该文章提议使用Shapley值。

  Shapley值是博弈论中的一个解决方案概念,它提供了一种根据每个玩家组合作为联盟的效用分配收益的原则性方法。它是由诺贝尔奖获得者Lloyd Shapley (此后简称为Shapley) 提出的。

  Shapley (1923-2016)是美国籍数学家和经济学家,并且由于对稳定分配理论和市场设计的实践做出突出贡献,而获得了2012年的经济学诺贝尔奖 [3]。Shapley是博弈论领域的传奇,并且在其博士工作和博士论文中引入了Shapley值。

  美国经济学会称Shapley是「博弈论和经济学理论的巨人」。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?
AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

  SRS提供了一种经济学方法解决生成式AI环境中的版权和收益分配问题,支持公正的数据使用和创新激励。

  该文章用一个简单的例子来解释Shapley值的计算过程。在这个例子中,有三个数据所有者(A, B, C),他们共同训练一个模型,使用模型对某生成内容的log-likelihood作为效用函数。假设使用不同的数据组合训练后的模型的log-likelihood如下:

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

  可以根据以下量来计算A的Shapley值:

  数据所有者A单独贡献:v({A})=5

  数据所有者A和B的贡献:v({A,B})-v({B})=15-7=8

  数据所有者A和C的贡献:v({A,C})-v({C})=10-3=7

  数据所有者A、B和C的贡献:v({A,B,C})-v({B,C})=20-12=8

  根据Shapley值公式,可以得到

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

  计算考虑

  在应用SRS框架时,主要挑战在于其相当大的计算成本。对不同数据源组合的效用函数评估需要多次重新训练模型。在版权所有者数量较少的某些应用中,计算挑战可能并不像看起来那么严重。

  实际上,可以预见这种基于合约的框架在整个版权数据被少数几个版权所有者分割时效果最佳,这样每个数据源都有足够的数据影响训练结果。如果数据源的规模非常小,版权所有者的版税份额可能微不足道,且由于训练AI模型的随机性,结果可能更加噪声化。

  为了减轻这种计算负担,可以采用两种方法:

  第一种是使用蒙特卡洛方法来近似计算Shapley值,这种技术特别适用于版权所有者众多的情况。

  第二种方法是通过从另一个在较小数据子集上训练的模型微调来训练模型。因此,可以通过对整个训练数据只训练一次,来近似在不同数据子集上训练的模型。具体来说,对于随机抽样的版权所有者排列,可以首先在第一个版权所有者上训练,然后是第二个,一直到最后一个版权所有者。这种技术可以与著名的Shapley值排列抽样估计器一起使用。

  在实践中,商业AI模型可能每天进行数百万次交易。仅估计每个版权所有者应得的聚合收益,而不是按照公式为每个AI生成的内容计算收益,可以节省计算成本。理论上,可以仅评估所有交易中一小部分的SRS,然后按比例计算从所有交易中获得的收入分布。

  实验结果

  该文章通过实验评估了所提出框架在分配AI生成内容版税方面的有效性,重点关注创意艺术和图像领域的标志设计。

  评估使用了公开可获取的数据集:WikiArt和FlickrLogo-27。

  评估SRS的有效性

  对于WikiArt数据集,该文章选取了四位著名艺术家的四个不相交的画作子集。一个最初在更广泛的训练图像集(不包括这四位艺术家的作品)上训练的模型,作为基础模型。通过在选定艺术家的四组画作的各种组合上进一步微调基础模型,计算SRS。

  类似地,对于FlickrLogo-27数据集,该文章选取了四个品牌的四个不相交的标志设计子集,并使用在其他品牌标志图像上训练的基础模型计算SRS。该文章的目标是评估SRS是否能反映每个版权所有者对图像生成的贡献。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

  图4:使用SRS评估每个版权所有者对图像生成的贡献。

  结果表明,当的风格与训练数据源的风格非常接近时,SRS值最高。这一关系凸显了SRS框架准确归因于AI生成图像创作贡献的能力。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

  评估SRS对于混合风格的生成图像的归因能力

  在WikiArt数据集上,该文章探讨了针对要求从多个数据源生成内容的提示的SRS分布。显著地,提示要求生成模型融合多位艺术家的风格。SRS有效地识别并奖励了融入生成艺术作品的数据源的贡献,展示了该框架在辨识和评价多样化数据源输入以生成内容的能力。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

  图5:使用SRS评估每个版权所有者对混有不同艺术家风格的图像生成的贡献。

  讨论与深入研究

  生成式AI的快速发展对传统版权法构成了深刻挑战,这不仅是因为其强大的内容生成能力,还因为对AI生成内容版权的解释复杂以及大型AI系统的“黑箱”本质。该文章从经济学角度出发,开发了一个允许在版权数据训练中交换收入分配的版权分享模型,促进了AI开发者和版权所有者之间的互利合作。通过数值实验,该文章证明了这一框架的有效性和可行性。

  该文章的研究也为未来的研究开辟了道路。例如,版权所有者可能会通过合并或分割他们的数据来最大化版权分成,SRS可能会被恶意版权所有者操纵。尽管已经探索了抗复制的解决方案,但这些主要关注于Shapley值的影响而非复制下的比率。开发一种抗操纵的机制是未来工作的一个重要方向。

  另一个开放问题是处理无法或不愿意协商协议的版权所有者的版权数据,特别是当每个拥有者的数据集很小的情况。在这种情况下,该文章的方法可以与生成合法内容的方法结合使用, 增强他们的模型以确定版权所有者和AI开发者之间适当的收入分配,认识到计算资源、算法设计和工程专长在开发高性能AI模型中的关键作用,是另一个研究方向。

  该文章已经通过采用合作博弈理论中的权限结构概念来初步适应这种情况。

  从方法论角度看,未来研究的一个关键方面是使用Shapley值比率进行收入分配。直接使用Shapley值的主要挑战在于任何版权所有者数据联盟的总收入未知。但当考虑比率时,Shapley值的效率属性(确保所有Shapley值之和等于大联盟的效用)失去了意义。

  在这种情况下,半值(一种放弃效率公理的Shapley值推广)可能提供了一个可行的替代方案。未来的工作可以旨在建立公理化的理由,以识别此背景下用于版税分配的最合适的解决方案概念。

  从实用性的角度讲,Shapley值最大的不足之处在于计算开销。尽管Monte Carlo方法可以加速计算过程,但仍需要大量的模型重复训练。这种计算需求在处理大型数据集和复杂模型时变得尤其突出,可能导致计算资源的极大消耗和时间的延长。

  未来的工作可以着重于解决这一问题,通过开发更高效的算法或启用新的方法来减少计算开销,从而使Shapley值在实际应用中更加可行和高效。

  作者介绍:

  1. Jiachen Wang (王嘉宸):现为普林斯顿大学电子工程系博士生,主攻人工智能数据估值(data valuation)等方向。

  2. Zhun Deng (邓准):现为哥伦比亚大学计算机系博后,博后导师为 Richard Zemel。此前为哈佛大学计算机系博士生,师从Cynthia Dwork,主攻机器学习可靠性和社会责任性等方向。

  3. Hiroaki Chiba-Okabe:现为宾夕法尼亚大学应用数学和计算科学博士生,主攻方向是人工智能引发的道德问题和社会问题。

  4. Boaz Barak: 哈佛大学正教授,主攻方向理论计算机和机器学习方向。同时在OpenAI 任职。

  5. Weijie Su (苏炜杰):现为宾夕法尼亚大学沃顿商学院、计算机系和数学系副教授,研究方向包括人工智能的理论基础等方向。

  参考链接:

  [1] https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

  [2] https://world.huanqiu.com/article/4HuwDTOteIL

  [3] https://en.wikipedia.org/wiki/Shapley_value

[ 责编:肖春芳 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 世界环境日:美丽中国我先行

  • 美丽中国|夏日大青山

独家策划

推荐阅读
“一本顶5本,22个超大触摸页面融合18种材质,完全开发宝宝触感神经系统,实现手眼脑三维协调发展。”
2025-06-06 09:50
空天跨尺度计量基准大科学装置建设现场一派繁忙景象,目前项目进展顺利,预计将于2026年建成并投入使用。
2025-06-05 09:43
数据显示,在“本源悟空”的境外用户中,美国、加拿大等量子技术强国访问频次持续领先,其中美国用户访问量稳居境外第一。
2025-06-05 09:42
5月28至29日,宁夏电网迎来历史性时刻——新能源日发电量连续两天超越区内统调用电量,成为国内首个新能源日发电量超越区内统调用电量的省区。
2025-06-05 09:41
国家公园人才培养创新联盟成立大会日前在北京举行。
2025-06-05 09:40
2025年1月,精准智能化学全国重点实验室正式获批,标志着中国科大在“有组织科研”战略上再添国家级平台。
2025-06-05 09:39
中国科学院国家天文台领导的国际合作团队在银河系的“盖亚-香肠-恩克拉多斯”(GSE)吸积矮星系遗迹中,发现了一颗具有高钍/铕比的锕系元素增丰极贫金属星。
2025-06-04 09:47
生态环境部、文化和旅游部、中国文联、中国作协近日联合印发《关于进一步加强生态文化建设的指导意见》,对生态文化建设工作进行全面系统部署。
2025-06-04 09:43
截至今年6月1日19时,江苏核电“和气一号”核能供汽项目已累计供应清洁工业蒸汽300万吨。
2025-06-04 09:40
长久以来,天文学家一直认为,在大约50亿年后,银河系将不可避免地与仙女星系发生碰撞,并最终合并为一个全新的星系“Milkomeda”。但现在人们发现,银河系的未来宛如一部“变形记”,会比之前想象的更加多变且不确定。
2025-06-04 09:39
国家卫健委3日发布《关于医防管交叉复合型战略人才队伍建设发展的意见》。医防管人才可优先被认定为卫生健康高层次人才,拓宽其职业发展通道,并积极推荐参与选拔任用党政领导干部。
2025-06-04 09:36
穿过村庄、绿树、田地……眼前的风景逐渐“褪色”,护林员艾散江抵达了工作地点——艾西曼区域生态修复及荒漠化治理工程核心区。
2025-06-04 09:33
在“尖班”,学生进入学习阶段同时也进入研究阶段,我们将国际重大科技前沿问题等清单转化为学生课题清单,让学生参与到团队的科研攻关过程中
2025-06-03 11:17
 柴油车尤其是重型货车堪称“经济动脉”。
2025-06-03 10:39
手足口病是病毒感染导致的,多发于儿童,急诊处理主要是对症治疗,
2025-06-03 10:36
一种装有磁性墨水的人工智能(AI)笔可准确“看字断病”。
2025-06-03 10:34
西北大学发现了距今约4.5亿年的轮藻门化石。
2025-06-03 10:32
科研不是飘在云端的论文,而是把双脚踩在泥土里、用心血托起大国重器的漫漫征程。
2025-06-03 10:18
“全部科技史都证明,谁拥有了一流创新人才、拥有了一流科学家,谁就能在科技创新中占据优势。”习近平总书记始终关注着科技创新,始终牵挂着科技人才。
2025-05-30 12:19
在第九个全国科技工作者日到来之际,29日凌晨,带着人类对宇宙星辰的向往,天问二号探测器直冲霄汉,开启我国首次小行星探测与采样返回之旅,迈出了深空探测新一步。
2025-05-30 12:17
加载更多