点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:促进生成式人工智能发展亟须破解数据瓶颈
首页> 科技频道> 综合新闻 > 正文

促进生成式人工智能发展亟须破解数据瓶颈

来源:光明网-《光明日报》2024-11-22 04:20

  【析理论道】

  作者:王业亮、丁晓东(分别系中国人民大学法学院博士后,中国人民大学法学院教授、未来法治研究院副院长)

  作为信息化、数字化、智能化的新型技术基座,生成式人工智能对于提升国家战略地位与国际竞争力具有重要意义。近年来,美国接连出台多项人工智能战略和政策文件,以谋求维持其在该领域的领先地位。欧盟也试图通过立法打破数据孤岛、构建基于风险的分层规制体系,提升人工智能产业竞争力。基于数据要素禀赋,中国在发展生成式人工智能领域具有战略优势。2023年中央经济工作会议指出:“要大力推进新型工业化,发展数字经济,加快推动人工智能发展。”为进一步促进生成式人工智能的快速发展,应构建生成式人工智能促进型法律制度,进一步优化个人信息保护,协调著作权保护,推动企业数据互联,用制度创新破解数据瓶颈,为生成式人工智能发展提供法治保障,在激烈的国际竞争中抢占主动权和制高点。

  完善个人信息保护,增强训练数据供给

  个人信息是生成式人工智能训练数据的重要来源。生成式人工智能训练数据的形成,有赖于对个人信息保护制度的正确理解与适用,涉及个人信息保护法中的告知同意制度、必要性原则以及公开性个人信息的利用等法律规范。具体而言,告知同意制度能够给予个体一定的自我保护,防止信息处理者过度收集个人信息。但面对信息处理的复杂实践,受认知所限,个体有可能难以真正预防风险。必要性原则强调收集个人信息的限制与处理最小化。若对必要性原则进行僵化解释,则任何包含个人信息的数据都无法用于人工智能训练,这反而可能导致人工智能因为缺少某些数据训练而变得具有歧视性、不公平性。公开数据是生成式人工智能数据的主要来源,而这些数据往往缺乏交互场景和联系方式,信息处理者难以联系个人和获取个人同意。

  为破解生成式人工智能在个人信息数据收集与利用方面的障碍,应在保障个人信息安全的前提下,进一步完善个人信息保护制度。首先,对于已公开的个人信息,应以广泛汇聚与融合利用为前提,于技术层面构建去标识化、差分隐私等程序性保护机制,并辅之以个人拒绝权等机制。其次,当人工智能训练中的数据包含个人信息时,应区分改进型与侵害型的个人信息处理。如果人工智能训练数据是为了实现更为公平与准确的个人信息处理,应将此类训练视为符合个人信息处理目的,反之则应视为违反必要性原则。最后,应当优化告知同意制度,强化隐私政策告知、加强合作治理。在个体私力救济不足的情况下,应强化执法者对隐私政策的执行、市场机构对隐私政策与个人信息保护实践的评级、信息处理者内部的个人信息合规机制。

  立法既要为训练数据提供制度供给,也要为个人信息安全提供保障。对于人工智能企业合法获取的包含个人信息的数据,应在数据清洗、数据标准、模型训练和评估、模型部署等阶段,对个人信息数据进行全生命周期的监管,进一步强化生成式人工智能企业的处理者责任。在技术层面,应要求人工智能企业依托加密技术、隐私计算等技术化手段保护个人信息。在制度层面,应要求人工智能企业通过内部合规、设立数据保护专员、合规审计与风险评估等机制严格保护个人信息。

  协调著作权保护,规范内容数据合理使用

  著作权保护的门槛并不高,只要求作品具有独创性并能以一定形式表现。因此,人工智能企业利用网络上的文字、图片、声音等素材的内容数据进行训练,便有可能构成著作权侵权,面临巨大诉讼压力、赔偿压力以及社会声誉压力。由于多数内容数据的著作权分散于各个著作权人,人工智能企业可能难以直接与他们联系。即使联系到这些著作权人,在要价问题上也面临种种困难。既有的数据库和各类著作权集体管理组织可以在一定程度上解决著作权许可问题,但对于网络上的内容数据而言,由于数据容量以及适用领域等方面的限制,其作用相对有限。

  破解生成式人工智能内容数据的著作权约束,需要构建整体性的合理使用制度。生成式人工智能与非生成式人工智能相比,对于数据的利用具有复杂性,其对著作权作品数据的利用常常既涉及事实,也涉及表达,但整体上属于合理适用范围。具体来说,就人格权益而言,生成式人工智能利用海量数据而非特定作品进行训练,一般不会侵害某一特定作品中所包含的人格权益;就激励机制而言,生成式人工智能利用海量数据进行训练,主要是为了提高其一般性的识别与创作能力,而不是替代某一特定作品,作者也不会因为生成式人工智能作品的出现而不再进行创作。当然,如果生成式人工智能对于著作权数据的训练破坏了权利人的技术措施或相关协议,或者当生成式人工智能对于著作权数据的利用是“假训练、真剽窃”,那么此类行为就对人格权益与激励制度产生负面影响,应当被排除在合理使用之外。

  生成式人工智能企业在对著作权作品进行宽泛合理使用的同时,也需要承担与此相对应的更多责任。首先,生成式人工智能企业应践行社会主义核心价值观,积极承担社会责任,避免数据与算法歧视方面的风险与侵害。其次,生成式人工智能企业应对实质性相似的生成作品承担侵权责任,这既有利于保护作品原创者的合法权益,也有利于激励企业的技术创新。最后,法律应审慎对各类生成类作品赋予著作权。人工智能领域的激励机制在于鼓励人工智能技术的发展与创新,而非激励生成作品的生产。可以将人工智能的生成作品置于公共领域,允许公众与企业对其进行一般利用。生成式人工智能企业也可以推出用户付费版本,通过用户协议和向用户收取使用费用来获得报酬,这可以为人工智能企业提供合理的商业激励。

  破除企业数据壁垒,助推数据汇聚融合

  破除企业数据壁垒,需要倡导互联网的互联互通。网络互联曾经是互联网的核心精神之一,但随着互联网的发展和商业化,出于竞争或安全等考量,互联网企业往往打造封闭型数据生态系统,防止其他企业特别是竞争企业获取其数据。这导致了数据孤岛现象,抑制了数据共享红利的溢出效应。对于企业而言,仅仅依靠自身掌握的商业数据进行训练,难以触及其他企业独占的高质量数据,势必会制约生成式人工智能的训练效果。

  就数据互联而言,应避免对网络公开数据进行绝对排他性确权。过去几十年来,网络公共空间的兴起导致了数据的爆发性增长,为人工智能等技术的发展奠定了坚实的数据基础。随着数据价值的凸显,数据的利益分配成为各方关注焦点,不少声音呼吁通过对数据确权实现此类分配。但基于数据的公共性特征,过多的排他性权利保护可能导致社会对它们的利用不足,构成“反公地悲剧”。数据的公共性并不否认对数据权益的合理保护,数据的合理保护同样是一种公共善品,有利于激发私主体的创造和个体有价值数据的公开;同样,数据的公共性也不否认数据利用的公平性需求,而这种公平性不应依赖微型权益确权或强化企业的数据排他性确权来实现,而应创新数据利用的收益分配机制,实现效率与公平的协调。

  破除企业数据壁垒,也可以利用各类合理的爬虫机制打通不同企业之间的数据壁垒。基于数据的非竞争性与爬虫技术的中立性特征,应当认识到爬虫等行为一般不会影响数据持有者的合法权益,如果运用得当,反而会承载促进互联的作用。尤其在数据企业纷纷设置壁垒、互相防范的情形下,合理的数据爬虫可以成为不同企业数据融合的桥梁。为此,对于规范性的数据爬虫不应施加过多限制。对于造成宕机等后果的数据爬虫,可以根据侵权责任法进行应对,谨慎适用刑事措施。此外,网信部门可以通过鼓励行业自律等方式,在倡导互联网企业合理自治的同时,助推企业之间互联互通,营造多样化互联网生态。在生成式人工智能等技术日新月异的背景下,企业呈现出前所未有的数据融合需求,应利用法律与行业自律的方式共同推动数据互联,为生成式人工智能企业提供充足的数据源,助力企业良性竞争、持续创新。

  《光明日报》(2024年11月22日 11版)

[ 责编:孙宗鹤 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 斑斓初冬

  • 青少年选手超七成 首届世界无人机足球锦标赛启幕

独家策划

推荐阅读
以“智跃无界,开源致远”为主题的操作系统大会2025(以下简称“大会”)在北京举办。
2025-11-14 17:08
我国在4个国家开展6处文物古迹保护修复,49项中外联合考古项目涉及28个国家和地区,用实际行动践行全球文明倡议、不断丰富世界文明百花园。
2025-11-13 07:07
由四川省人民政府主办的2025世界动力电池大会12日在宜宾市开幕。
2025-11-13 04:55
据估算,太阳每秒钟释放的能量,可供全人类使用约70万年。模拟太阳来产生无尽的清洁能源,也因此成为人类的“终极能源梦想”。
2025-11-13 04:55
日前,中国科学院合肥物质科学研究院智能机械研究所、中科合肥智能育种加速器创新研究院联合发布重要成果:全链条机器人育种家“小海”与“海霸设施”小麦快速育种商业化服务平台同步启动,标志着我国在智能育种装备与工程化应用上取得关键突破。
2025-11-13 04:55
日前,记者从全球规模最大的恐龙蛋化石遗址——湖北青龙山恐龙蛋化石群国家级自然保护区获悉,数字化档案建设团队正为库藏的每一枚较完整恐龙蛋化石,赋予由“保护区名称—化石产地名称—库藏箱编号—标本编号”构成的唯一“身份证ID”。这标志着该保护区首次实现恐龙蛋化石专属标识管理。
2025-11-13 04:55
困扰无数人的睡眠问题,终于有一部纪录片说清楚了!
2025-11-13 08:55
国家卫生健康委百万减残工程专家委员会主任委员、中国医学科学院北京协和医学院院校长吉训明介绍,目前,全国已有20个省份成立减残工程专委会,8个省份正在积极推进。
2025-11-12 07:24
2025年是中国科学院院士、我国理论物理学奠基人、“两弹一星功勋奖章”获得者彭桓武诞辰110周年。
2025-11-12 07:23
由中国科学院昆明动物研究所牵头,联合国内外多家科研机构组成的研究团队,通过对现存及灭绝长臂猿的大规模基因组测序与比较分析,系统阐明了长臂猿科的演化历程、种群动态及其标志性长臂表型的遗传基础,为全球长臂猿的保护行动提供了新的科学见解,相关研究成果日前发表于国际学术期刊《细胞》。
2025-11-12 05:10
11月11日,长征八号甲遥五运载火箭在海南商业航天发射场成功实施转运,计划择期发射。
2025-11-12 05:10
近日,中核集团中国原子能科学研究院主导建设的量子放射性计量实验室及电离辐射计量级设备“一线多用”产研平台正式投入运行,成功填补我国在低温量子磁量热计领域的空白。
2025-11-12 05:10
在数据管理与使用方面,《实施方案》提出,实行物流公共数据分类分级管理,规范开展数据授权运营,扩大路网、轨迹、企业、人员等关键数据供给。
2025-11-11 10:03
中国科协日前发布的《中国科技期刊发展蓝皮书(2025)》显示,我国科技期刊总量持续增加,从2023年的5211种提升至2024年的5325种,整体影响力稳步提升。
2025-11-11 10:04
空天地一体化网络作为国家信息化的重要基础设施,其战略意义远超普通通信技术范畴,它不仅是我国实现信息全球覆盖、自主创新的必由之路,更是在数字时代掌握发展主动权的关键布局。
2025-11-11 10:02
拔尖创新人才培养不是考验瞬间爆发力的短跑,而是需要长期持久力的马拉松。 在课程体系搭建上,北航实验学校打造了“五级阶梯式”科技创新人才贯通培养课程群,实现从基础普及到进阶的无缝衔接。
2025-11-11 10:00
日前,国务院办公厅印发《关于加快场景培育和开放推动新场景大规模应用的实施意见》(以下简称《意见》),对相关工作作出部署。
2025-11-11 09:50
11月9日,国航C919重飞“两航起义”航线主题航班从香港飞抵天津,重温76年前“两航起义”的北飞航程,致敬“两航起义”爱国壮举。“两航”后代陈绍曾介绍,76年前,“两航起义”飞行员从香港驾驶12架飞机飞抵北京、天津,建设新中国民航事业。
2025-11-10 10:10
“超级细菌”指那些对多种抗生素具有耐药性的细菌。研究人员在一种常用药物的生产流程中意外发现一种很有前景的强效抗生素,能够杀死耐甲氧西林金黄色葡萄球菌等“超级细菌”。
2025-11-10 10:09
11月9日,2025年世界互联网大会乌镇峰会在浙江乌镇闭幕。世界互联网大会秘书长任贤良用“聚焦构建网络空间命运共同体理念”“关注创新发展热点议题”“不断擦亮峰会品牌”“持续贡献智慧力量”概括了本届峰会的特点。
2025-11-10 10:08
加载更多