点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:促进生成式人工智能发展亟须破解数据瓶颈
首页> 科技频道> 综合新闻 > 正文

促进生成式人工智能发展亟须破解数据瓶颈

来源:光明网-《光明日报》2024-11-22 04:20

  【析理论道】

  作者:王业亮、丁晓东(分别系中国人民大学法学院博士后,中国人民大学法学院教授、未来法治研究院副院长)

  作为信息化、数字化、智能化的新型技术基座,生成式人工智能对于提升国家战略地位与国际竞争力具有重要意义。近年来,美国接连出台多项人工智能战略和政策文件,以谋求维持其在该领域的领先地位。欧盟也试图通过立法打破数据孤岛、构建基于风险的分层规制体系,提升人工智能产业竞争力。基于数据要素禀赋,中国在发展生成式人工智能领域具有战略优势。2023年中央经济工作会议指出:“要大力推进新型工业化,发展数字经济,加快推动人工智能发展。”为进一步促进生成式人工智能的快速发展,应构建生成式人工智能促进型法律制度,进一步优化个人信息保护,协调著作权保护,推动企业数据互联,用制度创新破解数据瓶颈,为生成式人工智能发展提供法治保障,在激烈的国际竞争中抢占主动权和制高点。

  完善个人信息保护,增强训练数据供给

  个人信息是生成式人工智能训练数据的重要来源。生成式人工智能训练数据的形成,有赖于对个人信息保护制度的正确理解与适用,涉及个人信息保护法中的告知同意制度、必要性原则以及公开性个人信息的利用等法律规范。具体而言,告知同意制度能够给予个体一定的自我保护,防止信息处理者过度收集个人信息。但面对信息处理的复杂实践,受认知所限,个体有可能难以真正预防风险。必要性原则强调收集个人信息的限制与处理最小化。若对必要性原则进行僵化解释,则任何包含个人信息的数据都无法用于人工智能训练,这反而可能导致人工智能因为缺少某些数据训练而变得具有歧视性、不公平性。公开数据是生成式人工智能数据的主要来源,而这些数据往往缺乏交互场景和联系方式,信息处理者难以联系个人和获取个人同意。

  为破解生成式人工智能在个人信息数据收集与利用方面的障碍,应在保障个人信息安全的前提下,进一步完善个人信息保护制度。首先,对于已公开的个人信息,应以广泛汇聚与融合利用为前提,于技术层面构建去标识化、差分隐私等程序性保护机制,并辅之以个人拒绝权等机制。其次,当人工智能训练中的数据包含个人信息时,应区分改进型与侵害型的个人信息处理。如果人工智能训练数据是为了实现更为公平与准确的个人信息处理,应将此类训练视为符合个人信息处理目的,反之则应视为违反必要性原则。最后,应当优化告知同意制度,强化隐私政策告知、加强合作治理。在个体私力救济不足的情况下,应强化执法者对隐私政策的执行、市场机构对隐私政策与个人信息保护实践的评级、信息处理者内部的个人信息合规机制。

  立法既要为训练数据提供制度供给,也要为个人信息安全提供保障。对于人工智能企业合法获取的包含个人信息的数据,应在数据清洗、数据标准、模型训练和评估、模型部署等阶段,对个人信息数据进行全生命周期的监管,进一步强化生成式人工智能企业的处理者责任。在技术层面,应要求人工智能企业依托加密技术、隐私计算等技术化手段保护个人信息。在制度层面,应要求人工智能企业通过内部合规、设立数据保护专员、合规审计与风险评估等机制严格保护个人信息。

  协调著作权保护,规范内容数据合理使用

  著作权保护的门槛并不高,只要求作品具有独创性并能以一定形式表现。因此,人工智能企业利用网络上的文字、图片、声音等素材的内容数据进行训练,便有可能构成著作权侵权,面临巨大诉讼压力、赔偿压力以及社会声誉压力。由于多数内容数据的著作权分散于各个著作权人,人工智能企业可能难以直接与他们联系。即使联系到这些著作权人,在要价问题上也面临种种困难。既有的数据库和各类著作权集体管理组织可以在一定程度上解决著作权许可问题,但对于网络上的内容数据而言,由于数据容量以及适用领域等方面的限制,其作用相对有限。

  破解生成式人工智能内容数据的著作权约束,需要构建整体性的合理使用制度。生成式人工智能与非生成式人工智能相比,对于数据的利用具有复杂性,其对著作权作品数据的利用常常既涉及事实,也涉及表达,但整体上属于合理适用范围。具体来说,就人格权益而言,生成式人工智能利用海量数据而非特定作品进行训练,一般不会侵害某一特定作品中所包含的人格权益;就激励机制而言,生成式人工智能利用海量数据进行训练,主要是为了提高其一般性的识别与创作能力,而不是替代某一特定作品,作者也不会因为生成式人工智能作品的出现而不再进行创作。当然,如果生成式人工智能对于著作权数据的训练破坏了权利人的技术措施或相关协议,或者当生成式人工智能对于著作权数据的利用是“假训练、真剽窃”,那么此类行为就对人格权益与激励制度产生负面影响,应当被排除在合理使用之外。

  生成式人工智能企业在对著作权作品进行宽泛合理使用的同时,也需要承担与此相对应的更多责任。首先,生成式人工智能企业应践行社会主义核心价值观,积极承担社会责任,避免数据与算法歧视方面的风险与侵害。其次,生成式人工智能企业应对实质性相似的生成作品承担侵权责任,这既有利于保护作品原创者的合法权益,也有利于激励企业的技术创新。最后,法律应审慎对各类生成类作品赋予著作权。人工智能领域的激励机制在于鼓励人工智能技术的发展与创新,而非激励生成作品的生产。可以将人工智能的生成作品置于公共领域,允许公众与企业对其进行一般利用。生成式人工智能企业也可以推出用户付费版本,通过用户协议和向用户收取使用费用来获得报酬,这可以为人工智能企业提供合理的商业激励。

  破除企业数据壁垒,助推数据汇聚融合

  破除企业数据壁垒,需要倡导互联网的互联互通。网络互联曾经是互联网的核心精神之一,但随着互联网的发展和商业化,出于竞争或安全等考量,互联网企业往往打造封闭型数据生态系统,防止其他企业特别是竞争企业获取其数据。这导致了数据孤岛现象,抑制了数据共享红利的溢出效应。对于企业而言,仅仅依靠自身掌握的商业数据进行训练,难以触及其他企业独占的高质量数据,势必会制约生成式人工智能的训练效果。

  就数据互联而言,应避免对网络公开数据进行绝对排他性确权。过去几十年来,网络公共空间的兴起导致了数据的爆发性增长,为人工智能等技术的发展奠定了坚实的数据基础。随着数据价值的凸显,数据的利益分配成为各方关注焦点,不少声音呼吁通过对数据确权实现此类分配。但基于数据的公共性特征,过多的排他性权利保护可能导致社会对它们的利用不足,构成“反公地悲剧”。数据的公共性并不否认对数据权益的合理保护,数据的合理保护同样是一种公共善品,有利于激发私主体的创造和个体有价值数据的公开;同样,数据的公共性也不否认数据利用的公平性需求,而这种公平性不应依赖微型权益确权或强化企业的数据排他性确权来实现,而应创新数据利用的收益分配机制,实现效率与公平的协调。

  破除企业数据壁垒,也可以利用各类合理的爬虫机制打通不同企业之间的数据壁垒。基于数据的非竞争性与爬虫技术的中立性特征,应当认识到爬虫等行为一般不会影响数据持有者的合法权益,如果运用得当,反而会承载促进互联的作用。尤其在数据企业纷纷设置壁垒、互相防范的情形下,合理的数据爬虫可以成为不同企业数据融合的桥梁。为此,对于规范性的数据爬虫不应施加过多限制。对于造成宕机等后果的数据爬虫,可以根据侵权责任法进行应对,谨慎适用刑事措施。此外,网信部门可以通过鼓励行业自律等方式,在倡导互联网企业合理自治的同时,助推企业之间互联互通,营造多样化互联网生态。在生成式人工智能等技术日新月异的背景下,企业呈现出前所未有的数据融合需求,应利用法律与行业自律的方式共同推动数据互联,为生成式人工智能企业提供充足的数据源,助力企业良性竞争、持续创新。

  《光明日报》(2024年11月22日 11版)

[ 责编:孙宗鹤 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平抵达韩国

  • 习近平抵达韩国受到热烈欢迎

独家策划

推荐阅读
执行神舟二十一号载人飞行任务的航天员乘组由张陆、武飞、张洪章3名航天员组成。张陆担任指令长。
2025-10-30 13:03
记者10月29日从国家统计局获悉,根据国家统计局社科文司《中国创新指数研究》课题组测算,2024年中国创新指数为174.2(以2015年为100),比上年增长5.3%。
2025-10-30 10:15
绿氨作为绿氢核心载体与低碳原料,正成为钢铁、化工等高耗能行业实现深度脱碳的关键路径。
2025-10-30 10:12
记者10月29日从水利部获悉,由水利部制定的国家标准《幸福河湖评价导则第1部分:流域面积3000km2以下(含)河流》经国家标准化管理委员会批准正式发布,将于2026年5月1日起全面实施。
2025-10-30 10:06
截至2025年3月,全国已建成66处国家级智能化示范煤矿、200余处省级示范煤矿,拥有1806个智能化采掘工作面,智能开采产能占比超过50%,1.6万余个固定岗位实现无人值守。
2025-10-30 10:04
为全面反映我国在应对气候变化领域的政策行动和工作情况,29日,生态环境部发布《中国应对气候变化的政策与行动2025年度报告》并举行新闻发布会。
2025-10-30 10:00
亚太经合组织(APEC)第三十二次领导人非正式会议将于10月31日至11月1日在韩国庆州举行。
2025-10-29 10:12
近日,中国科学院金属研究所戎利建研究员团队利用自主研发的纯净化制备技术,成功实现了高纯净吨级哈氏合金C276的工业化生产。
2025-10-29 09:36
截至今年6月,我国生成式人工智能用户规模达5.15亿人,普及率为36.5%,仅上半年,用户规模就增长了2.66亿人。
2025-10-29 09:35
当掌勺者从有体温的师傅变成由代码驱动的机器,以人和环境为核心的传统监管模式也面临着新情况。
2025-10-29 09:35
今年年产量首次突破150万吨,创历史同期最高水平,这标志着我国页岩油开发从技术探索迈向规模化、稳定产出的新阶段。
2025-10-29 09:33
相信很多人都曾有过这样的体验:临睡时刻,总觉得口干舌燥,害怕会频繁起夜,但又忍不住想大口喝水。每当此时,一些人不免会担心,是不是身体出什么问题了?
2025-10-29 09:32
10月28日,《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》全文发布。
2025-10-29 09:31
资料图片  深秋,去往宁夏吴忠市盐池县马儿庄村的乡道上,簌簌黄叶生出几分萧瑟。张文攀摄/光明图片  如今,马儿庄村有滩羊养殖专业合作社8家,全村滩羊年饲养量5万只,远高于封山禁牧前。
2025-10-28 08:57
培养什么人、怎样培养人、为谁培养人,是教育的根本问题,也是摆在新时代医学教育面前的重要课题。“卓越”与“有温度”相辅相成,互相支撑,共同构筑新时代医学人才的素养基石。
2025-10-28 08:55
肿瘤细胞会通过细胞内部、细胞间、不同组织乃至器官间多个层面的复杂机制,躲避人体免疫系统的攻击,这一过程被称为“免疫逃逸”。研究团队表示,使用国内外均已上市的偏头痛治疗药物CGRP抑制剂,可阻断感觉神经介导的“肿瘤-TDLN通信”,显著增强免疫治疗疗效并抑制癌痛,从而实现抑瘤与镇痛的双重作用。
2025-10-28 08:52
我国下一代光伏技术取得新进展,南京大学谭海仁团队和国防科技创新研究院常超团队联合运用太赫兹技术,对全钙钛矿叠层光伏电池内部载流子输运行为实现精准、无损探测。
2025-10-28 08:48
科技赋能是本次火炬传递的一大亮点,在传递过程中,智能机器人、无人驾驶汽车、低空飞行器等将进行火炬传递或串联路段,凸显粤港澳大湾区作为国际科技创新中心的产业优势,以创新性和未来感的尝试展示科技与体育的深度融合。
2025-10-28 08:46
酒泉卫星发射中心发射场区27日完成全系统发射演练,各系统完全满足发射要求,神舟二十一号具备发射条件。
2025-10-28 08:44
研究证实,熊蜂能够通过观察同伴的积极状态改变自身的行为决策,呈现出类似“情绪传染”的现象。
2025-10-27 10:35
加载更多