点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:促进生成式人工智能发展亟须破解数据瓶颈
首页> 科技频道> 综合新闻 > 正文

促进生成式人工智能发展亟须破解数据瓶颈

来源:光明网-《光明日报》2024-11-22 04:20

  【析理论道】

  作者:王业亮、丁晓东(分别系中国人民大学法学院博士后,中国人民大学法学院教授、未来法治研究院副院长)

  作为信息化、数字化、智能化的新型技术基座,生成式人工智能对于提升国家战略地位与国际竞争力具有重要意义。近年来,美国接连出台多项人工智能战略和政策文件,以谋求维持其在该领域的领先地位。欧盟也试图通过立法打破数据孤岛、构建基于风险的分层规制体系,提升人工智能产业竞争力。基于数据要素禀赋,中国在发展生成式人工智能领域具有战略优势。2023年中央经济工作会议指出:“要大力推进新型工业化,发展数字经济,加快推动人工智能发展。”为进一步促进生成式人工智能的快速发展,应构建生成式人工智能促进型法律制度,进一步优化个人信息保护,协调著作权保护,推动企业数据互联,用制度创新破解数据瓶颈,为生成式人工智能发展提供法治保障,在激烈的国际竞争中抢占主动权和制高点。

  完善个人信息保护,增强训练数据供给

  个人信息是生成式人工智能训练数据的重要来源。生成式人工智能训练数据的形成,有赖于对个人信息保护制度的正确理解与适用,涉及个人信息保护法中的告知同意制度、必要性原则以及公开性个人信息的利用等法律规范。具体而言,告知同意制度能够给予个体一定的自我保护,防止信息处理者过度收集个人信息。但面对信息处理的复杂实践,受认知所限,个体有可能难以真正预防风险。必要性原则强调收集个人信息的限制与处理最小化。若对必要性原则进行僵化解释,则任何包含个人信息的数据都无法用于人工智能训练,这反而可能导致人工智能因为缺少某些数据训练而变得具有歧视性、不公平性。公开数据是生成式人工智能数据的主要来源,而这些数据往往缺乏交互场景和联系方式,信息处理者难以联系个人和获取个人同意。

  为破解生成式人工智能在个人信息数据收集与利用方面的障碍,应在保障个人信息安全的前提下,进一步完善个人信息保护制度。首先,对于已公开的个人信息,应以广泛汇聚与融合利用为前提,于技术层面构建去标识化、差分隐私等程序性保护机制,并辅之以个人拒绝权等机制。其次,当人工智能训练中的数据包含个人信息时,应区分改进型与侵害型的个人信息处理。如果人工智能训练数据是为了实现更为公平与准确的个人信息处理,应将此类训练视为符合个人信息处理目的,反之则应视为违反必要性原则。最后,应当优化告知同意制度,强化隐私政策告知、加强合作治理。在个体私力救济不足的情况下,应强化执法者对隐私政策的执行、市场机构对隐私政策与个人信息保护实践的评级、信息处理者内部的个人信息合规机制。

  立法既要为训练数据提供制度供给,也要为个人信息安全提供保障。对于人工智能企业合法获取的包含个人信息的数据,应在数据清洗、数据标准、模型训练和评估、模型部署等阶段,对个人信息数据进行全生命周期的监管,进一步强化生成式人工智能企业的处理者责任。在技术层面,应要求人工智能企业依托加密技术、隐私计算等技术化手段保护个人信息。在制度层面,应要求人工智能企业通过内部合规、设立数据保护专员、合规审计与风险评估等机制严格保护个人信息。

  协调著作权保护,规范内容数据合理使用

  著作权保护的门槛并不高,只要求作品具有独创性并能以一定形式表现。因此,人工智能企业利用网络上的文字、图片、声音等素材的内容数据进行训练,便有可能构成著作权侵权,面临巨大诉讼压力、赔偿压力以及社会声誉压力。由于多数内容数据的著作权分散于各个著作权人,人工智能企业可能难以直接与他们联系。即使联系到这些著作权人,在要价问题上也面临种种困难。既有的数据库和各类著作权集体管理组织可以在一定程度上解决著作权许可问题,但对于网络上的内容数据而言,由于数据容量以及适用领域等方面的限制,其作用相对有限。

  破解生成式人工智能内容数据的著作权约束,需要构建整体性的合理使用制度。生成式人工智能与非生成式人工智能相比,对于数据的利用具有复杂性,其对著作权作品数据的利用常常既涉及事实,也涉及表达,但整体上属于合理适用范围。具体来说,就人格权益而言,生成式人工智能利用海量数据而非特定作品进行训练,一般不会侵害某一特定作品中所包含的人格权益;就激励机制而言,生成式人工智能利用海量数据进行训练,主要是为了提高其一般性的识别与创作能力,而不是替代某一特定作品,作者也不会因为生成式人工智能作品的出现而不再进行创作。当然,如果生成式人工智能对于著作权数据的训练破坏了权利人的技术措施或相关协议,或者当生成式人工智能对于著作权数据的利用是“假训练、真剽窃”,那么此类行为就对人格权益与激励制度产生负面影响,应当被排除在合理使用之外。

  生成式人工智能企业在对著作权作品进行宽泛合理使用的同时,也需要承担与此相对应的更多责任。首先,生成式人工智能企业应践行社会主义核心价值观,积极承担社会责任,避免数据与算法歧视方面的风险与侵害。其次,生成式人工智能企业应对实质性相似的生成作品承担侵权责任,这既有利于保护作品原创者的合法权益,也有利于激励企业的技术创新。最后,法律应审慎对各类生成类作品赋予著作权。人工智能领域的激励机制在于鼓励人工智能技术的发展与创新,而非激励生成作品的生产。可以将人工智能的生成作品置于公共领域,允许公众与企业对其进行一般利用。生成式人工智能企业也可以推出用户付费版本,通过用户协议和向用户收取使用费用来获得报酬,这可以为人工智能企业提供合理的商业激励。

  破除企业数据壁垒,助推数据汇聚融合

  破除企业数据壁垒,需要倡导互联网的互联互通。网络互联曾经是互联网的核心精神之一,但随着互联网的发展和商业化,出于竞争或安全等考量,互联网企业往往打造封闭型数据生态系统,防止其他企业特别是竞争企业获取其数据。这导致了数据孤岛现象,抑制了数据共享红利的溢出效应。对于企业而言,仅仅依靠自身掌握的商业数据进行训练,难以触及其他企业独占的高质量数据,势必会制约生成式人工智能的训练效果。

  就数据互联而言,应避免对网络公开数据进行绝对排他性确权。过去几十年来,网络公共空间的兴起导致了数据的爆发性增长,为人工智能等技术的发展奠定了坚实的数据基础。随着数据价值的凸显,数据的利益分配成为各方关注焦点,不少声音呼吁通过对数据确权实现此类分配。但基于数据的公共性特征,过多的排他性权利保护可能导致社会对它们的利用不足,构成“反公地悲剧”。数据的公共性并不否认对数据权益的合理保护,数据的合理保护同样是一种公共善品,有利于激发私主体的创造和个体有价值数据的公开;同样,数据的公共性也不否认数据利用的公平性需求,而这种公平性不应依赖微型权益确权或强化企业的数据排他性确权来实现,而应创新数据利用的收益分配机制,实现效率与公平的协调。

  破除企业数据壁垒,也可以利用各类合理的爬虫机制打通不同企业之间的数据壁垒。基于数据的非竞争性与爬虫技术的中立性特征,应当认识到爬虫等行为一般不会影响数据持有者的合法权益,如果运用得当,反而会承载促进互联的作用。尤其在数据企业纷纷设置壁垒、互相防范的情形下,合理的数据爬虫可以成为不同企业数据融合的桥梁。为此,对于规范性的数据爬虫不应施加过多限制。对于造成宕机等后果的数据爬虫,可以根据侵权责任法进行应对,谨慎适用刑事措施。此外,网信部门可以通过鼓励行业自律等方式,在倡导互联网企业合理自治的同时,助推企业之间互联互通,营造多样化互联网生态。在生成式人工智能等技术日新月异的背景下,企业呈现出前所未有的数据融合需求,应利用法律与行业自律的方式共同推动数据互联,为生成式人工智能企业提供充足的数据源,助力企业良性竞争、持续创新。

  《光明日报》(2024年11月22日 11版)

[ 责编:孙宗鹤 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 复旦大学迎来建校120周年

  • 江苏盱眙:种粮大户喜获丰收

独家策划

推荐阅读
睡前只需服用一粒药丸就能不再佩戴笨重面罩入睡,这对部分阻塞性睡眠呼吸暂停(OSA)患者来说,可能即将梦想成真。
2025-05-28 09:30
据英国《每日电讯报》26日消息称,美国开放人工智能研究中心(OpenAI)开发的高级人工智能(AI)模型o3,在接收到明确的关机指令后,不仅拒绝执行,还主动干预其自动关机机制。
2025-05-28 09:24
记者5月26日从北京大学获悉,该校环境科学与工程学院教授要茂盛团队研发了空气毒性活体监测系统(以下简称ATMS),实现了对空气污染健康效应的原位、实时、在线监测,有望为优化空气污染控制策略和公众健康防护提供技术支撑。
2025-05-28 09:24
保障粮食储存安全是粮食流通领域科技攻关的核心任务,粮食科研人员深入贯彻绿色发展理念,研发系列粮食仓储技术成果,在粮食仓储领域推广应用,取得良好成效。
2025-05-28 09:19
数据显示,地球陆地上可开采锂资源仅约2200万吨,海水中却蕴藏2300亿吨锂。然而,高效、绿色的海水提锂技术被视作科研界难啃的“硬骨头”。
2025-05-28 09:18
“黑夜给了我黑色的眼睛,我却用它寻找光明。”
2025-05-27 13:22
“世界杰出女科学家奖”由联合国教科文组织和法国欧莱雅基金会在1998年联合设立
2025-05-27 11:10
无法释放起落架的民航客机在巨大的摩擦声中以机腹着地方式从跑道上滑过,高速进入大气层的空天飞机像一个“火球”剧烈燃烧,大型运输机在超强暴风雪中艰难起飞,先进战斗机在复杂空战环境中被导弹碎片打得千疮百孔……
2025-05-27 09:27
近日,中国科学院广州地球化学研究所副研究员高名迪与研究员王煜、中国科学院院士徐义刚,以及澳大利亚国立大学教授Stephen Foley合作,通过高温高压实验与超深金刚石包裹体成分对比研究,揭示了再循环碳酸盐如何改变地幔氧化还原状态,及对克拉通演化和深部碳循环的影响。
2025-05-27 09:22
“浚澜”船配备了高压岸电接入模块,可以采用全电力驱动挖掘系统,实现施工作业零碳排放。
2025-05-27 09:16
天问二号探测器按计划完成了技术区总装、测试、加注、转场、功能检查、联合测试等工作。
2025-05-27 09:10
研究发现,自20世纪80年代以来,北半球高纬地区大气甲烷浓度的季节振幅呈现减弱趋势,而副热带及热带地区的季节振幅却显著增强。这一变化趋势及其空间差异为解析全球甲烷源汇的长期演变提供了关键观测证据,为全球甲烷减排提供了科学支撑。
2025-05-27 09:09
据两位消息人士透露,英伟达还在为中国开发另一款采用Blackwell架构的芯片,最早可能于9月开始生产。
2025-05-26 12:51
研究人员成功诱导干细胞发育成充满液体的羊膜囊。这种模型囊体直径约2厘米,相当于一个4周胚胎周围羊膜囊的实际大小,可用于研究早期妊娠。
2025-05-26 09:21
你有过牙齿酸酸胀胀的体验吗?这会让我们真切地感受到牙齿有多敏感。其实,在咀嚼食物时,这种敏感性大有用处,它能提供关于温度、压力,还有疼痛方面的重要信息。
2025-05-26 09:18
最新一期《自然》杂志发表的论文报告发现一个原以为“不可能存在”的神秘结构。
2025-05-26 09:18
阿尼玛卿雪山保存着50余条冰川,年均径流量占黄河上游总流量35%,其变化对黄河流域水资源具有重要影响。
2025-05-26 09:16
如今,在各地田间地头,植保无人机凌空起舞、无人拖拉机破土前行、水肥一体精准施肥、北斗导航精准播种、智能机器人全天候巡检……科技感十足的农耕图景随处可见。
2025-05-26 09:15
可持续的减肥从不靠极端节食,而是科学的生活习惯。
2025-05-23 13:30
邓宏章对此形象地比喻:“传统LNP像‘硬闯城门’的士兵,难免伤及无辜;而TNP则是‘和平访问’的来客,以最小代价达成使命。”
2025-05-23 13:13
加载更多