点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:促进生成式人工智能发展亟须破解数据瓶颈
首页> 科技频道> 综合新闻 > 正文

促进生成式人工智能发展亟须破解数据瓶颈

来源:光明网-《光明日报》2024-11-22 04:20

  【析理论道】

  作者:王业亮、丁晓东(分别系中国人民大学法学院博士后,中国人民大学法学院教授、未来法治研究院副院长)

  作为信息化、数字化、智能化的新型技术基座,生成式人工智能对于提升国家战略地位与国际竞争力具有重要意义。近年来,美国接连出台多项人工智能战略和政策文件,以谋求维持其在该领域的领先地位。欧盟也试图通过立法打破数据孤岛、构建基于风险的分层规制体系,提升人工智能产业竞争力。基于数据要素禀赋,中国在发展生成式人工智能领域具有战略优势。2023年中央经济工作会议指出:“要大力推进新型工业化,发展数字经济,加快推动人工智能发展。”为进一步促进生成式人工智能的快速发展,应构建生成式人工智能促进型法律制度,进一步优化个人信息保护,协调著作权保护,推动企业数据互联,用制度创新破解数据瓶颈,为生成式人工智能发展提供法治保障,在激烈的国际竞争中抢占主动权和制高点。

  完善个人信息保护,增强训练数据供给

  个人信息是生成式人工智能训练数据的重要来源。生成式人工智能训练数据的形成,有赖于对个人信息保护制度的正确理解与适用,涉及个人信息保护法中的告知同意制度、必要性原则以及公开性个人信息的利用等法律规范。具体而言,告知同意制度能够给予个体一定的自我保护,防止信息处理者过度收集个人信息。但面对信息处理的复杂实践,受认知所限,个体有可能难以真正预防风险。必要性原则强调收集个人信息的限制与处理最小化。若对必要性原则进行僵化解释,则任何包含个人信息的数据都无法用于人工智能训练,这反而可能导致人工智能因为缺少某些数据训练而变得具有歧视性、不公平性。公开数据是生成式人工智能数据的主要来源,而这些数据往往缺乏交互场景和联系方式,信息处理者难以联系个人和获取个人同意。

  为破解生成式人工智能在个人信息数据收集与利用方面的障碍,应在保障个人信息安全的前提下,进一步完善个人信息保护制度。首先,对于已公开的个人信息,应以广泛汇聚与融合利用为前提,于技术层面构建去标识化、差分隐私等程序性保护机制,并辅之以个人拒绝权等机制。其次,当人工智能训练中的数据包含个人信息时,应区分改进型与侵害型的个人信息处理。如果人工智能训练数据是为了实现更为公平与准确的个人信息处理,应将此类训练视为符合个人信息处理目的,反之则应视为违反必要性原则。最后,应当优化告知同意制度,强化隐私政策告知、加强合作治理。在个体私力救济不足的情况下,应强化执法者对隐私政策的执行、市场机构对隐私政策与个人信息保护实践的评级、信息处理者内部的个人信息合规机制。

  立法既要为训练数据提供制度供给,也要为个人信息安全提供保障。对于人工智能企业合法获取的包含个人信息的数据,应在数据清洗、数据标准、模型训练和评估、模型部署等阶段,对个人信息数据进行全生命周期的监管,进一步强化生成式人工智能企业的处理者责任。在技术层面,应要求人工智能企业依托加密技术、隐私计算等技术化手段保护个人信息。在制度层面,应要求人工智能企业通过内部合规、设立数据保护专员、合规审计与风险评估等机制严格保护个人信息。

  协调著作权保护,规范内容数据合理使用

  著作权保护的门槛并不高,只要求作品具有独创性并能以一定形式表现。因此,人工智能企业利用网络上的文字、图片、声音等素材的内容数据进行训练,便有可能构成著作权侵权,面临巨大诉讼压力、赔偿压力以及社会声誉压力。由于多数内容数据的著作权分散于各个著作权人,人工智能企业可能难以直接与他们联系。即使联系到这些著作权人,在要价问题上也面临种种困难。既有的数据库和各类著作权集体管理组织可以在一定程度上解决著作权许可问题,但对于网络上的内容数据而言,由于数据容量以及适用领域等方面的限制,其作用相对有限。

  破解生成式人工智能内容数据的著作权约束,需要构建整体性的合理使用制度。生成式人工智能与非生成式人工智能相比,对于数据的利用具有复杂性,其对著作权作品数据的利用常常既涉及事实,也涉及表达,但整体上属于合理适用范围。具体来说,就人格权益而言,生成式人工智能利用海量数据而非特定作品进行训练,一般不会侵害某一特定作品中所包含的人格权益;就激励机制而言,生成式人工智能利用海量数据进行训练,主要是为了提高其一般性的识别与创作能力,而不是替代某一特定作品,作者也不会因为生成式人工智能作品的出现而不再进行创作。当然,如果生成式人工智能对于著作权数据的训练破坏了权利人的技术措施或相关协议,或者当生成式人工智能对于著作权数据的利用是“假训练、真剽窃”,那么此类行为就对人格权益与激励制度产生负面影响,应当被排除在合理使用之外。

  生成式人工智能企业在对著作权作品进行宽泛合理使用的同时,也需要承担与此相对应的更多责任。首先,生成式人工智能企业应践行社会主义核心价值观,积极承担社会责任,避免数据与算法歧视方面的风险与侵害。其次,生成式人工智能企业应对实质性相似的生成作品承担侵权责任,这既有利于保护作品原创者的合法权益,也有利于激励企业的技术创新。最后,法律应审慎对各类生成类作品赋予著作权。人工智能领域的激励机制在于鼓励人工智能技术的发展与创新,而非激励生成作品的生产。可以将人工智能的生成作品置于公共领域,允许公众与企业对其进行一般利用。生成式人工智能企业也可以推出用户付费版本,通过用户协议和向用户收取使用费用来获得报酬,这可以为人工智能企业提供合理的商业激励。

  破除企业数据壁垒,助推数据汇聚融合

  破除企业数据壁垒,需要倡导互联网的互联互通。网络互联曾经是互联网的核心精神之一,但随着互联网的发展和商业化,出于竞争或安全等考量,互联网企业往往打造封闭型数据生态系统,防止其他企业特别是竞争企业获取其数据。这导致了数据孤岛现象,抑制了数据共享红利的溢出效应。对于企业而言,仅仅依靠自身掌握的商业数据进行训练,难以触及其他企业独占的高质量数据,势必会制约生成式人工智能的训练效果。

  就数据互联而言,应避免对网络公开数据进行绝对排他性确权。过去几十年来,网络公共空间的兴起导致了数据的爆发性增长,为人工智能等技术的发展奠定了坚实的数据基础。随着数据价值的凸显,数据的利益分配成为各方关注焦点,不少声音呼吁通过对数据确权实现此类分配。但基于数据的公共性特征,过多的排他性权利保护可能导致社会对它们的利用不足,构成“反公地悲剧”。数据的公共性并不否认对数据权益的合理保护,数据的合理保护同样是一种公共善品,有利于激发私主体的创造和个体有价值数据的公开;同样,数据的公共性也不否认数据利用的公平性需求,而这种公平性不应依赖微型权益确权或强化企业的数据排他性确权来实现,而应创新数据利用的收益分配机制,实现效率与公平的协调。

  破除企业数据壁垒,也可以利用各类合理的爬虫机制打通不同企业之间的数据壁垒。基于数据的非竞争性与爬虫技术的中立性特征,应当认识到爬虫等行为一般不会影响数据持有者的合法权益,如果运用得当,反而会承载促进互联的作用。尤其在数据企业纷纷设置壁垒、互相防范的情形下,合理的数据爬虫可以成为不同企业数据融合的桥梁。为此,对于规范性的数据爬虫不应施加过多限制。对于造成宕机等后果的数据爬虫,可以根据侵权责任法进行应对,谨慎适用刑事措施。此外,网信部门可以通过鼓励行业自律等方式,在倡导互联网企业合理自治的同时,助推企业之间互联互通,营造多样化互联网生态。在生成式人工智能等技术日新月异的背景下,企业呈现出前所未有的数据融合需求,应利用法律与行业自律的方式共同推动数据互联,为生成式人工智能企业提供充足的数据源,助力企业良性竞争、持续创新。

  《光明日报》(2024年11月22日 11版)

[ 责编:孙宗鹤 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 今年前6个月西部陆海新通道班列运量同比增长76.9%

  • 贵州榕江:送别抗洪抢险救援队伍

独家策划

推荐阅读
2025全球数字经济大会2日在北京开幕。除收录标准的优势外,东壁全球科技文献数据平台还根据中国科技界与教育界的习惯,对所收录期刊进行了学科分类。
2025-07-04 09:55
超材料是一类具有特殊性质的人造材料,而具有热辐射性能的超材料可以把多余的热量“打包”传递到外界,热辐射超材料可广泛应用于零能耗辐射冷却、建筑节能降温、航天热控等诸多重要领域。
2025-07-04 09:53
中国科学院院士、海南大学生物医学工程学院教授骆清铭团队成功绘制出了小鼠三维脑区和立体定位图谱
2025-07-04 09:52
7月4日,神秘的水星将迎来东大距,这是今年第二次水星东大距,观测条件依然不错。
2025-07-04 09:51
科学是生产力的核心要素。
2025-07-04 09:50
钙钛矿太阳能电池因成本低、效率高、易加工等优势备受关注,可应用于光伏发电、车载光伏、光伏建筑等领域。
2025-07-03 09:59
目前,对于10厘米以上大型空间碎片,航天器通常采用主动规避的策略,通过轨道调整,避开可能的碰撞路径。
2025-07-03 09:58
6月26日,中国民航局官网发布公告,提到为切实保障航空运行安全,自2025年6月28日起,禁止旅客携带没有3C标识、3C标识不清晰、被召回型号或批次的充电宝乘坐境内航班。
2025-07-03 09:56
药膳制作师既要懂烹饪,是餐厅的大厨,又要懂中医药理论知识,特别是能够作为食药物质的中药材。
2025-07-03 09:55
运动有助于健康和抗衰老。但究竟是什么让运动有这种奇效呢?我国研究团队历时6年,首次系统解析了人体对急性单次运动与长期规律运动的分子-细胞动态响应谱,揭示肾脏是运动效应的关键应答器官——其内源代谢物甜菜碱作为衰老延缓的核心分子信使,通过靶向抑制天然免疫枢纽激酶TBK1,协同阻遏炎症并缓解多器官衰老进程。
2025-07-03 05:20
近日,四川乐山一小伙感觉身体不适独自乘出租车前往医院就诊,途中开启“超强自救”模式:联系妈妈告知情况、打110报警求助、打120告知医院准备急救。如果长期处于焦虑引起的躯体化障碍状态,患者会反复出现头痛、心慌、呼吸急促、胃肠紊乱、肢体疼痛、睡眠问题等。
2025-07-02 10:06
使用人工智能大模型时,不少人或许都遇到过类似问题:它们有时会捏造细节,甚至“一本正经地胡说八道”。当“喂给”大模型的训练数据包含虚假信息时,它就会产生“幻觉”、给出错误答案。
2025-07-02 10:05
中国国际航空公司所属的国产C909客机平稳降落在蒙古国乌兰巴托成吉思汗国际机场,标志着国航首条C909国际航线正式开通。早8时许,这架C909客机从呼和浩特起飞,经过1个多小时飞行抵达乌兰巴托。
2025-07-02 10:03
农业是国民经济的基础,农业领域形成新质生产力是国民经济形成和发展新质生产力的基础和“底盘”。 农业新质生产力是通过提升劳动者素质、优化劳动资料和创新利用劳动对象,实现全要素生产率的显著提高。
2025-07-02 10:01
团队基于卫星遥感数据构建了1988年至2021年青藏高原30米分辨率人工草地数据集,明确了青藏高原主要的人工草地类型及其时空分布特征,并揭示了青藏高原人工草地的迅速扩张及其驱动机制。
2025-07-02 09:59
屠光绍认为,金融机构在应用人工智能时必须在服务投资人与消费者之间寻求平衡,避免AI鸿沟,坚守金融服务大众的初心。鲍建敏倡导构建产学研深度融合、开放共赢的人工智能金融生态体系,搭建跨机构、跨领域的协同创新平台。
2025-07-01 10:13
6月30日,2025温布尔登网球锦标赛在英国伦敦拉开大幕,引发球迷关注。在草地球场,球的速度更快且弹跳不规则,比赛回合较短,发球就成为球员们的重要“武器”。红土球场并不是天然土壤,而是分层分布着碎砖粉、白色碎石灰石、碎石等。
2025-07-01 10:09
7月1日起,医保定点医药机构在销售药品时,必须按要求扫药品追溯码后方可进行医保基金结算;2026年1月1日起,所有医药机构都要实现药品追溯码全量采集上传。步,进入国家医保局微信公众号主页,点击服务、药品追溯信息查询,进入查询页面;或进入国家医保局微信公众号消息对话页,点击医保服务、药品追溯信息查询,进入查询页面。
2025-07-01 10:09
记者从国家航天局获悉,7月1日,该局发布行星探测工程天问二号探测器在轨获取的地月影像图。(国家航天局供图)  月球全色图,由天问二号探测器的窄视场导航敏感器于2025年5月30日15时拍摄,经辐射校正处理后制作而成。
2025-07-01 10:08
龙芯中科近日正式发布基于国产自主指令集龙架构研发的服务器处理器龙芯3C6000系列芯片、工控领域及移动终端处理器龙芯2K3000/3B6000M芯片以及相关整机和解决方案。
2025-07-01 10:06
加载更多