促进生成式人工智能发展亟须破解数据瓶颈

来源：光明网-《光明日报》2024-11-22 04:20

　　【析理论道】

　　作者：王业亮、丁晓东（分别系中国人民大学法学院博士后，中国人民大学法学院教授、未来法治研究院副院长）

　　作为信息化、数字化、智能化的新型技术基座，生成式人工智能对于提升国家战略地位与国际竞争力具有重要意义。近年来，美国接连出台多项人工智能战略和政策文件，以谋求维持其在该领域的领先地位。欧盟也试图通过立法打破数据孤岛、构建基于风险的分层规制体系，提升人工智能产业竞争力。基于数据要素禀赋，中国在发展生成式人工智能领域具有战略优势。2023年中央经济工作会议指出：“要大力推进新型工业化，发展数字经济，加快推动人工智能发展。”为进一步促进生成式人工智能的快速发展，应构建生成式人工智能促进型法律制度，进一步优化个人信息保护，协调著作权保护，推动企业数据互联，用制度创新破解数据瓶颈，为生成式人工智能发展提供法治保障，在激烈的国际竞争中抢占主动权和制高点。

　　完善个人信息保护，增强训练数据供给

　　个人信息是生成式人工智能训练数据的重要来源。生成式人工智能训练数据的形成，有赖于对个人信息保护制度的正确理解与适用，涉及个人信息保护法中的告知同意制度、必要性原则以及公开性个人信息的利用等法律规范。具体而言，告知同意制度能够给予个体一定的自我保护，防止信息处理者过度收集个人信息。但面对信息处理的复杂实践，受认知所限，个体有可能难以真正预防风险。必要性原则强调收集个人信息的限制与处理最小化。若对必要性原则进行僵化解释，则任何包含个人信息的数据都无法用于人工智能训练，这反而可能导致人工智能因为缺少某些数据训练而变得具有歧视性、不公平性。公开数据是生成式人工智能数据的主要来源，而这些数据往往缺乏交互场景和联系方式，信息处理者难以联系个人和获取个人同意。

　　为破解生成式人工智能在个人信息数据收集与利用方面的障碍，应在保障个人信息安全的前提下，进一步完善个人信息保护制度。首先，对于已公开的个人信息，应以广泛汇聚与融合利用为前提，于技术层面构建去标识化、差分隐私等程序性保护机制，并辅之以个人拒绝权等机制。其次，当人工智能训练中的数据包含个人信息时，应区分改进型与侵害型的个人信息处理。如果人工智能训练数据是为了实现更为公平与准确的个人信息处理，应将此类训练视为符合个人信息处理目的，反之则应视为违反必要性原则。最后，应当优化告知同意制度，强化隐私政策告知、加强合作治理。在个体私力救济不足的情况下，应强化执法者对隐私政策的执行、市场机构对隐私政策与个人信息保护实践的评级、信息处理者内部的个人信息合规机制。

　　立法既要为训练数据提供制度供给，也要为个人信息安全提供保障。对于人工智能企业合法获取的包含个人信息的数据，应在数据清洗、数据标准、模型训练和评估、模型部署等阶段，对个人信息数据进行全生命周期的监管，进一步强化生成式人工智能企业的处理者责任。在技术层面，应要求人工智能企业依托加密技术、隐私计算等技术化手段保护个人信息。在制度层面，应要求人工智能企业通过内部合规、设立数据保护专员、合规审计与风险评估等机制严格保护个人信息。

　　协调著作权保护，规范内容数据合理使用

　　著作权保护的门槛并不高，只要求作品具有独创性并能以一定形式表现。因此，人工智能企业利用网络上的文字、图片、声音等素材的内容数据进行训练，便有可能构成著作权侵权，面临巨大诉讼压力、赔偿压力以及社会声誉压力。由于多数内容数据的著作权分散于各个著作权人，人工智能企业可能难以直接与他们联系。即使联系到这些著作权人，在要价问题上也面临种种困难。既有的数据库和各类著作权集体管理组织可以在一定程度上解决著作权许可问题，但对于网络上的内容数据而言，由于数据容量以及适用领域等方面的限制，其作用相对有限。

　　破解生成式人工智能内容数据的著作权约束，需要构建整体性的合理使用制度。生成式人工智能与非生成式人工智能相比，对于数据的利用具有复杂性，其对著作权作品数据的利用常常既涉及事实，也涉及表达，但整体上属于合理适用范围。具体来说，就人格权益而言，生成式人工智能利用海量数据而非特定作品进行训练，一般不会侵害某一特定作品中所包含的人格权益；就激励机制而言，生成式人工智能利用海量数据进行训练，主要是为了提高其一般性的识别与创作能力，而不是替代某一特定作品，作者也不会因为生成式人工智能作品的出现而不再进行创作。当然，如果生成式人工智能对于著作权数据的训练破坏了权利人的技术措施或相关协议，或者当生成式人工智能对于著作权数据的利用是“假训练、真剽窃”，那么此类行为就对人格权益与激励制度产生负面影响，应当被排除在合理使用之外。

　　生成式人工智能企业在对著作权作品进行宽泛合理使用的同时，也需要承担与此相对应的更多责任。首先，生成式人工智能企业应践行社会主义核心价值观，积极承担社会责任，避免数据与算法歧视方面的风险与侵害。其次，生成式人工智能企业应对实质性相似的生成作品承担侵权责任，这既有利于保护作品原创者的合法权益，也有利于激励企业的技术创新。最后，法律应审慎对各类生成类作品赋予著作权。人工智能领域的激励机制在于鼓励人工智能技术的发展与创新，而非激励生成作品的生产。可以将人工智能的生成作品置于公共领域，允许公众与企业对其进行一般利用。生成式人工智能企业也可以推出用户付费版本，通过用户协议和向用户收取使用费用来获得报酬，这可以为人工智能企业提供合理的商业激励。

　　破除企业数据壁垒，助推数据汇聚融合

　　破除企业数据壁垒，需要倡导互联网的互联互通。网络互联曾经是互联网的核心精神之一，但随着互联网的发展和商业化，出于竞争或安全等考量，互联网企业往往打造封闭型数据生态系统，防止其他企业特别是竞争企业获取其数据。这导致了数据孤岛现象，抑制了数据共享红利的溢出效应。对于企业而言，仅仅依靠自身掌握的商业数据进行训练，难以触及其他企业独占的高质量数据，势必会制约生成式人工智能的训练效果。

　　就数据互联而言，应避免对网络公开数据进行绝对排他性确权。过去几十年来，网络公共空间的兴起导致了数据的爆发性增长，为人工智能等技术的发展奠定了坚实的数据基础。随着数据价值的凸显，数据的利益分配成为各方关注焦点，不少声音呼吁通过对数据确权实现此类分配。但基于数据的公共性特征，过多的排他性权利保护可能导致社会对它们的利用不足，构成“反公地悲剧”。数据的公共性并不否认对数据权益的合理保护，数据的合理保护同样是一种公共善品，有利于激发私主体的创造和个体有价值数据的公开；同样，数据的公共性也不否认数据利用的公平性需求，而这种公平性不应依赖微型权益确权或强化企业的数据排他性确权来实现，而应创新数据利用的收益分配机制，实现效率与公平的协调。

　　破除企业数据壁垒，也可以利用各类合理的爬虫机制打通不同企业之间的数据壁垒。基于数据的非竞争性与爬虫技术的中立性特征，应当认识到爬虫等行为一般不会影响数据持有者的合法权益，如果运用得当，反而会承载促进互联的作用。尤其在数据企业纷纷设置壁垒、互相防范的情形下，合理的数据爬虫可以成为不同企业数据融合的桥梁。为此，对于规范性的数据爬虫不应施加过多限制。对于造成宕机等后果的数据爬虫，可以根据侵权责任法进行应对，谨慎适用刑事措施。此外，网信部门可以通过鼓励行业自律等方式，在倡导互联网企业合理自治的同时，助推企业之间互联互通，营造多样化互联网生态。在生成式人工智能等技术日新月异的背景下，企业呈现出前所未有的数据融合需求，应利用法律与行业自律的方式共同推动数据互联，为生成式人工智能企业提供充足的数据源，助力企业良性竞争、持续创新。

　　《光明日报》（2024年11月22日 11版）

[ 责编：孙宗鹤 ]

阅读剩余全文（）