推动人工智能安全可靠可控发展

来源：光明网-《光明日报》2025-09-12 10:01

　　【析理论道】

　　作者：曾楠（广东省习近平新时代中国特色社会主义思想研究中心特约研究员，南方医科大学马克思主义学院院长、教授）

　　习近平总书记指出：“要把握人工智能发展趋势和规律，加紧制定完善相关法律法规、政策制度、应用规范、伦理准则，构建技术监测、风险预警、应急响应体系，确保人工智能安全、可靠、可控。”国务院近日印发的《关于深入实施“人工智能+”行动的意见》提出，“共同研判、积极应对人工智能应用风险，确保人工智能发展安全、可靠、可控”。当前，人工智能正以前所未有的深度与广度重塑着社会运行方式。同时，从大型语言模型的“幻觉”输出到自动驾驶系统的决策偏差，从深度伪造技术对社会信任的侵蚀到算法黑箱导致的不透明与偏见……人工智能系统在性能飞跃的同时，其内生性安全与可靠性问题成为制约其健康发展的不容忽视的因素。传统的事后补救、外挂防护式的治理模式，如同在高速运行的列车外部进行修补，不仅效率低下，也难以触及复杂系统内部深层结构性问题。因此，探索以系统治理推动人工智能安全可靠可控发展，具有实践上的紧迫性。

　　从“外挂补丁”到“免疫系统”的范式更新

　　“外挂补丁”模式承袭传统网络安全思路，其特征表现为事后补救、外部附加和局部修正，其在人工智能治理初期发挥了重要作用。例如，当发现人工智能系统学会了偏见和歧视，我们试图用“过滤网”去筛查它的回答；当发现它容易被“误导”或“欺骗”，我们再为其额外增加一道防护程序；当人工智能系统的决策过程像一个黑箱难以理解，我们再开发一个外部工具去试图解读它。然而，这种模式存在固有局限性：其预警响应往往滞后于风险显现，难以覆盖长链式、跨模态的新型风险；附加的安全模块可能与原生系统存在适配冲突，影响模型性能的同时产生新的脆弱点；规则化的应对方式无法适应快速迭代的攻击手法。正如修补漏洞无法替代建设坚固的城堡，依赖外部打补丁难以形成系统性的安全韧性。

　　确保人工智能系统安全可靠可控，需要从系统设计的底层逻辑出发，将安全与可靠目标内化为技术架构、算法模型、数据流程乃至开发范式的核心基因，使其具备类似生物免疫系统的自我识别、动态适应和协同防御功能，随系统演化而自适应进化，进而降低安全风险发生的概率与危害。这一范式涵盖三个核心维度：架构安全、过程安全与价值安全。具言之，筑牢架构安全防线，将安全属性嵌入模型底层，使其天生具备更强的抗干扰、抗欺骗能力，不易被“病毒”入侵，并能更好保护数据隐私；构建过程安全监控系统，在模型训练、部署、运行的全流程实施动态风险监测与反馈调节；设置价值安全指引，将价值观、伦理准则与社会规范内化为人工智能系统的行为指引，通过价值观对齐，使系统不仅能正确执行任务，更能理解行动的伦理意涵与社会影响。

　　从“概率正确”到“可知可控”的信任构建

　　当前，大多数人工智能系统基于大数据和概率模型运行，通过分析大量数据找出重复出现的模式，进而做出判断，这通常表现为“概率正确”。这种方式虽然高效，但也存在明显的局限和风险。一是结果的不确定性。模型可能会产生“幻觉”，即编造看似真实实则虚假的信息。在医疗诊断、司法辅助等严肃场景中，模型“幻觉”的代价是难以估量的。二是决策的不可溯性。当系统做出某个决定时，使用者往往无法了解其具体推理过程，这既影响了对结果的验证，也阻碍了错误发生后的纠正和改进。三是风险的不可预见性。系统在常规环境下可能表现良好，但在面对新情况或受到干扰时，可能出现无法预见的错误，给实际应用带来隐患。

　　人工智能系统的可靠性不能停留在统计意义上的“高概率正确”，而应追求在复杂、开放、动态环境下的“高置信可靠”。其核心在于建立可知、可控、可信的技术闭环，使人工智能系统不再是神秘莫测的“黑箱”，而是行为可预期、风险可管理、决策可追责的“透明箱”或“玻璃箱”，具有以下特性：可解释性，即系统不仅能输出结果，更能提供清晰、可理解的决策依据和推理路径，使其行为对开发者与使用者而言是透明、可追溯的；预期一致性，即系统的行为表现严格处于其声明的能力边界和设计目标之内，不会产生无法预知的、超出其功能范围的行为，确保其行动结果与人类预期高度吻合；可验证性，系统的性能、逻辑和输出结果可通过独立的、系统化的方法进行测试、检验与审计，确保其行为始终符合预设的技术规范和伦理标准；可干预性，即在关键决策点或系统表现异常时，人类能够进行及时干预、修正或中止，始终将最终控制权置于人类手中。

　　推进融合技术、标准、伦理的系统性“治理工程”

　　推动人工智能安全可靠可控发展，绝非单纯的技术优化，而是一项深度融合技术创新、标准规范、伦理准则的系统性“治理工程”，即将治理要求结构化、自动化地嵌入人工智能系统的设计、开发、部署、运行、迭代全过程。

　　以技术创新为治理根基，筑牢安全可控的底层支撑。技术是实现有效治理的根基。应重点发展以可信人工智能为核心的关键技术，从设计之初就内置安全特性，确保系统行为的可靠性，为治理提供坚实基础。主要包括以下几个方向：研发具有高稳定性和抗干扰能力的算法模型，使系统在面对恶意攻击或异常数据时仍能保持正常运行；推进可解释人工智能技术，让系统的决策过程变得清晰可见;构建测试验证和持续监测体系，实现对系统风险的实时预警和动态防护。

　　以标准规范为治理准绳，确立清晰一致的行业标尺。标准是治理体系的尺度，为技术创新和产业应用提供统一规范。应加快构建覆盖人工智能全生命周期、多维度的标准体系。在基础共性方面，建立术语、架构、评估基准标准；在关键技术领域，制定可解释性、隐私保护等技术标准；在行业应用层面，推出面向医疗、交通、金融等重点领域的应用规范和管理指南。这些标准不仅为产品研发和质量评价提供依据，也为监管执法和社会监督提供可靠参照，有助于推动产业形成共识，避免无序发展，实现在规范中创新、在标准下落地。

　　以伦理准则为治理灵魂，引领负责任的创新方向。伦理准则能够为技术发展提供价值引导。伦理治理的目标，是确保人工智能的发展始终遵循人类价值观和共同福祉，实现科技向善。为此，应当将以人为本、公平包容、责任明确、可控可信等伦理原则深度融入人工智能研发与应用全过程。具体而言，建立伦理审查和风险评估机制，对可能产生的伦理影响和社会后果进行前瞻性研判；推动算法公平性研究，努力消除数据偏见和歧视；明确研发者、使用者、监管者等各方责任，建立健全问责机制；鼓励开展人工智能伦理教育和公众讨论，提升全社会伦理意识。

　　当前，人工智能正以磅礴之力塑造人类文明新图景。唯有将安全、可靠、可控深植其技术生命基因，使其生长出强大的内在免疫系统，并辅以技术治理这一系统工程的精心雕琢，才能使人工智能真正成为驱动高质量发展的引擎而非脱缰野马。治理逻辑与技术逻辑实现有机融合之际，一个可知、可控、可信、可持续的人工智能时代才能真正到来。

　　《光明日报》（2025年09月12日 11版）

[ 责编：王若昕 ]

阅读剩余全文（）