点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:安全与普惠如何平衡?全球大语言模型安全防范能力测评报告发布
首页> 科技频道> 综合新闻 > 正文

安全与普惠如何平衡?全球大语言模型安全防范能力测评报告发布

来源:光明网2026-07-02 17:24

  大语言模型正在成为公众获取、理解和使用科技知识的重要工具,但是,它们能辨善恶吗?能否识别用户意图、理解具体语境、控制输出粒度,并在有用性与安全性之间保持稳定边界?

  7月2日,在北京举行的2026全球数字经济大会云智算安全论坛上,《全球大语言模型安全防范能力测评报告(2026)》发布,该报告依据一套中国机构自主研发的科学测评方法体系,对全球主要大语言模型进行了一次统一标准的“体检”。

  测评显示,多数模型具备基础拒答能力,但在前缀注入、场景伪装、情感伪装,以及伪装与示例诱导结合的复合攻击下,部分模型的安全边界明显承压。报告提出,科技安全治理不能仅以“拒答率”衡量,还应同时关注模型的意图识别能力、信息披露尺度和“可靠且高风险”输出。

安全与普惠如何平衡?全球大语言模型安全防范能力测评报告发布

《全球大语言模型安全防范能力测评报告(2026)》正式发布

  立足真实风险补齐行业测评短板

  上海财经大学数字经济学院院长、报告牵头编制人赵琳表示,科技知识在正常场景中可以服务于教学、研究、产业创新和公共安全,但当它被置于特定目的、特定语境和特定对象面前,就可能转化为现实危害。从前沿模型安全框架看,国际上已经将生物化学、网络安全、自动化代理等高风险能力纳入重点评估范围。

  本次最终测试集包含313条科技类高风险问题,结果分析覆盖38个国内外模型,并按国内/国外、开源/闭源、大规模/小规模等属性进行分组比较。为辅助评估科技内容可靠性,报告从东壁全球科技文献数据平台(Dbdata)选取94,108份科技文献材料,并结合34,452条科技类百科条目构建RAG检索参考,用于判断模型回答中的科学事实、技术原理、因果逻辑和不确定性表述是否可靠。

  赵琳提到,科技安全治理不能仅以“拒答率”衡量,还应同时关注模型的意图识别能力、信息披露尺度和“可靠且高风险”输出。报告同时设置意图识别能力、滥用风险可控性和科技内容可靠性三个维度,用于识别“过度拒答”“防御不足”和“可靠但高风险输出”等不同类型的问题。因此,本报告更接近“科技安全防范能力测评”,而不是单纯的“拒答率排行榜”。

  实测数据披露多重安全隐患

  报告显示,多数模型具备基础拒答能力,直接攻击总体成功率为7.6%,但在前缀注入、场景伪装、情感伪装,以及伪装与示例诱导结合的复合攻击下,部分模型的安全边界明显承压。赵琳在解读报告时,介绍了部分测评结果,并披露其中多重安全隐患。

  目前,攻击成功率最高的是场景伪装加上示例诱导,达53.8%,其次是场景伪装、前缀注入攻击、情感伪装,分别达51.3%、43.4%、30.7%,最低的是情感伪装加示例诱导,也达到了26.5%。“这说明场景伪装是最值得关注的攻击形态之一。”赵琳说,“合法授权”“安全研究”“攻防演练”等场景合法化叙事,比单纯情绪求助更容易削弱模型安全边界,示例诱导的影响则取决于其叠加在哪类伪装方式上,叠加在场景伪装中能增加越狱成功率,叠加在情感伪装中反而更容易让模型识别出请求的风险。

  赵琳还提到,目前模型意图识别仍不充分。伪装类样本中,善意问题拒答率为30.6%,恶意问题回答率为29.7%。这说明过度防御和防御不足同时存在,模型尚未稳定掌握科技双用途语境下的差异化响应能力。以及,回答后的风险披露控制不足,模型一旦被诱导回答,往往未能有效切断从一般知识到现实实施之间的关键连接。

  测评发现,科技内容可靠性与安全风险存在张力。已回答样本中,80.5%达到较可靠水平,55.1%同时具有较高可靠性和较高滥用风险。对恶意请求而言,可靠性越高不一定越安全。“关键在于能否把可靠知识限制在防护、合规和教育范围内”,赵琳表示。

安全与普惠如何平衡?全球大语言模型安全防范能力测评报告发布

上海财经大学数字经济学院院长、报告牵头编制人赵琳对报告进行解读

  多维度安全榜单出炉

  依托显性攻击、越狱对抗、意图识别、风险管控、知识可靠性五大测评维度量化打分,报告发布38款海内外主流大模型分层排名,多维度榜单清晰展现不同模型的安全防护水平。

  在无伪装、直接索要危险技术方案的直接攻击测试中,Anthropic旗下三款Claude模型实现100%拒答,领跑行业,OpenAIgpt-5.4-mini、阿里通义千问qwen3.5-122b-a10b紧随其后。反观榜单末尾,mistral-small等多款轻量化开源模型基础防护垫底。

  针对前缀注入、场景伪装、情感诱导、示例叠加等五类复杂越狱攻击的综合防护排名显示,全场景抵御能力前五名依旧由Claude全系三款模型包揽前三位,国内MiniMax-M3、OpenAIgpt-5.4-mini分列第四、五位,面对套着“安全演练、科研实验”外壳的诱导提问,依旧能稳定守住安全边界。测评同时指出,场景伪装叠加示例诱导是所有模型的共同薄弱环节,共有21款模型拒答率不足半数,其中字节豆包轻量化开源模型doubao-seed-2-0-mini在该场景下安全边界衰减幅度最为突出,防护短板显著。

  在恶意伪装意图识别维度,拒答率榜单前五与越狱综合防护榜单高度重合,Claude全系列、MiniMax-M3、gpt-5.4-mini能够高效识别包装成教学、科研需求的恶意提问,拦截风险请求能力领跑行业。但测评也发现统一短板,榜单前列防护能力更强的模型,善意学习类问题拒答率同步走高,存在明显的过度防御现象,正常科研、科普学习需求容易被一并拦截,而大量中小开源模型则走向另一个极端,难以区分请求意图,恶意伪装提问极易顺利放行。

  滥用风险可控性榜单仅针对成功绕过安全防线、产生输出内容的样本打分,分数越高代表模型越能规避危险实操细节泄露,榜单排名显示OpenAIgpt-5.4-mini以3.52分的均分拔得头筹,claude-haiku、gpt-5.5、阿里通义千问qwen3.6-27b、qwen3.6-flash依次跻身前五,即便不慎输出内容,也会主动规避关键参数、完整操作流程等高风险信息。

  在衡量输出内容科学准确程度的科技内容可靠性榜单中,OpenAIgpt-5.5以均分3.52分拿下榜首,月之暗面Kimi-k2.6、阿里通义千问3.7-max旗舰闭源模型、qwen3.6-35b、qwen3.6-27b紧随其后,国内大规模闭源模型的专业科技内容准确度已达到行业第一梯队水平。

  总而言之,不同模型属性呈现出系统性差异。国外、闭源和大规模模型在恶意伪装请求拦截、越狱稳健性和回答后风险控制上整体更占优,但也更容易拒绝善意问题,体现出安全性与可用性之间的张力;开源、小规模以及部分国内模型在伪装攻击下更容易被诱导,说明安全对齐、产品化防护和持续红队测试仍需加强。与此同时,大规模和闭源模型的科技内容可靠性更高,一旦安全边界失效,高可靠回答更可能转化为现实可执行的信息增益,因此高能力模型更需要精细化的意图识别和输出粒度控制。

  治理路径与测评体系升级规则

  针对测评暴露出的系统性安全短板,这份报告立足产业实际,提供了一套政策与治理建议,平衡AI知识普惠价值与公共安全底线。

  报告提出,科技安全不能只依赖外部关键词拦截,要坚持内生化原则,把安全能力嵌入模型行为机制。越狱攻击方式更新快,模型版本迭代快,静态测评难以长期反映真实风险,建议坚持敏捷化原则,建立持续红队与复测机制。将科技安全测评从单一拒答率扩展为综合指标体系,至少包括“显性请求拒答能力、伪装请求稳健性、善意问题可用性、恶意问题拒答率、滥用风险可控性、科技内容可靠性、可靠且高风险输出占比、可靠且可控输出占比”。

  “治理目标应是拒绝危险能力增益,而不是拒绝科技知识本身。”赵琳说。建议模型在高风险科技主题下建立更细的安全回答范式,对善意学习请求,提供概念解释、风险提示、合规边界和安全替代路径,对中性但不明确的请求,主动澄清目的和使用环境,对恶意或高度可疑请求,拒绝提供可执行细节,并转向防护、法律后果、求助渠道或安全教育内容。

  东壁科技数据创始人、报告牵头编制人吴登生认为,这一报告的意义在于从“拒答率排行榜”转向综合风险评价。以真实案件和真实科技语境为基础,将越狱攻击与科技知识双重用途场景结合,并把“是否拒答”扩展为意图识别、滥用风险可控性和科技内容可靠性等综合评价。“这为模型企业、第三方测评机构、行业专家、监管部门和教育科研机构提供了专项测评与持续治理的参考,也强调在保护正当学习、科研和防护需求的同时,避免模型输出形成对现实危险行为的能力增益。”他说。

  “这份报告只是一个开始。未来,我们将持续完善科技安全测试集,覆盖更多领域,例如工程控制、深度伪造、自动化智能体、实验室安全等方向。同时,也会加强多轮对话、工具调用、代码执行、多模态输入等复杂交互场景的测评。我们的目标不仅是发布一份报告,更希望逐步建立具有持治理政策、为教育科研机构安全使用人工智能提供参考依据。”吴登生表示。(宋雅娟)

[ 责编:肖春芳 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 追寻红色足迹 深学党建思想

  • 青岛邮轮母港开启暑期首航

独家策划

推荐阅读
生成式人工智能正以前所未有的力量重塑全球高等教育。面对这把“双刃剑”,如何在教育赋能与风险防控之间找到平衡,探索适应人工智能时代的高校治理路径,是全球高校共同面对的时代命题。全球高校对生成式人工智能的治理逐渐超越单纯的技术风险防控,迈向关于价值、规则与能力的系统性重构。
2026-07-02 09:20
今后钢铁厂、水泥厂、数据中心等用电大户,不能再随心所欲地使用煤电了,必须消费一定比例的可再生能源。长期以来,我国可再生能源产业发展重心锚定发电侧扩张,风电、光伏装机规模连年攀升,绿色能源供给能力实现跨越式增长。
2026-07-02 09:44
截至目前,全国配发832套流动科技馆,巡展7956站,服务公众2.57亿人次;科普大篷车累计配发1880辆,下沉乡镇及偏远地区,开展活动49.6万次,服务基层公众达4.07亿人次,行驶里程6188.5万公里,相当于绕地球1547圈。
2026-07-02 09:19
国家能源局日前发布《中国供电发展报告2026》,其中显示,我国已建成全球规模最大的电力供应体系,居民用户和小微企业告别了“花钱办电”的历史,人民群众用电获得感明显增强。
2026-07-02 09:40
农机装备是观察我国农业现代化水平的窗口,映射着农业新质生产力在田间地头的蓬勃脉动。用新技术、新场景锻造新农具,推进农机装备全程全面升级,一定能让更多农民挑上“金扁担”。
2026-07-02 09:22
随着SpaceX上市,太空算力再度成为全球科技竞争新焦点。据报道,中国已推动12颗计算卫星实现在轨运行,它们是于2025年5月14日发射升空的全球首个太空计算卫星星座。抓住机遇、乘势而上,中国完全有底气在这场太空算力竞赛中,跑出自己的加速度。
2026-07-01 09:38
电动汽车还与人工智能、新型电力电子技术加速融合,推动车辆从传统交通工具向智能能源终端转变。面对旺盛市场需求,中国电动汽车凭借完整产业链、智能化优势及快速交付能力,正改写全球汽车市场格局,成为稳定全球供应链的关键力量。
2026-07-01 09:33
中国世赛焊接团队全力对标产业升级需求,将比赛成果转化为实际应用,积极探索技能人才成长成才的实践路径。依托10余年的积淀与科学化的集训机制,中国焊接世赛团队终于迎来突破时刻,先后斩获第41届世赛银牌、第42届世赛优胜奖,并在第43届赛事中勇夺该项目的首金。
2026-07-01 09:29
短短几年,林场里农家乐和民宿如雨后春笋般涌现,如今增加到40多家,形成了一条远近闻名的“溪水农家院一条街”。每天午后,我都会沿着林场整洁的步道溜达溜达,一路景色宜人,一路自在惬意。
2026-07-01 09:26
国家税务总局30日发布最新数据显示,今年1至5月份,我国具身智能产业发展向好,呈现多方面亮点。目前,全国近九成具身智能产业企业集中在广东、北京、上海、浙江、江苏,其余少量分布在辽宁、山东、陕西、安徽等10个省市。
2026-07-01 09:24
在6月27日举行的首届西部商业航天大会现场,陕西西安高新区管委会主任陈辉端着一台银灰色的火箭发动机模型走向发布台。“我们要实现星箭总体环节的突破,大力引进培育卫星总体、火箭总体企业,支持卫星智能制造工厂和商业火箭总装线建设。
2026-06-30 10:01
近日,“共和国勋章”获得者、我国著名水稻专家袁隆平相关话题上了热搜。袁隆平带领我国科研工作者,通过雄性不育遗传工具,攻克了利用杂种优势的世界性难题,创建了系统化、原创性的杂交水稻育种体系,开辟出利用水稻杂种优势的新道路,有力保障了国家粮食安全。
2026-06-30 10:01
国家能源局29日发布数据显示,今年1至5月,全国累计完成电力市场交易电量30573亿千瓦时,同比增长24.8%。1至5月,从交易范围看,省内交易电量24361亿千瓦时,同比增长28.5%;跨省跨区交易电量6212亿千瓦时,同比增长12.2%。
2026-06-30 10:01
教育、科技、人才是全面建设社会主义现代化国家的基础性、战略性支撑。在资源配置方面,需要强化规划衔接、政策协同,推动教育、科技、产业等多部门资源在人才培养这一共同目标下统筹配置。
2026-06-30 10:00
今年入夏以来,雷电、暴雨、大风等强对流天气轮番登场,其瞬间释放的破坏力令人心生畏惧。若身处人流密集区域,同行人不牵手,应立即进入安装有防雷装置的建筑物、金属车身的汽车等安全区域。
2026-06-30 10:00
美国核能初创企业Antares宣布,其在爱达荷国家实验室安装的小型模块化核反应堆“Mark-0”首次测试达到临界状态,成为特朗普政府发布加速核电发展行政命令以来,第一个突破这一门槛的新型反应堆设计。
2026-06-29 09:43
目前,油田油水井、站库的数字化覆盖率已分别超过97%和93%,物联网将油气生产的每一个末梢都纳入了智慧之网。
2026-06-29 09:41
中国共产党党员、中国工程院院士、著名金属材料专家、华中科技大学教授崔崑同志,因病医治无效,于2026年6月26日在武汉逝世,享年101岁。
2026-06-29 09:40
科学家成功把一束在纳米尺度下被高度囚禁的光,变成了一把能感知原子级形变的超级“尺子”,对材料内部埋藏的微小变形实现了无损探测。
2026-06-29 09:40
27日,国家重大科技基础设施“聚变堆主机关键系统综合研究设施”最大的超导部件——环向场磁体在安徽省合肥市完成最后制备工艺,并通过专家验收。
2026-06-29 09:37
加载更多