清华大学黄民烈团队：发布安全评估框架促大模型迈向可控可信

来源：中国新闻网2023-03-31 13:24

　　中新网北京3月27日电 (贾君玉张素)记者近日采访清华大学计算机科学与技术系长聘副教授黄民烈获悉，历时两年多时间，由他带领的科研团队建立了大模型安全分类体系，并从系统层面和模型层面等打造了大模型安全框架。

　　近年来，随着技术突破，大模型获得快速发展并在多个场景得到应用。不过，其存在的事实性错误、知识盲区等问题，以及面临的训练数据来源合规性、生成内容安全性等风险，也已受到广泛关注。

　　在黄民烈看来，要规避安全风险，降低人工智能对人类的负面影响，关键在于大模型底座。“大规模语言模型(LLM)发展到现在，模型结构和规模已有很大进展，但实用性还有待加强，我们应该通过技术让模型更加安全、可控，使其快速适配更多的应用场景。”他说。

　　此次，聆心智能联合清华大学CoAI实验室共同发布大模型安全评估框架。作为聆心智能的创始人，黄民烈介绍说，他们希望通过对大模型应用边界进行定义，促进大模型生态健康发展，推动人工智能研究和应用向更有用、更可信、更安全迈进。

　　据知，黄民烈团队建立的大模型安全分类体系中设定的不安全对话场景，包括犯罪违法、身体健康、心理健康、财产隐私、歧视/偏见、辱骂/仇恨言论等方面。科研人员针对这些安全场景对大模型进行升级，使之具备基本的安全性，“能够在遇到安全问题时给予正确的回复策略，不进行判断误导”。

　　此外，着眼于容易触发的安全问题类型，科研团队还总结、设计出一般模型难以处理的“安全攻击方式”，使安全体系更加完善。

　　黄民烈表示，未来，他们将打造中文大模型的安全风险评估的Leaderboard，为国内对话大模型的安全评估提供公平公开的测试平台，并提供针对中文对话的安全场景等，“依托自身核心技术，在可控可信的超拟人大模型基础之上，通过建立安全、可控的模型边界，让人工智能提供可信、可靠的输出”。(完)

[ 责编：张佳兴 ]

阅读剩余全文（）

您此时的心情

新闻表情排行日/周

开心

0
难过

0
点赞

0
飘过

0

视觉焦点

从田园到餐桌：链博会里看中外美食
辉煌60载魅力新西藏

最热文章

推荐阅读

周尧：以虫治虫护麦田学术正名扬国威

从意大利实验室到西北农学院，从抗战时期到和平年代，周尧用70年时光让中国昆虫学从5%的定名权走向自主。

2025-07-18 09:06

我国每万人口高价值发明专利拥有量15.3件

记者从会上获悉，截至今年6月，我国每万人口高价值发明专利拥有量已达到15.3件，提前实现“十四五”规划预期的12件目标。

2025-07-18 09:04

太阳系外“起点时刻”现象首次捕获

而在此次观测中，天文学家发现，在HOPS-315及其周围的原始星盘中，不仅存在固态的结晶矿物，还存在气态的一氧化硅。

2025-07-18 09:04

两部门发文攻关十大产业计量问题

旨在充分发挥计量支撑产业新质生产力发展的基础保障作用，推动“溯源链、创新链、产业链”融合发展，使计量成为促进产业新质生产力发展的催化器和引擎。

2025-07-18 09:04

水稻多器官单细胞多组学图谱问世

该所作物耐逆性调控与改良创新团队日前联合国内外研究机构，构建了首个水稻的多器官单细胞多组学图谱，

2025-07-18 04:30

科学家揭示太阳活动对我国夏季降水影响有望助力中长期气候预测

太阳是地球气候系统的主要能量来源，其活动通过总辐射、紫外辐射、高能粒子沉降等多种形式影响地球大气。近年来，我国夏季降水雨带呈现出持续北移的趋势。

2025-07-18 04:30

AI的“察言观色” 人机语言交互如何更有温度

人机语言交互的“温度”，其核心在于能否实现情感共鸣、文化适配与价值传递。语言不仅是信息符号，更是心灵沟通的桥梁。为冰冷的代码注入人文温度，需在技术突破与设计理念上双轨并进。

2025-07-17 04:30

人类何时开始大规模用火？

近日，中国科学院海洋研究所万世明团队，基于海洋沉积物中的黑碳记录，重建了过去30万年以来东亚北部的古火演化历史，结合欧洲、东亚、东南亚及澳大利亚区域的记录以及考古遗址大数据，发现现代人类大规模用火始于约5万年前。

2025-07-17 04:30

翼伞的前世今生与未来之光

在飞行器大家庭中，有一类特别的成员——翼伞。它们没有刚硬的机翼，却凭着一片巨大柔软的“翅膀”，借助风力优雅地翱翔于天际；它们结构看似简单，却蕴含着空气动力学的精妙智慧。翼伞是融合古老降落伞原理与现代智能科技的独特柔性无人飞行器，包含翼、控制系统、负载，如果加上推力系统，就可化身为伞翼无人机。

2025-07-17 04:30

工业和信息化部拟制定移动电源强制性国家标准

近年来，移动电源行业呈现出较为迅速的发展趋势。与此同时，移动电源安全事故频发，严重威胁消费者生命财产安全。通过制定强制性国家标准，

2025-07-17 03:55

首个枸杞属植物国际测试标准问世

由该院枸杞科学研究所联合中国林业科学院林业研究所编制的《枸杞属植物新品种特异性、一致性、稳定性测试指南》获得国际植物新品种保护联盟通过。

2025-07-17 04:00

我科学家发现拟南芥叶片衰老“开关”

武汉华大生命科学研究院联合南方科技大学等单位，在单细胞水平上成功解密了拟南芥叶片衰老的过程。

2025-07-16 10:44

中国最大海上气田这样建成

不只是产量最大，“深海一号”大气田还是我国迄今为止自主开发建设的作业水深最深、地层温压最高、勘探开发难度最大的深水气田。

2025-07-16 10:42

我国正研制《卓越工程师培养认证标准》

我国正研制《卓越工程师培养认证标准》，该标准是保障卓越工程师培养从“样板间”走向宏大队伍的基础。

2025-07-16 10:39

新技术+“老把式”，提升监测预警能力

七月下半月和八月上半月是我国主汛期的最重要阶段，应急管理部指导各地加强灾害风险隐患信息报送队伍建设，开展广泛培训，目前总人数已达115万人。

2025-07-16 10:25

暑期未成年人网络环境整治专项行动开展

为强化未成年人网络保护，营造良好网络环境，近日，中央网信办印发通知，在全国范围内部署开展为期2个月的“清朗·2025年暑期未成年人网络环境整治”专项行动。

2025-07-16 10:23

加快推动人工智能赋能新型工业化

新时代新征程，以中国式现代化全面推进强国建设、民族复兴伟业，实现新型工业化是关键任务。

2025-07-15 04:10

人工智能赋能新型工业化的作用机制

现阶段，人工智能赋能新型工业化已取得明显成效，但仍存在人工智能关键硬件与开源软件储备不足、人工智能在重点行业领域应用率偏低、人工智能领域人才短缺且结构不合理、缺乏适应人工智能发展的标准体系和法律法规等问题。

2025-07-15 04:10

人形机器人：在机遇与挑战中勇闯新路

2025年可谓人形机器人的“破圈”之年。从蛇年春晚舞台的机器人扭秧歌，到北京亦庄的机器人马拉松，再到浙江杭州的机器人格斗赛……人形机器人正从“实验室”迈向各类“应用场”。

2025-07-15 02:55

对话来自深海的“记忆”

科考船在狂风巨浪中剧烈摇摆，寻找渺小的目标如同大海捞针。回收沉睡海底半年的海底地震仪，是这次出海科研任务中最艰难的一环。“快看！在那儿！”随着一声疾呼划破沉寂，

2025-07-15 02:55

加载更多

全部导航

清华大学黄民烈团队：发布安全评估框架促大模型迈向可控可信

相关阅读

您此时的心情

视觉焦点

最热文章

独家策划

全部导航

清华大学黄民烈团队：发布安全评估框架 促大模型迈向可控可信

相关阅读

您此时的心情

视觉焦点

最热文章

独家策划

清华大学黄民烈团队：发布安全评估框架促大模型迈向可控可信