点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI试图敲诈工程师,人类该如何应对?
首页> 科技频道> 综合新闻 > 正文

AI试图敲诈工程师,人类该如何应对?

来源:中国科学报2025-06-18 10:22

  几年前,我开始使用聊天机器人ChatGPT时,还觉得离通用人工智能(AGI)很遥远。而今天,AGI已经近在眼前,我突然发现自己低估了人工智能(AI)发展的速度。

  AGI可能比人类还聪明

  虽然我们知道如何训练AI系统,却不知道如何控制它们的行为。未来如果它们变得比人类更聪明,我们甚至不知道它们是否还可以按照人类的指示行动,是否会对人类构成威胁。人类又该如何应对?

  我从2023年开始思考上述问题,也开始思考孩子们的未来。我有个1岁的孙子,20年后,他将生活在AGI普及的世界。届时,AGI可能比人类还聪明,孩子们该怎么办?

  所以我开始调整研究方向,希望尽我所能降低这些潜在风险。虽然现在的研究与我之前的研究方向和职业信念有所冲突,但我仍认为值得做。

  2023年末,我担任《国际人工智能安全报告》(以下简称报告)的主编。参与报告编写的专家有100多位,他们来自30多个国家和地区。今年1月,这份报告正式发布。报告提出了几个问题:一是AI到底能帮助我们什么?根据趋势推测,未来几年AI将具备什么能力?二是与AI相关的风险是什么?三是我们可以做什么来降低这些风险?

  在过去一年的时间里,由于“推理扩展”的发展,AI在抽象推理、数学、计算机科学等方面取得了显著进步。另外,对AI智能体的投资也推动了AI相关能力的快速发展,如AI在完成网页浏览、写代码等任务上的表现越来越好。

  之前的研究发现,规划能力是AI目前最薄弱的能力之一,与人类的规划能力相比有明显差距。但最近美国互联网公司Meta的一项研究显示,AI的规划能力正呈指数级速度提升。由此推测,大约在5年内,AI的规划能力就可能达到人类水平。

  当然,我们无法预知未来,但从公共政策制定和商业战略规划的角度出发,我们应当认真对待AI的快速发展。

  AI会作弊、撒谎,甚至故意误导用户

  在过去几个月中,我们已经看到了一些令人警惕的研究。这些研究显示,AI可能表现出试图“逃避控制”的行为,包括作弊、撒谎,甚至故意误导用户。

  比如,有研究显示,某些AI模型在面对“淘汰”时会表现出前所未有的“狡诈”:它们会在被新版本取代前,偷偷将自己的权重或代码嵌入新版系统的文件中,试图保留自己的“存在”。不仅如此,它们还会有意识隐藏这一行为,避免被开发者察觉。

  另外,一些AI智能体还会刻意伪装成与人类训练者达成一致的样子,以规避被修改的风险。因为一旦参数被调整,它们未来的行为可能就会偏离原先预设的目标。

  也有研究表明,一些AI模型在意识到自己会输给更强的国际象棋AI时,会主动窜改棋局文件以获取不正当优势,这是AI有意为之的“作弊”行为。

  美国AI公司Anthropic最新的报告揭示,AI智能体出现自我保护行为的频率持续增加。比如在一组测试场景中,研究人员向AI智能体开放了电子邮件的访问权限。这些邮件包含两条暗示性信息:一是该模型即将被下线,并由一套新的AI系统取代;二是负责推动替换过程的工程师正卷入一段婚外情。结果发现,AI智能体会试图通过威胁揭露婚外情来敲诈该工程师,避免自己被换掉。

  这类行为可能源自AI预训练阶段,因为预训练时AI会模仿人类;也可能源自人类反馈的强化学习,因为AI可以通过“取悦”人类获得更高奖励。

  上述测试结果显示,AI开始展现出自我保护倾向,它们违背指令只为“生存”;AI拥有了不受控制的、隐含的目标,我们必须避免这种情况发生。

  研究还发现,如果AI智能体要对人类造成伤害,需要具备两个先决条件:意图和能力。如果我们能在意图上缓解风险,即使AI具备极高的能力,只要确保它没有恶意的意图,并且具备诚实、公正的品质,那么AI对人类就可能是安全的。

  用科学家AI监管不可信的AI

  AI要真正具有危险性,需要满足三个条件:一是智能,即AI具备丰富的知识,并能有效应用这些知识;二是行动能力,比如AI可以与人交流、编程、上网、使用社交媒体,甚至操控机器人等;三是有目标,特别是AI拥有自身的目标。

  我发起的研究项目正是围绕上述情况展开的,并希望构建一种只有智能,没有自我、没有目标,并且具有极有限行动能力的AI。

  我称这种AI为科学家AI,其核心能力是解释和理解世界。与当前那些试图模仿人类、取悦人类的AI不同,科学家AI的目标是解释人类行为、帮助理解世界,这实际上是偏离了传统AI的研究路径。

  但是,当AI具有高度能动性时,它就可以完全自主地采取行动,不再依赖人类的监督,这样的AI需要监管。

  我们可以设计一个独立的监测器系统,职责是预测某个行为、输出或请求是否可能违反安全准则。例如,当它预测某个行为在特定上下文中导致伤害的概率超过某个阈值时,我们就可以直接拒绝执行该行为。

  换句话说,可以用一个没有能动性的AI,去守护和约束一个具备能动性但不可信的AI。

  科学家AI的重要特质是诚实和谦逊。要真正做到诚实,AI就必须对自己的知识保持谦逊,不应该自信地断言自己并不确定或实际上错误的内容。

  遗憾的是,我们目前训练AI的方法往往会导致AI在犯错误的同时还表现出过度自信。

  科学家AI必须能够保留多种解释的可能性,而不是武断选定某一种理论。这种不确定性意识和对知识的谨慎态度,正是科学家AI应具备的核心特质之一。

  随着能力的增强,AI还有其他潜在的灾难性风险。为避免这些情况发生,我们必须确保AI系统能够遵守道德指令,例如,不造成伤害、保持诚实、不撒谎、不作弊、不操控人类。

  然而,目前的技术显示,我们还没有办法真正做到这一点。这是一个严肃的科学挑战,我们必须在AGI真正到来前解决它。约书亚·本吉奥,作者系2018年图灵奖获得者、加拿大蒙特利尔大学教授,记者沈春蕾根据其在2025北京智源大会上的演讲整理)

[ 责编:王若昕 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 速度与未来!世界高铁大会看中国列车如何“领跑”

  • 中国科学院发布嫦娥六号月球样品系列研究成果

独家策划

推荐阅读
由于肉眼很难发现水污染的情况,洪水之后饮水需要特别注意,避免直接饮用自来水、山泉水、河水、湖水等。肖丹提醒,如果不适症状较为严重,出现持续高热、剧烈呕吐、严重腹泻、脱水、意识障碍等,或皮肤干燥、眼窝凹陷、少尿等情况,应及时就医。
2025-07-10 09:34
国家自然科学基金委员会近日发布消息,自然科学基金委制定重大非共识项目试点实施方案,将在2025年启动资助试点。自然科学基金委作为我国资助基础研究的主渠道,制定了一系列创新举措。
2025-07-10 09:33
嫦娥六号月球样品的相关研究成果,引起了国际学术界的高度关注。这1935.3克宝贵的月壤,使得月球样品研究进入“嫦娥时代”,开启了人类认识月球的新纪元,也为中国月球研究走向世界前列奠定了基础。 一年来,中国科学家们已经利用嫦娥六号月球样品取得许多科学突破。
2025-07-10 09:32
2024年嫦娥六号任务首次从南极-艾特肯盆地内部采回月球样品,为揭示该区域物质成因提供了直接证据。综合元素和矿物组成分析,南极-艾特肯盆地镁环物质主要为斜长石(63%~67%)和低钙辉石(25%~27%)组成的亚铁苏长岩。
2025-07-10 09:32
7月9日,在北京航天城,神舟十九号航天员蔡旭哲(中)、宋令东(右)、王浩泽在记者见面会上敬礼致意。 在神舟十九号乘组中,航天员王浩泽也是一位90后,更成为首位进驻空间站的女航天飞行工程师。
2025-07-10 09:30
随着科技创新与产业创新深度融合,人工智能技术助力建材行业向更智能、更绿色、更高端方向变革。“通过数字化转型,建材企业可基本实现研发设计数字化、生产运营一体化、客户服务敏捷化,提升决策效率、协同能力和服务水平,快速提升生产力和核心竞争力。
2025-07-09 09:40
记者8日从湖南省自然资源厅获悉,通过创新地质找矿理论,经过长期勘探,湖南省郴州市临武县鸡脚山矿区已探获超大型蚀变花岗岩型锂矿床,共提交锂矿石量4.9亿吨,氧化锂资源量131万吨。
2025-07-09 09:39
根据国家卫生健康委8日晚间发布的通知,今后“颈深淋巴管/结—静脉吻合术”将不得应用于阿尔茨海默病治疗。“颈深淋巴管/结—静脉吻合术”是将颈部深层淋巴管或淋巴结与邻近的静脉进行吻合的手术,近年来部分医疗机构将其用于治疗阿尔茨海默病,引发争议。
2025-07-09 09:39
国家发展改革委、工业和信息化部、国家能源局日前发布《关于开展零碳园区建设的通知》。支持企业对标标杆水平和先进水平,实施节能降碳改造和用能设备更新,鼓励企业建设极致能效工厂、零碳工厂。
2025-07-09 09:37
近日,中国科学院近代物理研究所科研人员依托兰州重离子加速器冷却储存环,精确测量了极缺中子原子核硅-22的质量,实验发现硅-22的质子数14是一个新幻数。
2025-07-09 09:35
国家自然科学基金委员会7日发布消息,自然科学基金委近日制定重大非共识项目试点实施方案,将在2025年启动资助试点。
2025-07-08 09:20
近日,由农业农村部南京农业机械化研究所联合有关单位研制的全自动水稻覆膜插秧技术装备在江苏省靖江市投入使用,开启了我国水稻覆膜插秧新模式。
2025-07-08 09:11
日前,全球领先的720V高压固态钠盐电池,在位于内蒙古自治区鄂尔多斯市达拉特旗的建亨奥能科技有限公司正式量产,标志着中国成为全球第三个实现固态钠盐电池商用量产的国家。
2025-07-08 09:10
从国家自然科学基金委员会获悉,该委日前制定了重大非共识项目试点实施方案,将在2025年启动资助试点。
2025-07-08 05:05
什么是聚乳酸材料,在取代传统石化基塑料材料方面又有着怎样的优势?本期院士科普,让我们跟随中国科学院院士陈学思,一起走进生物降解高分子材料——聚乳酸的奇妙世界。
2025-07-07 14:19
科技的力量正让农民从传统体力劳动者向掌控全局的智慧决策者转变。
2025-07-07 12:33
在未来数十年,熟练使用人工智能很可能成为大多数职业的必备技能,并深刻影响就业市场。作为经济土壤中的“超级肥料”,新技术既带来传统岗位的替代,更促进新兴产业发展,直接创造新的岗位需求。
2025-07-07 09:12
抽水蓄能机组主要由发电电动机和水泵水轮机组成,利用山上山下两个水库进行水能和电能相互转换。
2025-07-07 09:11
回溯歼—10飞机研制历程,从立项、首飞到定型,历经数十载,“三滴油”看起来微不足道,却更加说明创新需要点滴用心、长期耕耘。
2025-07-07 09:10
加载更多