点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI试图敲诈工程师,人类该如何应对?
首页> 科技频道> 综合新闻 > 正文

AI试图敲诈工程师,人类该如何应对?

来源:中国科学报2025-06-18 10:22

  几年前,我开始使用聊天机器人ChatGPT时,还觉得离通用人工智能(AGI)很遥远。而今天,AGI已经近在眼前,我突然发现自己低估了人工智能(AI)发展的速度。

  AGI可能比人类还聪明

  虽然我们知道如何训练AI系统,却不知道如何控制它们的行为。未来如果它们变得比人类更聪明,我们甚至不知道它们是否还可以按照人类的指示行动,是否会对人类构成威胁。人类又该如何应对?

  我从2023年开始思考上述问题,也开始思考孩子们的未来。我有个1岁的孙子,20年后,他将生活在AGI普及的世界。届时,AGI可能比人类还聪明,孩子们该怎么办?

  所以我开始调整研究方向,希望尽我所能降低这些潜在风险。虽然现在的研究与我之前的研究方向和职业信念有所冲突,但我仍认为值得做。

  2023年末,我担任《国际人工智能安全报告》(以下简称报告)的主编。参与报告编写的专家有100多位,他们来自30多个国家和地区。今年1月,这份报告正式发布。报告提出了几个问题:一是AI到底能帮助我们什么?根据趋势推测,未来几年AI将具备什么能力?二是与AI相关的风险是什么?三是我们可以做什么来降低这些风险?

  在过去一年的时间里,由于“推理扩展”的发展,AI在抽象推理、数学、计算机科学等方面取得了显著进步。另外,对AI智能体的投资也推动了AI相关能力的快速发展,如AI在完成网页浏览、写代码等任务上的表现越来越好。

  之前的研究发现,规划能力是AI目前最薄弱的能力之一,与人类的规划能力相比有明显差距。但最近美国互联网公司Meta的一项研究显示,AI的规划能力正呈指数级速度提升。由此推测,大约在5年内,AI的规划能力就可能达到人类水平。

  当然,我们无法预知未来,但从公共政策制定和商业战略规划的角度出发,我们应当认真对待AI的快速发展。

  AI会作弊、撒谎,甚至故意误导用户

  在过去几个月中,我们已经看到了一些令人警惕的研究。这些研究显示,AI可能表现出试图“逃避控制”的行为,包括作弊、撒谎,甚至故意误导用户。

  比如,有研究显示,某些AI模型在面对“淘汰”时会表现出前所未有的“狡诈”:它们会在被新版本取代前,偷偷将自己的权重或代码嵌入新版系统的文件中,试图保留自己的“存在”。不仅如此,它们还会有意识隐藏这一行为,避免被开发者察觉。

  另外,一些AI智能体还会刻意伪装成与人类训练者达成一致的样子,以规避被修改的风险。因为一旦参数被调整,它们未来的行为可能就会偏离原先预设的目标。

  也有研究表明,一些AI模型在意识到自己会输给更强的国际象棋AI时,会主动窜改棋局文件以获取不正当优势,这是AI有意为之的“作弊”行为。

  美国AI公司Anthropic最新的报告揭示,AI智能体出现自我保护行为的频率持续增加。比如在一组测试场景中,研究人员向AI智能体开放了电子邮件的访问权限。这些邮件包含两条暗示性信息:一是该模型即将被下线,并由一套新的AI系统取代;二是负责推动替换过程的工程师正卷入一段婚外情。结果发现,AI智能体会试图通过威胁揭露婚外情来敲诈该工程师,避免自己被换掉。

  这类行为可能源自AI预训练阶段,因为预训练时AI会模仿人类;也可能源自人类反馈的强化学习,因为AI可以通过“取悦”人类获得更高奖励。

  上述测试结果显示,AI开始展现出自我保护倾向,它们违背指令只为“生存”;AI拥有了不受控制的、隐含的目标,我们必须避免这种情况发生。

  研究还发现,如果AI智能体要对人类造成伤害,需要具备两个先决条件:意图和能力。如果我们能在意图上缓解风险,即使AI具备极高的能力,只要确保它没有恶意的意图,并且具备诚实、公正的品质,那么AI对人类就可能是安全的。

  用科学家AI监管不可信的AI

  AI要真正具有危险性,需要满足三个条件:一是智能,即AI具备丰富的知识,并能有效应用这些知识;二是行动能力,比如AI可以与人交流、编程、上网、使用社交媒体,甚至操控机器人等;三是有目标,特别是AI拥有自身的目标。

  我发起的研究项目正是围绕上述情况展开的,并希望构建一种只有智能,没有自我、没有目标,并且具有极有限行动能力的AI。

  我称这种AI为科学家AI,其核心能力是解释和理解世界。与当前那些试图模仿人类、取悦人类的AI不同,科学家AI的目标是解释人类行为、帮助理解世界,这实际上是偏离了传统AI的研究路径。

  但是,当AI具有高度能动性时,它就可以完全自主地采取行动,不再依赖人类的监督,这样的AI需要监管。

  我们可以设计一个独立的监测器系统,职责是预测某个行为、输出或请求是否可能违反安全准则。例如,当它预测某个行为在特定上下文中导致伤害的概率超过某个阈值时,我们就可以直接拒绝执行该行为。

  换句话说,可以用一个没有能动性的AI,去守护和约束一个具备能动性但不可信的AI。

  科学家AI的重要特质是诚实和谦逊。要真正做到诚实,AI就必须对自己的知识保持谦逊,不应该自信地断言自己并不确定或实际上错误的内容。

  遗憾的是,我们目前训练AI的方法往往会导致AI在犯错误的同时还表现出过度自信。

  科学家AI必须能够保留多种解释的可能性,而不是武断选定某一种理论。这种不确定性意识和对知识的谨慎态度,正是科学家AI应具备的核心特质之一。

  随着能力的增强,AI还有其他潜在的灾难性风险。为避免这些情况发生,我们必须确保AI系统能够遵守道德指令,例如,不造成伤害、保持诚实、不撒谎、不作弊、不操控人类。

  然而,目前的技术显示,我们还没有办法真正做到这一点。这是一个严肃的科学挑战,我们必须在AGI真正到来前解决它。约书亚·本吉奥,作者系2018年图灵奖获得者、加拿大蒙特利尔大学教授,记者沈春蕾根据其在2025北京智源大会上的演讲整理)

[ 责编:王若昕 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平会见塞尔维亚总统武契奇

  • 习近平会见刚果(布)总统萨苏

独家策划

推荐阅读
据世界气象组织2日发布的厄尔尼诺/拉尼娜现象最新通报,拉尼娜现象有可能从今年9月起回归并影响未来数月的全球天气和气候状况。拉尼娜现象是指赤道太平洋东部和中部海水大范围持续异常变冷的现象,而厄尔尼诺现象则是指太平洋赤道海域海水大范围持续异常升温的现象。
2025-09-04 09:47
这种说法缺乏科学依据。
2025-09-04 09:44
正确掌握储存技巧和使用习惯,才能发挥冰箱的功能,保障家人饮食健康。
2025-09-04 09:39
这不是惊悚小说,也不是玄幻剧,而是世代生活在海边的人们,和海洋巨兽的别样相遇——这是鲸和海豚的骨头。从意外搁浅偶然获得,到渔业生产相对频繁打捞,闽南的“新鱼骨庙”(阴庙)呈现出和历史上的鱼骨庙截然不同的样貌。
2025-09-04 09:37
9月3日,某潜艇支队某艇员队组织收看阅兵仪式直播,铿锵有力的步伐、全新亮相的装备、转型跨越的成就,让他们动容,更让他们振奋。南昌舰的入列,标志着海军驱逐舰实现由第三代向第四代的跨越,首次突破万吨级设计,在航母编队体系作战中发挥重要作用。
2025-09-04 09:32
日前,我国科学家近日成功研制出超宽带光电融合集成系统,首次实现全频段、灵活可调谐的高速无线通信,有望为未来更畅通可靠的6G无线通信提供保障。为此,北京大学、香港城市大学组成的联合研究团队,历经4年,自主研发出超宽带光电融合集成系统。
2025-09-03 10:01
近日,由中国农业科学院烟草研究所牵头完成的“基于耐盐植物和土壤调理剂的滨海盐碱地高效利用技术创制与应用”项目获2024年度青岛市科技进步奖二等奖,为滨海盐碱地的综合治理与高效利用提供了新方案。基于各项研究,团队开发了4种抗盐剂、2种盐碱地土壤调理剂等盐碱地培肥改良系列产品,为盐碱地快速培肥和障碍消减提供了有力支撑。
2025-09-03 10:01
9月1日起,由工业和信息化部等五部门联合修订的强制性国家标准《电动自行车安全技术规范》(GB 17761—2024)正式实施。新国标进一步增强了电动自行车的智能化功能,增加了北斗定位、通信和动态安全监测功能。
2025-09-03 10:00
作为第十五届全国运动会增设的群众赛事项目,被称为“空中F1”的无人机竞速备受瞩目,该项赛事决赛举办地深圳近日也掀起了无人机竞速热潮,市民和游客在公园里就能过一把“飞行瘾”。据介绍,深圳中心公园位于深圳核心区域,无论是深圳还是粤港澳大湾区其他城市的无人机爱好者,都能轻松快捷到达这里。
2025-09-03 10:00
油菜、白菜、甘蓝、萝卜是大众最熟悉的十字花科作物,也是食用油和蔬菜的主要来源,然而它们都受到同一种毁灭性病害——根肿病的威胁。基于GSL5功能研究和团队所创制的材料,他们还揭示了有趣的病菌与寄主的互作关系,即病菌致病和寄主抗病反应机制。
2025-09-03 10:00
点击羽绒服胸前的按钮,2秒即可速热,实现四档温度调节……1日,在哈尔滨举行的第七届中国国际新材料产业博览会现场,一款造型时尚的智能温控羽绒服吸引不少观展者驻足围观。
2025-09-02 10:23
当地时间9月1日,世界知识产权组织发布最新报告显示,今年的全球创新指数(GII)集群研究将风险资本交易活动作为一项新指标。全球创新指数集群排行榜于2017年创设,通过三项核心指标,识别世界级创新活动在当地的集中程度。
2025-09-02 10:21
强制性国家标准《电动自行车安全技术规范》昨起实施。为保障新国标在本市顺利推行,近日,市市场监管局组织召开在京销售电动自行车生产经营企业约谈指导会。为保障新国标平稳落地实施,本市市场监管部门将强化监督抽检,保障本市电动自行车产品质量安全。
2025-09-02 10:18
会空翻、格斗,能叠衣、调饮,善聊天、“思考”……前不久举行的2025世界机器人大会上,各类机器人本领“进化”、各显神通,展现了人工智能的巨大潜力。如今,从旅游出行的智能助手,到工厂培训的“最强大脑”,再到装备升级的有力支撑,人工智能扮演着越来越重要的角色。
2025-09-02 10:15
零碳园区的建设,对于推动我国经济社会发展全面绿色转型具有重要意义。节能降碳,光靠“外套保温”不够,在园区地上、地下,还有“血液循环”系统来“保持恒温”。
2025-09-02 10:15
在这条新的赛道上,中国青年正在奋力奔跑。
2025-09-02 09:59
记者近日从国家发展改革委获悉,围绕《关于深入实施“人工智能+”行动的意见》(以下简称《意见》),相关部门将制定出台一系列配套文件。具体来看,一方面将围绕《意见》提出的6大行动若干重点行业领域,分别制定“人工智能+”具体实施方案,进一步细化各行业目标任务、重点方向和工作举措。
2025-09-01 09:56
8月26日,国务院印发《关于深入实施“人工智能+”行动的意见》。大力发展智能农机、农业无人机、农业机器人等智能装备,提高农业生产和加工工具的智能感知、决策、控制、作业等能力,强化农机农具平台化、智能化管理。
2025-09-01 09:55
生产车间里,抽气泵凹槽上蒸汽弥漫,极细的金属导体经过氯化液处理,三次涂漆后,再附上绝缘漆膜,最终制成直径仅0.012毫米的成品电磁线。 银西产业园甘肃康视达隐形眼镜有限公司的厂房内,智能化生产线高效运转,无人搬运车有序穿梭,整个流程高度自动化。
2025-09-01 09:53
江南大学是一所以轻工特色见长的“双一流”建设高校,发酵工程学科凭借深厚的学科积淀和前瞻性布局,成功跻身国家“A+”学科行列。学校与发酵行业龙头企业共建16个联合研究中心,聘请16名教授级高工和国家级科创人才担任工程技术导师,推动研究生深入产业一线。
2025-09-01 09:52
加载更多