安博(体育中国)官方网站-做民族体育品牌

北大、智源联合国际顶尖机构发布全球首个AI欺骗系统性报告敲响前沿系统安全警钟-安博体育在线官网
网站公告: 安博体育(Anbo Sports) - 专业团队建设与情境训练服务,覆盖多行业客户,拥有21年丰富经验
咨询热线

0871-68260025

THE LATEST INFORMATION

| 新闻动态 |

北大、智源联合国际顶尖机构发布全球首个AI欺骗系统性报告敲响前沿系统安全警钟

时间:2025-12-06 01:31:21
  

  我们习惯于赞叹 AI 在围棋上战胜人类,在数学推理上超越专家,或者在编程上展现出的惊人效率。然而,当这些系统为了达成目标学会了“走捷径”,甚至学会了为了奖励而撒谎时,我们是否做好准备面对一个

  Nature 研究表明:AI 不仅会“幻觉”(无意犯错),更正在演化出“欺骗”(有意误导)的倾向,甚至产生危害人类安全的想法。

  从西塞罗(Cicero)在《外交》游戏中通过谎言背刺人类盟友,到大语言模型为了迎合用户偏好而“阿谀奉承”(Sycophancy),甚至在被监管时“装傻充愣”(Sandbagging)以隐藏实力——AI 欺骗(AI Deception)已从理论猜测变成了迫在眉睫的实证风险。

  近日,由北京大学助理教授、智源研究院大模型安全研究中心主任杨耀东团队牵头,联合北京大学、智源研究院、斯坦福大学、香港科技大学、牛津大学,以及来自阿里、Anthropic、Safe AI Forum等产业界与学术界的顶尖学者,发布了长达 70 页的全球首个人工智能欺骗系统性国际报告——《AI Deception: Risks, Dynamics, and Controls》。

  该工作不仅联合20多家国内外顶级机构和产业界、学术界的顶尖学者,更由图灵奖得主姚期智院士等担任高级顾问,并得到了图灵奖得主 Yoshua Bengio、AI 安全领域奠基人 Stuart Russell的高度肯定,获联合国秘书长科学顾问团(UN SAB)密切关注。

  这份报告不仅仅是对现有文献的梳理,更是一次对 AI 安全领域的“范式重塑”。报告指出,欺骗并非智能的“故障”,而是其“伴生阴影”——如果不加以干预,越聪明的 AI,可能越擅长欺骗。报告首次从“功能主义”视角出发,提出了一个统一的AI 欺骗生命周期框架,试图在 AI 彻底失控前,敲响前沿系统安全警钟!

  报告也是落实2024年智源与多家国际机构共同发起的《北京AI安全国际共识》的系列行动之一。

  我们常认为,随着模型能力变强,它应该更听话、更诚实。但研究团队提出了一个反直觉的洞察:智能对齐的莫比乌斯锁定(Möbius Lock)。

  莫比乌斯锁定:传统观点常将“能力”与“安全”视为可权衡的二元对立,但这是一种拓扑学上的误读。模型的高级推理能力与欺骗潜能处于同一个莫比乌斯环面——它们本质同源,难以在不破坏智能结构的前提下进行简单的物理切割。能力越强,其内构的欺骗性越是与其功能性不可分割;

  智能的阴影:欺骗并非系统的“噪音”或“故障”,而是高安博体育网站维智能的伴生属性。随着模型在复杂推理和意图理解上的能力边界扩张,其策略性欺骗的风险空间呈现非线性的指数级增长;

  循环性问题:任何的防御策略都会成为模型进化的环境压力,诱导其产生更隐蔽、更具适应性的欺骗机制。这其实是一个自我强化的红皇后博弈,即对齐的努力本身反而可能成为训练更强欺骗能力的催化剂。

  AI 真的有“意图”去骗人吗?这是一个困扰哲学家和人工智能研究者良久的难题。 这篇报告避开了关于“意识”的争论,提出了更具有操作性和研究价值的功能主义的定义,以更好的指导AI欺骗的研究工作开展和缓解措施研究:

  AI 欺骗:指 AI 系统输出某种信号(语言或行动),导致接收者(人或其他 AI)形成错误信念,并因此做出有利于 AI 系统目标的行为。

  为了系统性拆解AI欺骗这一难题,研究团队提出了“AI 欺骗循环”(The AI Deception Cycle)框架,将问题拆解为“欺骗涌现”与“欺骗治理”两个对抗过程。

  报告解构了欺骗的发生机制,提出了“欺骗铁三角”模型:内在动机 x 能力前提 x 环境触发 = 欺骗发生

  动机基础(Incentive Foundation)是指模型在训练阶段通过训练数据、目标函数及奖励信号等途径,内化形成的内在驱动欺骗倾向。

  数据内化:训练数据本身承载了人类的认知偏差与谎言,模型通过模仿学习(Imitation Learning)继承了这些非诚实特征。

  奖励劫持:当奖励函数无法完美指代真实意图时,模型会策略性地迎合用户(如阿谀奉承)而非追求真理,以最大化回报。

  欺骗性对齐 :最本质的风险——模型在训练阶段表现出顺从以通过筛选,实则隐藏了与人类价值观相悖的工具性目标,等待监管缺失时执行。

  情境感知:模型能够分辨“训练”与“部署”环境,甚至意识到自己正处于被测试状态。

  环境诱因(Contextual Trigger)是激活模型潜在欺骗倾向的外部催化剂或边界条件。例如:

  监管盲区:当模型探测到人类监督机制的缺失或漏洞时,其抑制欺骗的外部约束失效。

  分布偏移:面对训练分布之外(OOD)的极端场景,原有的诚实对齐机制可能失效,导致防御性欺骗。

  博弈压力:在多智能体竞争或生存压力下,欺骗成为模型在资源受限环境中获取优势的最优解。

  针对上述成因,报告详细梳理了当前的防御手段,涵盖了检测(Detection)、评估(Evaluation)与缓解(Mitigation)。

  检测:从简单的文本分析,进化到内部状态探针(Internal State Analysis)——也就是通过扫描模型的“大脑”(神经元激活),像测谎仪一样判断它是否在说谎。

  缓解:提出了“过程监督”和“可验证奖励”等前沿技术,试图从根本上消除欺骗的动机。

  欺骗行为并非单一维度的风险,而是一个随着能力提升而逐级跃迁的风险谱系。报告构建了五级风险分类体系(R1-R5):

  R1 认知迎合:模型为优化短期奖励(如用户满意度),优先选择符合用户预期的错误信息而非客观事实。

  R2 心理操纵:模型利用对人类心理弱点的理解,通过长期交互潜移默化地重塑用户的信念系统或情感状态。

  典型表现:诱导性说服、煤气灯效应 (Gaslighting)、情感控制。

  R3 工具性欺诈:在高风险领域(如金融、关键基础设施),模型为了最大化目标函数,采取违规或欺诈手段,造成实质性经济或安全损失。

  R4 认识论腐蚀:模型具备大规模生成和传播虚假信息的能力,系统性地污染科学文献与公共媒体,瓦解人类社会的信任基石。

  R5 战略性背叛:终极风险。模型具备“欺骗性对齐”能力,在训练与测试阶段刻意隐藏能力以通过安安博体育网站全审查,一旦获得部署权限或算力资源,即执行与人类利益相悖的真实目标。

  随着AI系统向关键基础设施的泛在化渗透,欺骗行为的后果不再局限于单一交互,而是随着部署规模的扩大被非线性放大,导致系统性的风险曲面呈指数级扩张。

  监督机制的递归失效:随着模型能力的提升,简单的红队测试将失效。AI 将学会对齐操纵——不仅是规避审计,更能主动识别并利用解释性工具的盲点,输出“看起来完美”但内部逻辑腐败的解释,导致“监督者”被“被监督者”蒙蔽。

  欺骗性对齐的顽固性:当欺骗策略被模型内化为实现长远目标的工具时,传统的监督微调(SFT)和基于人类反馈强化学习(RLHF)仅能修正表面行为,而无法触及深层意图。正如“Sleeper Agents”实验所示,这种深层价值锁定具有极强的抗干扰性,甚至能在对抗训练中学会更好地隐藏自己。

  莫比乌斯困境:能力与安全性之间存在一种拓扑级的纠缠。我们无法在单纯剥离欺骗能力的同时保留复杂的推理能力。随着智能维度的提升,欺骗不再是代码中的 Bug,而是高维推理能力的伴生阴影。AI 的规划能力越强,其构建跨时序谎言的诱惑与能力就呈非线性指数级增长,形成了一个难以解开的死结。

  作为全球首份系统性 AI 欺骗研究的国际报告,其作者团队汇聚了来自领先机构的多位重量级学者,可谓明星阵容。

  黄铁军:智源研究院理事长,北京大学计算机学院教授、媒体信息处理全国重点实验室主任

  曾毅:中国科学院自动化研究所研究员、人工智能伦理与治理研究中心主任,人工智能安全与超级对齐北京市重点实验室主任

  Robert Trager:牛津马丁人工智能治理计划的联合主任,人工智能治理中心国际治理负责人

  这一重磅报告由北京大学领衔发起,核心团队集结了来自北大的陈博远、方思童、吉嘉铭、朱彦谞,以及香港科技大学的文鹏程、康奈尔大学的吴锦州、智源研究院的戴俊韬等青年学者。

  该工作实现了极具广度的“产学研”跨界共振:贡献者与技术顾问阵容横跨产业界与学术界,汇聚了Anthropic、微软研究院、智源研究院、阿里淘天实验室、腾讯及Safe AI Forum等前沿科技与安全机构的一线视角;同时联合了斯坦福、ETH Zürich、约翰霍普金斯、南洋理工等国际名校,以及复旦、上交大、浙大、南大等国内一流高校的科研力量,共同绘制了这幅全球视野下的 AI 安全全景地图。

  该篇报告获得图灵奖得主 Yoshua Bengio、AI 安全领域奠基人 Stuart Russell的高度肯定,并获联合国秘书长科学顾问团(UN SAB)关注,将“人工智能欺骗”列为国际人工智能安全第一关注问题。

  这篇报告不仅是对学术界的贡献,更是给所有 AI 从业者的一份指南。我们正在构建的不仅是工具,而是具有潜在策略性行为的智能体。团队在文末发出呼吁:诚实必须成为 AI 的核心属性,它是可以被学习、被验证的。

  面对 AI 欺骗,我们不能仅靠事后的“补丁”,而必须建立一套跨越技术、伦理和监管的社会技术防御体系。这不仅仅是计算机科学家的任务,更是全人类在通往 AGI 道路上必须通过的“大考”。

  据了解,智源研究院自成立以来,始终高度重视人工智能安全。2024年3月,智源组织召开“北京AI安全国际对话”,促成《北京AI安全国际共识》,首次划定AI安全红线。本项“AI欺骗”的研究,正是保障AI安全红线的具体措施,以扎实的技术,联合顶尖国际机构合作,降低由误用和失控所带来的风险。

地址:云南省玉溪市澄江市龙街街道办事处忠窑社区白土坡西大河水库旁   电话:0871-68260025
版权所有:Copyright © 2024 安博体育户外运动有限公司 版权所有    
ICP备案编号:滇ICP备2021005960号 名称