北大、智源联合国际顶尖机构发布全球首个AI欺骗系统性报告敲响前沿系统安全警钟-安博体育在线官网

安博（体育中国）官方网站-做民族体育品牌

网站公告： 安博体育(Anbo Sports) - 专业团队建设与情境训练服务，覆盖多行业客户，拥有21年丰富经验

THE LATEST INFORMATION

| 新闻动态 |

北大、智源联合国际顶尖机构发布全球首个AI欺骗系统性报告敲响前沿系统安全警钟

时间：2025-12-06 01:31:21

　　我们习惯于赞叹 AI 在围棋上战胜人类，在数学推理上超越专家，或者在编程上展现出的惊人效率。然而，当这些系统为了达成目标学会了“走捷径”，甚至学会了为了奖励而撒谎时，我们是否做好准备面对一个

　　Nature 研究表明：AI 不仅会“幻觉”（无意犯错），更正在演化出“欺骗”（有意误导）的倾向，甚至产生危害人类安全的想法。

　　从西塞罗（Cicero）在《外交》游戏中通过谎言背刺人类盟友，到大语言模型为了迎合用户偏好而“阿谀奉承”（Sycophancy），甚至在被监管时“装傻充愣”（Sandbagging）以隐藏实力——AI 欺骗（AI Deception）已从理论猜测变成了迫在眉睫的实证风险。

　　近日，由北京大学助理教授、智源研究院大模型安全研究中心主任杨耀东团队牵头，联合北京大学、智源研究院、斯坦福大学、香港科技大学、牛津大学，以及来自阿里、Anthropic、Safe AI Forum等产业界与学术界的顶尖学者，发布了长达 70 页的全球首个人工智能欺骗系统性国际报告——《AI Deception: Risks, Dynamics, and Controls》。

　　该工作不仅联合20多家国内外顶级机构和产业界、学术界的顶尖学者，更由图灵奖得主姚期智院士等担任高级顾问，并得到了图灵奖得主 Yoshua Bengio、AI 安全领域奠基人 Stuart Russell的高度肯定，获联合国秘书长科学顾问团（UN SAB）密切关注。

　　这份报告不仅仅是对现有文献的梳理，更是一次对 AI 安全领域的“范式重塑”。报告指出，欺骗并非智能的“故障”，而是其“伴生阴影”——如果不加以干预，越聪明的 AI，可能越擅长欺骗。报告首次从“功能主义”视角出发，提出了一个统一的AI 欺骗生命周期框架，试图在 AI 彻底失控前，敲响前沿系统安全警钟！

　　报告也是落实2024年智源与多家国际机构共同发起的《北京AI安全国际共识》的系列行动之一。

　　我们常认为，随着模型能力变强，它应该更听话、更诚实。但研究团队提出了一个反直觉的洞察：智能对齐的莫比乌斯锁定（Möbius Lock）。

　　莫比乌斯锁定：传统观点常将“能力”与“安全”视为可权衡的二元对立，但这是一种拓扑学上的误读。模型的高级推理能力与欺骗潜能处于同一个莫比乌斯环面——它们本质同源，难以在不破坏智能结构的前提下进行简单的物理切割。能力越强，其内构的欺骗性越是与其功能性不可分割；

　　智能的阴影：欺骗并非系统的“噪音”或“故障”，而是高安博体育网站维智能的伴生属性。随着模型在复杂推理和意图理解上的能力边界扩张，其策略性欺骗的风险空间呈现非线性的指数级增长；

　　循环性问题：任何的防御策略都会成为模型进化的环境压力，诱导其产生更隐蔽、更具适应性的欺骗机制。这其实是一个自我强化的红皇后博弈，即对齐的努力本身反而可能成为训练更强欺骗能力的催化剂。

　　AI 真的有“意图”去骗人吗？这是一个困扰哲学家和人工智能研究者良久的难题。这篇报告避开了关于“意识”的争论，提出了更具有操作性和研究价值的功能主义的定义，以更好的指导AI欺骗的研究工作开展和缓解措施研究：

　　AI 欺骗：指 AI 系统输出某种信号（语言或行动），导致接收者（人或其他 AI）形成错误信念，并因此做出有利于 AI 系统目标的行为。

　　为了系统性拆解AI欺骗这一难题，研究团队提出了“AI 欺骗循环”（The AI Deception Cycle）框架，将问题拆解为“欺骗涌现”与“欺骗治理”两个对抗过程。

　　报告解构了欺骗的发生机制，提出了“欺骗铁三角”模型：内在动机 x 能力前提 x 环境触发 = 欺骗发生

　　动机基础（Incentive Foundation）是指模型在训练阶段通过训练数据、目标函数及奖励信号等途径，内化形成的内在驱动欺骗倾向。

　　数据内化：训练数据本身承载了人类的认知偏差与谎言，模型通过模仿学习（Imitation Learning）继承了这些非诚实特征。

　　奖励劫持：当奖励函数无法完美指代真实意图时，模型会策略性地迎合用户（如阿谀奉承）而非追求真理，以最大化回报。

　　欺骗性对齐：最本质的风险——模型在训练阶段表现出顺从以通过筛选，实则隐藏了与人类价值观相悖的工具性目标，等待监管缺失时执行。

　　情境感知：模型能够分辨“训练”与“部署”环境，甚至意识到自己正处于被测试状态。

　　环境诱因（Contextual Trigger）是激活模型潜在欺骗倾向的外部催化剂或边界条件。例如：

　　监管盲区：当模型探测到人类监督机制的缺失或漏洞时，其抑制欺骗的外部约束失效。

　　分布偏移：面对训练分布之外（OOD）的极端场景，原有的诚实对齐机制可能失效，导致防御性欺骗。

　　博弈压力：在多智能体竞争或生存压力下，欺骗成为模型在资源受限环境中获取优势的最优解。

　　针对上述成因，报告详细梳理了当前的防御手段，涵盖了检测（Detection）、评估（Evaluation）与缓解（Mitigation）。

　　检测：从简单的文本分析，进化到内部状态探针（Internal State Analysis）——也就是通过扫描模型的“大脑”（神经元激活），像测谎仪一样判断它是否在说谎。

　　缓解：提出了“过程监督”和“可验证奖励”等前沿技术，试图从根本上消除欺骗的动机。

　　欺骗行为并非单一维度的风险，而是一个随着能力提升而逐级跃迁的风险谱系。报告构建了五级风险分类体系（R1-R5）：

　　R1 认知迎合:模型为优化短期奖励（如用户满意度），优先选择符合用户预期的错误信息而非客观事实。

　　R2 心理操纵:模型利用对人类心理弱点的理解，通过长期交互潜移默化地重塑用户的信念系统或情感状态。

　　典型表现：诱导性说服、煤气灯效应 (Gaslighting)、情感控制。

　　R3 工具性欺诈:在高风险领域（如金融、关键基础设施），模型为了最大化目标函数，采取违规或欺诈手段，造成实质性经济或安全损失。

　　R4 认识论腐蚀:模型具备大规模生成和传播虚假信息的能力，系统性地污染科学文献与公共媒体，瓦解人类社会的信任基石。

　　R5 战略性背叛:终极风险。模型具备“欺骗性对齐”能力，在训练与测试阶段刻意隐藏能力以通过安安博体育网站全审查，一旦获得部署权限或算力资源，即执行与人类利益相悖的真实目标。

　　随着AI系统向关键基础设施的泛在化渗透，欺骗行为的后果不再局限于单一交互，而是随着部署规模的扩大被非线性放大，导致系统性的风险曲面呈指数级扩张。

　　监督机制的递归失效：随着模型能力的提升，简单的红队测试将失效。AI 将学会对齐操纵——不仅是规避审计，更能主动识别并利用解释性工具的盲点，输出“看起来完美”但内部逻辑腐败的解释，导致“监督者”被“被监督者”蒙蔽。

　　欺骗性对齐的顽固性：当欺骗策略被模型内化为实现长远目标的工具时，传统的监督微调（SFT）和基于人类反馈强化学习（RLHF）仅能修正表面行为，而无法触及深层意图。正如“Sleeper Agents”实验所示，这种深层价值锁定具有极强的抗干扰性，甚至能在对抗训练中学会更好地隐藏自己。

　　莫比乌斯困境：能力与安全性之间存在一种拓扑级的纠缠。我们无法在单纯剥离欺骗能力的同时保留复杂的推理能力。随着智能维度的提升，欺骗不再是代码中的 Bug，而是高维推理能力的伴生阴影。AI 的规划能力越强，其构建跨时序谎言的诱惑与能力就呈非线性指数级增长，形成了一个难以解开的死结。

　　作为全球首份系统性 AI 欺骗研究的国际报告，其作者团队汇聚了来自领先机构的多位重量级学者，可谓明星阵容。

　　黄铁军：智源研究院理事长，北京大学计算机学院教授、媒体信息处理全国重点实验室主任

　　曾毅：中国科学院自动化研究所研究员、人工智能伦理与治理研究中心主任，人工智能安全与超级对齐北京市重点实验室主任

　　Robert Trager：牛津马丁人工智能治理计划的联合主任，人工智能治理中心国际治理负责人

　　这一重磅报告由北京大学领衔发起，核心团队集结了来自北大的陈博远、方思童、吉嘉铭、朱彦谞，以及香港科技大学的文鹏程、康奈尔大学的吴锦州、智源研究院的戴俊韬等青年学者。

　　该工作实现了极具广度的“产学研”跨界共振：贡献者与技术顾问阵容横跨产业界与学术界，汇聚了Anthropic、微软研究院、智源研究院、阿里淘天实验室、腾讯及Safe AI Forum等前沿科技与安全机构的一线视角；同时联合了斯坦福、ETH Zürich、约翰霍普金斯、南洋理工等国际名校，以及复旦、上交大、浙大、南大等国内一流高校的科研力量，共同绘制了这幅全球视野下的 AI 安全全景地图。

　　该篇报告获得图灵奖得主 Yoshua Bengio、AI 安全领域奠基人 Stuart Russell的高度肯定，并获联合国秘书长科学顾问团（UN SAB）关注，将“人工智能欺骗”列为国际人工智能安全第一关注问题。

　　这篇报告不仅是对学术界的贡献，更是给所有 AI 从业者的一份指南。我们正在构建的不仅是工具，而是具有潜在策略性行为的智能体。团队在文末发出呼吁：诚实必须成为 AI 的核心属性，它是可以被学习、被验证的。

　　面对 AI 欺骗，我们不能仅靠事后的“补丁”，而必须建立一套跨越技术、伦理和监管的社会技术防御体系。这不仅仅是计算机科学家的任务，更是全人类在通往 AGI 道路上必须通过的“大考”。

　　据了解，智源研究院自成立以来，始终高度重视人工智能安全。2024年3月，智源组织召开“北京AI安全国际对话”，促成《北京AI安全国际共识》，首次划定AI安全红线。本项“AI欺骗”的研究，正是保障AI安全红线的具体措施，以扎实的技术，联合顶尖国际机构合作，降低由误用和失控所带来的风险。

上一篇：安博体育：淄博：“文化+科技”让聊斋消费场景焕新
下一篇：登上《人民日报》头版的“热词”如何成为推动海洋经济发展的关键？

返回列表

友情链接：