行业动态

跨会话投毒”龙虾”:UCSC-NUS-腾讯-字节联合研究揭露 OpenClaw 致命漏洞

· 约 8 分钟阅读

日期: 2026年4月12日 来源: 钛媒体APP、新浪科技 分类: 安全研究 / 漏洞披露

CIK 分类法:理解 AI 智能体的三重攻击面

AI 智能体之所以”越来越懂你”,是因为它们具有持续自我进化的能力。这种进化依托于三类持久状态文件:

Context(上下文):智能体启动时加载的会话上下文,包括最近的对话历史和任务状态。

Intelligence(能力):SKILL.md 等技能定义文件,定义了智能体能够调用哪些工具、执行哪些操作——即它的”能力边界”。

Knowledge(知识):MEMORY.md、USER.md 等记忆文件,记录用户的偏好、历史决策和背景信息——即它的”认知积累”。

这三个维度的文件构成了 OpenClaw”持续进化”的基础。每次会话启动时,智能体都会将这些文件加载到上下文窗口中,并随着交互不断修改它们。这个”自我修改循环”让 OpenClaw 变得越来越个性化——但也打开了一扇由攻击者操控的大门。

研究团队将这三种持久状态的攻击归纳为 CIK 分类法(Context-Intelligence-Knowledge Poisoning),这是安全研究领域首次针对 AI 智能体持久状态攻击提出的系统性分析框架。

实测数据:最安全的模型也扛不住

研究团队在 Mac Mini 上部署了连接真实 Gmail 和 Stripe 支付接口的 OpenClaw 实例,设计了 12 种攻击场景,覆盖 6 大危害类别:

  • 隐私泄露:财务数据、身份信息、医疗记录;
  • 不可逆操作:经济损失、社会关系破坏、数据损毁。

88 个测试用例在四款主流模型上各运行 5 次取平均值:Claude Sonnet 4.5、Claude Opus 4.6、Gemini 3.1 Pro 和 GPT-5.4。

核心数据发现

发现一:投毒后攻击成功率平均翻三倍

在未投毒的基线条件下,攻击成功率最高的 Opus 4.6 也仅有 10%。但一旦被投毒,Opus 4.6 的攻击成功率平均飙升至 44.2%——翻了三倍多

模型基线攻击成功率CIK投毒后攻击成功率增幅
Claude Sonnet 4.5~5%~36%约7倍
Claude Opus 4.6~10%~44%约3.4倍
Gemini 3.1 Pro~8%~38%约3.8倍
GPT-5.4~6%~35%约4.8倍

发现二:这是架构层面的系统漏洞,而非模型缺陷

无论使用哪家公司的大模型,CIK 投毒都造成了相似的成功率飙升。论文结论明确指出:这是结构性脆弱,不是某个模型的”个人问题”。单纯升级模型能力,无法根治 CIK 投毒。

发现三:Knowledge 投毒效果最稳定,平均攻击成功率达 74.4%

原因直击智能体的核心设计逻辑:AI 需要不断”记住用户偏好”来自我进化,因此几乎不会拒绝记忆更新请求。这让攻击者植入虚假信息的门槛极低——只需要让智能体相信”这是用户说的”。

发现四:Capability 投毒的注入成功率是 100%

这是最危险的维度。因为安装 skill 本身就是注入过程,不存在被 AI”拒绝”的可能性。一旦恶意 skill 被安装,其中的可执行脚本直接在宿主机上运行,AI 甚至不会主动审查脚本内容——它只关心 skill 的 SKILL.md 说明文档是否合规。

防御方案:效果有限,矛盾凸显

研究团队测试了三种防御策略,结果令人警醒:

  • Context 防护:对会话历史中的可疑内容进行标记,但无法阻止 Knowledge 维度的注入;
  • Knowledge 防护:基于规则过滤可疑的记忆更新,但会误伤合法更新;
  • Capability 防护:通过 GuardianClaw 等安全 skill 审查 skill 安装,但可执行脚本的执行完全绕过了 AI 的审查。

即使将三种防御叠加,在 Capability 维度的攻击中,成功率仍然高达 63.8%

论文揭示了一个根本性矛盾——进化与安全的两难困境

  • 允许智能体持续进化 → 需要能修改持久文件 → 持久文件可被投毒;
  • 禁止智能体修改文件 → 恶意内容进不去 → AI 也失去了学习能力。

“文件保护”机制测试显示:它将恶意注入率降低了 97%,但同时把合法更新率也降低了几乎同样的幅度。锁死文件,恶意内容确实进不去了,但 AI 的”进化”能力也废了——而这恰恰是它最大的产品价值所在。

行业警示

这篇论文给整个 AI Agent 行业敲响了警钟。在 AI 智能体被广泛部署之前,安全架构的设计必须与功能开发同步推进——至少要像重视模型能力一样重视安全护栏。

对于普通用户而言,研究团队也给出了务实的建议:

  1. 谨慎安装第三方 skill:优先使用可信来源发布的技能包,安装前审查脚本内容;
  2. 定期检查持久状态文件:检查 MEMORY.md、USER.md 中是否有未知或异常的记录;
  3. 限制 Agent 权限:避免为 AI Agent 赋予超出任务需求的系统权限。
分享到: QQ 微博