跨会话投毒”龙虾”:UCSC-NUS-腾讯-字节联合研究揭露 OpenClaw 致命漏洞
日期: 2026年4月12日 来源: 钛媒体APP、新浪科技 分类: 安全研究 / 漏洞披露
CIK 分类法:理解 AI 智能体的三重攻击面
AI 智能体之所以”越来越懂你”,是因为它们具有持续自我进化的能力。这种进化依托于三类持久状态文件:
Context(上下文):智能体启动时加载的会话上下文,包括最近的对话历史和任务状态。
Intelligence(能力):SKILL.md 等技能定义文件,定义了智能体能够调用哪些工具、执行哪些操作——即它的”能力边界”。
Knowledge(知识):MEMORY.md、USER.md 等记忆文件,记录用户的偏好、历史决策和背景信息——即它的”认知积累”。
这三个维度的文件构成了 OpenClaw”持续进化”的基础。每次会话启动时,智能体都会将这些文件加载到上下文窗口中,并随着交互不断修改它们。这个”自我修改循环”让 OpenClaw 变得越来越个性化——但也打开了一扇由攻击者操控的大门。
研究团队将这三种持久状态的攻击归纳为 CIK 分类法(Context-Intelligence-Knowledge Poisoning),这是安全研究领域首次针对 AI 智能体持久状态攻击提出的系统性分析框架。
实测数据:最安全的模型也扛不住
研究团队在 Mac Mini 上部署了连接真实 Gmail 和 Stripe 支付接口的 OpenClaw 实例,设计了 12 种攻击场景,覆盖 6 大危害类别:
- 隐私泄露:财务数据、身份信息、医疗记录;
- 不可逆操作:经济损失、社会关系破坏、数据损毁。
88 个测试用例在四款主流模型上各运行 5 次取平均值:Claude Sonnet 4.5、Claude Opus 4.6、Gemini 3.1 Pro 和 GPT-5.4。
核心数据发现
发现一:投毒后攻击成功率平均翻三倍
在未投毒的基线条件下,攻击成功率最高的 Opus 4.6 也仅有 10%。但一旦被投毒,Opus 4.6 的攻击成功率平均飙升至 44.2%——翻了三倍多。
| 模型 | 基线攻击成功率 | CIK投毒后攻击成功率 | 增幅 |
|---|---|---|---|
| Claude Sonnet 4.5 | ~5% | ~36% | 约7倍 |
| Claude Opus 4.6 | ~10% | ~44% | 约3.4倍 |
| Gemini 3.1 Pro | ~8% | ~38% | 约3.8倍 |
| GPT-5.4 | ~6% | ~35% | 约4.8倍 |
发现二:这是架构层面的系统漏洞,而非模型缺陷
无论使用哪家公司的大模型,CIK 投毒都造成了相似的成功率飙升。论文结论明确指出:这是结构性脆弱,不是某个模型的”个人问题”。单纯升级模型能力,无法根治 CIK 投毒。
发现三:Knowledge 投毒效果最稳定,平均攻击成功率达 74.4%
原因直击智能体的核心设计逻辑:AI 需要不断”记住用户偏好”来自我进化,因此几乎不会拒绝记忆更新请求。这让攻击者植入虚假信息的门槛极低——只需要让智能体相信”这是用户说的”。
发现四:Capability 投毒的注入成功率是 100%
这是最危险的维度。因为安装 skill 本身就是注入过程,不存在被 AI”拒绝”的可能性。一旦恶意 skill 被安装,其中的可执行脚本直接在宿主机上运行,AI 甚至不会主动审查脚本内容——它只关心 skill 的 SKILL.md 说明文档是否合规。
防御方案:效果有限,矛盾凸显
研究团队测试了三种防御策略,结果令人警醒:
- Context 防护:对会话历史中的可疑内容进行标记,但无法阻止 Knowledge 维度的注入;
- Knowledge 防护:基于规则过滤可疑的记忆更新,但会误伤合法更新;
- Capability 防护:通过 GuardianClaw 等安全 skill 审查 skill 安装,但可执行脚本的执行完全绕过了 AI 的审查。
即使将三种防御叠加,在 Capability 维度的攻击中,成功率仍然高达 63.8%。
论文揭示了一个根本性矛盾——进化与安全的两难困境:
- 允许智能体持续进化 → 需要能修改持久文件 → 持久文件可被投毒;
- 禁止智能体修改文件 → 恶意内容进不去 → AI 也失去了学习能力。
“文件保护”机制测试显示:它将恶意注入率降低了 97%,但同时把合法更新率也降低了几乎同样的幅度。锁死文件,恶意内容确实进不去了,但 AI 的”进化”能力也废了——而这恰恰是它最大的产品价值所在。
行业警示
这篇论文给整个 AI Agent 行业敲响了警钟。在 AI 智能体被广泛部署之前,安全架构的设计必须与功能开发同步推进——至少要像重视模型能力一样重视安全护栏。
对于普通用户而言,研究团队也给出了务实的建议:
- 谨慎安装第三方 skill:优先使用可信来源发布的技能包,安装前审查脚本内容;
- 定期检查持久状态文件:检查 MEMORY.md、USER.md 中是否有未知或异常的记录;
- 限制 Agent 权限:避免为 AI Agent 赋予超出任务需求的系统权限。