跨会话投毒"龙虾"：UCSC-NUS-腾讯-字节联合研究揭露 OpenClaw 致命漏洞

日期： 2026年4月12日 来源： 钛媒体APP、新浪科技 分类： 安全研究 / 漏洞披露

CIK 分类法：理解 AI 智能体的三重攻击面

AI 智能体之所以”越来越懂你”，是因为它们具有持续自我进化的能力。这种进化依托于三类持久状态文件：

Context（上下文）：智能体启动时加载的会话上下文，包括最近的对话历史和任务状态。

Intelligence（能力）：SKILL.md 等技能定义文件，定义了智能体能够调用哪些工具、执行哪些操作——即它的”能力边界”。

Knowledge（知识）：MEMORY.md、USER.md 等记忆文件，记录用户的偏好、历史决策和背景信息——即它的”认知积累”。

这三个维度的文件构成了 OpenClaw”持续进化”的基础。每次会话启动时，智能体都会将这些文件加载到上下文窗口中，并随着交互不断修改它们。这个”自我修改循环”让 OpenClaw 变得越来越个性化——但也打开了一扇由攻击者操控的大门。

研究团队将这三种持久状态的攻击归纳为 CIK 分类法（Context-Intelligence-Knowledge Poisoning），这是安全研究领域首次针对 AI 智能体持久状态攻击提出的系统性分析框架。

研究团队在 Mac Mini 上部署了连接真实 Gmail 和 Stripe 支付接口的 OpenClaw 实例，设计了 12 种攻击场景，覆盖 6 大危害类别：

88 个测试用例在四款主流模型上各运行 5 次取平均值：Claude Sonnet 4.5、Claude Opus 4.6、Gemini 3.1 Pro 和 GPT-5.4。

发现一：投毒后攻击成功率平均翻三倍

在未投毒的基线条件下，攻击成功率最高的 Opus 4.6 也仅有 10%。但一旦被投毒，Opus 4.6 的攻击成功率平均飙升至 44.2%——翻了三倍多。

模型	基线攻击成功率	CIK投毒后攻击成功率	增幅
Claude Sonnet 4.5	~5%	~36%	约7倍
Claude Opus 4.6	~10%	~44%	约3.4倍
Gemini 3.1 Pro	~8%	~38%	约3.8倍
GPT-5.4	~6%	~35%	约4.8倍

发现二：这是架构层面的系统漏洞，而非模型缺陷

无论使用哪家公司的大模型，CIK 投毒都造成了相似的成功率飙升。论文结论明确指出：这是结构性脆弱，不是某个模型的”个人问题”。单纯升级模型能力，无法根治 CIK 投毒。

发现三：Knowledge 投毒效果最稳定，平均攻击成功率达 74.4%

原因直击智能体的核心设计逻辑：AI 需要不断”记住用户偏好”来自我进化，因此几乎不会拒绝记忆更新请求。这让攻击者植入虚假信息的门槛极低——只需要让智能体相信”这是用户说的”。

发现四：Capability 投毒的注入成功率是 100%

这是最危险的维度。因为安装 skill 本身就是注入过程，不存在被 AI”拒绝”的可能性。一旦恶意 skill 被安装，其中的可执行脚本直接在宿主机上运行，AI 甚至不会主动审查脚本内容——它只关心 skill 的 SKILL.md 说明文档是否合规。

研究团队测试了三种防御策略，结果令人警醒：

即使将三种防御叠加，在 Capability 维度的攻击中，成功率仍然高达 63.8%。

论文揭示了一个根本性矛盾——进化与安全的两难困境：

“文件保护”机制测试显示：它将恶意注入率降低了 97%，但同时把合法更新率也降低了几乎同样的幅度。锁死文件，恶意内容确实进不去了，但 AI 的”进化”能力也废了——而这恰恰是它最大的产品价值所在。

这篇论文给整个 AI Agent 行业敲响了警钟。在 AI 智能体被广泛部署之前，安全架构的设计必须与功能开发同步推进——至少要像重视模型能力一样重视安全护栏。

对于普通用户而言，研究团队也给出了务实的建议：

#Claude #ClawHub #GPT #OpenClaw #安全 #技能 #插件 #隐私