行业动态

OpenClaw v2026.4.5 正式发布:多媒体、记忆系统、任务透明度全面升级

· 约 13 分钟阅读

2026年4月6日,OpenClaw 正式发布 v2026.4.5 版本。 这不是一次常规的功能补丁,而是 OpenClaw 进入”安全终极硬化与生态治理”阶段后的一次关键里程碑更新。视频生成和音乐生成正式进入内置工具层、长期记忆系统/dreaming 从实验性功能走向可用、复杂任务终于有了分步进度可见性、Prompt Cache 机制大幅优化、控制台和文档补齐 12 种语言支持——几条关键能力线同时往前推进了一大步。

多媒体生成:第一次被当成”正常工作流”而不是”演示彩蛋”

v2026.4.5 最吸引眼球的变化,是视频生成(video_generate)和音乐生成(music_generate)终于作为原生内置工具开放,Agent 无需额外封装接口,直接在对话中调用即可,完成后媒体文件原样返回到聊天中。

在此之前,很多 Agent 产品虽然也标榜”能生成视频””能生成音乐”,但本质上更像外挂功能:要么依赖额外插件,要么需要跳转到外部服务,体验是割裂的。OpenClaw 这次直接把多媒体能力纳入工具体系,意味着生成内容第一次被当成 Agent 的正常输出形态,而不是”展示 demo”式的附加功能。

支持的提供商覆盖非常广泛:视频生成接入了 Alibaba Model Studio Wan、BytePlus、ComfyUI、fal、Google、MiniMax、OpenAI、Qwen、Runway、Together AI、xAI 等;音乐生成接入了 ComfyUI、Google Lyria、MiniMax;图像生成则支持 ComfyUI、fal、Google、MiniMax、OpenAI 等。这意味着用户可以根据自己的 API 资源和成本偏好,灵活选择不同的多媒体服务提供商。

这一改变对内容创作场景的意义尤为深远。以前一个人要完成一条视频内容,需要分别在多个工具之间切换:写文案用一个工具、生成配图用一个工具、生成音乐用一个工具、最后合成视频再用另一个工具。现在 OpenClaw 可以把这些环节串联起来,用户描述需求,Agent 直接产出完整的素材包——不只是文字,而是一整套可用的内容成品。

/dreaming:OpenClaw 真正开始处理”长期记忆”难题

如果说多媒体生成是这次最显眼的部分,/dreaming 可能是对实际使用体验影响最深远的部分。

长期运行 Agent 的用户普遍会遇到一个头疼的问题:你今天刚把工作习惯、项目背景、关键偏好告诉它,明天再开对话,它就像完全失忆了一样。这不是 Bug,而是 Agent 的天然局限——上下文窗口有限,不可能永远记住所有说过的话。

/dreaming 是 OpenClaw 给出的解决方案,中文叫”记忆巩固系统”。它的设计逻辑模拟了人类睡眠时的记忆巩固过程,分为三个阶段:

Light Phase(浅睡阶段):系统首先收集最近的日常信号、召回痕迹和候选记忆,只做去重和暂存,写入浅睡块,不会立刻修改长期记忆文件。这个阶段的核心是”先观察,不急着下结论”。

Deep Phase(深度阶段):这是整个系统最关键的一步。OpenClaw 会根据一套加权评分机制,从候选记忆中筛选出真正值得晋升为长期记忆的内容。评分权重包括:高频繁出现的内容(Frequency,权重 0.24)、对后续任务持续有用的信息(Relevance,权重 0.30)、不同场景中反复被调用的模式(Query diversity,权重 0.15)、距离当前时间更近的内容(Recency,权重 0.15)等。

真正值得留下来的,不是”说过一次的话”,而是”高频出现、持续有用、跨场景复用”的那部分信息。Deep Phase 负责把这部分挑选出来,写入长期记忆,同时把决策过程沉淀到 DREAMS.md 文件中。

REM Phase(反思阶段):这个阶段更像一个”归纳层”。系统会从已存储的记忆中抽取主题、总结模式、捕捉高层长期信号,写出 REM block,继续为 Deep Phase 提供强化线索。这让记忆系统不只是一个机械存档,开始具备”提炼”和”归纳”的智能味道。

这套系统目前默认关闭,用户可以通过 /dreaming on 手动启用,也可以使用 CLI 工具 openclaw memory promote 做手动预览和解释。对真正把 OpenClaw 作为长期生产力工具的人来说,这个功能一旦跑顺,会显著提升 Agent 的”懂你”程度——它不再每次都需要重新认识你。

结构化任务进度:长任务不再只剩一条干等的回复

v2026.4.5 还解决了一个实际使用中的高频痛点:复杂任务执行过程不透明。

以前 Agent 做多步骤任务时,用户面对的往往只有两种状态——要么没反应,要么突然回一大段结果。中间发生了什么、卡在哪一步、是否还在正常运行,用户完全不知道。这种”黑箱感”在使用频率高了之后会变成很大的心理摩擦。

新版本引入了实验性的结构化计划更新和执行事件机制,UI 中可以更明确地显示任务的分步进度。这个变化看似是体验优化,实际意义远不止于此。当 Agent 开始进入多步工作流——自动化网页操作、多文件生成与修改、长链路调研、多节点协作、复杂代码任务——用户最需要的不是炫酷的文案,而是透明度。知道现在在第几步、是在执行还是在等待、是否出错,这种可见性直接决定了系统能不能真正进入工作流。

Prompt Cache:从”技术细节”变成”省钱关键”

这次 OpenClaw 对 Prompt Cache 机制做了明显升级,包括更好的前缀复用、更确定的工具排序、更合理的图像历史处理、系统提示指纹识别、移除重复工具清单以减少缓存失效等。

这些改动看起来偏底层,但对高频使用者影响很大。Agent 一旦进入长期会话、重复工具调用、多轮协作场景,Prompt Cache 的命中率会直接影响三件事:响应速度、模型成本、上下文一致性。尤其在使用 GPT-5.4 这类大模型时,缓存命中率每提升一个百分点,实际成本节省和响应加速的效果都会非常显著。

Prompt Cache 的优化本质上是”工程化”能力的体现——不是给你更多花哨的功能,而是让已有的能力用起来更稳定、更便宜。这往往比新功能更难做,但对产品口碑的影响更持久。

12种语言支持:把门槛真正降下来

OpenClaw 这次和控制台 UI、官方文档一起补齐了多语言支持,新增语言包括简体中文、繁体中文、巴西葡萄牙语、德语、西班牙语、日语、韩语、法语、土耳其语、印度尼西亚语、波兰语、乌克兰语。

国际化这件事很多开源项目做得很表面——UI 里翻译几个菜单项就完事。OpenClaw 这次做得更完整,不只是界面文字,还包括文档内容和错误提示的本地化。对中文用户来说,最大的感受就是:现在遇到问题,不需要先去英文文档里找答案,中文文档里就能直接定位到解决方案。

Anthropic 政策变动:OpenClaw 的战略表态

v2026.4.5 还正面处理了一个现实问题:Anthropic 近期调整了第三方 harness 使用方式的计费政策,将 OpenClaw 这类工具的使用纳入”Extra Usage”,计费逻辑变得更复杂。

OpenClaw 官方的反应很干脆:已移除 Claude CLI 后端,新用户如需使用 Claude 系列模型,需要改用 API Key 方式接入,同时建议转向 OpenAI Codex、Qwen、MiniMax、GLM 等更稳定的路线。旧配置可以通过 openclaw doctor –fix 命令自动修复。

这一处理方式,与其说是”兼容性补丁”,不如说是一次产品路线的明确表态:OpenClaw 不想在不稳定的外包接口上反复打补丁,而是把资源集中在更可控、更清晰的模型接入路径上。同时,GPT-5.4 的支持在持续增强,包括 forward-compat、个性升级和更好的提示缓存配合。

总体评价

v2026.4.5 的更新方向非常统一:让 OpenClaw 从一个”很能打的 AI 工具”变成一个”能长期陪你做事、记住你的习惯、产出完整内容、把过程讲清楚”的个人 Agent 平台。

如果你是已有用户,升级后建议做三件事:运行 openclaw doctor –fix 完成旧配置迁移;试一下 /dreaming on 感受记忆巩固链路;让 Agent 直接生成一段视频或音乐,体验这次多媒体能力推进到了什么程度。

真正值钱的不是某一个单点功能。这次更新综合在一起,说明 OpenClaw 正在认真解决”如何让 AI 真的变成长期生产力系统”这个核心问题。这一步一旦走实,想象空间会比任何单个新功能都大得多。

分享到: QQ 微博