行业动态

OpenClaw 2026.4.5 多模态生成与记忆架构全面升级,Agent能力边界再度拓宽

· 约 10 分钟阅读

OpenClaw 2026.4.5 正式发布,新增原生视频与音乐生成工具、实验性 Dreaming 记忆架构、13 种语言的 Control UI 本地化,以及涵盖 Claude CLI 安全加固、prompt cache 稳定性优化、多渠道消息修复在内的数百项改进。

从文本到音视频,Agent 获得多模态创作能力

2026.4.5 最受关注的变化是内置了 video_generatemusic_generate 两个原生工具。此前 Agent 要处理视频或音乐,要么依赖外部服务拼接,要么通过 ComfyUI 等工作流间接实现。现在 Agent 可以在对话中直接调用视频生成——xAI 的 grok-imagine-video、阿里 Model Studio 的 Wan 模型、Runway 三家供应商已首批接入。音乐方面,Google Lyria 和 MiniMax 作为默认供应商,支持异步任务追踪,生成完成后自动回传音频文件。

comfy 插件也做了重构,将本地 ComfyUI 和 Comfy Cloud 的工作流统一收纳为内置插件。图像生成、视频生成和工作流驱动的音乐生成共享同一套 prompt 注入机制,支持参考图上传和输出自动下载。这意味着用户在 OpenClaw 里配置好 ComfyUI 之后,Agent 端的调用链路大幅缩短,不再需要额外的脚本或中间件。

Dreaming 记忆系统:让 Agent 真正”记住”你

OpenClaw 一直在探索 Agent 长期记忆,此前有 MEMORY.md 的静态方案和每日笔记的增量方案。2026.4.5 引入了实验性的 Dreaming 记忆架构,借鉴了人类睡眠中记忆巩固的思路。

Dreaming 将记忆处理拆分为三个协作阶段:Light(轻度整理,清理噪声)、Deep(深度关联,提取模式)、REM(快速眼动阶段,筛选值得长期保留的信息并写入 MEMORY.md)。每个阶段拥有独立的调度周期和故障恢复机制。系统新增了 recencyHalfLifeDaysmaxAgeDays 两个可配置参数,运营者可以调控记忆衰减曲线。dreams.md 文件用于记录梦境轨迹,与日常笔记分离,不会被默认召回机制自动加载,避免噪声干扰。

/dreaming 命令提供控制台入口,Dreams UI 面板支持可视化监控。此外,短期记忆到长期记忆的加权提升机制也在这一版首次落地。

Control UI 多语言与 ClawHub 集成

管理后台的国际化推进速度比预期快。2026.4.5 一次新增了 13 种语言的本地化支持:简体中文、繁体中文、巴西葡萄牙语、德语、西班牙语、日语、韩语、法语、土耳其语、印尼语、波兰语和乌克兰语。Skills 面板新增 ClawHub 搜索、详情查看和一键安装流程,用户不用离开 Control UI 就能完成技能的发现和部署。

Claude CLI 安全加固与 Prompt Cache 优化

这一版在安全层面的投入相当密集。Claude CLI 作为 OpenClaw 的内置后端之一,此前存在一个潜在风险:继承的环境变量可能将 CLI 运行导向非预期的配置目录或插件树。2026.4.5 做了多层封锁——清除 CLAUDE_CONFIG_DIRCLAUDE_CODE_PLUGIN_* 等环境变量继承,阻止通过 cliBackends.claude-cli.args 注入非预期的 permission mode,并强制 host-managed 会话使用 --setting-sources user

设备配对安全也有加强:非管理员配对设备只能管理自身 token,禁止跨设备窃取;Android canvas 桥接要求精确的 URL 归一化匹配;移动端 QR 引导 token 的 scope 被限制在移动安全合约范围内。

Prompt cache 方面,bcherny 和 vincentkoc 联手做了系统性优化:归一化系统提示指纹、确定性 MCP 工具排序、压缩后的缓存边界修复、去除 agent 系统提示中重复的内联工具清单。这些改动让后续对话的 cache 命中率显著提升,在 openclaw status --verbose 中可以实时查看缓存命中与中断的诊断信息。

多渠道消息修复与 Bedrock 扩展

Telegram、Discord、Slack、Matrix、WhatsApp、MS Teams 六大渠道均有修复。Telegram 方面修复了 DM 语音笔记的转录回退、reasoning 预览仅在显式 stream 模式下展示、命令菜单长描述截断等问题。Discord 修复了回复标签泄漏、图片生成指向丢失的本地文件、默认媒体上限提升至 100MB。Matrix 新增了原生 exec 审批和流式回复的静默预览模式。

Amazon Bedrock 接入了 Mantle 支持,自动发现 inference profile 并注入请求区域。Bedrock 上托管的 Claude、GPT-OSS、Qwen、Kimi、GLM 等模型路由可以免去大量手动配置。记忆搜索方面新增了 Bedrock 的 Titan、Cohere、Nova、TwelveLabs 嵌入模型,支持 AWS 凭证链自动发现。

其他值得关注的变化

  • 配置迁移:废弃 talk.voiceIdtalk.apiKey 等旧版配置别名,统一到规范路径,openclaw doctor --fix 支持自动迁移
  • GPT-5 前向兼容:新增 openai-codex/gpt-5.4-mini 支持,优化 GPT-5 和 Codex 在 Agent 场景下的行为(降低默认冗长度、工具调用更果断)
  • ACPX 内嵌:ACP 运行时直接嵌入 bundled 插件,移除外部 CLI 跳转环节
  • Cron 增强:中断的周期任务在首次重启时自动重放,失败通知走主 delivery channel
  • 新供应商:Qwen、Fireworks AI、StepFun、MiniMax TTS/Search、Ollama Web Search 等多个供应商首次以 bundled 形式内置

从更新体量来看,2026.4.5 是 OpenClaw 近几个月来变化最大的一个版本。视频和音乐生成让 Agent 从”文本助手”向”创作搭档”迈进一步,Dreaming 架构则在长期记忆这个老大难问题上给出了一套工程化方案。安全侧的 Claude CLI 加固和 prompt cache 优化虽然对终端用户不可见,但对部署规模较大的团队来说,直接影响运行成本和可靠性。

分享到: QQ 微博