行业动态

OpenClaw 2026.4.5 版本发布 视频与音乐生成能力正式登陆

· 约 6 分钟阅读

OpenClaw 2026.4.5 版本发布:视频与音乐生成能力正式登陆

开源 AI 助手 OpenClaw 发布了最新版本 2026.4.5,带来了多项重要更新。其中最值得关注的是内置的视频生成工具 video_generate 和音乐生成工具 music_generate,这标志着这款以「能干活」著称的 AI 助手正式进军生成式媒体领域。

从文本到多媒体的跨越

在此之前,OpenClaw 的核心能力集中在任务执行层面——管理邮箱、日历、处理文档、编写代码。用户通过 WhatsApp、Telegram 等聊天工具向助手发出指令,助手在后台完成一系列操作并返回结果。这种能力组合让 OpenClaw 区别于传统的对话式 AI,更像是一个随时待命的数字员工。

视频和音乐生成工具的加入拓宽了这一边界。现在,用户可以直接要求助手生成一段宣传视频或创作一段背景音乐,助手会根据配置好的提供商完成生成并直接将媒体文件返回给用户。根据更新说明,video_generate 支持 xAI Grok Imagine Video、阿里云 Model Studio Wan 以及 Runway 三个提供商;music_generate 则集成了 Google Lyria 和 MiniMax 两个模型,同时支持通过 ComfyUI 工作流进行自定义。

多模型提供商持续扩展

2026.4.5 版本还新增了多个模型提供商的支持。Qwen(通义千问)、Fireworks AI、StepFun 被纳入捆绑列表,MiniMax 的 TTS(文本转语音)能力也被整合进来。此外,Ollama Web Search 和 MiniMax Search 为聊天、语音和搜索工作流提供了更多选择。

Amazon Bedrock 的支持进一步深化。除了此前对 Claude 等模型的支持外,新版本增加了 Mantle 推理配置文件的自动发现功能,以及请求区域的自动注入。这意味着在 Bedrock 上托管的 Claude、GPT-OSS、Qwen、Kimi、GLM 等模型可以在更少的手动配置下正常工作。AWS 凭证链的自动检测也延伸到 Memory 搜索功能,支持 Titan、Cohere、Nova、TwelveLabs 等 Embedding 模型。

中文用户界面的全面覆盖

对于中文用户而言,本次更新带来了一个实用的改进:Control UI(控制界面)新增了简体中文、繁体中文、巴西葡萄牙语、德语、西班牙语、日语、韩语、法语、土耳其语、印尼语、波兰语和乌克兰语的支持。这意味着 OpenClaw 的可视化操作界面现在可以用中文呈现,降低了非技术用户的上手门槛。

技能市场与记忆系统的进化

ClawHub 技能市场的功能被直接集成到 Skills 面板中。用户现在可以在 UI 内搜索、查看详情并安装技能,无需跳转到外部网站。这一改动简化了工作流程,也反映出 OpenClaw 在生态建设上的推进。

记忆系统方面,实验性的「梦境」功能获得了多项改进。系统现在支持加权短期记忆提升、可配置的衰减控制(recencyHalfLifeDays、maxAgeDays),以及 REM 阶段的预览工具。梦境轨迹内容改为写入顶层 dreams.md 文件而非每日笔记,这让长期记忆的组织方式更加清晰。

性能优化与安全保障

在用户看不见的地方,版本还进行了多项优化。Prompt 缓存机制得到加强,通过规范化等效结构化提示词的空白符、换行符、钩子添加的系统上下文和运行时能力排序,使得语义相同的请求能更可靠地复用 KV 缓存。ACP 运行时现在直接嵌入捆绑的 acpx 插件中,减少了外部 CLI 的调用开销。

安全层面也有相应改进:限制性插件专用工具允许名单得到保留,非交互式授权选择推断被限制在捆绑和已信任插件范围内,浏览器 SSRF 重定向绕过攻击在更早阶段被拦截。

OpenClaw 目前的 GitHub 星标数已突破 35 万,持续保持着开源 AI 助手领域的活跃度。这次更新展示了项目在多媒体生成、多云支持、本地化体验等多个维度的推进,也意味着用户可以让助手承担更多种类的创意工作了。

分享到: QQ 微博