入门教程

拆解OpenClaw的六大核心:它究竟是怎么运行的?

· 约 11 分钟阅读

上篇文章讲了OpenClaw是什么。这篇,我们把它打开,看看里面的零件。

很多人用OpenClaw,只知道”发条消息给它,它就能干活”,但不知道这背后发生了什么。这就像你开车,只会踩油门,但不知道引擎的工作原理——用是能用,但出了问题你不知道怎么办,也优化不了它。

OpenClaw官方文档以及社区里流传最广的一篇深度解析说得很清楚:OpenClaw包含六个核心组成部分,但大多数人只了解其中之一。

今天这篇,就把这六个部分一个一个讲清楚。

一、Gateway(网关):系统的中枢神经

Gateway是OpenClaw的核心守护进程,所有数据流都必须经过它。

你可以把Gateway想象成一个超级调度员。当你在Telegram上发送一条消息,Gateway首先接收这条消息,然后决定:

  • 这条消息应该交给哪个Agent处理?
  • 需要提取哪些历史对话作为上下文?
  • 如何把信息组装成完整的提示词发给大语言模型?
  • 收到大模型的响应后,怎么处理、怎么返回给你?

Gateway在服务器上以守护进程形式持续运行,默认在18789端口暴露WebSocket API,这让它可以被外部系统集成。一旦Gateway停了,整个OpenClaw系统就停了。所以它的稳定性是整个系统的基础。

二、Agent(智能体):系统的大脑

Agent是真正做决策的地方。

当Gateway把整理好的上下文丢给Agent,Agent会做这样一件事:思考→决策→行动→再思考→再行动……直到任务完成。

这个过程在AI领域叫做”链式思考”(Chain of Thought)或”ReAct框架”。Agent不是一次性输出答案,而是在一个循环里不断推进:

  1. 接收当前情境
  2. 判断需要调用哪个工具
  3. 调用工具,获取结果
  4. 根据结果更新对任务的理解
  5. 决定下一步动作
  6. 重复,直到任务完成或无法继续

每个Agent有自己独立的工作区和记忆,可以同时运行多个Agent处理不同任务。OpenClaw的多Agent协作正是建立在这个基础上的。

三、Tools(工具):系统的双手

光有大脑,没有手,什么都干不了。Tools就是OpenClaw的执行系统。

OpenClaw内置了一套核心工具集:

  • exec:在服务器上执行Shell命令,这是最强大也最危险的工具,权限最高
  • browser:控制浏览器,实现网页抓取、表单填写、截图等操作
  • file:文件的读写、创建、移动、删除
  • message:跨平台发送消息,支持Telegram、WhatsApp、Discord等
  • memory:搜索长期记忆文件,提取相关历史信息

每个工具都可以独立开启或关闭。exec工具有沙盒模式,在沙盒里运行的命令被限制在特定目录,防止误操作系统级文件。

此外,通过ClawHub安装的技能(Skill)本质上也是工具的扩展包——它们封装了特定领域的工具调用逻辑,形成可复用的工作流。

四、Workspace(工作区):系统的长期记忆

这是OpenClaw最被低估、但也最关键的设计之一。

普通AI聊天的最大问题是:没有记忆。每次对话都是全新的开始,上次说过的事、你的偏好、任务进度,通通消失。

OpenClaw通过Workspace彻底解决了这个问题。Workspace是一组本地Markdown文件,构成AI的长期记忆库:

  • AGENTS.md:操作手册和安全规则,告诉AI该做什么、不该做什么
  • SOUL.md:性格和语气设定,决定AI的说话方式
  • USER.md:用户画像,记录你是谁、你的偏好、你的背景
  • MEMORY.md:长期重要事实,比如”用户的服务器IP是xxx,私钥路径是yyy”
  • 每日日志文件:YYYY-MM-DD.md,记录每天发生了什么、干了哪些事

这套文件系统的精妙之处在于:它让AI的记忆可以被人类直接阅读和编辑。你随时可以打开MEMORY.md,直接修改里面的内容,AI下次就会按照更新后的记忆行动。

五、Sessions(会话):单次对话的完整记录

Sessions是对话级别的记忆,与Workspace的跨会话长期记忆不同。

每一次对话都被存储为独立的.jsonl文件,包含:

  • 完整的消息往来记录
  • 每一次工具调用的详细日志
  • AI的中间思考过程

这让OpenClaw具备了完整的可审计性——你可以随时翻看任意一次对话的完整过程,AI做了什么、为什么这样做,一目了然。

Sessions的独立性也意味着:在一个会话里说的事,不会自动出现在另一个会话里,除非被主动写入Workspace的长期记忆文件。

六、Nodes(节点):系统的物理延伸

这是OpenClaw架构中最具扩展性的设计。

Nodes代表物理设备。你的Mac是一个Node,你的手机是一个Node,你的远程服务器是一个Node。Gateway是大脑,而Nodes是眼睛和双手。

通过添加Nodes,OpenClaw的能力边界可以无限延伸:

  • 手机Node:可以拍照、定位、发短信
  • Mac Node:可以截图、操作桌面应用、读取本地文件
  • 服务器Node:可以执行高负载任务、24小时运行

你可以把多个Node都连接到同一个Gateway,AI会根据任务需求调度最合适的Node来执行。这就让一个AI指令,可以跨越多台设备协同完成。

七、两层记忆机制的工程智慧

理解了六大组件,还有一个细节值得单独讲:OpenClaw的两层记忆机制。

第一层:Bootstrap记忆(引导记忆)
每次运行时必然加载的文件,包括AGENTS.md、SOUL.md、USER.md、当日日志。这些内容会消耗Token,但确保了关键信息的始终可用。

第二层:语义搜索记忆
按需提取。通过向量检索,从MEMORY.md和笔记文件里找出与当前任务最相关的内容,不需要的内容不加载,大幅节省上下文窗口。

这两层的组合,既保证了关键上下文的稳定性,又通过按需加载控制了Token消耗。这是一个非常工程化、非常实用的设计。

八、把六个部分串起来:一次完整的任务执行

现在我们用一个场景把六个组件串联起来:

你在Telegram发消息:”帮我把服务器上的日志文件压缩归档,发压缩包到我这里。”

  1. Gateway接收消息,提取你的用户身份,组装包含历史上下文的提示词
  2. Workspace提供你的USER.md(知道你的服务器信息)和MEMORY.md(知道你的私钥路径)
  3. Agent接收完整上下文,思考:需要先SSH连接服务器,然后执行压缩命令,最后发文件
  4. Tools执行:exec工具SSH连接并压缩日志,file工具获取压缩包,message工具把文件发回Telegram
  5. 整个过程记录在当日Session文件里
  6. 如果你有多个设备Node,可以调度最快的那个执行

这就是OpenClaw一次完整的任务执行流程。六个部件协同,完成了一个原本需要人工多步操作的任务。

九、理解架构的意义

了解这些架构细节,不是为了炫技,而是为了更好地使用和调优OpenClaw。

知道了Workspace的重要性,你会认真维护你的MEMORY.md和USER.md,让AI真正了解你;知道了Tools的权限级别,你会谨慎配置exec工具的沙盒策略;知道了两层记忆机制,你会合理分配什么该写进Bootstrap、什么该放到语义搜索里。

OpenClaw的强大,一半来自它的架构设计,另一半来自用户愿不愿意把它真正配置好。


相关阅读:

分享到: QQ 微博