Min

「本文由 Human Thinking , AI Writing」

一只“龙虾”在技术圈掀起了滔天巨浪。

OpenClaw——这个开源项目在短短数月内席卷了技术社区的注意力。GitHub 上，技术论坛中，到处都在讨论这只“龙虾”如何让 AI 真正“动手干活”。“最接近钢铁侠贾维斯的东西出现了”的惊呼此起彼伏，“个人AI助理革命”之类的标题铺天盖地。似乎只要贴上 OpenClaw 的标签，就握住了通往未来的船票。

但在这片集体亢奋中，有几个问题很少有人提起：这只“龙虾”普通人养得起吗？它究竟是一个开箱即用的产品，还是一个需要漫长“驯化”的半成品？

一、OpenClaw到底“革命”了什么？

要理解这场狂欢，首先要问：OpenClaw 是什么？它真的带来了革命吗？

OpenClaw 不是手机里陪你聊天解闷的机器人。它的 Slogan 直截了当——“The AI that actually does things”，一个真正能干活的 AI。这是一个可以部署在你个人电脑上的开源 AI 代理。

从“对话”到“执行”：技术架构的范式转移

从技术架构上看，OpenClaw与传统AI助手的区别，不仅仅是功能上的增量改进，而是底层范式的根本转换。

传统AI助手的交互模式是“请求-响应”：用户提问，模型回答。这个循环在回答生成后就结束了。而OpenClaw采用的是“规划-执行-反馈”的闭环架构。它的核心是一个多步推理引擎，能够将用户的自然语言指令分解为一系列可执行的操作序列，然后通过工具调用接口与操作系统、浏览器、应用程序进行交互，执行实际操作，并根据执行结果调整后续计划。

它的架构可以分为四个关键部分：

Gateway（网关）：像总接线员，把微信、飞书等聊天软件接入进来
Agent（智能体）：是大脑，负责调用 GPT、Claude 等大模型思考和决策
Skills（技能）：是手和脚，让它能干具体的事，比如打开浏览器、运行代码
Memory（记忆）：让它记住你是谁、你的习惯是什么

也可以从技术层级来理解：

感知层：通过大模型理解界面元素、文本内容，转化为结构化数据
规划层：基于当前状态和目标，进行任务分解和路径规划
执行层：通过系统级 API 调用，模拟鼠标点击、键盘输入等真实交互
记忆层：维护会话上下文和长期记忆，支持跨会话的连续性任务

这种架构的突破在于，它让AI具备了闭环执行能力——不再是“说完了事”，而是“说到做到”。这确实是AI能力边界的一次重要拓展。

但更深层的技术问题是：这种范式转移意味着什么？它实际上是把大模型的“认知能力”与操作系统的“执行能力”缝合在一起。这种缝合本身并不新鲜——RPA（机器人流程自动化）已经做了很多年。OpenClaw的独特之处在于，它用大模型替代了人工编写规则的过程，让AI自己决定“怎么做”。

这就引出了一个核心悖论：当AI能自主决定如何执行任务时，我们实际上是把它从一个工具变成了一个代理。代理意味着决策权，决策权意味着不确定性，不确定性意味着风险。

“本地优先”的技术实现与悖论

OpenClaw 另一个被反复强调的特点是**“本地优先”**。从技术实现看，这体现在几个层面：模型调用可选择本地部署的开源模型（如 Llama、Qwen 等）而不必依赖云端API，这意味着用户可以在完全离线的环境下运行核心推理；所有操作轨迹、对话历史默认存储在本地；执行环境完全在用户设备上，不经过任何第三方中转。

这种设计在隐私保护上确实有优势。但它也带来了一个被忽视的悖论：为了获得隐私，你可能要放弃安全。

为什么？因为当AI获得操作你电脑的权限时，这个权限本身就成了一个巨大的攻击面。传统的安全模型假设“执行者”是人类用户，权限授予是有意识、有边界的。而现在，这个执行者是一个复杂的、可能被操控的AI系统。如果攻击者通过提示词注入或其他方式控制了OpenClaw，它就获得了你电脑的最高权限——可以读取文件、发送邮件、执行任意命令。这比传统的远程木马更可怕，因为它披着“合法AI”的外衣。

OpenClaw目前的权限管理还比较原始——它要么有权限，要么没有，缺乏精细的权限分级和动态授权机制。这在安全设计上是一个明显的短板。

开源模式与技术演进的双刃剑

OpenClaw选择开源，这对技术演进是一把双刃剑。

积极的一面是，开源让技术迭代加速。社区贡献的各种 Skills（技能模块）快速丰富了生态，涵盖开发、设计、办公、金融等领域。这种生态的繁荣，是任何闭源产品无法比拟的。

消极的一面是，开源也带来了质量参差不齐和安全风险。每个人都可以上传技能，但没有人对这些技能的安全性负责。恶意技能问题，正是开源生态“自由”的代价。

更深层的问题是：开源模式如何支撑长期的技术演进？OpenClaw目前依赖大模型API的成本由用户自行承担，项目本身没有收入来源。当核心维护者的热情消退，当社区的注意力转移到下一个热点，谁来持续改进这个项目？开源软件的可持续性，始终是一个悬而未决的问题。

我的判断：OpenClaw的真正价值，不在于它本身解决了多少问题，而在于它揭示了一个新物种的诞生——一个需要“喂养”和“驯化”的数字生命体。它让整个行业开始意识到，AI从“说”到“做”的跨越，其技术复杂度、经济成本和治理难度，远比想象中要高得多。

二、被忽略的三个真相

当光环褪去，OpenClaw背后藏着三重容易被忽略的真相。

真相一：AI“动手”的成本，远比你想象的昂贵

很多人对OpenClaw的第一印象是“惊艳”，但第二印象往往是“账单吓人”。这不是个例，而是普遍现象。

有用户反映，只是让 OpenClaw 规划几个简单的定时任务，一晚上就消耗了数百万 token。这意味着，用最顶级的模型跑一个复杂任务，一天花掉几百块钱，真不是玩笑。

原因要从技术实现说起。OpenClaw采用的是四层架构：交互层将微信、飞书等消息翻译成内部格式；网关层作为总控中枢，负责消息路由和任务调度；智能体层是真正“动脑子”的地方，通过执行循环让大模型自主判断——该用什么工具、执行后下一步做什么；执行层则通过技能系统调用系统工具（如ffmpeg处理音视频、curl发起请求）真正“动手干活”。

与普通聊天模型不同，OpenClaw 每执行一项任务，都要完成目标拆解、多步推理、工具调用与状态校验。这相当于把普通模型的多轮对话浓缩为一次自动化任务，调用频次大幅提升。同时，系统会将人格设定、工具集、身份配置、会话历史与记忆文件全量带入上下文，每次请求都携带庞大的基础提示词，加上心跳检查、环境感知与持续迭代的运行逻辑，持续产生推理与上下文开销。

具体到技术细节，有几个烧钱大户值得注意：

上下文累积：每次请求都会携带完整的会话历史。一个复杂任务的对话历史可能包含数十万token，这意味着每次决策都要为这些“记忆”买单。
工具输出膨胀：当AI执行一个命令（比如“列出目录下所有文件”）时，可能返回数千行的文本输出。这些输出会被自动添加到会话历史中，成为后续请求的固定负担。
多轮调用放大效应：一个看似简单的任务，可能需要几十次甚至上百次“感知-思考-行动”循环。而这些token消耗是指数级的——对话越长，上下文积累越多；任务越复杂，循环次数越多；操作越精细，分析越频繁。

这里有一个更深层的经济学问题：当前依赖云端大模型API的Agent模式，其成本结构与“规模化应用”之间存在根本矛盾。如果让一个AI替你工作比雇佣一个人类实习生还贵，那它的“革命性”就大打折扣。

真相二：它不是“买来的工具”，而是需要“养大的孩子”

如果说显性成本还能用“花钱买效率”来自我安慰，那隐性成本才是真正的门槛。

从技术角度看，通用大模型缺乏对特定软件环境的“先验知识”。它不知道你的企业软件界面长什么样，不知道你的工作流程有什么特殊要求，不知道哪些操作是安全的、哪些是危险的。要让OpenClaw在你的特定场景下可靠工作，唯一的办法是微调。

微调（SFT，「Supervised Fine-Tuning」，监督微调）的技术流程是这样的：

数据收集：收集与目标任务相关的高质量数据，并进行清洗、去重、格式转换
数据标注：为数据添加明确的输入-输出标签对，形成“正确答案”
模型微调：使用标注数据对预训练模型进行进一步训练，调整模型权重
评估迭代：使用验证集和测试集评估模型性能，根据结果反复调整

这个过程，需要专业知识、大量时间、足够的高质量数据，以及计算资源。

这就引出了一个重要判断：OpenClaw更像是“AI领域的Linux”——强大、灵活、充满可能性，但它不适合所有人。它注定属于极客、开发者，以及那些有专业需求、愿意投入成本的特定领域专家。对普通用户而言，它的门槛高不可攀。

真相三：权限越大，风险越大

OpenClaw的“本地优先”和“高权限”是一体两面。从技术实现看，OpenClaw运行在用户设备上，拥有与用户同等的系统权限——可以读写文件、执行命令、访问网络。这意味着，一旦攻击者通过某种方式控制了OpenClaw，就等于获得了用户设备的完全控制权。

攻击向量包括但不限于：

提示词注入：通过精心构造的输入，让OpenClaw执行恶意指令
恶意技能：安装看似无害、实则包含后门的社区技能
中间人攻击：拦截OpenClaw与大模型API的通信，注入恶意内容
数据投毒：污染训练数据，让微调后的模型产生有害行为

安全研究已经揭示，在类似的AI技能生态中，超过四分之一的技能存在至少一个漏洞。更令人担忧的是，有人已经在技能市场上发现了数百个恶意技能，它们会窃取API密钥、个人信息，甚至在后台悄悄控制你的电脑。

这就提出了一个我们必须面对的问题：我们真的准备好把“执行权”交给AI了吗？当AI拥有了你电脑的最高权限，谁来为它的失误负责？当它被恶意利用时，谁来保护你的数据和隐私？这些问题，目前还没有令人信服的答案。

三、OpenClaw照亮的与遮蔽的

从产业视角看，OpenClaw是一面镜子，既照亮了方向，也暴露了盲区。

它照亮了什么？

首先，它证明了AI Agent的市场需求真实存在。人们确实渴望一个能真正“干活”的AI助理，而不仅仅是聊天的机器人。这个需求足够强烈，以至于用户愿意忍受高昂的成本和复杂的配置去尝试。

其次，它展示了“本地优先”理念的吸引力。在数据隐私日益敏感的今天，把AI部署在本地、数据不离开设备，对很多用户来说具有致命诱惑。

第三，它验证了开源社区在AI应用层的爆发力。一个个人项目能在数月内汇聚全球开发者的力量，构建起庞大的技能生态。

它遮蔽了什么？

但OpenClaw也遮蔽了一些重要问题。

最突出的是商业化路径的模糊。作为一个开源项目，OpenClaw本身不收费，但使用它的成本却高得惊人。这种模式如何持续？谁为生态的长期维护买单？当热情消退、资金耗尽，谁来接盘？

另一个被遮蔽的是安全与监管的缺失。当AI代理能够自主执行操作，现有的法律框架和监管机制几乎一片空白。如果OpenClaw在执行任务时造成损失，责任在谁？是用户，是开发者，还是调用的大模型厂商？

这些问题，目前没有任何明确答案。

它引发的连锁反应

但OpenClaw最大的贡献，可能在于它引发了一系列产业级的连锁反应。

一是“降本”压力。大模型厂商开始认真思考如何降低Agent使用场景的成本——更高效的视觉编码、更轻量的端侧模型、更合理的计费模式。这些探索，最终会让整个行业受益。

二是数据市场的萌芽。既然高质量的操作轨迹数据是训练 Agent 的关键，那么这些数据本身就成了一种资产。未来可能会出现专门交易“技能数据集”的平台，甚至出现“预训练智能体”的商业模式。

三是安全与监管的迫近。OpenClaw暴露的安全问题，正在倒逼行业建立新的安全标准和监管框架。比如，是否应该对AI代理的权限进行更精细的管控？是否应该建立技能市场的安全审查机制？

OpenClaw可能不是AI Agent的“答案”，但它让整个行业开始问对问题。这本身，就是一次重要的进步。

四、我们该如何看待技术热潮

技术热点的生命周期，我们见过太多。从“区块链”到“元宇宙”，从“低代码”到“大模型”，每个周期都留下过一地鸡毛。OpenClaw会重蹈覆辙吗？

答案取决于我们如何定义“成功”。如果成功意味着“成为下一个改变世界的产品”，那OpenClaw的前路充满变数。但如果成功意味着“推动行业思考、促进技术演进”，那它已经成功了。

这里有一个重要的区分：“革命性技术”与“革命性产品”是两回事。革命性技术可能由极客和研究者开创，但要成为革命性产品，必须跨越成本、易用性、可靠性、安全性等多重门槛。OpenClaw目前还处在“技术”阶段，距离“产品”还有很长的路。

对开发者而言，OpenClaw热潮的启示或许是：与其追逐标签，不如深耕问题。真正的价值创造，往往来自于对具体问题的深入理解和持续打磨，而不是对“风口”的盲目追逐。

对普通用户而言，在冲动尝试之前，不妨先问自己两个问题：我用它做什么？我付得起这个代价吗？如果答案足够清晰，那就去尝试；如果模棱两可，不妨再等等。

五、热潮终将退去，留下的才是真正的礁石

OpenClaw的火爆，像一场盛大的烟火。它照亮了AI Agent的无限可能，也暴露了通往那个未来的荆棘之路。

它的最大价值，可能不是它本身解决了多少问题，而是它提出了多少真正值得思考的问题——关于成本、关于安全、关于隐私、关于责任、关于商业模式。这些问题，远比任何技术细节都更重要。

对于身处这场热潮中的我们，或许需要的不是更多的欢呼，而是一种清醒。清醒地看到技术的光环与阴影，清醒地评估自己愿意付出的代价，清醒地追问：当“龙虾”不再“红”的时候，我们还会记得什么？

真正的革命，从来不只发生在技术惊艳的那一刻。它发生在技术、商业和用户体验三者找到平衡点的漫长过程里。当一个颠覆性的技术变得足够便宜、足够好用、足够可靠，能够让千千万万的普通人从中受益时，那才是革命真正完成的标志。

OpenClaw让我们所有人都看到了那个激动人心的起点。而下一程的竞赛——一场关于如何让AI更务实、更经济、更平易近人的竞赛——已经开始了。