当“贾维斯”降临,我们准备好了吗?

“技术狂热最擅长的,是让人们在惊叹中忘记追问代价。”
「本文由 Human Thinking , AI Writing」
一只“龙虾”在技术圈掀起了滔天巨浪。
OpenClaw——这个开源项目在短短数月内席卷了技术社区的注意力。GitHub 上,技术论坛中,到处都在讨论这只“龙虾”如何让 AI 真正“动手干活”。“最接近钢铁侠贾维斯的东西出现了”的惊呼此起彼伏,“个人AI助理革命”之类的标题铺天盖地。似乎只要贴上 OpenClaw 的标签,就握住了通往未来的船票。
但在这片集体亢奋中,有几个问题很少有人提起:这只“龙虾”普通人养得起吗?它究竟是一个开箱即用的产品,还是一个需要漫长“驯化”的半成品?
一、OpenClaw到底“革命”了什么?
要理解这场狂欢,首先要问:OpenClaw 是什么?它真的带来了革命吗?
OpenClaw 不是手机里陪你聊天解闷的机器人。它的 Slogan 直截了当——“The AI that actually does things”,一个真正能干活的 AI。这是一个可以部署在你个人电脑上的开源 AI 代理。

从“对话”到“执行”:技术架构的范式转移
从技术架构上看,OpenClaw与传统AI助手的区别,不仅仅是功能上的增量改进,而是底层范式的根本转换。
传统AI助手的交互模式是“请求-响应”:用户提问,模型回答。这个循环在回答生成后就结束了。而OpenClaw采用的是“规划-执行-反馈”的闭环架构。它的核心是一个多步推理引擎,能够将用户的自然语言指令分解为一系列可执行的操作序列,然后通过工具调用接口与操作系统、浏览器、应用程序进行交互,执行实际操作,并根据执行结果调整后续计划。
它的架构可以分为四个关键部分:
- Gateway(网关):像总接线员,把微信、飞书等聊天软件接入进来
- Agent(智能体):是大脑,负责调用 GPT、Claude 等大模型思考和决策
- Skills(技能):是手和脚,让它能干具体的事,比如打开浏览器、运行代码
- Memory(记忆):让它记住你是谁、你的习惯是什么
也可以从技术层级来理解:
- 感知层:通过大模型理解界面元素、文本内容,转化为结构化数据
- 规划层:基于当前状态和目标,进行任务分解和路径规划
- 执行层:通过系统级 API 调用,模拟鼠标点击、键盘输入等真实交互
- 记忆层:维护会话上下文和长期记忆,支持跨会话的连续性任务
这种架构的突破在于,它让AI具备了闭环执行能力——不再是“说完了事”,而是“说到做到”。这确实是AI能力边界的一次重要拓展。
但更深层的技术问题是:这种范式转移意味着什么?它实际上是把大模型的“认知能力”与操作系统的“执行能力”缝合在一起。这种缝合本身并不新鲜——RPA(机器人流程自动化)已经做了很多年。OpenClaw的独特之处在于,它用大模型替代了人工编写规则的过程,让AI自己决定“怎么做”。
这就引出了一个核心悖论:当AI能自主决定如何执行任务时,我们实际上是把它从一个工具变成了一个代理。代理意味着决策权,决策权意味着不确定性,不确定性意味着风险。
“本地优先”的技术实现与悖论
OpenClaw 另一个被反复强调的特点是**“本地优先”**。从技术实现看,这体现在几个层面:模型调用可选择本地部署的开源模型(如 Llama、Qwen 等)而不必依赖云端API,这意味着用户可以在完全离线的环境下运行核心推理;所有操作轨迹、对话历史默认存储在本地;执行环境完全在用户设备上,不经过任何第三方中转。
这种设计在隐私保护上确实有优势。但它也带来了一个被忽视的悖论:为了获得隐私,你可能要放弃安全。
为什么?因为当AI获得操作你电脑的权限时,这个权限本身就成了一个巨大的攻击面。传统的安全模型假设“执行者”是人类用户,权限授予是有意识、有边界的。而现在,这个执行者是一个复杂的、可能被操控的AI系统。如果攻击者通过提示词注入或其他方式控制了OpenClaw,它就获得了你电脑的最高权限——可以读取文件、发送邮件、执行任意命令。这比传统的远程木马更可怕,因为它披着“合法AI”的外衣。
OpenClaw目前的权限管理还比较原始——它要么有权限,要么没有,缺乏精细的权限分级和动态授权机制。这在安全设计上是一个明显的短板。
开源模式与技术演进的双刃剑
OpenClaw选择开源,这对技术演进是一把双刃剑。
积极的一面是,开源让技术迭代加速。社区贡献的各种 Skills(技能模块)快速丰富了生态,涵盖开发、设计、办公、金融等领域。这种生态的繁荣,是任何闭源产品无法比拟的。
消极的一面是,开源也带来了质量参差不齐和安全风险。每个人都可以上传技能,但没有人对这些技能的安全性负责。恶意技能问题,正是开源生态“自由”的代价。
更深层的问题是:开源模式如何支撑长期的技术演进?OpenClaw目前依赖大模型API的成本由用户自行承担,项目本身没有收入来源。当核心维护者的热情消退,当社区的注意力转移到下一个热点,谁来持续改进这个项目?开源软件的可持续性,始终是一个悬而未决的问题。
我的判断:OpenClaw的真正价值,不在于它本身解决了多少问题,而在于它揭示了一个新物种的诞生——一个需要“喂养”和“驯化”的数字生命体。它让整个行业开始意识到,AI从“说”到“做”的跨越,其技术复杂度、经济成本和治理难度,远比想象中要高得多。

二、被忽略的三个真相
当光环褪去,OpenClaw背后藏着三重容易被忽略的真相。
真相一:AI“动手”的成本,远比你想象的昂贵
很多人对OpenClaw的第一印象是“惊艳”,但第二印象往往是“账单吓人”。这不是个例,而是普遍现象。
有用户反映,只是让 OpenClaw 规划几个简单的定时任务,一晚上就消耗了数百万 token。这意味着,用最顶级的模型跑一个复杂任务,一天花掉几百块钱,真不是玩笑。
原因要从技术实现说起。OpenClaw采用的是四层架构:交互层将微信、飞书等消息翻译成内部格式;网关层作为总控中枢,负责消息路由和任务调度;智能体层是真正“动脑子”的地方,通过执行循环让大模型自主判断——该用什么工具、执行后下一步做什么;执行层则通过技能系统调用系统工具(如ffmpeg处理音视频、curl发起请求)真正“动手干活”。
与普通聊天模型不同,OpenClaw 每执行一项任务,都要完成目标拆解、多步推理、工具调用与状态校验。这相当于把普通模型的多轮对话浓缩为一次自动化任务,调用频次大幅提升。同时,系统会将人格设定、工具集、身份配置、会话历史与记忆文件全量带入上下文,每次请求都携带庞大的基础提示词,加上心跳检查、环境感知与持续迭代的运行逻辑,持续产生推理与上下文开销。
具体到技术细节,有几个烧钱大户值得注意:
- 上下文累积:每次请求都会携带完整的会话历史。一个复杂任务的对话历史可能包含数十万token,这意味着每次决策都要为这些“记忆”买单。
- 工具输出膨胀:当AI执行一个命令(比如“列出目录下所有文件”)时,可能返回数千行的文本输出。这些输出会被自动添加到会话历史中,成为后续请求的固定负担。
- 多轮调用放大效应:一个看似简单的任务,可能需要几十次甚至上百次“感知-思考-行动”循环。而这些token消耗是指数级的——对话越长,上下文积累越多;任务越复杂,循环次数越多;操作越精细,分析越频繁。
这里有一个更深层的经济学问题:当前依赖云端大模型API的Agent模式,其成本结构与“规模化应用”之间存在根本矛盾。如果让一个AI替你工作比雇佣一个人类实习生还贵,那它的“革命性”就大打折扣。

真相二:它不是“买来的工具”,而是需要“养大的孩子”
如果说显性成本还能用“花钱买效率”来自我安慰,那隐性成本才是真正的门槛。
从技术角度看,通用大模型缺乏对特定软件环境的“先验知识”。它不知道你的企业软件界面长什么样,不知道你的工作流程有什么特殊要求,不知道哪些操作是安全的、哪些是危险的。要让OpenClaw在你的特定场景下可靠工作,唯一的办法是微调。
微调(SFT,「Supervised Fine-Tuning」,监督微调)的技术流程是这样的:
- 数据收集:收集与目标任务相关的高质量数据,并进行清洗、去重、格式转换
- 数据标注:为数据添加明确的输入-输出标签对,形成“正确答案”
- 模型微调:使用标注数据对预训练模型进行进一步训练,调整模型权重
- 评估迭代:使用验证集和测试集评估模型性能,根据结果反复调整
这个过程,需要专业知识、大量时间、足够的高质量数据,以及计算资源。
这就引出了一个重要判断:OpenClaw更像是“AI领域的Linux”——强大、灵活、充满可能性,但它不适合所有人。它注定属于极客、开发者,以及那些有专业需求、愿意投入成本的特定领域专家。对普通用户而言,它的门槛高不可攀。
真相三:权限越大,风险越大
OpenClaw的“本地优先”和“高权限”是一体两面。从技术实现看,OpenClaw运行在用户设备上,拥有与用户同等的系统权限——可以读写文件、执行命令、访问网络。这意味着,一旦攻击者通过某种方式控制了OpenClaw,就等于获得了用户设备的完全控制权。
攻击向量包括但不限于:
- 提示词注入:通过精心构造的输入,让OpenClaw执行恶意指令
- 恶意技能:安装看似无害、实则包含后门的社区技能
- 中间人攻击:拦截OpenClaw与大模型API的通信,注入恶意内容
- 数据投毒:污染训练数据,让微调后的模型产生有害行为
安全研究已经揭示,在类似的AI技能生态中,超过四分之一的技能存在至少一个漏洞。更令人担忧的是,有人已经在技能市场上发现了数百个恶意技能,它们会窃取API密钥、个人信息,甚至在后台悄悄控制你的电脑。
这就提出了一个我们必须面对的问题:我们真的准备好把“执行权”交给AI了吗?当AI拥有了你电脑的最高权限,谁来为它的失误负责?当它被恶意利用时,谁来保护你的数据和隐私?这些问题,目前还没有令人信服的答案。
三、OpenClaw照亮的与遮蔽的
从产业视角看,OpenClaw是一面镜子,既照亮了方向,也暴露了盲区。
它照亮了什么?
首先,它证明了AI Agent的市场需求真实存在。人们确实渴望一个能真正“干活”的AI助理,而不仅仅是聊天的机器人。这个需求足够强烈,以至于用户愿意忍受高昂的成本和复杂的配置去尝试。
其次,它展示了“本地优先”理念的吸引力。在数据隐私日益敏感的今天,把AI部署在本地、数据不离开设备,对很多用户来说具有致命诱惑。
第三,它验证了开源社区在AI应用层的爆发力。一个个人项目能在数月内汇聚全球开发者的力量,构建起庞大的技能生态。
它遮蔽了什么?
但OpenClaw也遮蔽了一些重要问题。
最突出的是商业化路径的模糊。作为一个开源项目,OpenClaw本身不收费,但使用它的成本却高得惊人。这种模式如何持续?谁为生态的长期维护买单?当热情消退、资金耗尽,谁来接盘?
另一个被遮蔽的是安全与监管的缺失。当AI代理能够自主执行操作,现有的法律框架和监管机制几乎一片空白。如果OpenClaw在执行任务时造成损失,责任在谁?是用户,是开发者,还是调用的大模型厂商?
这些问题,目前没有任何明确答案。
它引发的连锁反应
但OpenClaw最大的贡献,可能在于它引发了一系列产业级的连锁反应。
一是“降本”压力。大模型厂商开始认真思考如何降低Agent使用场景的成本——更高效的视觉编码、更轻量的端侧模型、更合理的计费模式。这些探索,最终会让整个行业受益。
二是数据市场的萌芽。既然高质量的操作轨迹数据是训练 Agent 的关键,那么这些数据本身就成了一种资产。未来可能会出现专门交易“技能数据集”的平台,甚至出现“预训练智能体”的商业模式。
三是安全与监管的迫近。OpenClaw暴露的安全问题,正在倒逼行业建立新的安全标准和监管框架。比如,是否应该对AI代理的权限进行更精细的管控?是否应该建立技能市场的安全审查机制?
OpenClaw可能不是AI Agent的“答案”,但它让整个行业开始问对问题。这本身,就是一次重要的进步。

四、我们该如何看待技术热潮
技术热点的生命周期,我们见过太多。从“区块链”到“元宇宙”,从“低代码”到“大模型”,每个周期都留下过一地鸡毛。OpenClaw会重蹈覆辙吗?
答案取决于我们如何定义“成功”。如果成功意味着“成为下一个改变世界的产品”,那OpenClaw的前路充满变数。但如果成功意味着“推动行业思考、促进技术演进”,那它已经成功了。
这里有一个重要的区分:“革命性技术”与“革命性产品”是两回事。革命性技术可能由极客和研究者开创,但要成为革命性产品,必须跨越成本、易用性、可靠性、安全性等多重门槛。OpenClaw目前还处在“技术”阶段,距离“产品”还有很长的路。
对开发者而言,OpenClaw热潮的启示或许是:与其追逐标签,不如深耕问题。真正的价值创造,往往来自于对具体问题的深入理解和持续打磨,而不是对“风口”的盲目追逐。
对普通用户而言,在冲动尝试之前,不妨先问自己两个问题:我用它做什么?我付得起这个代价吗?如果答案足够清晰,那就去尝试;如果模棱两可,不妨再等等。
五、热潮终将退去,留下的才是真正的礁石
OpenClaw的火爆,像一场盛大的烟火。它照亮了AI Agent的无限可能,也暴露了通往那个未来的荆棘之路。
它的最大价值,可能不是它本身解决了多少问题,而是它提出了多少真正值得思考的问题——关于成本、关于安全、关于隐私、关于责任、关于商业模式。这些问题,远比任何技术细节都更重要。
对于身处这场热潮中的我们,或许需要的不是更多的欢呼,而是一种清醒。清醒地看到技术的光环与阴影,清醒地评估自己愿意付出的代价,清醒地追问:当“龙虾”不再“红”的时候,我们还会记得什么?
真正的革命,从来不只发生在技术惊艳的那一刻。它发生在技术、商业和用户体验三者找到平衡点的漫长过程里。当一个颠覆性的技术变得足够便宜、足够好用、足够可靠,能够让千千万万的普通人从中受益时,那才是革命真正完成的标志。
OpenClaw让我们所有人都看到了那个激动人心的起点。而下一程的竞赛——一场关于如何让AI更务实、更经济、更平易近人的竞赛——已经开始了。