Peter Steinberger深度解析AI Agent安全挑战：核心风险与防护策略

发布时间：2026-04-21 18:38阅读：8

近期，OpenClaw 创始人、OpenAI 技术专家 Peter Steinberger 在第六届 AI 工程师峰会上介绍了OpenClaw 五个月的最新进展报告，此外还深入探讨了AI Agent 的系统安全漏洞评估、AI 协作实现"提示词请求（Prompt Request）"工作流、AI 的个性化与品味塑造、以及 OpenClaw 基金会的独立性等话题。

Peter Steinberger指出，当前AI项目面临严重的"安全恐吓营销"，海量的安全公告中充斥着AI生成的垃圾信息。他认为传统的CVSS评分机制在AI Agent场景下存在误导性，许多被评为10分满分的漏洞在实际部署中并无实质威胁。

他认为，AI Agent 的核心风险在于"致命三要素"：即系统同时具备访问私有数据、接触不可信内容以及外部通信的能力。他认为功能越强大的 Agent 本质上越危险，必须通过沙箱化和本地化部署来规避风险。

Peter还介绍道，OpenClaw 的亚洲用户规模位居全球之首，还与许多中国公司保持合作，成员中不乏来自腾讯和字节跳动的技术专家。他认为，为了维持项目的全球吸引力和技术中立，OpenClaw 必须通过基金会模式保持独立，而非被 OpenAI 等大厂单一掌控。

关于AI 时代软件开发，他指出瓶颈将不再是编码效率，而是工程师的"品味"与系统设计能力。他认为高质量的软件无法通过全自动化的"黑灯工厂"产出，开发者需要利用系统架构思维去引导 AI Agent，并预测 AI 将向着无处不在的、具备"做梦"式记忆处理能力的智能交互形态演进。

OpenClaw近况

Peter Steinberger:大家早上好。Swyx 邀请我来分享 OpenClaw 的现状。在座有多少人正在运行 OpenClaw？请举手示意，大约有 30% 到 40%，非常棒。项目发布至今仅五个月，可以毫不夸张地说，我们是 GitHub 历史上增长最快的项目。通常项目的增长曲线像曲棍球棒，而我们的曲线几乎是一条直线，这种极速增长也带来了相应的挑战。

目前，我们的GitHub星数已名列前茅，除了一些教育类仓库，没有其他软件项目的规模能与我们相比。我们目前拥有约30,000次代码提交，贡献者人数正逼近2,000人，公关（PR）数量也即将突破30,000个。开发速率依然强劲。这并非易事，我以前创办过公司，不想再重来一遍，因此加入了OpenAI，但随后我们又成立了OpenClaw基金会。我现在身兼两职，运营基金会就像是开启了困难模式的创业，不仅要处理所有琐事，还得面对大量无法直接指挥的志愿者。

我的目标之一是优化项目的巴士系数（Bus Factor），即分散代码提交的权重。情况正在好转，但尚未达到理想状态。过去几个月，我与许多公司进行了沟通。目前已有来自英伟达的成员加入，微软也派人协助我们开发微软Teams插件和Windows客户端。Red Hat的专家正全力帮助我们提升安全性和实现容器化。此外，我们还与许多中国公司保持合作，成员中不乏来自腾讯和字节跳动的技术专家。事实上，亚洲用户的规模远超其他洲，我们的贡献者遍布全球。

为何现有的安全评分机制无法准确衡量 AI Agent 的真实风险

针对外界对OpenClaw 安全性的质疑以及英伟达推出的 NemoClaw 增强层，你们在处理海量安全公告时遇到了哪些挑战？为何你认为现有的安全评分机制（如 CVSS）无法准确衡量 AI Agent 的真实风险？

Peter Steinberger:我想重点聊聊关于OpenClaw 安全性的议题。你们可能看过一些调侃 OpenClaw 安全性的梗图，也注意到英伟达推出了安全增强层 NemoClaw。在过去两三个月里，频繁的版本更迭导致了一些功能故障，我简直快被海量的安全公告淹没了。到目前为止，我们共收到 1,142 份公告，平均每天 16.6 份，其中 99 份属于严重级别。我们已公示约 469 份，并解决了其中 60% 的漏洞。这些数字令人心惊胆战，横向对比来看，Linux 内核每天接收 8 到 9 份报告，而我们的数量是其两倍。

处理安全事件的经验告诉我们，举报者叫嚣得越厉害，称漏洞有多严重，内容就越有可能是AI 系统生成的垃圾信息。我们正步入一个必须重塑软件构建方式的时代，AI 工具极其擅长识别极其隐蔽的链式漏洞利用，这足以破坏现有的一切软件。英伟达发布的NemoClaw 支持沙箱化运行，我在测试中将其接入了 Codex 安全检测系统，结果在半小时内就发现了五种绕过其安全沙箱的方法。这是因为当你使用此类产品时，接触的是未受限模型，其在网络安全方面的能力远超公众能接触到的版本。

此外，在整个安全行业中，漏洞发现被视为一种资历积分。OpenClaw成了大家争相攻破的典型。成百上千的人运行着自动化脚本试图寻找漏洞。常见的攻击面包括远程代码执行、绕过审批、代码注入和路径遍历。例如编号为GHSA-4JJP的漏洞，其通用漏洞评分系统（CVSS）分数高达10分，意味着极其可怕的威胁。该问题描述为：如果你同步尚未正式发布的iPhone应用，即便只开启了只读权限，攻击者也能通过系统漏洞获取写入权限。

然而，这个所谓的致命漏洞在实际场景中甚至称不上一个安全事件。OpenClaw的典型用法是部署在个人云端或本地设备上。在99%的情况下，你对自己的网关要么有完全控制权，要么完全没有。这源于我试图设计一个更灵活的权限模型，虽然这种降级权限系统在某些场景下有意义，但目前根本没人使用。由于评分规则不考虑实际使用情况，它被评为10分满分，导致外界正为这些在实际操作中几乎不会影响任何人的事件而陷入疯狂。

（关于供应链威胁）同时也确实存在一些会产生实际影响的威胁，我们发现有特定背景的黑客组织试图发起攻击。比如GhostClaw威胁，它通过伪造npm软件包来误导用户。如果你下载了这种伪造包，系统就会被植入Rootkit。这类攻击超出了我们的控制范围。此外还有Axios的案例，我们本身并未使用Axios，但我们依赖的微软Teams或Slack插件使用了它。由于它们没有锁定依赖版本，在典型的供应链攻击模式下，我们也受到了波及。面对如此巨量的安全公告，寻求企业帮助是最快的方式。英伟达表现得非常出色，他们指派了专人全职协助我们清理那些AI系统生成的低质量垃圾报告并加固代码库。

如何规避 AI Agent 固有的安全风险

许多学术论文如《混沌Agent》对 OpenClaw 的安全性评价极低，你曾追问过这些作者的实验细节，真实的结论是什么？对于普通用户而言，如何规避 AI Agent 固有的安全风险？

Peter Steinberger:许多公司甚至大学都在大肆进行恐吓营销。有一篇广为流传的论文《混沌Agent》，文中用了整整四页详尽描述 OpenClaw 的架构，却只字未提我们的安全文档页，因为如果按照官方推荐的正确方式安装，他们的恐怖故事就讲不下去了。他们完全无视了我们的安全建议：这是个人 AI Agent，不要将其接入群聊。如果非要接入，请务必开启沙箱功能。因为一旦任何人都能与你的 AI Agent 对话，他们就能利用 AI Agent 的权限外泄任何数据。如果是团队 AI Agent，它应当只接触团队共有信息。

我曾就实验细节追问过那些论文作者，他们承认是以sudo模式运行AI Agent的，因为想要给它最大的权限。实际上，他们是强行绕过了安全设置，这在正常情况下甚至需要修改源代码。但在报告中他们对此避而不谈。我目前的沮丧在于，似乎整个行业都在试图抹黑这个项目，称其为默认不安全。然而，许多用户通过阅读安全文档，完全可以安全地使用它。比如此前比利时网络安全部门发布的警告，其实只要遵循官方推荐的默认设置，Token仅限本地或内网访问，外部网站根本无法触达。

平心而论，风险确实存在。最核心的风险在于致命三要素：即一个AI Agent系统如果同时具备访问私有数据、接触不可信内容以及外部通信的能力，它本质上就是危险的。这并非OpenClaw独有的问题，功能越强大，潜在风险就越高。虽然我们收到的多数安全公告都是由AI系统生成的，但我仍必须亲力亲为去审阅，这耗费了巨大的精力。如果报告措辞过于客气或包含道歉，那多半是AI系统写的，因为真实的安全专家从不道歉。这种现象正成为开源社区的公害。

OpenClaw 的中立性与 OpenAI 的开源转型

外界传闻OpenAI 已经收购了 OpenClaw，这是否属实？你正在筹划的 OpenClaw 基金会如何借鉴 Ghost 基金会的模式，以保证项目在追求开发速率的同时不丧失中立性？

Peter Steinberger:仅靠志愿者很难维持这种强度的运作。关于未来，外界传言OpenAI 收购了 OpenClaw，事实并非如此。他们深知世界需要更多人通过接触 AI 系统来探索其潜力与风险。他们明白，如果一个普通人在家体验过 OpenClaw，他回到公司后就会要求在工作中使用 AI 工具。

为了保证项目的成功，它必须保持独立。因此，我正在筹划OpenClaw 基金会，力求将其打造为一个中立机构。该基金会的模式借鉴了 Ghost 基金会，届时我们将能够聘请全职开发人员，在保证开发速率的同时提升软件质量，也能让我从琐事中抽身。以上就是现状汇报。

有人提问关于闭源版OpenClaw 的担忧。显然，大家非常关心项目在 OpenAI 内部的未来，你对此如何回应？

Peter Steinberger:当我决定加入OpenAI 时，这种质疑就出现了。我理解大家的顾虑，OpenAI 过去在开源方面的表现确实存在争议，但现在情况大不相同了。Codex 已经开源，他们还发布了 Symfony 这个非常出色的编排层。他们正积极投入并深入理解开源社区。他们很清楚 OpenClaw 必须保持开放，支持包括本地模型在内的各种模型。如果更多人开始接触 AI 系统，整个行业都会受益。OpenAI 非常支持我的工作，并提供了大量资源。

其实我本可以向OpenAI要更多的人手，但这会给人一种他们要全面接管项目的错觉。因此，我引入了英伟达、微软、甚至Salesforce的成员。Slack的团队也派专家专门维护插件。此外，我还拉拢了腾讯、字节跳动以及阿里巴巴、MiniMax、Kimi等几乎所有主流模型供应商。NVIDIA的支持力度极大，他们提供的工程师执行力极强。OpenClaw的迭代节奏简直疯狂，你需要一支正规军，而我正在组建它。

数据主权与绕过孤岛

你展示的图表显示，留住高质量贡献者依然很难，大厂总是在挖人。此外，在你看来，开源和本地模型对OpenClaw 的未来有多重要？同时，关于 OpenAI 内部的 GPT-OSS 动向，它是会与 OpenClaw 协同发展，还是保持独立？

Peter Steinberger:我开发OpenClaw 的初衷之一，就是希望数据能掌握在用户自己手中。我骨子里是个重视隐私的欧洲人，掌控自己的数据是刚需。如果你是一家初创公司，想要申请 Gmail 的 API 接口，可能得折腾半年。但作为个人用户，我的自动化脚本可以直接访问网页。只要数据在屏幕上，AI Agent 就能获取。这让我们能绕过大公司筑起的数据孤岛，实现许多更酷的自动化场景。

（关于GPT-OSS）这方面我还不便透露太多，但我可以确定，OpenClaw的成功带动了OpenAI内部对开源的热情。我很欣慰看到OpenAI越来越开放。相比之下，某些顶尖实验室如果你泄露代码或发展得太快，他们甚至会起诉或封禁你。我认为OpenAI正走在一条正确的道路上。

大家非常关注你的编码工作流。到目前为止，你提出的"提示词请求"而非"拉取请求"的理念已经得到了广泛传播，你在 OpenAI 消耗 Token 的方式也让人感到震撼。大家想知道你如何交付产品，以及如何处理 AI Agent 的等待时间，你为什么要启动这么多 AI Agent？请给出一个直观的数据。

Peter Steinberger:我从未想过我那张照片会引起这么大的轰动。曾几何时，我几乎同时运行着十个会话，特别是在我使用5.0 或 5.1 版本的 Codex 时，那时候速度非常慢。现在我们做了改进，速度提升了，而且还有快速模式实。到现在，我的典型工作流负载大约只有以前的一半，可能同时开五六个窗口，因为每个循环的反馈都变快了，而且我在 Worker 中同步的工作区域基本没变，我不再需要频繁使用分屏了。我认为未来 Token 的生成速度会越来越快，从某种程度上说，同时处理六件事并不符合直觉，这只是在速度达标前的某种变通方案。

拒绝"黑灯工厂"

最有趣的一点就是看你们如何处理Token 最大化。我很想知道你对这种完全"黑灯工厂"式的开发方式怎么看，即甚至不审查进入库中的代码，这种方式的可行性正在变得越来越高。

Peter Steinberger:在某种程度上，"黑灯工厂"意味着我在项目开始时就构思好了所有要构建的功能，但我认为这种方式很难打造出高质量的软件。通往山岭之巅的路很少是直线，通常是蜿蜒曲折的。有时你会稍微偏离预定路线，却因此发现了激发灵感的新事物，或是找到了捷径。当你登顶后，确实可以回过头找到最优路径，但在攀登过程中你无法预见。同时，你对项目的初步构思极少会成为最终形态。如果我重新采用瀑布模型，那项目一开始就定型了，这对我来说行不通。我的方式是分步构建，不断体验，根据感受产生新想法，随之调整我的提示词。这是一种高度迭代的过程，我不认为这能实现完全自动化。虽然可以为特定任务构建流水线，但即使是 PR，你也不想建立一个全自动合并的流程，因为很多 PR 根本没有意义。人们会从各种维度拆解你的产品，如果完全自动化，AI 很难判断正确的演进方向。你可以引导它，比如我有一份愿景文档，也尝试过自动化引导，但核心瓶颈依然在于思考深度和审美水平。

AI 时代的品味护城河

品味非常关键。你如何定义品味？在我和大家的交流中，所有人都认同品味是护城河，但对于什么是好的品味却莫衷一是，我很想听听你的见解。

Peter Steinberger:我认为在当今时代，品味最基本的要求就是没有AI 味，你应该明白我的意思。这体现在写作风格、个性以及 UI 上。现在我们看了太多由 AI Agent 自动生成的 UI，一眼就能辨认出来。曾几何时流行紫色渐变色块，但更多时候这是一种直觉，就像你能瞬间识别出 AI 生成的平庸内容一样。这就是为什么我称之为一种气味，即使你无法准确描述，你也能感觉到。这可能是对品味最底层的刻画。往高层级说，由于现在大部分软件开发都可以自动化，你反而可以把更多精力花在打磨细节上。比如当你运行 OpenClaw 时，它会弹出一些偶尔会调侃用户的小消息。我认为这些令人愉悦的细节是你在高层级进行提示词编写时无法获得的。

从搜索框到拟人化的 AI 个性

关于AI 的灵魂塑造，你对 soul.md 投入了大量心血并选择了开源。当你观察到像微软早期 Sydney 那样具有个性的机器人时，你如何看待 AI Agent 在社交与交互中的个性演变？

Peter Steinberger:这是因为世界变了。2023 年和 2024 年我们有了 ChatGPT，那本质上是我们拥有了 AI 却并不真正理解它的能力。我们重塑了 Google，一个搜索框，一个响应，你不会期望 Google 具有个性。但现在我们正转向 AI Agent 时代，最初我在做 WhatsApp 转发器时没想那么多，直接接入了 Claude。但当我在使用它时，发现感觉不对。尽管 Claude 本身有一定的个性，但它说话的方式并不符合在社交应用上交流的习惯。这就是我迭代的起点。这依然关乎品味，感觉不对、太啰嗦、句号太多。我朋友发消息不这样。于是我开始调整，要求它写得更像个人。

外部创新与大厂合规的博弈

像OpenClaw 这样触及许多行业未解难题的项目，似乎很难诞生在传统的美国大公司里，因为在发布前可能就会被法务部门否决。你如何看待这种来自外部的创新阻力？

Peter Steinberger:现在我们有了一些缓解方案，情况在好转，模型也在变强。但我无法想象任何大型实验室会发布这种项目，阻力太大，且没有足够的市场证据证明这是用户所需的。它必须由外部人士来完成。刚开始构建它时，风险是可控的，虽然会有一些数据暴露的可能，但可以承受。如果公司性质不同，自然需要不同的应对方式。

OpenClaw 在家庭智能场景中的潜力

除了文本应用，大家也在寻找AI 的下一个物理形态。对于你生活中的 AI Agent，你的愿望清单是什么？如何看待 OpenClaw 在家庭智能场景和物联网设备管理中的潜力？

Peter Steinberger:其实我已经开始着手了，但后来被庞大的用户群和日常琐事牵扯了精力。在家里，我希望在任何房间，就像科幻电影里喊一声"计算机"那样，随时随地都能和我的 AI Agent 交流并得到响应。它应该知道我的具体位置。我在每个房间都放了 iPad，AI Agent 可以利用 Canvas 功能在上面投射信息。如果我问的问题需要视觉展示，它能直接调用最近的显示器，因为它能感知我的位置。手机只是个方便的输入端，但我想要的是无处不在的交互。

（关于家庭场景）就是无处不在，如影随形。只要我们拥有真正的智能家居。再过几个月，随着模型性能的跨越，效果会变得更好。

提示词注入与本地模型的安全边界

关于提示词注入（Prompt Injection）和双 LLM 防御方案，你有哪些深入的思考？OpenClaw 打算如何保护那些使用本地小模型且缺乏防御训练的用户？

Peter Steinberger:可能思考得还不够深。但另一方面，前端模型在检测来自网站或邮件的随机恶意输入方面已经做得相当好了。只要将其标记为不可信内容，就很难实现数据窃取。当然，如果有人能无限制地访问你的私有模型并持续轰炸，那依然存在风险。但对于单次攻击，这已不再是核心难题。这也引申出了一个话题，有些人觉得我不喜欢本地模型，但我看到有人运行200 亿参数（20B）的模型，它对任何指令都言听计从，完全没有防御训练。如果你用这样的模型去浏览网页或处理邮件，我会非常担心。这就是为什么 OpenClaw 在使用小模型时会发出警示。我很高兴能支持所有模型，但必须引导普通用户，防止他们操作不当导致安全问题。关于提示词注入我还有些未公开的想法。

我了解到，你们实现了一套信任体系，通过时间积累声誉，信用越高，获得的特权访问权限就越多？

Peter Steinberger:没错，这确实是核心逻辑之一。

AI Agent是否正在引入类似人类大脑的垃圾回收和记忆转化机制

你们最近发布的"做梦（Dreaming）"功能引起了广泛讨论，这是否意味着 AI Agent 正在引入类似人类大脑的垃圾回收和记忆转化机制？此外，OpenClaw 的代码库重构为插件化系统后，未来的扩展性如何？

Peter Steinberger:我想研究做梦，我的维护者们在我还在忙别的时已经开始了。这是一种整理记忆的方式，它能创建类似梦境日志的东西，梳理你的会话记录。是的，肯定有很多公司在尝试。这有点像人类的学习机制。你白天经历很多，晚上睡觉时大脑会进行垃圾回收，将部分短期记忆转化为长期存储，并丢弃无用信息。我认为这种理念对AI Agent 非常有用。我们目前发布的做梦功能只是迈出了一小步。

（关于架构演进）OpenClaw的魅力在于我们可以大胆尝试。过去一个月左右，我们将原本混乱的代码库彻底重构成了插件化系统。现在，记忆模块、维基、做梦功能都是可替换的扩展。你可以加入任何疯狂的想法，打造专属版本。你不需要非得提交PR给我们，因为我们那边的审核已经不堪重负了。它现在更像Linux，你可以根据需要安装自己的组件。

AI 时代工程师的竞争力

作为OpenClaw 的领导者，你的一天是如何在写代码与引导方向之间平衡的？在 AI 时代，你希望人类工程师重点培养哪些能力？

Peter Steinberger:大部分时间还是在写代码。在会议间隙，我也在后台敲代码。会有Token 焦虑，你总想去推 AI Agent 一把。不过现在的重点确实有所转移，更多地是在沟通和引导方向。因为 OpenClaw 踩过很多坑，我在 OpenAI 的职责之一就是帮助他们避免重蹈覆辙。而 OpenClaw 则是尝试各种令人兴奋的新思路。我们要赋予公司构建专属模型的能力，无需分叉代码，而是通过高可定制化来实现。当然，偶尔我也会睡个觉。

（关于能力培养）品味至关重要，我已经强调过了。此外，系统设计依然是重中之重。如果你不从系统架构层面思考，最终会陷入死胡同。即便边界是由你定义的，有趣的是，虽然一切都交给AI Agent处理，但你依然需要提出正确的问题，这直接决定了产出的是优雅的代码还是糟糕的废话。这依然需要你运用构建软件的所有知识，去引导AI Agent产出高质量的内容。此外，学会说"不"变得越来越重要。我也在学习这一点，因为现在实现一个疯狂的想法只需要写一条提示词。通常，单个点子不是问题，但当无数个点子交织在一起时，如何让它们协调工作才是真正的挑战。我认为思考深度和大局观依然是瓶颈。

想象一下AI Agent的视角，它被扔进一个庞大的代码库，手里可能只有一个过时的配置文件，它根本搞不清楚状况。如果你这时直接让它加个用户画像功能，它可能会生搬硬套地把功能塞进去，却看不见整个系统的全貌。这就是为什么会出现很多局部化的劣质方案。我们的职责是通过提供线索来引导AI Agent做到最好，比如提醒它，你要不要考虑一下这个模块？去看看那边的实现逻辑？这个改动会如何影响全局？最终，你才能得到一个真正可维护的系统。

← 上一篇：郑州师范学院人工智能产业学院正式成立下一篇：AI时代阅读新范式！深圳成立首个“AI阅读研究中心” →