标签

OpenAI 34页白皮书揭示真相:所谓Agent,本质就是一个while循环

发布时间:2026-06-30 05:57阅读:1

过去一年,AI领域最热的概念非Agent莫属。

初创公司拿着数千万美元融资说要打造agent,大厂的发布会上一遍又一遍地喊着agent,各种技术大会的日程被agent workshop塞满,独立开发者则挑灯夜读LangGraph、CrewAI、AutoGen、Swarm等agent框架的文档——一个比一个精致,一个比一个复杂。

随后OpenAI官方发布了一份34页的白皮书,标题朴素得如同教材:A Practical Guide to Building Agents(构建智能体实用指南)。

读完你会发现,整份文档的精髓可以极度浓缩:

Agent就是一个while循环。

模型执行→调用工具→获取结果→反馈输入→再次执行,直到满足退出条件。结束。

6月28日,X(原推特)用户@shmidtqq发布了一条帖子,瞬间点燃了开发者社区。

"OpenAI published a 34-page guide on building AI agents. The whole thing reduces to one idea: an agent is a loop."

「OpenAI发布了一份34页的AI agent构建指南。整份文档归结为一个核心观点:agent就是一个循环。」

"The key insight: the agent is not the model, it is the loop around it."

「核心洞察:agent的本质是围绕模型构建的那个循环,模型仅仅是循环中的一个组件。」

▲ @shmidtqq的推文收获了172个赞、1.6万次浏览,将34页白皮书浓缩成了一张图

这条帖子迅速在X上引发开发者热议。有人回复"the agent is the loop not model frfr"(agent指的是循环,模型只是其中一环,确实如此),有人立即询问PDF的下载链接。

▲ @0xCristal回复:agent就是那个循环,确实

为什么这句话能引发如此大的共鸣?

因为它戳破了一个持续一年多的泡沫——大家曾以为agent是某种神秘的、需要专门框架才能实现的高端AI系统。然而OpenAI亲口告知,核心架构就是你在C语言入门课上写过的那个while循环。

这份指南发布在OpenAI的Business页面,面向的是"正在探索构建首个agent"的产品和工程团队,内容源自OpenAI在众多客户实际部署中沉淀的经验。

▲ OpenAI官方落地页:A practical guide to building agents

指南开篇便给出了agent的定义——

"Agents are systems that independently accomplish tasks on your behalf."

「Agent是能够独立替你完成任务的系统。」

留意那个"独立"。普通的聊天机器人、单轮的LLM调用、情感分类器,这些都不属于agent。它们虽然使用了大模型,但并未让模型掌控工作流的执行。

真正的agent有两个核心特征:

其一,借助LLM管理工作流。模型能够判断任务是否完成、主动纠错、在失败时交还控制权。

其二,接入并调用工具。根据当前状态动态选择工具,在明确的guardrails(护栏)内运作。

接着指南列出了agent最基础的三个组件:

到这里都还算常规内容。真正令人眼前一亮的是下一节——编排(Orchestration)。

白皮书原文:

"This concept of a while loop is central to the functioning of an agent."

「这种while循环的概念是智能体运作的核心。」

这是什么意思?

OpenAI将agent的运行机制拆解为一个循环:模型运行→判断是否调用工具→调用工具→获取结果→将结果回传模型→模型再次运行→再次判断……如此往复,直到触发退出条件。

退出条件主要有三种常见形态:

用Python伪代码表示,大致是:

这就是全部内容。

一个while循环,包裹着一次模型调用和一组工具。它能够运行,能够停止,中间能够执行外部操作。这就是agent。

OpenAI甚至在指南中建议:先把单agent打磨好,不要急于上多agent。为一个agent配备足够多的优质工具,比一上来就搞什么swarm(蜂群)架构靠谱得多。只有当指令已经复杂到模型反复选错工具时,才考虑拆分为多个agent。

如果只是OpenAI单方面这么说,你或许会认为是自我吹嘘。

但独立技术平台Braintrust在一篇博文中也得出了完全一致的结论:

"Surprisingly, many of the most popular and successful agents, including Claude Code and the OpenAI Agents SDK, share a common, straightforward architecture: a while loop that makes tool calls."

「令人意外的是,许多最流行、最成功的agent,包括Claude Code和OpenAI Agents SDK,都采用了一个简单清晰的架构:一个执行工具调用的while循环。」

▲ Braintrust的架构图:INPUT→LLM→TOOLS→循环→OUTPUT,就这么直接

Braintrust还直接展示了TypeScript代码骨架:

与OpenAI指南中的逻辑完全一致。

这意味着,你使用的Claude Code、ChatGPT的agent模式、各种自动化编程助手——它们的核心架构统统是这个while循环。没有什么魔法,没有什么神经网络之上的神经网络。就是一个循环,持续运行,直到任务完成或明确停止。

Hacker News:务实得近乎残酷

这份指南在Hacker News上获得了253个赞、35条深度评论。

▲ HN讨论帖,开发者们用真实案例剖析agent的价值与边界

评论区的氛围相当务实。

一位用户直接开炮:"For every example-agent they gave, an ordinary 'dumb' service would've sufficed."(「他们列举的每个agent例子,用一个普通的'笨'服务就足够了。」)

但也有人分享了真正有效的案例——一家App托管平台采用agent来审查恶意应用。agent读取每个新应用的主页、截图,LLM判断是否可疑,再交由人类做最终决策。这种"模糊+多模态"的场景,传统规则引擎无能为力,LLM循环却能轻松胜任。

讨论最终聚焦于一个共识:框架只是while loop+parser,真正的难点在于工具如何设计、退出条件如何设定、护栏如何搭建。

中文社区:翻译与解读铺天盖地

指南在中文互联网上的传播速度同样惊人。

▲ Lewlh的中文全文翻译,阅读量3781,完整复现了指南的结构与核心概念

知乎上"OpenAI 34页最佳构建Agent实践"的专栏文章被多个AIGC专栏收录,评论区大量留言"终于有人把agent讲成工程了"。CSDN上的解读文章阅读量迅速突破万。

翻译者们不约而同地将同一句话加粗高亮:"这种while循环的概念是智能体运行的核心。"

了解agent就是while循环后,你或许会觉得"这也太简单了"。

确实,写一个while循环并不难。写一个不会失控的while循环,才是整个agent工程的核心挑战。

退出条件是产品层面的决策

"until it is done"——这是最危险的退出条件。由谁定义done?模型自己宣称"我完成了"是否算数?

OpenAI指南给出的答案非常明确:你需要可验证的停止信号。最终输出工具触发、外部测试通过、构建成功、人工确认——这些才是可靠的退出条件。

缺乏明确退出条件的agent,会自顾自地聊天、自顾自地找事做,直到资金耗尽。

$47,000的惨痛教训

@shmidtqq在他更早的一篇长文中提及过一个真实案例:有人的agent循环在无人监管的情况下运行了11天,累计消耗了47,000美元。

他的原话是"Brakes go on before the engine"(刹车必须装在引擎之前)。

合格的刹车包括:步数上限、预算上限、心跳检测、强制人工审核节点。在打造引擎之前,首先必须确保刹车可靠。

Guardrails:多层洋葱式防护

OpenAI在指南中将guardrails(护栏)设计为分层体系:

每一层都如同洋葱皮,单层不足以应对风险,多层叠加才能将风险完全包裹。

工具设计比模型升级更有效

Braintrust的博文中提到一个关键数据:在典型的agent运行中,工具返回的内容占据了token的67%以上。

这意味着什么?你的agent大部分时间都在处理工具提供的信息。更明智的做法是将精力投入到工具输出的精心设计上——剔除冗余字段、仅返回agent所需信息、采用清晰的结构化格式。将一个复杂的REST API封装为agent能够直接理解的窄接口,效果远胜于砸钱升级到新一代模型。

OpenAI这份指南最犀利之处在于——它将agent从"需要专门框架和高级技巧的神秘系统"还原为"任何工程师都能理解的基础架构"。

同一个模型,调用一次,是聊天机器人。

同一个模型,放入while循环,配备工具与退出条件,就成为agent。

关键始终在于循环本身的精密程度:退出条件是否足够清晰、工具接口是否足够干净、护栏是否足够牢固、人工干预的触发点是否足够精准。

正如@shmidtqq在帖子中所写:

"34 pages from real OpenAI deployments. It moved my work from tuning prompts to designing the loop."

「34页源自OpenAI真实部署的经验。它让我的工作重心从调整提示词转向了设计循环。」

从"调prompt"到"设计loop"——这或许是过去一年里AI工程领域最安静、也最深刻的一次转向。