OpenAI 34页白皮书揭示真相：所谓Agent，本质就是一个while循环

发布时间：2026-06-30 05:57阅读：1

过去一年，AI领域最热的概念非Agent莫属。

初创公司拿着数千万美元融资说要打造agent，大厂的发布会上一遍又一遍地喊着agent，各种技术大会的日程被agent workshop塞满，独立开发者则挑灯夜读LangGraph、CrewAI、AutoGen、Swarm等agent框架的文档——一个比一个精致，一个比一个复杂。

随后OpenAI官方发布了一份34页的白皮书，标题朴素得如同教材：A Practical Guide to Building Agents（构建智能体实用指南）。

读完你会发现，整份文档的精髓可以极度浓缩：

Agent就是一个while循环。

模型执行→调用工具→获取结果→反馈输入→再次执行，直到满足退出条件。结束。

6月28日，X（原推特）用户@shmidtqq发布了一条帖子，瞬间点燃了开发者社区。

"OpenAI published a 34-page guide on building AI agents. The whole thing reduces to one idea: an agent is a loop."

「OpenAI发布了一份34页的AI agent构建指南。整份文档归结为一个核心观点：agent就是一个循环。」

"The key insight: the agent is not the model, it is the loop around it."

「核心洞察：agent的本质是围绕模型构建的那个循环，模型仅仅是循环中的一个组件。」

▲ @shmidtqq的推文收获了172个赞、1.6万次浏览，将34页白皮书浓缩成了一张图

这条帖子迅速在X上引发开发者热议。有人回复"the agent is the loop not model frfr"（agent指的是循环，模型只是其中一环，确实如此），有人立即询问PDF的下载链接。

▲ @0xCristal回复：agent就是那个循环，确实

为什么这句话能引发如此大的共鸣？

因为它戳破了一个持续一年多的泡沫——大家曾以为agent是某种神秘的、需要专门框架才能实现的高端AI系统。然而OpenAI亲口告知，核心架构就是你在C语言入门课上写过的那个while循环。

这份指南发布在OpenAI的Business页面，面向的是"正在探索构建首个agent"的产品和工程团队，内容源自OpenAI在众多客户实际部署中沉淀的经验。

▲ OpenAI官方落地页：A practical guide to building agents

指南开篇便给出了agent的定义——

"Agents are systems that independently accomplish tasks on your behalf."

「Agent是能够独立替你完成任务的系统。」

留意那个"独立"。普通的聊天机器人、单轮的LLM调用、情感分类器，这些都不属于agent。它们虽然使用了大模型，但并未让模型掌控工作流的执行。

真正的agent有两个核心特征：

其一，借助LLM管理工作流。模型能够判断任务是否完成、主动纠错、在失败时交还控制权。

其二，接入并调用工具。根据当前状态动态选择工具，在明确的guardrails（护栏）内运作。

接着指南列出了agent最基础的三个组件：

到这里都还算常规内容。真正令人眼前一亮的是下一节——编排（Orchestration）。

白皮书原文：

"This concept of a while loop is central to the functioning of an agent."

「这种while循环的概念是智能体运作的核心。」

这是什么意思？

OpenAI将agent的运行机制拆解为一个循环：模型运行→判断是否调用工具→调用工具→获取结果→将结果回传模型→模型再次运行→再次判断……如此往复，直到触发退出条件。

退出条件主要有三种常见形态：

用Python伪代码表示，大致是：

这就是全部内容。

一个while循环，包裹着一次模型调用和一组工具。它能够运行，能够停止，中间能够执行外部操作。这就是agent。

OpenAI甚至在指南中建议：先把单agent打磨好，不要急于上多agent。为一个agent配备足够多的优质工具，比一上来就搞什么swarm（蜂群）架构靠谱得多。只有当指令已经复杂到模型反复选错工具时，才考虑拆分为多个agent。

如果只是OpenAI单方面这么说，你或许会认为是自我吹嘘。

但独立技术平台Braintrust在一篇博文中也得出了完全一致的结论：

"Surprisingly, many of the most popular and successful agents, including Claude Code and the OpenAI Agents SDK, share a common, straightforward architecture: a while loop that makes tool calls."

「令人意外的是，许多最流行、最成功的agent，包括Claude Code和OpenAI Agents SDK，都采用了一个简单清晰的架构：一个执行工具调用的while循环。」

▲ Braintrust的架构图：INPUT→LLM→TOOLS→循环→OUTPUT，就这么直接

Braintrust还直接展示了TypeScript代码骨架：

与OpenAI指南中的逻辑完全一致。

这意味着，你使用的Claude Code、ChatGPT的agent模式、各种自动化编程助手——它们的核心架构统统是这个while循环。没有什么魔法，没有什么神经网络之上的神经网络。就是一个循环，持续运行，直到任务完成或明确停止。

Hacker News：务实得近乎残酷

这份指南在Hacker News上获得了253个赞、35条深度评论。

▲ HN讨论帖，开发者们用真实案例剖析agent的价值与边界

评论区的氛围相当务实。

一位用户直接开炮："For every example-agent they gave, an ordinary 'dumb' service would've sufficed."（「他们列举的每个agent例子，用一个普通的'笨'服务就足够了。」）

但也有人分享了真正有效的案例——一家App托管平台采用agent来审查恶意应用。agent读取每个新应用的主页、截图，LLM判断是否可疑，再交由人类做最终决策。这种"模糊+多模态"的场景，传统规则引擎无能为力，LLM循环却能轻松胜任。

讨论最终聚焦于一个共识：框架只是while loop+parser，真正的难点在于工具如何设计、退出条件如何设定、护栏如何搭建。

中文社区：翻译与解读铺天盖地

指南在中文互联网上的传播速度同样惊人。

▲ Lewlh的中文全文翻译，阅读量3781，完整复现了指南的结构与核心概念

知乎上"OpenAI 34页最佳构建Agent实践"的专栏文章被多个AIGC专栏收录，评论区大量留言"终于有人把agent讲成工程了"。CSDN上的解读文章阅读量迅速突破万。

翻译者们不约而同地将同一句话加粗高亮："这种while循环的概念是智能体运行的核心。"

了解agent就是while循环后，你或许会觉得"这也太简单了"。

确实，写一个while循环并不难。写一个不会失控的while循环，才是整个agent工程的核心挑战。

退出条件是产品层面的决策

"until it is done"——这是最危险的退出条件。由谁定义done？模型自己宣称"我完成了"是否算数？

OpenAI指南给出的答案非常明确：你需要可验证的停止信号。最终输出工具触发、外部测试通过、构建成功、人工确认——这些才是可靠的退出条件。

缺乏明确退出条件的agent，会自顾自地聊天、自顾自地找事做，直到资金耗尽。

$47,000的惨痛教训

@shmidtqq在他更早的一篇长文中提及过一个真实案例：有人的agent循环在无人监管的情况下运行了11天，累计消耗了47,000美元。

他的原话是"Brakes go on before the engine"（刹车必须装在引擎之前）。

合格的刹车包括：步数上限、预算上限、心跳检测、强制人工审核节点。在打造引擎之前，首先必须确保刹车可靠。

Guardrails：多层洋葱式防护

OpenAI在指南中将guardrails（护栏）设计为分层体系：

每一层都如同洋葱皮，单层不足以应对风险，多层叠加才能将风险完全包裹。

工具设计比模型升级更有效

Braintrust的博文中提到一个关键数据：在典型的agent运行中，工具返回的内容占据了token的67%以上。

这意味着什么？你的agent大部分时间都在处理工具提供的信息。更明智的做法是将精力投入到工具输出的精心设计上——剔除冗余字段、仅返回agent所需信息、采用清晰的结构化格式。将一个复杂的REST API封装为agent能够直接理解的窄接口，效果远胜于砸钱升级到新一代模型。

OpenAI这份指南最犀利之处在于——它将agent从"需要专门框架和高级技巧的神秘系统"还原为"任何工程师都能理解的基础架构"。

同一个模型，调用一次，是聊天机器人。

同一个模型，放入while循环，配备工具与退出条件，就成为agent。

关键始终在于循环本身的精密程度：退出条件是否足够清晰、工具接口是否足够干净、护栏是否足够牢固、人工干预的触发点是否足够精准。

正如@shmidtqq在帖子中所写：

"34 pages from real OpenAI deployments. It moved my work from tuning prompts to designing the loop."

「34页源自OpenAI真实部署的经验。它让我的工作重心从调整提示词转向了设计循环。」

从"调prompt"到"设计loop"——这或许是过去一年里AI工程领域最安静、也最深刻的一次转向。

← 上一篇：让AI牢记固定工作流：微积分也渴望掌握的智能办公技巧(四) 下一篇：A股风格大转移：告别AI独大，下半年如何布局？ →