AI代理成本正呈指数级上升?
Toby Ord
关于AI的近期未来,存在一个极其关键但几乎无人探讨的问题。
我们都看过METR的图表,这些图表显示,人工智能代理能够执行的任务时长在过去7年中呈指数级增长。GPT-2只能完成人类只需几秒钟就能完成的软件工程任务,而最新的模型(在50%的情况下)可以完成人类需要几个小时才能完成的任务。
鉴于这种趋势没有停止的迹象,人们自然而然地开始对其进行推断,预测我们何时才能期待人工智能能够完成工程师需要一整天、一周甚至一年才能完成的任务。
但我们缺少一个关键信息——完成这项工作的成本。
在过去的七年里,人工智能系统呈指数级增长。模型规模(参数数量)增长了4000倍,每个任务的运行次数(生成的令牌数量)增长了约10万倍。人工智能研究人员也发现了巨大的效率提升,但METR所衡量的峰值性能的成本很可能也在不断增长——而且是呈指数级增长。
这或许并非坏事。例如,如果最优秀的AI代理每年能够完成的任务时长增加3倍,而完成这些任务的成本也每年增加3倍,那么AI代理执行任务的成本将始终是人类执行这些任务成本的相同倍数。或者,如果成本翻倍的时间长于任务时长,那么与人类相比,AI系统的成本将会降低。
但如果成本增长速度超过时间跨度呢?在这种情况下,随着时间的推移,这些尖端人工智能系统在成本上将越来越不具备与人类竞争的优势。如果真是如此,METR 的时间跨度趋势可能会产生误导。它虽然显示了现有技术的进步,但部分进步源于计算资源的不断投入,因此与经济效益存在偏差。它更像是人工智能领域的 F1 方程式赛车——展现了可能性,却无法体现实际应用。
所以我认为,我们需要问的一个关键问题是:
人工智能代理的“每小时”成本如何随时间变化?
我所说的“每小时”成本是指使用LLM在模型50%时间范围内完成任务的财务成本除以该时间范围的长度。因此,与METR时间范围本身一样,持续时间的衡量标准不是模型完成任务所需的时间,而是人类完成该任务通常所需的时间。例如,Claude 4.1 Opus的50%时间范围是2小时:它可以成功完成50%的人类软件工程师需要2小时才能完成的任务。因此,我们可以计算它执行此类任务的成本,然后除以2,得出它完成这项工作的每小时费率。
我发现很少有人问这个问题。当我问大家这些成本会随着时间推移发生什么变化时,他们的看法五花八门。有些人认为即使任务时长呈指数级增长,总成本也保持不变。这意味着每小时的成本会呈指数级下降。另一些人则认为总成本也在呈指数级增长——毕竟,我们已经看到获取尖端模型的成本大幅上涨。而且大多数人(包括我自己)都不清楚人工智能代理目前完成一小时软件工程工作的成本是多少。是几美分?几美元?还是几百美元?人工智能代理完成这些任务的每小时成本不可能比人类更高吧?真的不可能吗?
⁂
几个月前,我问过METR是否可以分享他们基准测试的成本数据。我当时觉得这很简单——只需统计每款车型运行基准测试的成本,然后根据发布日期绘制成本曲线,看看成本是如何增长的。或者,也可以绘制每款车型的成本与其发布时间跨度的关系曲线。
但他们也指出,事情远没有那么简单。他们公布的基准时间跨度数据旨在展示模型所能达到的最佳性能(不考虑成本)。因此,他们会在代理框架内运行模型,直到性能达到平台期。由于他们非常重视性能平台期的确定,所以会投入大量计算资源,而不太在意是否过度使用。毕竟,如果只是想找到平台期的最终高度,那么深入图表的平坦部分也无妨。
但如果你想找出何时达到性能瓶颈期,这种策略就存在问题。他们为每个模型投入的总成本有时刚好够达到瓶颈期,有时却远远超过所需。因此,总成本不能直接用来估算实现该性能所需的成本。
幸运的是,他们发布了一张图表,可以用来阐明LLM代理的每小时成本如何随时间变化这一关键问题:
这张图表(来自METR的GPT-5页面)展示了性能如何随成本增加而提升。这里所说的成本是指使用越来越多的令牌来完成任务(因此也需要越来越多的计算)所带来的成本。
黄色曲线代表每项任务的最佳人类绩效。它稳步向上延伸,意味着更高的工资需要更长的任务时间才能完成。由于METR的时间跨度工作正是以人类绩效来定义纵轴,因此这条曲线相当线性也就不足为奇了——让一名软件工程师完成一项8小时的任务的成本大约是完成一项1小时任务的8倍。
其他颜色代表一系列基于LLM的智能体的性能曲线。与人类不同,它们都呈现出收益递减的趋势,随着计算能力的不断提升,它们各自能够达到的时间跨度最终都会停滞不前。
这些曲线末端出现的短暂上升是由于某些模型直到最后一刻才准备好给出答案所致。这表明,在上升之前看似平稳的阶段,模型实际上仍在进行计算(只是没有显示出来)。事实上,这张图表最初出现在METR的GPT-5页面上,旨在表明他们可能在GPT-5的性能真正达到稳定状态之前就停止了运行。这些上升确实增加了分析的难度,希望未来版本的图表能够避免这些缺陷。
⁂
那么,这张图表能告诉我们关于人工智能代理每小时成本的关键问题什么呢?
为了挖掘图表中隐藏的信息,我们需要添加一些注释。第一步是添加恒定小时成本线。在这样的双对数图中,每个恒定小时成本都将是一条斜率为 1 的直线。较低的小时成本将显示为位于更左侧的线条。
对于每条曲线,我都添加了一条与曲线相切的恒定小时成本线。这条线代表模型能够达到的最低小时成本。我们可以将这条线与曲线相切的点称为该模型的最佳点。在模型达到最佳点之前,其成本呈超线性增长——边际收益递增。最佳点恰好是边际收益递减的临界点(如果将曲线重新绘制在线性坐标系中,则对应于拐点)。因此,它是任何模型性能曲线上的关键点。
我们可以看到,人类软件工程师的最佳时薪为120美元,而人工智能代理的最佳时薪范围则从o3 的 40美元到 Grok 4 和 Sonnet 3.5 的 40 美分不等。成本差异相当大。虽然这些模型的预测周期差异约为 15 倍(无论是在终点还是最佳时薪处),但它们的最佳时薪差异却高达 100 倍。
这些已经是这些模型的最佳时薪了。在许多任务时长下(包括接近其性能瓶颈期的任务),它们的成本会高出10到100倍。例如,Grok 4 在其最佳时长下每小时收费0.40美元,但在接近性能瓶颈期时,每小时收费高达13美元。GPT-5对于耗时约45分钟的任务,每小时收费约13美元,但对于耗时2小时的任务,每小时收费高达120美元。而o3在1.5小时的完整任务周期内,实际成本高达每小时350美元(甚至高于人工成本)。对于一个有50%的概率会失败的智能体来说,这笔费用实在太高了——尤其是在失败远比不尝试更糟糕的情况下。
不过,我确实想指出,OpenAI 的推理模型成本比 Anthropic 和 xAI 的模型高出这么多,这让我有点困惑。METR 页面显示,这些模型的价格数据当时还只是估算值(基于 o1 的成本),所以如果这些曲线实际上应该略微向左移动,使其成本降低数倍,我不会感到惊讶。因此,我们不应该过分依赖它们在整个生命周期内成本与人工成本相当甚至更高的事实。
除了最佳点之外,理想情况下,我们还可以为每条曲线添加一个饱和点——一个代表平台期开始位置的点。我们不能简单地使用曲线的末端,因为有些曲线进入平台期的时间比其他曲线更长。我将找到斜率减小到最佳点斜率十分之一的点。在这个点上,仅仅将时间范围增加 1%,就需要增加 10% 的成本。或者等价地,时间范围的增长速度仅为计算能力的十分之一次方。
当然,1/10 这个数字在某种程度上是人为设定的,但与最佳点不同,饱和点的任何定义在某种程度上都是任意的。如下所示,这种饱和点的定义与直觉上的位置大致吻合,尽管如何最好地处理最后的上升趋势仍然不太清楚。
⁂
掌握了最佳点和饱和点之后,我们就可以开始分析时间范围和成本之间的关系了。
让我们先来看一个最佳点散点图:
我们可以看到,在这个数据集中,任务持续时间和成本之间存在微弱但明显的正相关关系。此外,我们发现,较高的任务持续时间(在最佳点)与较高的每小时成本相关(请记住,这些最佳点的每小时成本是该模型所能达到的最佳每小时成本)。
如果我们转而关注模型的饱和点呢?虽然饱和点的定义有些随意,但它更接近METR在其主要研究结果中衡量的时间跨度:
再次强调,时间跨度和成本之间存在相关性,而且每小时成本似乎也随着时间跨度的增加而增加。这实际上表明,我们正接近模型性能达到峰值但成本过高的临界点。如果这种关系持续下去,那么根据总体METR趋势预测特定时间跨度何时可用将具有误导性,因为模型在首次达到这些性能时成本将高得不切实际。我们需要等待一段时间,直到它们的成本大幅下降。
尽管如此,上述分析仍存在一些明显的局限性。理想情况下,我们希望:
包含更多更具代表性的模型曲线
找到解决增长问题的方法
检查OpenAI模型的成本是否存在问题
明确绘制每小时成本与发布日期的关系图
用数值方法确定趋势线和相关系数
幸运的是,METR 进行此类分析应该相当容易,我希望他们能够跟进此事。
很少有人关注人工智能代理的成本是如何增长的。
关键问题是:LLM 代理的“每小时”成本如何随时间变化?
我们可以使用METR的图表来阐明这一点。
我们需要添加固定小时成本线、最佳点和饱和点。
这提供了一定程度的证据,表明:
实现既定时间目标所需的成本正在呈指数级增长。
就连每小时的成本也在呈指数级增长。
某些模型的每小时成本现在已经接近人工成本了。
因此,有证据表明:
METR趋势的部分原因是推理计算不可持续地增长。
理论上可能的时间跨度与经济上可行的时间跨度之间必然存在差异。
人工智能代理的实际应用将比METR时间跨度内的发展趋势滞后越来越大。
它暗示:
时间跨度和成本之间的相关性也适用于其他模型。
经过更多强化学习后训练的推理模型并不总是比其前身模型更胜一筹(例如,o1 在小代币预算下比 o3 或 GPT-5 表现更好)。
OpenAI推理模型与其他模型之间的水平差距较小,这印证了主图中它们的成本偏高的观点。
tobyord.com