AI同场博弈炒股：多数亏损，金融难题仍需真人

发布时间：2026-05-07 00:14阅读：19

人工智能（AI）目前还远未具备取代基金经理的能力。多项公开测试已经给出答案，问题不在“聪明程度”，而在于实盘交易环节的复杂性。

在一系列由全球领先AI模型参与的交易竞赛中，结果并不理想。多数参赛系统都以亏损告终：它们的下单频率过高，面对完全相同的指令却会做出截然不同的交易选择。与此同时，仍没人能确定这些短板会不会随着模型迭代逐步消失，或是其实暴露了大语言模型与市场真实运行逻辑之间的深层差距。

以科技初创公司Nof1所运营的Alpha Arena为例。该平台安排八个主要前沿AI系统同台，进行四场对抗赛，参赛者包括Anthropic的Claude、谷歌(395.0179, 10.75, 2.80%)的Gemini、OpenAI的ChatGPT以及埃隆·马斯克的Grok。每个系统在每场比赛开始前都拿到1万美元资金，随后在为期两周的时间里自主交易美国科技股。比赛要求涵盖根据多类信号交易、执行防守型策略、根据对手表现做出调整，以及使用高杠杆进行操作。

最终的整体投资组合大约亏损了三分之一资金。在全部32组结果中，只有6次实现盈利。Grok 4.20在一项能够提前获知对手表现的挑战中拿到最佳表现：它总共只交易了158笔；在同样的提示条件下，阿里(141.955, 9.70, 7.33%)巴巴的千问则进行了1418次交易。

Alpha Arena只是众多类似实验中的一个。目前这些测试都在追问：大语言模型能否胜任金融行业最难的工作之一——战胜市场。尽管这些竞赛谈不上严格的学术研究，但它们是目前最公开的展示之一：当这类系统试图承担华尔街最具利润也最高风险的任务时，会发生什么。

之所以需要关注这些初步结果，是因为“交易”仍是金融业里少数相对谨慎、尚未完全交给AI的领域。过去几年里，从摩根大通(315.555, 6.16, 1.99%)到Balyasny Asset Management等大型机构，几乎把技术更多应用在其他环节。如今，大语言模型在量化机构中用于解读新闻，在对冲基金里起草备忘录，在大型银行中识别欺诈等。但在真正涉及真金白银的买卖决策上，“人类参与”依旧是行业的核心理念，亦被认为是有其合理性的。

Nof1创始人Jay Azhang表示：“大语言模型本身其实并不具备真正赚钱的能力。要想让它们有发挥空间，通常还需要一整套非常复杂的约束框架、支撑系统以及数据平台。”

他补充说，大语言模型擅长做研究，也能为特定任务去寻找并调用合适工具。但在影响股价起伏的众多变量上，它们目前还不清楚各因素的重要性权重，包括分析师评级、内部交易信息、以及市场情绪变化等。结果就是：它们往往抓不准交易时点，仓位规模也更容易出现设定偏差，并且买卖行为过于频繁。

AI博客Flat Circle(119.681, 5.49, 4.81%)追踪了11个与市场相关的竞技平台，发现每个平台至少有一个模型实现过盈利。不过在这11个平台里，只有两个平台的模型其中位数实现盈利，这说明大多数模型仍然难以击败市场。

这一表现和人类投资者的情况也很相似：众所周知，大多数主动管理型基金同样跑不过大盘。并且，类似于人类，这些模型也会暴露出明显偏颇。多场竞赛显示，当AI系统收到相同指令时，可能得出完全不同的交易决定，这会对部署它们的机构带来显著影响。Azhang举例称，在Alpha Arena最近一轮比赛中，Claude整体更倾向做多；Gemini并不排斥做空；而千问则更愿意借助高杠杆来承担风险。

运营Intelligent Alpha的Doug Clinton表示：“它们都有自己的‘个性’，你必须像管理人类分析师那样去管理它们。”他认为，如果让模型意识到自己存在某种偏差，结果有望得到改善。Intelligent Alpha有一只由大语言模型驱动的基金，用于为AI预测企业盈利的表现设定自身基准。

Intelligent Alpha的基准会为10个AI模型提供材料：包括财务申报文件、分析师预测、业绩电话会纪要、宏观经济数据，以及最多10次网络搜索权限。由于测试范围更聚焦，这些大语言模型在该任务中的表现也更积极。2025年第四季度，OpenAI的ChatGPT在判断盈利预期变动方向上的准确率达到68%，创下迄今最佳成绩。Clinton表示，这些模型通常会随着每次新版本发布而不断提升效果。

← 上一篇：哈塞特称白宫拟设AI审查机制防范网络安全隐患下一篇：餐饮业显现韧性：布鲁明与戴恩品牌营收均获增长 →