标签

AI同场博弈炒股:多数亏损,金融难题仍需真人

发布时间:2026-05-07 00:14来源:新浪新闻阅读:9

人工智能(AI)目前还远未具备取代基金经理的能力。多项公开测试已经给出答案,问题不在“聪明程度”,而在于实盘交易环节的复杂性。

在一系列由全球领先AI模型参与的交易竞赛中,结果并不理想。多数参赛系统都以亏损告终:它们的下单频率过高,面对完全相同的指令却会做出截然不同的交易选择。与此同时,仍没人能确定这些短板会不会随着模型迭代逐步消失,或是其实暴露了大语言模型与市场真实运行逻辑之间的深层差距。

以科技初创公司Nof1所运营的Alpha Arena为例。该平台安排八个主要前沿AI系统同台,进行四场对抗赛,参赛者包括Anthropic的Claude、谷歌(395.0179, 10.75, 2.80%)的Gemini、OpenAI的ChatGPT以及埃隆·马斯克的Grok。每个系统在每场比赛开始前都拿到1万美元资金,随后在为期两周的时间里自主交易美国科技股。比赛要求涵盖根据多类信号交易、执行防守型策略、根据对手表现做出调整,以及使用高杠杆进行操作。

最终的整体投资组合大约亏损了三分之一资金。在全部32组结果中,只有6次实现盈利。Grok 4.20在一项能够提前获知对手表现的挑战中拿到最佳表现:它总共只交易了158笔;在同样的提示条件下,阿里(141.955, 9.70, 7.33%)巴巴的千问则进行了1418次交易。

Alpha Arena只是众多类似实验中的一个。目前这些测试都在追问:大语言模型能否胜任金融行业最难的工作之一——战胜市场。尽管这些竞赛谈不上严格的学术研究,但它们是目前最公开的展示之一:当这类系统试图承担华尔街最具利润也最高风险的任务时,会发生什么。

之所以需要关注这些初步结果,是因为“交易”仍是金融业里少数相对谨慎、尚未完全交给AI的领域。过去几年里,从摩根大通(315.555, 6.16, 1.99%)到Balyasny Asset Management等大型机构,几乎把技术更多应用在其他环节。如今,大语言模型在量化机构中用于解读新闻,在对冲基金里起草备忘录,在大型银行中识别欺诈等。但在真正涉及真金白银的买卖决策上,“人类参与”依旧是行业的核心理念,亦被认为是有其合理性的。

Nof1创始人Jay Azhang表示:“大语言模型本身其实并不具备真正赚钱的能力。要想让它们有发挥空间,通常还需要一整套非常复杂的约束框架、支撑系统以及数据平台。”

他补充说,大语言模型擅长做研究,也能为特定任务去寻找并调用合适工具。但在影响股价起伏的众多变量上,它们目前还不清楚各因素的重要性权重,包括分析师评级、内部交易信息、以及市场情绪变化等。结果就是:它们往往抓不准交易时点,仓位规模也更容易出现设定偏差,并且买卖行为过于频繁。

AI博客Flat Circle(119.681, 5.49, 4.81%)追踪了11个与市场相关的竞技平台,发现每个平台至少有一个模型实现过盈利。不过在这11个平台里,只有两个平台的模型其中位数实现盈利,这说明大多数模型仍然难以击败市场。

这一表现和人类投资者的情况也很相似:众所周知,大多数主动管理型基金同样跑不过大盘。并且,类似于人类,这些模型也会暴露出明显偏颇。多场竞赛显示,当AI系统收到相同指令时,可能得出完全不同的交易决定,这会对部署它们的机构带来显著影响。Azhang举例称,在Alpha Arena最近一轮比赛中,Claude整体更倾向做多;Gemini并不排斥做空;而千问则更愿意借助高杠杆来承担风险。

运营Intelligent Alpha的Doug Clinton表示:“它们都有自己的‘个性’,你必须像管理人类分析师那样去管理它们。”他认为,如果让模型意识到自己存在某种偏差,结果有望得到改善。Intelligent Alpha有一只由大语言模型驱动的基金,用于为AI预测企业盈利的表现设定自身基准。

Intelligent Alpha的基准会为10个AI模型提供材料:包括财务申报文件、分析师预测、业绩电话会纪要、宏观经济数据,以及最多10次网络搜索权限。由于测试范围更聚焦,这些大语言模型在该任务中的表现也更积极。2025年第四季度,OpenAI的ChatGPT在判断盈利预期变动方向上的准确率达到68%,创下迄今最佳成绩。Clinton表示,这些模型通常会随着每次新版本发布而不断提升效果。