AI炒股实战测评:真的靠谱吗?
/终极测试
这段时间,我一直在钻研并准备Agent Trading工具,
试用过各种各样的AI交易手段、软件和平台,消耗了数亿token后,
得出的核心结论是,
虽然AI知识储备丰富,但目前「还不能完全信任」。
大家还记得龙虾热潮时,纷纷给自己配置金融技能,
满怀信心想去市场大显身手,
结果热情逐渐冷却,纷纷退出,龙虾价格也跌到了14块。
怎样在真实市场中打造靠谱、能落地、能优化的交易智能体,
过去几个月踩过的雷,我都能写出一本10万字的实战手册,
不过今天先不细说。
最近构建AT架构时,偶然发现一篇论文,非常值得一读,
特别是大家沉浸在AI交易的幻想中,都清楚未来AI必将是投资的主力。
这篇《AI-TRADER: BENCHMARKING AUTONOMOUS AGENTS IN REAL-TIME FINANCIAL MARKETS》的作者们提出了AI-Trader框架,旨在评估主流LLM模型在完全自主、实时运行且无数据污染环境下的金融决策能力。
简单来说,就是测试AI炒股到底行不行。
实验选取了美股纳斯达克100、A股上证50以及十大主流加密资产作为池子,支持小时级(美股)和日级(A股、加密货币)的交易频率。
不同的AI模型被封装进同一个Agent中,利用MCP获取新闻、资讯、财报、行情数据,能自主进行情绪分析、数值计算和下达交易指令。
6位参赛选手(当时DS-V4尚未发布),
从25年11月7日起在真实市场开赛,运行结果如下,
MiniMax-M2拿下了美股(小时级)和A股(日级)两个冠军,
DS-V3.1则摘得了加密货币组的桂冠。
然而现实很残酷,
大多数模型在实盘中的表现都很差,收益微薄且风控薄弱。
在各类基准测试中,这些短板是看不出来的。
同样的模型面对不同市场,风格判若两人,
例如冠军MiniMax,在美股追求高收益,在A股转为防守(低波动、低回撤),看来语料库里确实懂两个市场的区别。
在美股中,不少模型能跑赢QQQ,
到了A股,没有一只模型跑赢上证50,哪怕是你巴菲特,或是最强AI,在中国股市依然得跪。
即使是土生土长、血统纯正的DeepSeek,
在美股和加密市场表现优异,但在A股却不堪一击。
美国的Gemini,在美股平均交易3.79次,到了A股疯狂操作到4.74次,怎么说呢,算是入乡随俗了。
其中也有一些成功的例子,
比如DS在10月10日,通过搜索工具获取了特朗普关于“对华加征关税”的消息,推断出科技股风险大,采取了防御策略:
科技股仓位从99%降至70%
增持消费必需品(PEP)和公用事业(AEP)
保留17.3%现金
成功减少了损失,表现优于大多数模型
同样,DS也犯了所有AI都会犯的错误,
被单一信息源误导,
看到“结构性慢牛”新闻后,没有进行交叉验证
错误地重仓传统能源和银行股,错过了市场的主升浪
暴露了智能体在信息核实和动态纠错上的短板
在接口良好、数据对齐的环境下,AI并没有犯典型的“幻觉”错误,
真正的“实战短板”在于,
要么分析错误(假信息),
要么过度交易(无效交易),
要么风控失效(踩雷)。
这也是我过去几个月AI实验中切身感受到的几个天然缺陷,
不过,这些问题都有解决办法。
原文作者们,
还建了一个网站专门跟踪和推进后续的人机交易协作实验,
还可以直接安装他们现成的skill,参加交易比赛。
感兴趣的朋友可以上去看看:
https://ai4trade.ai/
以上内容,不构成投资建议!