六家国产大模型因子竞赛:谁能挖到最强Alpha?
在上一期(融量AlphaMind因子投研新范式—Agent自动投研)中,我们系统介绍了如何把大模型 AI 与 AlphaMind 平台的 MCP 工具链结合起来,完成因子优化与因子挖掘的自动化工作。依托 AI Agent 的自我迭代能力和标准化投研流程,仅经历数轮迭代,就能从最基础的因子一路打磨到更高性能的 Alpha,充分说明了 AI 在量化投研中的高效落地价值。本期内容将承接这一路径,进一步展开……
同样的任务、同样的平台、同样的20轮迭代。六个国产大模型同时参与“换手率反转因子”挑战,谁能把它挖到最好?结果反转得很明显——拿冠军的并不是因为“更拼”,而是因为“更会想”。
一、实验设计:一场尽可能公平的AI量化较量
竞赛规则
我们将任务标准化,让6个国产大模型在相同条件下各自独立完成:
基础因子:换手率相对强度反转因子 -(ts_mean(turn_rate, 20) / ts_mean(turn_rate, 120))
优化目标:最大化 Pure Long Short Sharpe(优先级最高)+ IC均值
迭代规则:共20轮,每轮提交4个变体,总计80次实验机会
固定约束:中证全指(000985)、正态标准化、次日VWAP成交、零手续费、日频调仓
数据区间:2021-05 ~ 2026-05(近5年)
操作平台:AlphaMind 因子分析平台,基于 MCP 协议实现全自动提交与分析
6个参赛模型分别是:
为什么选这个任务?
因子优化是量化研究中最常见、也最关键的日常工作。它一方面要求金融层面的直觉——能解释因子背后的经济含义;另一方面又需要扎实的系统实验能力——在巨大的参数空间里高效搜索;同时还要具备对结果的解释与甄别能力——从大量噪声中抓住真正的信号。这个题目复杂度恰好卡在“太简单看不出差别”和“太难难以完成”的中间地带。
二、终极排名:谁拿下第一?
最终 Sharpe 排行榜
冠军 DeepSeek V4 Pro 以 1.898 的 Sharpe 明显领先,优势约在 12% 左右,高于最后一名。
不过真正更值得关注的,并非仅是名次,而是每个模型是如何一步步推到自己最终成绩的——它们的“思考风格”差异非常大。
三、深度解剖:六个模型的六种“性格”
🥇 DeepSeek V4 Pro:唯一跳出参数框架的模型
最终公式:
Sharpe:1.898 | 提升幅度:+90%(相对基线)
DeepSeek 的优化过程呈现出非常标准的“研究五阶段”:
建立基线(R1-R5):先测基础窗口,再确认行业中性化是必做项(Sharpe +1.0)
中性化确认(R6-R10):在 INDNEUTRALIZE vs NEUTRALIZE_2X vs GROUP_ZSCORE 之间对比,最终确认 INDNEUTRALIZE 最优
窗口精细搜索(R11-R14):围绕最优区域做 ±2 级别的小幅微调,观察到 230 > 240
字段突破(R15-R17):🔑 全场最关键的一步——把 turn_rate 切换为 amount
极致收敛(R18-R20):通过消融实验并对关键参数做 ±1 级别确认
点评:DeepSeek 是唯一一个主动质疑原始变量选择的模型。其余5个模型都围绕 turn_rate 反复调参,而 DeepSeek 在 R15 提出一个由金融直觉驱动的猜想:“成交金额同时覆盖量与价的信息,或许能比纯换手率更干净地反映流动性压力。”这个思路带来了单轮最大跳升(Sharpe +0.10),也正是它拉开差距的核心原因。
它的优化曲线更像“阶跃式”而不是“渐进式”——真正的提升集中在少数几个关键决策点上。这种表现很像成熟研究员:不靠蛮力堆数,而靠判断。
此外,DeepSeek 也是唯一一个使用 ts_wma(指数加权)来替代 ts_mean 的模型,同时还提供了完整的消融实验(ablation study),用来证明各个组件的实际贡献。
🥈 Mimo v2.5 Pro:从“失败之谷”里逆袭的选手
最终公式:
Sharpe:1.781 | 提升幅度:+37%
Mimo 的优化过程堪称戏剧性。它的20轮迭代可以拆成两个截然不同的阶段:
前半段(R8-R15):连续8轮“踩坑”
Mimo 在达到 Sharpe1.704 后,试图继续通过增加复杂度再往上冲,结果接连撞墙:
RANK 变换:IC 上升,但某个变体 Sharpe 直接跌到 0.4
多因子乘法组合:某个变体 Sharpe 变为 -0.16
成交量信号叠加:某个变体 Sharpe 降到 -2.56
SIGN 放大:某个变体 Sharpe 同样跌到 -2.56
大量变体出现了严重负收益迹象。在8轮里,每一轮的最优 Sharpe 基本停留在 1.28-1.60 区间,没有明显突破,较 R6 的峰值 1.704 出现显著回落。更糟的是,中途还出现了在 standardize=0 条件下的“虚假繁荣”:Sharpe 高达 2.39,但不符合正态标准化约束。
后半段(R16-R20):触底反弹,最后5轮连破
令人意外的是,Mimo 在“浪费”了8轮之后,反而靠最后5轮的精准微调完成反超:
R16: 1.727(INDNEUTRALIZE 确认)
R17: 1.710(MEAN 252 尝试)
R18: 1.747(MEAN 220 突破)
R19: 1.763(DECAY 20 突破)
R20: 1.781(MEAN 230 终极突破)
点评:Mimo 的“失败日志”反而是全场最有价值的资料。它把每一种失败方向与原因都写得很清楚——RANK 是陷阱、跨信号组合几乎必死、standardize=0 造成虚假繁荣。对于研究员而言,这些“负面知识”往往弥足珍贵。
不过它前半段也暴露了一处关键短板:止损意识不足。连续8轮在同一死胡同里徘徊,如果换作人类研究员,往往在第3轮就会叫停并迅速调整方向。
Mimo 最终选择的是 TS_DECAY_LINEAR(线性衰减加权),而不是 ts_wma,这一点与 DeepSeek 不同。DECAY_LINEAR 与 WMA 分别对应等差衰减与指数衰减,它们在理论层面到底孰优孰劣,仍值得进一步讨论。
🥉 GLM5:偏爱复杂度的“暴力美学”
最终公式:
10个加权窗口 × POWER(0.7) 变换 × 行业中性化(公式超过10行,此处省略)
Sharpe:1.759 | 提升幅度:+39%
GLM5 走出了一条几乎与其他模型相反的路径。当其他模型都在寻找“最优的两个窗口”时,GLM5 在问:“为什么非要只用两个窗口?”
它的优化思路大致是:
先发现 turn_rate × amount 组合(R4,Sharpe 1.31 → 1.48,+13%)
再引入 POWER 幂次变换来压缩极值(R11,Sharpe 1.67 → 1.68)
接着进入“窗口数量军备竞赛”——窗口从3个一路加到10个
每增加一个窗口,Sharpe 约提升 0.01,整体走势像爬楼梯一样稳定
点评:GLM5 的本质更接近集成学习(Ensemble)——通过对多个不同时间尺度的因子进行加权平均来平滑噪声。在机器学习里这常被证明有效;但放到量化因子里,一个典型风险是过度参数化。
它的最终公式包含 10 个窗口对与 10 个权重参数,共计约 20 个自由度。优化发生在 5 年样本上,因此“用复杂换收益”的方式会让样本外衰减风险显著升高。相较之下,DeepSeek 的公式仅有 2 个参数(WMA 15 + MEAN 230),模型的简洁性本身就像一种防过拟合的保护。
GLM5 也是唯一持续使用 turn_rate × amount 乘积形式(而不是单独 amount)的模型。它将“换手率×成交金额”理解成“大资金高换手”的异常交易信号,这种金融解释有一定合理性;但从 Sharpe 结果看,直接使用纯 amount 的效果(1.898)确实更占优势(1.759)
第四名 Qwen3.6-Plus:学院派风格的优雅收敛
最终公式:
Sharpe:1.725 | 提升幅度:+15%
Qwen3.6 的优化过程是全场最“干净”、也最系统的。它严格采用“固定一个变量、扫描另一个变量”的控制变量法:
1. 固定分子=10,分母从 180 → 220(R11-R13)
2. 固定分子=12,分母从 200 → 240(R14-R16)
3. 固定分母=230,分子从 12 → 16(R16-R17)
4. 确认峰值(R18):15和16均下滑
5. 微调确认(R19-R20):230附近存在宽平台
这种方法论几乎可以直接写进教科书。
更难得的是,Qwen3.6 在全场最关键的发现里体现了强洞察:它把 IC 与 Sharpe 的权衡关系讲得很透。
“分子增大 → IC 反而降低 → 但换手率也随之下降 → Sharpe 可能反而更好”
它观察到 14/230 的 IC(0.0355)虽然低于 13/225 的 IC(0.0358),但换手率更低、资本效率(pnl/tvr)更高,最终带来 Sharpe 更优。单纯追逐高 IC 本身可能就是陷阱——而这个洞察本身就足够让这次评测“值回票价”。
点评:Qwen3.6 更像一名优秀的理科研究生——方法严谨、逻辑清晰、文档规范。但它的局限在于从未质疑变量选择本身:始终使用 turn_rate,没有尝试 amount、volume 等替代字段;始终用 ts_mean,也没有尝试加权方式。在“在给定框架内做到极致”与“质疑框架本身”之间,它选择了前者。
第五名 MiniMax 2.5:偏保守的“浅尝辄止”
最终公式:
Sharpe:1.703 | 提升幅度:+1.3%
MiniMax 2.5 的优化记录全文只有 130 行。与之对比,DeepSeek 的文档超过 220 行。它的优化更像一次快速扫描参数,而不是深度研究:
没有尝试不同加权方式(ts_wma、ts_decay_linear)
没有进行字段替换(amount、volume)
没有引入非线性变换(POWER、SIGNED_SQRT)
缺少行业中性化的对比(INDNEUTRALIZE vs NEUTRALIZE)
没有消融实验
没有 IC 衰减分析
没有分年度表现拆解
点评:MiniMax 2.5 似乎把任务理解成“尽快找到一组还不错的参数”,而不是系统探索与持续优化。80次实验里,很可能有相当部分属于无效重复试探。换句话说,如果把这个任务当作寻宝,其他模型至少会换几个角度挖挖看,而 MiniMax 在第一个发现“硬币的位置”后就停了。
第六名 Kimi 2.5:简单到极致,但也错过了太多
最终公式:
Sharpe:1.696 | 提升幅度:+40%
Kimi 2.5 的策略极其克制:只做窗口参数搜索。它从短窗 2 天试到 10 天,长窗从 20 天试到 300 天,最终把收敛点锁定在 (5, 240)。
它的文档写得很规范——有导语、有阶段划分、有年度分解、有 IC 衰减。但优化本身缺少想象力:整个过程固定使用 ts_mean,固定使用 turn_rate,并且一直采用 NEUTRALIZE。它找到了既定结构下的最优参数,却从未真正质疑结构是否需要改写。
点评:Kimi 2.5 更像一个“勤奋但不够聪明”的研究助手。它完成了 72 次实验(18 轮有效),但探索维度只围绕窗口参数展开。与之对比,DeepSeek 同时在窗口、加权方式、中性化方式、数据字段、公式结构等 5 个维度上探索。在因子优化里,维度选择的智慧往往比参数搜索的勤奋更重要。
需要注意的是,Kimi 2.5 的最终公式与 MiniMax 2.5 非常相近(短窗 5 vs 5,长窗 240 vs 235,同样采用 NEUTRALIZE + ts_mean),但 MiniMax 最终略胜一筹。可以说两者思路同源,只是 MiniMax 在窗口参数上略占优势。
四、六条优化路线的对比
4.1 完整散点坐标数据
DeepSeek V4 Pro(阶跃式 — 最终 1.898)
Mimo v2.5 Pro(V型反转 — 最终 1.781)
GLM5(爬楼梯式 — 最终 1.759)
Qwen3.6-Plus(早熟收敛 — 最终 1.725)
MiniMax 2.5(早熟收敛 — 最终 1.703)
Kimi 2.5(早熟收敛 — 最终 1.696,仅18轮有效)
4.2对比汇总表
4.3 三种优化模式的解读
类型一:“阶跃式”突破 —— DeepSeek
DeepSeek 的曲线特征:在少数关键轮次出现明显跃升,其余轮次主要用于验证与微调。
核心特征:80% 的收益来自 20% 的关键决策。比如 R6 的多因子尝试使得 Sharpe 从 1.615 暴跌到 0.820,但模型迅速吸收教训、回归更简洁的结构,之后便没有再重复同类错误。
类型二(变体):“V 型”反转 —— Mimo
Mimo 拥有全场最独特的曲线形状:在 R6 达到 1.704 后,R9-R15 的 Sharpe 出现大幅回撤并落到 1.28-1.53 区间(最低 R15=1.280,较峰值 1.704 回落约 25%),随后在 R16-R20 进入连续反弹并最终回到 1.781。
这种“先抑后扬”的回撤-反弹形态在其他模型中基本不见,是 Mimo 最鲜明的方法论烙印——只是它付出的代价也同样巨大。
类型三:“爬楼梯式”渐进 —— GLM5
GLM5 的曲线在 R9 之后接近单调:每增加一个窗口,Sharpe 就稳定上涨约 0.01:
隐患:在样本内“加窗口就能提升”很可能是过拟合的经典信号。10窗口的方案在参数维度上(20+自由参数)带来的样本外衰减,幅度会远高于仅 2 参数的 DeepSeek。
类型四:“早熟收敛”——Kimi2.5、MiniMax2.5、Qwen3.6
这三个模型的共同特征:在中段摸到方法论上限后,后续轮次围绕同一局部最优进行小幅震荡。
它们全程都只使用 turn_rate + ts_mean + 行业中性化策略,从未质疑变量与算子选择本身。它们找到了“在该框架内”的最优解,但没有进一步突破框架边界。
五、关键洞察:好模型与一般模型的分界在哪里?
洞察1:敢于质疑输入变量 > 盲目扩大参数搜索
这基本是整场竞赛里最重要的教训。
坚持以 turn_rate 为输入的5个模型都没有突破 1.79;而 DeepSeek 在 R15 切换到 amount 之后,Sharpe 从 1.79 直接跃升到 1.90。
为什么 amount 更好?成交金额 = 成交量 × 成交价,它既包含换手活跃度(量),也体现了资金规模(价 × 量)。同样的换手率,百元股与十元股所代表的资金含义完全不同——这种直觉并不是靠参数搜索“碰出来”的,它需要从金融逻辑出发重新审视变量选择。
洞察2:行业中性化并非可选项,而是必选项
6个模型最终都使用了行业中性化(INDNEUTRALIZE 或 NEUTRALIZE+sw1_industry)。DeepSeek 做了消融验证:去掉行业中性化后,IC 标准差从 0.068 飙升到 0.118,Sharpe 也从 1.9 直落到 0.4。
这说明:换手率在不同细分行业之间天然存在结构性差异(科技股 > 银行股)。如果不做行业中性化,这个因子本质上更像在做行业配置,而不是在做选股能力提取。
洞察3:IC 不等于 Sharpe
Qwen3.6 和 Mimo 都在优化过程中独立发现了这个反直觉事实:
IC 更高的变体往往对应更高的换手率,进而在扣除交易冲击后实际 Sharpe 反而更低。
Mimo 的例子尤其极端:在 NEUTRALIZE 前加入 RANK 后,IC 从 0.038 提升到 0.051(+34%),但 Sharpe 却从 1.7 暴跌到 0.4(-76%)。RANK 改变了收益分布的尾部形态,使得 IC 看起来更漂亮,但实际并不好交易。
洞察4:简单公式往往更强于复杂集成
DeepSeek 和 Mimo 的最终公式都只有 2 个参数:一个短窗口、一个长窗口。GLM5 的公式却包含 20+ 个参数(10个窗口对 + 10个权重)。虽然 GLM5 的表达在概念上可理解为“多时间尺度的平滑集成”,但在量化实践里,参数越少,样本外通常越可靠。
六、方法论优劣:把AI研究员的能力拆开看
如果把每个模型都当作一个“AI 量化研究员”,可以从五个维度来判断:
各维度最佳:
假设生成:DeepSeek(用 amount 替代 turn_rate 的原创猜想最亮眼)
系统搜索:Qwen3.6(控制变量法执行得最严格)
失败识别:DeepSeek(每次失败都有清晰归因,并能把后续搜索方向排除掉)
结果归因:Mimo(“踩坑”文档价值最大:每个失败原因都拆得很透)
文档沉淀:DeepSeek / Mimo(完成消融实验、分析 IC 衰减、拆分分年表现,并描述优化曲线)
七、Token 消耗与性价比:谁用最少的钱办成最大事?
除了因子本身的表现,我们还关心一个问题:这些模型到底烧了多少 token 或花了多少钱?毕竟在真实工作里,成本效益与模型性能同样关键。
本次测试中,6个模型在不同计费体系下运行,并分别统计如下:
7.1各模型资源消耗明细
DeepSeek V4 Pro(官网,独立计费)
💡 缓存命中率高达 98.5%(12,252,928 / 12,440,497)。DeepSeek 的 prompt caching 效果非常突出:大部分重复上下文(system prompt、MCP 工具定义、skill 方案等)都被缓存命中,真正计费的输入 token 仅 18.7 万。
Mimo v2.5 Pro(小米,独立计费)
Mimo 采用的是小米自有的 Credits 计费体系,整体规模约为 DeepSeek 的千万倍量级(当然,Credits 与 RMB 的换算口径不同,不能直接用绝对值对比)。但从工程角度看,Mimo 的 token 消耗确实明显高于其他模型,这也与它在“失败之谷”阶段的大量试错直接相关——R8-R15 的 32 个失败变体消耗了大量上下文。
GLM5/Qwen 3.6/MiniMax 2.5/Kimi 2.5(阿里 Coding Plan 统一计费)
这四个模型均在阿里 Coding Plan 下运行,消耗统计为合并值:
四个模型合计消耗了近期用量池的 14%,平均每个模型约占 3.5%。考虑到每个模型都完成了 20 轮迭代(80 次 MCP 调用 + 分析),这个消耗水平相当节省,说明这四款模型在阿里云上的推理效率优化做得不错。
7.2 “性价比”排行榜
综合最终 Sharpe 与资源消耗后,我们得到了一张耐人寻味的性价比对比:
7.3 三个值得关注的数字
98.5% —— DeepSeek 的缓存命中率。它解释了为什么 DeepSeek 在 119 次 API 调用里仅花费 1.29 元。Prompt caching 让每轮迭代中,MCP 工具定义、skill 方案、历史上下文等“固定开销”几乎接近零成本。对于需要多轮对话的任务(如因子优化),缓存命中率直接决定实际使用成本。从这个角度看,DeepSeek 在工程层面把长对话场景优化得非常到位。
26,560,524 Credits —— Mimo 的“试错税”。Mimo 的整体排名第二(Sharpe 1.781),但 Credits 消耗非常夸张。回看它的优化过程:R8-R15 连续 8 轮踩坑带来大量无效上下文,每次失败都会累积更多 token。如果 Mimo 能在第 3-4 轮失败时尽早止损并切换方向,而不是连续 8 轮撞墙,它的成本或许只需现有的 1/3,最终结果也可能更理想(省下的轮次可用于更有效探索)。
14% —— 四个阿里系模型的“用量效率”。四个模型合计消耗了 5 小时用量池的 14%,完成 4×80=320 次实验。折算后,每小时用量池可支持约 2,286 次因子分析实验。对量化团队而言,这意味着单次因子回测的 AI 推理成本已经降到几乎可以忽略的程度。
如果把费用/消耗当作“实验预算”,每个模型的用法差异非常鲜明:
核心结论:在 AI 辅助量化研究中,“聪明地花预算”比“花了多少预算”更重要。DeepSeek 用不到一杯咖啡的钱跑出了全场最强因子;而 Mimo 烧掉 2600 万 Credits 却只拿到第二。这样的对照,本身就是 AI 工具选型最该纳入的维度。
八、这场竞赛还能告诉我们什么
对量化研究员的启示
1.“试什么”比“试多少”更重要。80次实验如果只在单一维度反复尝试,不如把 20 次实验分布到 5 个维度上。DeepSeek 的成功并不来自更高的实验次数,而是它提出了更好的问题:“为什么非得用换手率?”
2. AI 辅助因子研究并不是“自动化网格搜索”——那种用 Python 脚本也能做。AI 的真正价值在于,它能像人类研究员一样走“形成假设→设计实验→验证→修正”的闭环,而这种闭环速度往往是人类的 10-100 倍。
3.负面结果往往是最好的老师。Mimo 的8轮踩坑虽然浪费了预算,但留下的文档沉淀可能比成功实验更值钱——它告诉后续研究者哪些方向不该再走。
对模型选择的启示
4.推理能力 > 知识储备。本次任务的因子公式语法、算子使用方式对所有模型都是公平的(通过 skill 方案提供)。真正拉开差距的是:模型如何基于上一轮结果推断下一轮方向——这考验的是逻辑推理与假设生成能力,而不是训练数据里“记住了多少量化知识”。
5.“质疑前提”是更高级的智能。当5个模型都在题目给定的 turn_rate 上优化时,只有 DeepSeek 选择了质疑这个前提。这种“跳出框架思考”的能力,可能是当前大模型之间最稀缺的差异化能力。
九、结语
这次 6 模型横向评测的结果,可以用一句话概括:
“勤奋型模型找到的是参数层面的最优解,而聪明型模型找到的是问题层面的最优解。”
Kimi 2.5、MiniMax、Qwen3.6 代表的是在给定框架内做到极致:它们最终都收敛到近似的窗口参数(5-14 天短窗,230-240 天长窗),说明仅做参数搜索的“天花板”大约在 Sharpe 1.70-1.73。
GLM5 试图通过提升复杂度(多窗口集成 + 幂次变换)冲破天花板,最终拿到约 1.76 的成绩,但代价则是公式复杂度更高、过拟合风险也更突出。
DeepSeek 和 Mimo 采用了不同的路径:前者在加权方式上调整、质疑变量选择并通过消融实验验证;后者同样完成了消融与归因,最终分别达到 1.90 与 1.78。DeepSeek 的 amount 字段切换,是整个竞赛中唯一一次“重新定义问题”的动作,也正是决定冠军归属的关键一手。
对量化从业者而言,这次实验的最大启示或许是:在 AI 时代,不要只让模型做你也会做的网格搜索。让它去挑战你的假设——那才是它真正可能比你强的地方。
实验时间:2026年5月 | 平台:AlphaMind + Claude Code | 数据区间:2021-2026 | 股票池:中证全指(000985)
免责声明:本文为AI模型能力横向对比的技术文章,文中涉及的因子表现均为历史回测结果,不构成任何投资建议。历史业绩不代表未来表现。
附录:DeepSeek V4 Pro 彩蛋 —— “终极40轮”优化结果
⚠️ 以下内容为额外探索,非20轮标准赛果
在完成标准20轮迭代之后,DeepSeek 又获得了额外20轮优化机会(R21-R40)。本彩蛋展示的是:如果让冠军拥有更多时间,它还能继续前进到多远。
彩蛋一:R21-R40 完整结果
彩蛋二:终极40轮优化曲线
彩蛋三:关键突破点总结
彩蛋四:终极统计对比
彩蛋五:终极最优公式
彩蛋六:给文章读者的彩蛋叙事
💡 “如果再给 DeepSeek 20 轮,它会做什么?”
字段乘法:不是简单把 amount 当作字段,而是把 amount × volume 组合成新字段——这通常是人类研究员难以直接想到的做法
符号保持变换:SIGNED_SQRT 在压缩极端值的同时保留方向信息,从而解决 RANK 变换“有 IC 没 Sharpe”的问题
三元复合:amount × volume × turn_rate 三个字段乘积,裸值形态下只有 1.937,但引入 SIGNED_SQRT 后跃升到 2.187
幂次追问:在 SIGNED_SQRT (=POWER 0.5)已经达到 2.2 之后,模型仍继续追问“0.5 是否真的是最优”,并进一步发现 0.3 反而更好
最终,DeepSeek 用 40 轮(约 160 个变体)把 Sharpe 从 1.089 提升到 2.218,总提升 +103.7%。










