六家国产大模型因子竞赛：谁能挖到最强Alpha？

发布时间：2026-05-08 13:44阅读：64

在上一期（融量AlphaMind因子投研新范式—Agent自动投研）中，我们系统介绍了如何把大模型 AI 与 AlphaMind 平台的 MCP 工具链结合起来，完成因子优化与因子挖掘的自动化工作。依托 AI Agent 的自我迭代能力和标准化投研流程，仅经历数轮迭代，就能从最基础的因子一路打磨到更高性能的 Alpha，充分说明了 AI 在量化投研中的高效落地价值。本期内容将承接这一路径，进一步展开……

同样的任务、同样的平台、同样的20轮迭代。六个国产大模型同时参与“换手率反转因子”挑战，谁能把它挖到最好？结果反转得很明显——拿冠军的并不是因为“更拼”，而是因为“更会想”。

一、实验设计：一场尽可能公平的AI量化较量

竞赛规则

我们将任务标准化，让6个国产大模型在相同条件下各自独立完成：

基础因子：换手率相对强度反转因子 -（ts_mean（turn_rate， 20） / ts_mean（turn_rate， 120））

优化目标：最大化 Pure Long Short Sharpe（优先级最高）+ IC均值

迭代规则：共20轮，每轮提交4个变体，总计80次实验机会

固定约束：中证全指（000985）、正态标准化、次日VWAP成交、零手续费、日频调仓

数据区间：2021-05 ~ 2026-05（近5年）

操作平台：AlphaMind 因子分析平台，基于 MCP 协议实现全自动提交与分析

6个参赛模型分别是：

为什么选这个任务？

因子优化是量化研究中最常见、也最关键的日常工作。它一方面要求金融层面的直觉——能解释因子背后的经济含义；另一方面又需要扎实的系统实验能力——在巨大的参数空间里高效搜索；同时还要具备对结果的解释与甄别能力——从大量噪声中抓住真正的信号。这个题目复杂度恰好卡在“太简单看不出差别”和“太难难以完成”的中间地带。

二、终极排名：谁拿下第一？

最终 Sharpe 排行榜

冠军 DeepSeek V4 Pro 以 1.898 的 Sharpe 明显领先，优势约在 12% 左右，高于最后一名。

不过真正更值得关注的，并非仅是名次，而是每个模型是如何一步步推到自己最终成绩的——它们的“思考风格”差异非常大。

三、深度解剖：六个模型的六种“性格”

🥇 DeepSeek V4 Pro：唯一跳出参数框架的模型

最终公式：

Sharpe：1.898 | 提升幅度：+90%（相对基线）

DeepSeek 的优化过程呈现出非常标准的“研究五阶段”：

建立基线（R1-R5）：先测基础窗口，再确认行业中性化是必做项（Sharpe +1.0）

中性化确认（R6-R10）：在 INDNEUTRALIZE vs NEUTRALIZE_2X vs GROUP_ZSCORE 之间对比，最终确认 INDNEUTRALIZE 最优

窗口精细搜索（R11-R14）：围绕最优区域做 ±2 级别的小幅微调，观察到 230 > 240

字段突破（R15-R17）：🔑 全场最关键的一步——把 turn_rate 切换为 amount

极致收敛（R18-R20）：通过消融实验并对关键参数做 ±1 级别确认

点评：DeepSeek 是唯一一个主动质疑原始变量选择的模型。其余5个模型都围绕 turn_rate 反复调参，而 DeepSeek 在 R15 提出一个由金融直觉驱动的猜想：“成交金额同时覆盖量与价的信息，或许能比纯换手率更干净地反映流动性压力。”这个思路带来了单轮最大跳升（Sharpe +0.10），也正是它拉开差距的核心原因。

它的优化曲线更像“阶跃式”而不是“渐进式”——真正的提升集中在少数几个关键决策点上。这种表现很像成熟研究员：不靠蛮力堆数，而靠判断。

此外，DeepSeek 也是唯一一个使用 ts_wma（指数加权）来替代 ts_mean 的模型，同时还提供了完整的消融实验（ablation study），用来证明各个组件的实际贡献。

🥈 Mimo v2.5 Pro：从“失败之谷”里逆袭的选手

最终公式：

Sharpe：1.781 | 提升幅度：+37%

Mimo 的优化过程堪称戏剧性。它的20轮迭代可以拆成两个截然不同的阶段：

前半段（R8-R15）：连续8轮“踩坑”

Mimo 在达到 Sharpe1.704 后，试图继续通过增加复杂度再往上冲，结果接连撞墙：

RANK 变换：IC 上升，但某个变体 Sharpe 直接跌到 0.4

多因子乘法组合：某个变体 Sharpe 变为 -0.16

成交量信号叠加：某个变体 Sharpe 降到 -2.56

SIGN 放大：某个变体 Sharpe 同样跌到 -2.56

大量变体出现了严重负收益迹象。在8轮里，每一轮的最优 Sharpe 基本停留在 1.28-1.60 区间，没有明显突破，较 R6 的峰值 1.704 出现显著回落。更糟的是，中途还出现了在 standardize=0 条件下的“虚假繁荣”：Sharpe 高达 2.39，但不符合正态标准化约束。

后半段（R16-R20）：触底反弹，最后5轮连破

令人意外的是，Mimo 在“浪费”了8轮之后，反而靠最后5轮的精准微调完成反超：

R16： 1.727（INDNEUTRALIZE 确认）

R17： 1.710（MEAN 252 尝试）

R18： 1.747（MEAN 220 突破）

R19： 1.763（DECAY 20 突破）

R20： 1.781（MEAN 230 终极突破）

点评：Mimo 的“失败日志”反而是全场最有价值的资料。它把每一种失败方向与原因都写得很清楚——RANK 是陷阱、跨信号组合几乎必死、standardize=0 造成虚假繁荣。对于研究员而言，这些“负面知识”往往弥足珍贵。

不过它前半段也暴露了一处关键短板：止损意识不足。连续8轮在同一死胡同里徘徊，如果换作人类研究员，往往在第3轮就会叫停并迅速调整方向。

Mimo 最终选择的是 TS_DECAY_LINEAR（线性衰减加权），而不是 ts_wma，这一点与 DeepSeek 不同。DECAY_LINEAR 与 WMA 分别对应等差衰减与指数衰减，它们在理论层面到底孰优孰劣，仍值得进一步讨论。

🥉 GLM5：偏爱复杂度的“暴力美学”

最终公式：

10个加权窗口 × POWER（0.7）变换 × 行业中性化（公式超过10行，此处省略）

Sharpe：1.759 | 提升幅度：+39%

GLM5 走出了一条几乎与其他模型相反的路径。当其他模型都在寻找“最优的两个窗口”时，GLM5 在问：“为什么非要只用两个窗口？”

它的优化思路大致是：

先发现 turn_rate × amount 组合（R4，Sharpe 1.31 → 1.48，+13%）

再引入 POWER 幂次变换来压缩极值（R11，Sharpe 1.67 → 1.68）

接着进入“窗口数量军备竞赛”——窗口从3个一路加到10个

每增加一个窗口，Sharpe 约提升 0.01，整体走势像爬楼梯一样稳定

点评：GLM5 的本质更接近集成学习（Ensemble）——通过对多个不同时间尺度的因子进行加权平均来平滑噪声。在机器学习里这常被证明有效；但放到量化因子里，一个典型风险是过度参数化。

它的最终公式包含 10 个窗口对与 10 个权重参数，共计约 20 个自由度。优化发生在 5 年样本上，因此“用复杂换收益”的方式会让样本外衰减风险显著升高。相较之下，DeepSeek 的公式仅有 2 个参数（WMA 15 + MEAN 230），模型的简洁性本身就像一种防过拟合的保护。

GLM5 也是唯一持续使用 turn_rate × amount 乘积形式（而不是单独 amount）的模型。它将“换手率×成交金额”理解成“大资金高换手”的异常交易信号，这种金融解释有一定合理性；但从 Sharpe 结果看，直接使用纯 amount 的效果（1.898）确实更占优势（1.759）

第四名 Qwen3.6-Plus：学院派风格的优雅收敛

最终公式：

Sharpe：1.725 | 提升幅度：+15%

Qwen3.6 的优化过程是全场最“干净”、也最系统的。它严格采用“固定一个变量、扫描另一个变量”的控制变量法：

1．固定分子=10，分母从 180 → 220（R11-R13）

2．固定分子=12，分母从 200 → 240（R14-R16）

3．固定分母=230，分子从 12 → 16（R16-R17）

4．确认峰值（R18）：15和16均下滑

5．微调确认（R19-R20）：230附近存在宽平台

这种方法论几乎可以直接写进教科书。

更难得的是，Qwen3.6 在全场最关键的发现里体现了强洞察：它把 IC 与 Sharpe 的权衡关系讲得很透。

“分子增大 → IC 反而降低 → 但换手率也随之下降 → Sharpe 可能反而更好”

它观察到 14/230 的 IC（0.0355）虽然低于 13/225 的 IC（0.0358），但换手率更低、资本效率（pnl/tvr）更高，最终带来 Sharpe 更优。单纯追逐高 IC 本身可能就是陷阱——而这个洞察本身就足够让这次评测“值回票价”。

点评：Qwen3.6 更像一名优秀的理科研究生——方法严谨、逻辑清晰、文档规范。但它的局限在于从未质疑变量选择本身：始终使用 turn_rate，没有尝试 amount、volume 等替代字段；始终用 ts_mean，也没有尝试加权方式。在“在给定框架内做到极致”与“质疑框架本身”之间，它选择了前者。

第五名 MiniMax 2.5：偏保守的“浅尝辄止”

最终公式：

Sharpe：1.703 | 提升幅度：+1.3%

MiniMax 2.5 的优化记录全文只有 130 行。与之对比，DeepSeek 的文档超过 220 行。它的优化更像一次快速扫描参数，而不是深度研究：

没有尝试不同加权方式（ts_wma、ts_decay_linear）

没有进行字段替换（amount、volume）

没有引入非线性变换（POWER、SIGNED_SQRT）

缺少行业中性化的对比（INDNEUTRALIZE vs NEUTRALIZE）

没有消融实验

没有 IC 衰减分析

没有分年度表现拆解

点评：MiniMax 2.5 似乎把任务理解成“尽快找到一组还不错的参数”，而不是系统探索与持续优化。80次实验里，很可能有相当部分属于无效重复试探。换句话说，如果把这个任务当作寻宝，其他模型至少会换几个角度挖挖看，而 MiniMax 在第一个发现“硬币的位置”后就停了。

第六名 Kimi 2.5：简单到极致，但也错过了太多

最终公式：

Sharpe：1.696 | 提升幅度：+40%

Kimi 2.5 的策略极其克制：只做窗口参数搜索。它从短窗 2 天试到 10 天，长窗从 20 天试到 300 天，最终把收敛点锁定在（5， 240）。

它的文档写得很规范——有导语、有阶段划分、有年度分解、有 IC 衰减。但优化本身缺少想象力：整个过程固定使用 ts_mean，固定使用 turn_rate，并且一直采用 NEUTRALIZE。它找到了既定结构下的最优参数，却从未真正质疑结构是否需要改写。

点评：Kimi 2.5 更像一个“勤奋但不够聪明”的研究助手。它完成了 72 次实验（18 轮有效），但探索维度只围绕窗口参数展开。与之对比，DeepSeek 同时在窗口、加权方式、中性化方式、数据字段、公式结构等 5 个维度上探索。在因子优化里，维度选择的智慧往往比参数搜索的勤奋更重要。

需要注意的是，Kimi 2.5 的最终公式与 MiniMax 2.5 非常相近（短窗 5 vs 5，长窗 240 vs 235，同样采用 NEUTRALIZE + ts_mean），但 MiniMax 最终略胜一筹。可以说两者思路同源，只是 MiniMax 在窗口参数上略占优势。

四、六条优化路线的对比

4.1 完整散点坐标数据

DeepSeek V4 Pro（阶跃式 — 最终 1.898）

Mimo v2.5 Pro（V型反转 — 最终 1.781）

GLM5（爬楼梯式 — 最终 1.759）

Qwen3.6-Plus（早熟收敛 — 最终 1.725）

MiniMax 2.5（早熟收敛 — 最终 1.703）

Kimi 2.5（早熟收敛 — 最终 1.696，仅18轮有效）

4.2对比汇总表

4.3 三种优化模式的解读

类型一：“阶跃式”突破 —— DeepSeek

DeepSeek 的曲线特征：在少数关键轮次出现明显跃升，其余轮次主要用于验证与微调。

核心特征：80% 的收益来自 20% 的关键决策。比如 R6 的多因子尝试使得 Sharpe 从 1.615 暴跌到 0.820，但模型迅速吸收教训、回归更简洁的结构，之后便没有再重复同类错误。

类型二（变体）：“V 型”反转 —— Mimo

Mimo 拥有全场最独特的曲线形状：在 R6 达到 1.704 后，R9-R15 的 Sharpe 出现大幅回撤并落到 1.28-1.53 区间（最低 R15=1.280，较峰值 1.704 回落约 25%），随后在 R16-R20 进入连续反弹并最终回到 1.781。

这种“先抑后扬”的回撤-反弹形态在其他模型中基本不见，是 Mimo 最鲜明的方法论烙印——只是它付出的代价也同样巨大。

类型三：“爬楼梯式”渐进 —— GLM5

GLM5 的曲线在 R9 之后接近单调：每增加一个窗口，Sharpe 就稳定上涨约 0.01：

隐患：在样本内“加窗口就能提升”很可能是过拟合的经典信号。10窗口的方案在参数维度上（20+自由参数）带来的样本外衰减，幅度会远高于仅 2 参数的 DeepSeek。

类型四：“早熟收敛”——Kimi2.5、MiniMax2.5、Qwen3.6

这三个模型的共同特征：在中段摸到方法论上限后，后续轮次围绕同一局部最优进行小幅震荡。

它们全程都只使用 turn_rate + ts_mean + 行业中性化策略，从未质疑变量与算子选择本身。它们找到了“在该框架内”的最优解，但没有进一步突破框架边界。

五、关键洞察：好模型与一般模型的分界在哪里？

洞察1：敢于质疑输入变量 > 盲目扩大参数搜索

这基本是整场竞赛里最重要的教训。

坚持以 turn_rate 为输入的5个模型都没有突破 1.79；而 DeepSeek 在 R15 切换到 amount 之后，Sharpe 从 1.79 直接跃升到 1.90。

为什么 amount 更好？成交金额 = 成交量 × 成交价，它既包含换手活跃度（量），也体现了资金规模（价 × 量）。同样的换手率，百元股与十元股所代表的资金含义完全不同——这种直觉并不是靠参数搜索“碰出来”的，它需要从金融逻辑出发重新审视变量选择。

洞察2：行业中性化并非可选项，而是必选项

6个模型最终都使用了行业中性化（INDNEUTRALIZE 或 NEUTRALIZE+sw1_industry）。DeepSeek 做了消融验证：去掉行业中性化后，IC 标准差从 0.068 飙升到 0.118，Sharpe 也从 1.9 直落到 0.4。

这说明：换手率在不同细分行业之间天然存在结构性差异（科技股 > 银行股）。如果不做行业中性化，这个因子本质上更像在做行业配置，而不是在做选股能力提取。

洞察3：IC 不等于 Sharpe

Qwen3.6 和 Mimo 都在优化过程中独立发现了这个反直觉事实：

IC 更高的变体往往对应更高的换手率，进而在扣除交易冲击后实际 Sharpe 反而更低。

Mimo 的例子尤其极端：在 NEUTRALIZE 前加入 RANK 后，IC 从 0.038 提升到 0.051（+34%），但 Sharpe 却从 1.7 暴跌到 0.4（-76%）。RANK 改变了收益分布的尾部形态，使得 IC 看起来更漂亮，但实际并不好交易。

洞察4：简单公式往往更强于复杂集成

DeepSeek 和 Mimo 的最终公式都只有 2 个参数：一个短窗口、一个长窗口。GLM5 的公式却包含 20+ 个参数（10个窗口对 + 10个权重）。虽然 GLM5 的表达在概念上可理解为“多时间尺度的平滑集成”，但在量化实践里，参数越少，样本外通常越可靠。

六、方法论优劣：把AI研究员的能力拆开看

如果把每个模型都当作一个“AI 量化研究员”，可以从五个维度来判断：

各维度最佳：

假设生成：DeepSeek（用 amount 替代 turn_rate 的原创猜想最亮眼）

系统搜索：Qwen3.6（控制变量法执行得最严格）

失败识别：DeepSeek（每次失败都有清晰归因，并能把后续搜索方向排除掉）

结果归因：Mimo（“踩坑”文档价值最大：每个失败原因都拆得很透）

文档沉淀：DeepSeek / Mimo（完成消融实验、分析 IC 衰减、拆分分年表现，并描述优化曲线）

七、Token 消耗与性价比：谁用最少的钱办成最大事？

除了因子本身的表现，我们还关心一个问题：这些模型到底烧了多少 token 或花了多少钱？毕竟在真实工作里，成本效益与模型性能同样关键。

本次测试中，6个模型在不同计费体系下运行，并分别统计如下：

7.1各模型资源消耗明细

DeepSeek V4 Pro（官网，独立计费）

💡 缓存命中率高达 98.5%（12，252，928 / 12，440，497）。DeepSeek 的 prompt caching 效果非常突出：大部分重复上下文（system prompt、MCP 工具定义、skill 方案等）都被缓存命中，真正计费的输入 token 仅 18.7 万。

Mimo v2.5 Pro（小米，独立计费）

Mimo 采用的是小米自有的 Credits 计费体系，整体规模约为 DeepSeek 的千万倍量级（当然，Credits 与 RMB 的换算口径不同，不能直接用绝对值对比）。但从工程角度看，Mimo 的 token 消耗确实明显高于其他模型，这也与它在“失败之谷”阶段的大量试错直接相关——R8-R15 的 32 个失败变体消耗了大量上下文。

GLM5/Qwen 3.6/MiniMax 2.5/Kimi 2.5（阿里 Coding Plan 统一计费）

这四个模型均在阿里 Coding Plan 下运行，消耗统计为合并值：

四个模型合计消耗了近期用量池的 14%，平均每个模型约占 3.5%。考虑到每个模型都完成了 20 轮迭代（80 次 MCP 调用 + 分析），这个消耗水平相当节省，说明这四款模型在阿里云上的推理效率优化做得不错。

7.2 “性价比”排行榜

综合最终 Sharpe 与资源消耗后，我们得到了一张耐人寻味的性价比对比：

7.3 三个值得关注的数字

98.5% —— DeepSeek 的缓存命中率。它解释了为什么 DeepSeek 在 119 次 API 调用里仅花费 1.29 元。Prompt caching 让每轮迭代中，MCP 工具定义、skill 方案、历史上下文等“固定开销”几乎接近零成本。对于需要多轮对话的任务（如因子优化），缓存命中率直接决定实际使用成本。从这个角度看，DeepSeek 在工程层面把长对话场景优化得非常到位。

26，560，524 Credits —— Mimo 的“试错税”。Mimo 的整体排名第二（Sharpe 1.781），但 Credits 消耗非常夸张。回看它的优化过程：R8-R15 连续 8 轮踩坑带来大量无效上下文，每次失败都会累积更多 token。如果 Mimo 能在第 3-4 轮失败时尽早止损并切换方向，而不是连续 8 轮撞墙，它的成本或许只需现有的 1/3，最终结果也可能更理想（省下的轮次可用于更有效探索）。

14% —— 四个阿里系模型的“用量效率”。四个模型合计消耗了 5 小时用量池的 14%，完成 4×80=320 次实验。折算后，每小时用量池可支持约 2，286 次因子分析实验。对量化团队而言，这意味着单次因子回测的 AI 推理成本已经降到几乎可以忽略的程度。

如果把费用/消耗当作“实验预算”，每个模型的用法差异非常鲜明：

核心结论：在 AI 辅助量化研究中，“聪明地花预算”比“花了多少预算”更重要。DeepSeek 用不到一杯咖啡的钱跑出了全场最强因子；而 Mimo 烧掉 2600 万 Credits 却只拿到第二。这样的对照，本身就是 AI 工具选型最该纳入的维度。

八、这场竞赛还能告诉我们什么

对量化研究员的启示

1．“试什么”比“试多少”更重要。80次实验如果只在单一维度反复尝试，不如把 20 次实验分布到 5 个维度上。DeepSeek 的成功并不来自更高的实验次数，而是它提出了更好的问题：“为什么非得用换手率？”

2. AI 辅助因子研究并不是“自动化网格搜索”——那种用 Python 脚本也能做。AI 的真正价值在于，它能像人类研究员一样走“形成假设→设计实验→验证→修正”的闭环，而这种闭环速度往往是人类的 10-100 倍。

3．负面结果往往是最好的老师。Mimo 的8轮踩坑虽然浪费了预算，但留下的文档沉淀可能比成功实验更值钱——它告诉后续研究者哪些方向不该再走。

对模型选择的启示

4．推理能力 > 知识储备。本次任务的因子公式语法、算子使用方式对所有模型都是公平的（通过 skill 方案提供）。真正拉开差距的是：模型如何基于上一轮结果推断下一轮方向——这考验的是逻辑推理与假设生成能力，而不是训练数据里“记住了多少量化知识”。

5．“质疑前提”是更高级的智能。当5个模型都在题目给定的 turn_rate 上优化时，只有 DeepSeek 选择了质疑这个前提。这种“跳出框架思考”的能力，可能是当前大模型之间最稀缺的差异化能力。

九、结语

这次 6 模型横向评测的结果，可以用一句话概括：

“勤奋型模型找到的是参数层面的最优解，而聪明型模型找到的是问题层面的最优解。”

Kimi 2.5、MiniMax、Qwen3.6 代表的是在给定框架内做到极致：它们最终都收敛到近似的窗口参数（5-14 天短窗，230-240 天长窗），说明仅做参数搜索的“天花板”大约在 Sharpe 1.70-1.73。

GLM5 试图通过提升复杂度（多窗口集成 + 幂次变换）冲破天花板，最终拿到约 1.76 的成绩，但代价则是公式复杂度更高、过拟合风险也更突出。

DeepSeek 和 Mimo 采用了不同的路径：前者在加权方式上调整、质疑变量选择并通过消融实验验证；后者同样完成了消融与归因，最终分别达到 1.90 与 1.78。DeepSeek 的 amount 字段切换，是整个竞赛中唯一一次“重新定义问题”的动作，也正是决定冠军归属的关键一手。

对量化从业者而言，这次实验的最大启示或许是：在 AI 时代，不要只让模型做你也会做的网格搜索。让它去挑战你的假设——那才是它真正可能比你强的地方。

实验时间：2026年5月 | 平台：AlphaMind + Claude Code | 数据区间：2021-2026 | 股票池：中证全指（000985）

免责声明：本文为AI模型能力横向对比的技术文章，文中涉及的因子表现均为历史回测结果，不构成任何投资建议。历史业绩不代表未来表现。

附录：DeepSeek V4 Pro 彩蛋 —— “终极40轮”优化结果

⚠️ 以下内容为额外探索，非20轮标准赛果

在完成标准20轮迭代之后，DeepSeek 又获得了额外20轮优化机会（R21-R40）。本彩蛋展示的是：如果让冠军拥有更多时间，它还能继续前进到多远。

彩蛋一：R21-R40 完整结果

彩蛋二：终极40轮优化曲线

彩蛋三：关键突破点总结

彩蛋四：终极统计对比

彩蛋五：终极最优公式

彩蛋六：给文章读者的彩蛋叙事

💡 “如果再给 DeepSeek 20 轮，它会做什么？”

字段乘法：不是简单把 amount 当作字段，而是把 amount × volume 组合成新字段——这通常是人类研究员难以直接想到的做法

符号保持变换：SIGNED_SQRT 在压缩极端值的同时保留方向信息，从而解决 RANK 变换“有 IC 没 Sharpe”的问题

三元复合：amount × volume × turn_rate 三个字段乘积，裸值形态下只有 1.937，但引入 SIGNED_SQRT 后跃升到 2.187

幂次追问：在 SIGNED_SQRT （=POWER 0.5）已经达到 2.2 之后，模型仍继续追问“0.5 是否真的是最优”，并进一步发现 0.3 反而更好

最终，DeepSeek 用 40 轮（约 160 个变体）把 Sharpe 从 1.089 提升到 2.218，总提升 +103.7%。

← 上一篇：港股半导体板块走弱华虹半导体跌幅逾8% 下一篇：515投教|国泰基金创新皮影戏视频，改编“三打白骨精”警示金融风险 →