开源 AI 登顶金融榜：分析师危矣？

发布时间：2026-05-14 15:53阅读：34

Kimi K2.6 问鼎金融 Agent 开源榜首，其意义远超想象

本周，一则消息同时在金融界与 AI 领域引发轰动。

月之暗面正式官宣：其开源模型 Kimi K2.6，在 Finance Agent Benchmark V2 评测中，凭借开源权重模型第一的成绩拔得头筹——这是当下全球最具权威的 AI 金融智能体评分榜单之一，由独立测评机构 Vals AI 运营。

这一结果预示着什么？简言之：在模拟金融分析师工作的考核中，一款免费开源的中国模型，击败了所有同类竞品。

然而，更值得深入探讨的是现象背后的核心议题：

AI 究竟能否担纲金融分析师之职？若可，该行业将何去何从？

一、该榜单考核何物

先厘清背景。

Finance Agent Benchmark V2（金融智能体基准测试 V2）系 Vals AI 于 2026 年 5 月 12 日推出的评测体系，系业界广泛应用的 V1 版本迭代而来。

它并非一张选择题试卷，而是模拟真实金融分析师日常工作的实战演练，涵盖九大任务类别：

任务类别

具体内容

信息检索

从 SEC 财报及公告中精准提取数据

市场分析

研判行业趋势、剖析竞争格局

可比公司分析

筛选对标企业，构建估值对比

先例交易

检索并分析并购历史交易数据

财务调整

识别非经常性项目并标准化处理

盈利分析

深度拆解每股收益、营收及利润率

信息披露

解读财报附注及风险提示

财务建模

构建 DCF、LBO 等估值模型

综合推理

跨多文档、多工具的复杂决策

模型在测试中不仅要「知晓答案」，还需调用工具——包括谷歌搜索、SEC 的 EDGAR 数据库——主动获取信息、分析数据并得出结论。这与真实分析师的工作流程几无二致。

正因如此，该榜单较多数 AI 评测更具含金量：它考核的不是死记硬背，而是实战能力。

二、Kimi K2.6 为何种模型

月之暗面（Moonshot AI）乃中国 AI 初创企业中融资额最高者之一，今年 4 月完成约 20 亿美元融资，估值逾 200 亿美元。

Kimi K2.6 于 2026 年 4 月 20 日发布，核心特质如下：

超大参数量，超低推理成本。总参数量达 1 万亿，但每次推理仅激活 320 亿参数。技术层面采用混合专家架构（MoE），效果为：以 320 亿参数模型的成本，获取 1 万亿参数模型的能力。API 调用价格约为 Claude Opus 4.7 的 1/8。

卓越的长任务执行力。K2.6 可同时调度 300 个子 Agent，协同执行 4000 个步骤。在一次测试中，其独立运行 13 小时，完成金融撮合引擎的全面重构，调用超 1000 次工具，修改 4000 余行代码，最终将系统吞吐量提升 185%。

完全开源。模型权重于 Hugging Face 平台免费开放下载，人人皆可部署、修改及商用。在同级别能力模型中，此情形极为罕见。

不妨将其视为一位「廉价、耐用、开源」的高级分析师——无需进食、无需睡眠、无需发放年终奖。

三、开源第一，意味着什么

必须厘清一个细节：Kimi K2.6 乃是 Finance Agent Benchmark V2 的开源权重模型第一，而非综合榜单第一。

综合榜单前三名依次为：Claude Opus 4.7（72.21%）、GPT 5.5（71%）、GPT 5.4（66.13%）——均为闭源商业模型，背后依托 Anthropic 与 OpenAI 巨额算力及研发投入。

但「开源第一」的分量，丝毫不逊于「综合第一」。

缘由很简单：开源模型可由任何个人或机构本地部署，数据不出内网，成本可控，且能针对自身业务定制微调。

对于银行、券商、基金等数据极度敏感的金融机构而言，「能本地部署的第一名」远比「仅能调用 API 的第一名」具备实际价值。

这正是 Kimi K2.6 登顶该榜单的真正战略意义所在。

四、回归那个核心问题

AI 能否胜任金融分析师的工作？

Vals AI 在 V1 版本研究报告中给出了一个清醒的数据：当时最佳模型（OpenAI o3）在金融智能体测试中准确率仅为 46.8%，单次查询成本为 3.79 美元。

46.8%。略好于抛硬币，但远未达标。

至 V2 版本，整体水平显著提升，但最高分也刚突破 70%。而一位经验丰富的金融分析师，在其熟悉领域的准确率通常高达 90% 以上。

因此，当下的 AI 尚无法取代金融分析师。但它正飞速逼近。

更精准的描述是：

AI 正在将金融分析师的工作分层——那些重复的、标准化的、依赖数据检索的任务，已可被 AI 大幅替代。而涉及判断力、客户关系及创造性决策的部分，暂时仍属人类领地。

「暂时」二字，值得每位金融从业者深思。

五、这与你何干

若你身处金融行业之外，或许觉得此事遥不可及。

但有几点信号值得关注。

信号一：替代边界在拓展。金融分析素被视为「最难被 AI 取代的职位」之一，因其涉及复杂推理、多源数据整合及高风险决策。若该领域亦遭 AI 渗透，其他门槛更低的分析类岗位，压力将更为巨大。

信号二：开源加速普及。Kimi K2.6 系开源模型。这意味着不仅大机构，任何小型基金、独立分析师或财经媒体均可极低成本部署。AI 金融工具的普及速度，恐将快于大众预期。

信号三：中国模型正在追赶。两年前，AI 界共识为「中国模型落后美国两代」。今朝，一款中国开源模型在全球最权威的金融智能体榜单上摘得桂冠。这一差距，正以令人目眩的速度缩小。

结语：莫待被替代

我常思忖一个问题：每次 AI 能力提升的消息传出，为何总有人言「无足轻重」？

我认为原因在于：单一节点的变化，难以让人感知趋势。

但倘若将过去三年的点连成线——从 GPT-3 至 GPT-5，从 Claude 1 至 Claude Opus 4.7，从 Kimi 首版至 K2.6 金融榜第一——你将目睹一条令人不寒而栗的曲线。

该曲线尚未显露减速迹象。

对于金融界友人，我想说的并非「赶紧转行」，而是：想清楚你在此行业中提供的核心价值为何。若答案是「我会查报表、做 Excel」，那确需认真思考了。

若答案是「我理解客户、我做判断、我建立信任」，则 AI 乃你的工具，而非对手。

工具在进化，问题永恒：你是驾驭它，还是静待它来驾驭你？

欢迎转发给身处金融行业的朋友。

← 上一篇：AI原生创作引擎发布，重塑数字内容生产模式下一篇：别再只问 AI 咋写码，腾讯云已启动 AI 工程架构师认证 →