标签

开源 AI 登顶金融榜:分析师危矣?

发布时间:2026-05-14 15:53来源:微信阅读:7

Kimi K2.6 问鼎金融 Agent 开源榜首,其意义远超想象

本周,一则消息同时在金融界与 AI 领域引发轰动。

月之暗面正式官宣:其开源模型 Kimi K2.6,在 Finance Agent Benchmark V2 评测中,凭借开源权重模型第一的成绩拔得头筹——这是当下全球最具权威的 AI 金融智能体评分榜单之一,由独立测评机构 Vals AI 运营。

这一结果预示着什么?简言之:在模拟金融分析师工作的考核中,一款免费开源的中国模型,击败了所有同类竞品。

然而,更值得深入探讨的是现象背后的核心议题:

AI 究竟能否担纲金融分析师之职?若可,该行业将何去何从?

一、该榜单考核何物

先厘清背景。

Finance Agent Benchmark V2(金融智能体基准测试 V2)系 Vals AI 于 2026 年 5 月 12 日推出的评测体系,系业界广泛应用的 V1 版本迭代而来。

它并非一张选择题试卷,而是模拟真实金融分析师日常工作的实战演练,涵盖九大任务类别:

任务类别

具体内容

信息检索

从 SEC 财报及公告中精准提取数据

市场分析

研判行业趋势、剖析竞争格局

可比公司分析

筛选对标企业,构建估值对比

先例交易

检索并分析并购历史交易数据

财务调整

识别非经常性项目并标准化处理

盈利分析

深度拆解每股收益、营收及利润率

信息披露

解读财报附注及风险提示

财务建模

构建 DCF、LBO 等估值模型

综合推理

跨多文档、多工具的复杂决策

模型在测试中不仅要「知晓答案」,还需调用工具——包括谷歌搜索、SEC 的 EDGAR 数据库——主动获取信息、分析数据并得出结论。这与真实分析师的工作流程几无二致。

正因如此,该榜单较多数 AI 评测更具含金量:它考核的不是死记硬背,而是实战能力。

二、Kimi K2.6 为何种模型

月之暗面(Moonshot AI)乃中国 AI 初创企业中融资额最高者之一,今年 4 月完成约 20 亿美元融资,估值逾 200 亿美元。

Kimi K2.6 于 2026 年 4 月 20 日发布,核心特质如下:

超大参数量,超低推理成本。总参数量达 1 万亿,但每次推理仅激活 320 亿参数。技术层面采用混合专家架构(MoE),效果为:以 320 亿参数模型的成本,获取 1 万亿参数模型的能力。API 调用价格约为 Claude Opus 4.7 的 1/8。

卓越的长任务执行力。K2.6 可同时调度 300 个子 Agent,协同执行 4000 个步骤。在一次测试中,其独立运行 13 小时,完成金融撮合引擎的全面重构,调用超 1000 次工具,修改 4000 余行代码,最终将系统吞吐量提升 185%。

完全开源。模型权重于 Hugging Face 平台免费开放下载,人人皆可部署、修改及商用。在同级别能力模型中,此情形极为罕见。

不妨将其视为一位「廉价、耐用、开源」的高级分析师——无需进食、无需睡眠、无需发放年终奖。

三、开源第一,意味着什么

必须厘清一个细节:Kimi K2.6 乃是 Finance Agent Benchmark V2 的开源权重模型第一,而非综合榜单第一。

综合榜单前三名依次为:Claude Opus 4.7(72.21%)、GPT 5.5(71%)、GPT 5.4(66.13%)——均为闭源商业模型,背后依托 Anthropic 与 OpenAI 巨额算力及研发投入。

但「开源第一」的分量,丝毫不逊于「综合第一」。

缘由很简单:开源模型可由任何个人或机构本地部署,数据不出内网,成本可控,且能针对自身业务定制微调。

对于银行、券商、基金等数据极度敏感的金融机构而言,「能本地部署的第一名」远比「仅能调用 API 的第一名」具备实际价值。

这正是 Kimi K2.6 登顶该榜单的真正战略意义所在。

四、回归那个核心问题

AI 能否胜任金融分析师的工作?

Vals AI 在 V1 版本研究报告中给出了一个清醒的数据:当时最佳模型(OpenAI o3)在金融智能体测试中准确率仅为 46.8%,单次查询成本为 3.79 美元。

46.8%。略好于抛硬币,但远未达标。

至 V2 版本,整体水平显著提升,但最高分也刚突破 70%。而一位经验丰富的金融分析师,在其熟悉领域的准确率通常高达 90% 以上。

因此,当下的 AI 尚无法取代金融分析师。但它正飞速逼近。

更精准的描述是:

AI 正在将金融分析师的工作分层——那些重复的、标准化的、依赖数据检索的任务,已可被 AI 大幅替代。而涉及判断力、客户关系及创造性决策的部分,暂时仍属人类领地。

「暂时」二字,值得每位金融从业者深思。

五、这与你何干

若你身处金融行业之外,或许觉得此事遥不可及。

但有几点信号值得关注。

信号一:替代边界在拓展。金融分析素被视为「最难被 AI 取代的职位」之一,因其涉及复杂推理、多源数据整合及高风险决策。若该领域亦遭 AI 渗透,其他门槛更低的分析类岗位,压力将更为巨大。

信号二:开源加速普及。Kimi K2.6 系开源模型。这意味着不仅大机构,任何小型基金、独立分析师或财经媒体均可极低成本部署。AI 金融工具的普及速度,恐将快于大众预期。

信号三:中国模型正在追赶。两年前,AI 界共识为「中国模型落后美国两代」。今朝,一款中国开源模型在全球最权威的金融智能体榜单上摘得桂冠。这一差距,正以令人目眩的速度缩小。

结语:莫待被替代

我常思忖一个问题:每次 AI 能力提升的消息传出,为何总有人言「无足轻重」?

我认为原因在于:单一节点的变化,难以让人感知趋势。

但倘若将过去三年的点连成线——从 GPT-3 至 GPT-5,从 Claude 1 至 Claude Opus 4.7,从 Kimi 首版至 K2.6 金融榜第一——你将目睹一条令人不寒而栗的曲线。

该曲线尚未显露减速迹象。

对于金融界友人,我想说的并非「赶紧转行」,而是:想清楚你在此行业中提供的核心价值为何。若答案是「我会查报表、做 Excel」,那确需认真思考了。

若答案是「我理解客户、我做判断、我建立信任」,则 AI 乃你的工具,而非对手。

工具在进化,问题永恒:你是驾驭它,还是静待它来驾驭你?

欢迎转发给身处金融行业的朋友。