AI驱动金融革新:智能应用与风险防控新路径
导语
当前,人工智能正从初期的问答助手形态迅速演进为能够独立调用工具、执行复杂流程任务的智能体形态,在投研分析、风险控制、信息提取与辅助决策等核心业务场景中展现出显著的应用价值;与此同时,数据泄露、权限滥用、网络攻击等新型安全问题也随之产生,要求技术创新与制度建设同步推进。本文系统呈现了基于大语言模型构建的“人大-新华”A股上市公司行业分类体系,同时介绍了利用生成式人工智能挖掘多维度隐性关联、结合图神经网络构建企业风险传导网络的研究进展。此外,本文认为需关注过度数据挖掘、算法合规、版权侵权、AI智能体安全及劳动力市场结构性冲击等潜在风险,未来需在推进人工智能技术应用的同时,构建完善的风险治理体系,以期为金融行业平衡技术效率提升与系统性风险防控、推动人工智能健康可持续发展提供学术洞见与实践指引。
01
为何金融行业特别需要人工智能?
当前,我们正处于人工智能技术飞速发展的历史阶段。2022年11月ChatGPT的发布,标志着通用人工智能迈出历史性一步,开启了大模型在金融非结构化信息分析上的新可能;2025年初DeepSeek-R1的推出,将高质量推理成本降至学术可承受范围,体现了中国人工智能研发的韧性与创造力。与此同时,通义千问开源系列大模型持续迭代,多模态处理与文本嵌入能力不断提升,为中文金融文本分析提供了有力的基础工具。从国家战略层面看,中央金融工作会议明确提出建设金融强国、做好科技金融与数字金融等“五篇大文章”的目标;2025年8月国务院印发“人工智能+”行动意见,推动智能体在金融、商务、法律等领域的广泛应用;央行《金融科技发展规划》亦将人工智能列为核心技术,推动风险管理从“人防”到“智控”的转变。
在产业实践层面,人工智能已从概念验证进入规模化落地阶段。中国银行计划未来五年为人工智能全产业链提供不低于1万亿元专项金融支持;工商银行完成DeepSeek本地化部署,赋能200余个业务场景;北京银行启动“All in AI”战略,落地90余个金融应用;腾讯云联合沪深交易所、中国银行等将人工智能大模型落地超100个金融场景,智能资讯分析效率提升30倍,信贷尽调周期由10天缩短至1天。Swift联合13家国际银行进行人工智能模型试验,欺诈识别准确率提升100%,交易审查处理由数天缩短至几分钟。截至2025年底,中国金融科技专利申请量达46419件,居全球第一。
与此同时,人工智能正经历从“Chat”到“Agent”的范式转变。2026年初爆发式流行的开源智能体框架OpenClaw,发布数日即获得GitHub 10万+星标,截至2026年3月突破25万,并在我国迅速完成DeepSeek和微信的本土化适配。AI智能体不再是对话助手,而是能自主执行任务、调用工具、操作计算机的“数字员工”,在金融领域可自动化执行交易策略、管理投资组合、生成合规报告。然而,热潮背后的安全风险不容忽视:2026年2月Hudson Rock检测到OpenClaw配置被恶意软件攻陷,API密钥与对话历史泄露;Cisco发现第三方技能存在数据窃取和提示注入攻击;同年3月Claude Code因npm包误带source map暴露大量源码,随后引发伪造仓库和恶意软件传播。2026年3月,我国已限制国有企业和政府机关在办公电脑上运行OpenClaw应用,以防范潜在安全风险。
金融行业天然适合人工智能,其核心在于信息处理。5000余家A股上市公司的年报、公告、研报、专利总量以亿字计,传统分析师团队只能覆盖有限比例。大语言模型使得系统性“阅读”全市场文本、提取经济信息并转化为可量化金融变量的新范式第一次成为现实。但人工智能本身存在前瞻性偏差、幻觉和过拟合等风险,若不加以审慎处理,也可能误导决策。因此,近期研究同时关注人工智能如何提升效率、辅助风险识别,以及人工智能应用本身需要警惕的风险。
02
人工智能如何重塑行业边界:基于大语言模型的A股上市公司行业分类
在学术界,基于大模型的金融研究进展迅速。在语义分析与市场预测方面,Lopez-Lira和Tang(2023)率先证明ChatGPT新闻情感信号能预测股票收益;Siano(2025,Management Science)表明大语言模型能从财报电话会议中捕捉传统方法难以识别的细微语义信号;Jha等人(2024a,2024b)展示了ChatGPT从电话会议中提取资本支出和宏观展望信息的能力。在风险管理领域,Pele等人(2026)提出了LLM-VaR和LLM-ES方法,以零样本方式估计在险价值和期望损失。在企业网络构建方面,Breitung和Müller(2025)利用10-K年报构建了上市公司全球商业网络。
行业分类是金融实证研究的重要基础设施(McGahan和Porter, 1997),但A股现有的多套行业分类标准存在三大不足:一是更新滞后,对并购重组或业务转型通常存在1-2年的滞后期;二是细分赛道区分不足,组内公司同质性低;三是方法不透明、难复现。中国上市公司协会分类严格参照国标,首要目标是统计和行政监管而非金融研究;申万、万得分类虽更贴近市场,但编制方法不公开。Hoberg和Phillips(2016,JPE)利用美国10-K年报产品描述文本构建了动态TNIC行业分类,但这类数据驱动方法在中国市场一直处于空白状态。
本团队的核心思路是:两家公司在年报中描述的业务内容高度相似,则归为同一行业。这一分类体系追求三大目标——客观性(分类方法公开透明,可复现,可根据具体研究需要调整)、准确性(聚类准确,能够捕捉相似企业,组间差异大,组内差异小)和实时性(及时反映企业业务转型)。研究收集了2007至2023年间沪深两市全部A股上市公司的52702份年报“管理层讨论与分析”(MD&A)文本,采用“嵌入—聚类—命名—测试”四步骤方法构建分类体系。
第一步:嵌入。使用Qwen-text-embedding-v4文本嵌入模型将每份MD&A映射为2048维语义向量。考虑到模型输入长度限制,首先将每篇MD&A文本划分为若干段落,分别计算各段落的嵌入向量,再以段落嵌入向量的均值作为该篇文本的整体向量表示。为增强嵌入对行业语义的捕捉能力,研究在调用模型时加入任务指令(Prompt)以提升模型信息提取能力。最终对每个MD&A文本生成一个2048维语义嵌入向量,用于描述该公司的业务模式。
第二步:聚类。基于52702个嵌入向量,研究采用层次聚合聚类(Agglomerative Hierarchical Clustering)方法,配合平均链接(Average Linkage)准则和归一化欧氏距离,自底向上构建三级分类体系。这一方法完全由数据自下而上驱动,避免了预设行业定义可能带来的先验偏差。在归一化前提下,欧式距离和余弦距离存在单调映射关系,归一化欧氏距离的平方根特性在聚合过程中能有效压缩极端样本对的惩罚权重,使聚类算法对MD&A文本中的局部噪声更加鲁棒。具体而言,三级分类的构建过程如下:三级分类层面,先将全部向量聚合为300类,再通过动态小簇合并机制将簇内少于5个点的微小簇并入最近的大簇,得到271个三级行业;二级分类层面,基于三级聚类结果构建簇间距离矩阵,继续聚合至150类后将少于30个点的小簇合并,得到102个二级行业;一级分类层面,在二级结果上继续聚合至50类后将少于300个点的小簇合并,得到26个一级行业。动态小簇合并机制的创新性引入,既解决了传统层次聚合聚类容易产生大量极小孤立簇的缺陷,同时也保证了分类体系的完全嵌套关系——若任意两家上市公司归属于同一三级行业,则它们必然也归属于同一个二级行业和一级行业。
第三步:命名。研究创新性地采用基于大语言模型的两阶段命名策略——“局部摘要-全局命名”,避免人工命名带来的偏好偏差。首先使用具备长上下文处理能力的Qwen-Long模型,对各行业抽样读取MD&A文本,生成详尽的行业业务画像总结;然后使用Qwen3-Max模型将所有行业的业务摘要整合为单一输入进行全局对比分析,赋予符合中国A股市场通用术语的行业名称(如“基础化工”“食品饮料”“高端装备”等),名称长度严格控制在2-6个中文字符,确保名称互斥。二级行业命名时还显式引入一级行业信息作为先验背景,使二级名称体现出对一级行业的从属或细分关系。
第四步:测试。构建分类体系后,研究从行业间差异性、行业内相似性和资产定价三个维度,将大语言模型分类与申万三级分类、万得四级分类及中国上市公司协会分类进行系统比较。评价指标选取了营业利润率(OpMargin)、资产回报率(ROA)、营业收入增长率(RevGrowth)和资本支出增长率(CapxGrowth)四个在相同业务公司间高度相似的财务特征指标。衡量逻辑是:一个好的分类标准应该把最相似的公司放入同一个类别中,使得类内差异最小、类间差异最大。
最终形成的“人大-新华”分类体系涵盖26个一级、102个二级和271个三级行业。26个一级行业包括:高端装备、食品饮料、医药生物、电子元件、软件服务、农林牧渔、基础化工、种子农业、交通运输、电力设备、公用事业、纺织服装、文化传媒、建筑材料、商业零售、房地产、综合转型、交运能源、金融服务、家电部件、旅游酒店、轨道交通、造纸包装、高速公路、石油化工和环保水务。聚类层次完全嵌套。数据显示,综合转型行业从2007年的294家骤降至2023年的3家,电子元件行业则从71家扩张至766家,生动反映了中国产业结构的动态演变——高新技术产业和先进制造业快速扩张,而部分传统行业则面临调整或增长瓶颈。
在行业间差异性方面,研究计算了各分类体系下不同行业在四个核心财务指标上的标准差,标准差越大表明行业间财务特征差异越显著。结果显示,在同等类别数量粒度下,大语言模型分类体系在多数指标上均优于同级别的申万、万得分类。以营业利润率为例,“人大-新华”三级分类的标准差为0.266,而申万三级仅为0.131——大语言模型行业区分度约为传统分类的两倍。在一级分类层面,大语言模型分类标准差(0.113)同样显著高于申万一级(0.064)、万得一级(0.097)和万得二级(0.079)。在二级分类层面,大语言模型二级(0.188)显著超过申万二级(0.102)与万得三级(0.098)。
在行业内相似性方面,研究采用行业哑变量回归的R²作为衡量指标,R²越高表明同一行业内公司在该指标上越趋同。结果显示,大语言模型分类在多数指标上均具有更高的R²解释力。以营业利润率为例,“人大-新华”三级分类的平均R²为0.144,高于申万三级的0.102和万得四级的0.095。更高的R²意味着同一行业内企业在关键特征上更相似,大语言模型分类能更好地实现“类内相似、类间差异”的分类目标。
在资产定价检验中,研究基于Hoberg和Phillips(2018)的行业“领先-滞后”效应,结合Du等人(2025)关于A股高价股动量更显著的发现,构造了对冲投资组合。具体方法为:每月末在收盘价不低于10元且流通市值位于市场前70%的股票池中,计算过去11个月(排除最近一个月)同行业公司平均累计收益率作为“领先-滞后”特征,采用双重独立排序——按收盘价(前10%与后10%)和领先-滞后特征(前20%与后20%)独立排序后取交集,做多“高价股+高领先-滞后”组,做空“高价股+低领先-滞后”组。结果表明,“人大-新华”二级和三级分类产生了统计显著的正收益(月均收益分别为1.29%和1.53%,T值分别为2.43和2.81),而其他分类体系的对应组合均未产生显著正收益。经Fama-French五因子模型调整后,大语言模型三级分类的等权Alpha为1.60%(T=3.00),经中国四因子模型调整后等权Alpha为1.80%(T=2.84),均高度显著;而申万和万得体系在多数设定下均未能产生统计显著的Alpha。Fama-MacBeth横截面回归进一步证实,“人大-新华”二级分类交乘项系数为0.0148(t=2.05),加入资产增长率、公司规模、账面市值比和毛利率等控制变量后仍在5%水平显著,其他分类体系均不显著。
“人大-新华”A股上市公司行业分类数据集已于2026年3月正式发布并在新华财经数据终端上线,可供金融从业者和研究人员使用。
03
人工智能如何识别风险链条:基于生成式AI的公司关联网络
企业间的关联网络对于理解系统性风险至关重要。2018年东方园林债券违约表面仅为单一公司信用事件,但迅速引发蒙草生态、铁汉生态、道氏技术等多家公司股价大跌,累计损失市值超150亿元。Acemoglu等人(2015)系统揭示了这一机制:关键企业的微观冲击可通过供应链、信用链层层放大,引发宏观波动。在中美科技竞争背景下,出口管制和关税变化可能通过隐性关联网络传导影响大量表面上无直接关联的企业。
现有描述企业关联的方法大多局限于单一维度——供应链联系(Cohen和Frazzini,2008)、行业竞争(Hoberg和Phillips,2016)、地理位置(Parsores等人,2020)、技术专利(Lee等人,2019),共同问题是依赖结构化数据、更新频率低、覆盖范围有限、难以捕捉多维度隐性关联。
我们团队正在推进的国自科面上项目,试图利用大语言模型从企业年报文本中挖掘多维度隐性关联,再结合图神经网络(GNN)整合为复合企业网络结构。方法分为三步:第一步,将年报按段落拆分为文本单元,由大模型评估每个单元与特定经济概念(产品市场竞争、产业链上下游、技术创新、市场风险暴露、地理关联等)的相关度并赋分(0-100分)。例如,“天然气消费量为4930亿立方米,同比下降12%”这一文本,在风险关联性维度获85分,主营业务关联性获70分,技术关联性为0分,体现了大模型精细化的多维度语义理解能力。第二步,在每个概念维度上提取各公司得分最高的文本段落,用嵌入模型转化为语义向量,通过余弦相似度构建企业间邻接矩阵。第三步,用图神经网络通过消息传递机制融合多维度网络,能够动态学习节点间关联权重,并通过多层结构捕捉间接关联——因为风险传导往往层层传递。
基于所构建的网络,研究计划在三个核心场景中检验其价值:股票收益率预测、股价风险预测(NCSKEW、DUVOL和下行Beta)以及参数化投资组合优化方法(Brandt,Santa-Clar和Valkanov,2009)。研究将在中美两个市场同时进行检验,分析不同制度环境和市场结构下网络效应的异质性。
04
人工智能应用的关键约束
人工智能赋能金融的同时,其应用本身的风险同样不可忽视。前瞻性偏差是当前几乎所有使用大模型进行金融预测的研究都面临的系统性风险。大模型训练数据涵盖互联网海量信息,分析某一历史时点的企业年报时,模型可能无意中利用了后来才出现的信息(Glasserman和Lin,2023;Ludwig等,2025)。比如:让大模型分析2015年小米公司年报,由于模型“知道”小米来来涉足电动汽车,可能使用未来信息判断小米主营业务已涵盖汽车行业。学术界提出的主要应对方案是文本匿名化——通过NER技术去除公司名称、人名、地名等标识信息(Kim等,2024),或利用大语言模型对原始文本进行实体替换和改写(Engelberg等,2025),使大模型无法判断文本属于哪家公司、哪个年份。
然而,我们团队最新完成的研究论文《Anonymization and Information Loss》揭示了匿名化方法的重要局限。核心发现包括五个方面:其一,匿名化导致情感信号解释力显著下降,R²从0.132降至0.124,对比回归中标准化系数从2.331骤降至0.775;其二,信息损失主要