从杭州大会洞察AI应用瓶颈:数据质量与模型幻觉的深层解析
从杭州大会看AI落地困境: 代码级复盘与大模型幻觉的技术真相
潘云鹤院士演讲实录:专业数据缺失成最大瓶颈,三大技术路径破局
杭州,2026年5月23日。
中国人工智能学会主办的第七届全球人工智能技术大会在余杭未来科技城开幕。10位中外院士到场,戴琼海、潘云鹤等顶级专家悉数出席。
但真正让我停下来思考的,不是某一个具体成果发布,而是一组数据:
中国人工智能学会理事长戴琼海在开幕式上表示,当前人工智能正处于从快速演进走向系统突破的关键阶段。
这句话的潜台词是什么?落地难。 比我们想象的要难得多。
潘云鹤院士在主旨报告中直接点出了问题核心:
当前人工智能存在大模型幻觉、通用模型专业适配不足、工业互联网语义瓶颈等现实问题。
这三个问题,用我一个写了十年量化代码的人的话说:不是模型不够强,是数据不够干净,是场景不够具体。
我见过太多人花了大价钱训练模型,最后发现预测结果和掷骰子差不多。不是模型错了,是喂进去的数据质量和业务场景根本不匹配。
中国人工智能学会主办的第七届全球人工智能技术大会在余杭未来科技城开幕。10位中外院士到场,戴琼海、潘云鹤等顶级专家悉数出席。
但真正让我停下来思考的,不是某一个具体成果发布,而是一组数据:中国人工智能学会理事长戴琼海在开幕式上表示,当前人工智能正处于从快速演进走向系统突破的关键阶段。
这句话的潜台词是什么?落地难。 比我们想象的要难得多。潘云鹤院士在主旨报告中直接点出了问题核心:当前人工智能存在大模型幻觉、通用模型专业适配不足、工业互联网语义瓶颈等现实问题。这三个问题,用我一个写了十年量化代码的人的话说:不是模型不够强,是数据不够干净,是场景不够具体。
这句话的潜台词是什么?落地难。 比我们想象的要难得多。潘云鹤院士在主旨报告中直接点出了问题核心:当前人工智能存在大模型幻觉、通用模型专业适配不足、工业互联网语义瓶颈等现实问题。这三个问题,用我一个写了十年量化代码的人的话说:不是模型不够强,是数据不够干净,是场景不够具体。
我见过太多人花了大价钱训练模型,最后发现预测结果和掷骰子差不多。不是模型错了,是喂进去的数据质量和业务场景根本不匹配。
大模型幻觉(Hallucination),简单说就是:AI生成的内容看起来语法正确、逻辑通顺,但事实层面是错的。
比如你问:"2026年科创50指数收盘点位是多少?"AI可能会说:"2026年5月,科创50指数收于1580点,涨幅2.3%。"但实际上这个数字是AI自己编的。科创50指数根本没有这个点位。
这不是bug。这是大语言模型的本质限制:它本质上是在预测"下一个词应该是什么",而不是在检索"什么是对的"。
我写了一个小脚本,用Python模拟大模型幻觉的一个典型场景:
这个模拟脚本揭示了幻觉的本质:当模型对某个数据点不确定时,它会用统计学上合理的噪声填充这个空白,而不是说"我不知道"。在金融场景里,这可能是灾难性的——一个±3%的点位偏差,在杠杆交易中可能就是爆仓与否的区别。
这个模拟脚本揭示了幻觉的本质:当模型对某个数据点不确定时,它会用统计学上合理的噪声填充这个空,而不是说"我不知道"。在金融场景里,这可能是灾难性的——一个±3%的点位偏差,在杠杆交易中可能就是爆仓与否的区别。
潘云鹤院士在大会上说:未来应依托高质量专业数据构建专业大模型,推动智能体与大模型协同,深化AI与数智工程、各行业融合创新。
这句话我高度认同。我做了十年量化,最深刻的感受就是:数据和策略的关系,不是"数据驱动策略",而是"数据质量决定策略上限"。
这句话我高度认同。我做了十年量化,最深刻的感受就是:数据和策略的关系,不是"数据驱动策略",而是"数据质量决定策略上限"。
用一个具体的数字来说明:在我的量化策略库里,有接近三十万个策略做过回测。这三十万个策略里,最终能长期跑赢大盘的,不足百分之五。
这百分之五有一个共同特点:它们的回测数据,都是基于高度干净、经过清洗、包含大量非标准数据源的专业数据集。而那百分之九十五失败的策略,回测数据大多是Yahoo Finance、Wind导出的标准数据。
标准数据的问题在哪里?它把真正有价值的信息都平滑掉了。
比如,主力资金的建仓痕迹,在日K线里几乎是看不出来的。但如果你有Level2的逐笔数据,有大宗交易记录,有龙虎榜的详细席位数据——这些非标准数据放在一起分析,就能看到机构资金的真实动向。
通用大模型最大的问题就在这里:它是用公开的、标准的数据训练的,而这些数据恰恰是信息密度最低的那一层。 真正有价值的信息,在非标准数据里,在私有数据里,在实时交互数据里。
我把市场参与者分为三层:
表层:标准行情(日K、MA、MACD)——散户能看到的信息,机构早就博弈完了 中层:资金流向(主力净流入、融资余额)——能看到一定资金行为,但不足以形成决策 深层:非标准数据(Level2逐笔、大宗交易席位、龙虎榜席位)——只有大资金才有的信息维度
表层:标准行情(日K、MA、MACD)——散户能看到的信息,机构早就博弈完了 中层:资金流向(主力净流入、融资余额)——能看到一定资金行为,但不足以形成决策 深层:非标准数据(Level2逐笔、大宗交易席位、龙虎榜席位)——只有大资金才有的信息维度
第三层数据,恰恰是通用大模型最难获取、也最难消化的数据类型。
这就是为什么潘云鹤院士说"依托高质量专业数据构建专业大模型"——不是通用大模型不好,而是在垂直领域,它没有足够多的高质量专业数据来训练。
大会上发布的《人工智能关键能力清单1.0》中,有一项被很多媒体忽略了:国家级人工智能(关键应用)产业知识产权运营中心揭牌。
这背后的含义是:数据的知识产权化和标准化,将成为下一阶段AI竞争的核心战场。谁拥有高质量的专业数据集,谁就在垂直领域AI应用上有先发优势。
这背后的含义是:数据的知识产权化和标准化,将成为下一阶段AI竞争的核心战场。谁拥有高质量的专业数据集,谁就在垂直领域AI应用上有先发优势。
在量化交易领域,这条路径已经有了明确的实践者:
大会上,戴琼海提到"推动智能体与大模型协同"。这不是一个模糊的方向,而是一个具体的工程问题。
我的理解是:大模型负责"想",智能体负责"做"。
我画过一个"信息金字塔",描述市场里不同数据层的信息密度:
顶层:机构私有数据(Level2逐笔、龙虎榜席位、量化私募持仓)——信息密度五星,受众机构专用 中层:监管公开数据(大宗交易、融资融券、龙虎榜汇总)——信息密度三星,受众专业投资者 底层:市场公开数据(日K线、成交量、公开财报)——信息密度一星,受众所有投资者
顶层:机构私有数据(Level2逐笔、龙虎榜席位、量化私募持仓)——信息密度五星,受众机构专用 中层:监管公开数据(大宗交易、融资融券、龙虎榜汇总)——信息密度三星,受众专业投资者 底层:市场公开数据(日K线、成交量、公开财报)——信息密度一星,受众所有投资者
通用大模型吃的是底层数据。底层数据的信息密度最低,机构早就消化完了。所以当散户用通用大模型做投资分析时,实际上是在用"机构嚼剩的渣"做判断。
通用大模型吃的是底层数据。底层数据的信息密度最低,机构早就消化完了。所以当散户用通用大模型做投资分析时,实际上是在用"机构嚼剩的渣"做判断。
潘云鹤院士提到的"通用模型专业适配不足",本质上是机器学习中一个经典矛盾:模型的泛化能力(Generalization)和专业能力(Specialization)是负相关的。
一个在所有领域都表现良好的通用模型,在任何一个具体领域都比不上专门为那个领域训练的模型。这就像一个全科医生和专科医生的区别。全科医生什么都会一点,但在心脏病领域,他肯定不如心脏科专科医生。
我见过很多团队,模型训练得很好,准确率也很高,但最终上线时效果大打折扣。问题出在哪里?数据到决策之间有一个巨大的工程鸿沟。
杭州回来之后,我想了一晚上。
潘云鹤院士说的三个问题,大模型幻觉、专业数据不足、语义瓶颈——这和我做量化这十年遇到的问题,几乎是一模一样的。
我写过三十万个策略,做过无数次回测。最深的体会是:策略本身不赚钱,赚钱的是数据质量和风控体系。
AI落地难,不是因为模型不够强,是因为数据不够干净、工程不够扎实、应用场景不够具体。这个结论,放在量化交易上是对,放在AI落地上也是对。
大会结束的时候,我在展会上看到了一个很有意思的项目:农业智能——用AI做病虫害识别和精准灌溉。这不是什么"大模型",就是几个工程师蹲在农田里,用摄像头拍图片、用边缘计算做识别、在手机上推送警报。
简单、具体、有效。
这可能就是AI真正落地的样子。不是通用大模型横扫一切,而是专业的小模型,解决具体的小问题。窄门思维,在AI时代同样适用。
写完这篇文章的时候,我家窗口能看到柳江。这几天柳江的水位不算高,江面平静得很。偶尔有一两条船划过,荡起的波纹很快就会消失。
有时候我在想,AI这个词,就像江面上的波纹——看起来很热闹,真正能留下来的,是那些沉在水面下的东西。
专业数据、干净特征、扎实工程、具体场景。这些东西看起来不够酷,但它们才是真正经得起时间的东西。
和大家共勉。
(本文仅为个人市场观察与思考,不构成任何投资建议。市场有风险,入市需谨慎。)