标签

AI能力提升反致应用放缓

发布时间:2026-06-29 11:49阅读:2

AI 能力飙升,落地却遇阻

这周的 AI 领域出现了一个显著矛盾:模型性能飞速提升——GPT-5.6 已研发完成,GLM 5.2 与 Mythos 水平相当,DSpark 也崭露头角;但实际部署却在减速——GPT-5.6 因监管问题被阻止发布,Ford 发现 AI 无法取代资深工程师,Fable 5 要求共享推理数据让企业犹豫不决。简言之,AI 正从“能否实现”的阶段转向“是否敢用”的阶段。

信号一:模型越强,监管越严。OpenAI 宣布完成 GPT-5.6(代号 Sol),但直接被叫停——因监管原因无法上线。这是 OpenAI 首次公开承认有模型因外部管控而无法发布。同时,白宫向 100 多家美国机构开放了 Anthropic 的 Mythos,但更强大的 Fable 仍被封锁。能力越强,越需分层管理,这已成为明确趋势。

信号二:中国模型在特定领域追平。智谱的 GLM 5.2 在网络安全基准测试上与 Anthropic Mythos 持平,这不是自媒体炒作,而是 Semgrep 的独立评测结果。Gary Marcus 也专门撰文题为“China catches up”。尽管仅在一个领域追平,但这表明差距正在快速缩小,而非扩大。

信号三:AI 替代人类的作用被高估。Ford 进行了一项许多人不敢公开讨论的实验——用 AI 替代资深工程师,结果失败,于是重新聘请了被裁掉的“灰胡子”老工程师。汽车工程这类需要数十年经验积累的领域,AI 目前确实无法胜任。这不仅是 Ford 的问题,也是所有依赖深度专业知识行业面临的现实。

能力在飞升,门槛也在提高

表面上看,这些新闻互不相关——一个是监管限制模型,一个是评测打平,一个是车企重新雇佣。但深入思考,它们都指向同一件事:AI 的竞争重心正在转变。

去年大家比较的是“谁的模型更强”,今年比较的是“谁的模型能发布”。GPT-5.6 已研发完成却无法发布,这比研发失败更尴尬。Mythos 可供 100 家机构使用,而 Fable 仍被锁定,说明能力越强,管控越严。Fable 5 在 Bedrock 上要求共享推理数据,这让许多企业犹豫——你的 AI 是在真正服务我,还是在窃取我的数据?

Ford 的案例更直接:AI 并非无能,而是在需要深度判断的领域还不够可靠。苹果推出 Core AI 框架、梁文锋发布 DSpark,大家都在寻找“能真正落地”的路径,而不仅仅是刷榜。

① 如果你在开发 AI 产品,别再只关注模型能力。监管合规、数据隐私、用户信任这些“软门槛”正变成硬性约束。GPT-5.6 无法发布就是前车之鉴。

② 如果你在评估 AI 工具,务必查看数据条款。Fable 5 要求回传推理数据,这对有合规要求的公司是致命缺陷。选工具时,数据主权应与模型能力同等重要。

③ 如果你在管理团队,Ford 的教训值得铭记:AI 替代“浅层工作”可行,但深度专业判断仍离不开人类。别急于裁员,先理清你的业务中哪些是“浅层”、哪些是“深层”。

未来 1-3 个月,值得关注以下几件事:

① GPT-5.6 的监管争议是否会公开化——如果 OpenAI 被迫披露监管方,可能改变整个行业的发布节奏

② GLM 5.2 追平 Mythos 后,中国模型是否会在更多垂直领域复制这一成绩

③ 端侧 AI 路线(苹果 Core AI、iPhone 18 内存升至 9GB)能否成为绕过监管和数据争议的另一条路径

明天就可以做的几件事

▶ 检查你团队正在使用的 AI 工具的数据条款,特别是推理数据是否会回传给模型方

▶ 评估端侧 AI 方案的可行性——如果数据不出设备,许多合规问题自然消失

▶ 为你的 AI 试点项目增加一个“人类兜底机制”——Ford 的教训表明,现阶段完全去人类化风险极大