171个大模型的9年厮杀:2026才算真正开局
史料回望 | 2026年5月3日
自2017年Transformer问世以来,这段进程几乎改写了人类的未来走向
「一份深度复盘,回看过去9年、171个大模型之间的激烈竞争;最终结论让人意外:2026才是AI全面上扬的起点,而非终点。」
当你打开这篇文章时,AI早已被反复提及、几乎成了口头禅。但你可能没留意——从2017年Google Brain推出那篇奠基论文《Attention Is All You Need》起算,至今整整9年,全球至少诞生了171个大语言模型。
其中绝大部分,可能你连名字都没听过,就已经被时间淹没。
Transformer 的架构开始走红。Google、OpenAI、DeepMind 的研究者们以论文为武器互相切磋:BERT、GPT-1、GPT-2 随后接连亮相。
那一阶段的大模型,更像学术圈里的“试验品”。公众不太在意,资本也未真正加码,媒体报道往往只停留在零星角落。
🕰️ 当时最具代表性的脉络
Transformer(2017)→ BERT(2018)→ GPT-1/2(2018-2019)→ T5(2019)
2020年,OpenAI推出GPT-3——1750亿参数:既能写代码,也能写诗,还能“装作懂你”。随之而来的是科技圈的集体震动。
于是各家科技公司意识到:下一轮技术浪潮的号角,已经吹响。
ChatGPT上线后仅5天,用户就冲到百万;再过两个月,用户规模破亿——它创造了人类消费产品史上极少见的增长速度。
资本加速、创业公司狂奔、头部巨头也按捺不住:Google、Meta、百度、阿里、腾讯、字节等所有力量都在追问——"我们的ChatGPT在哪里?"
2023到2024年间,众多大模型密集登场:GPT-4、Claude 2/3、Gemini、Llama 2/3、Mistral、DeepSeek……在这171个模型里,不少都诞生于这两年。
然而真正活到最后的并不多。很多创业团队的模型,在还没掀起任何“水花”之前就走向停更或退出。
到了2025年,DeepSeek R1 以极低成本给硅谷带来强烈冲击;GPT-5 开始“硬碰硬”挑战律师与医生的工作;Claude 的能力进一步增强,出现情绪识别取向;国内 Qwen、文心、豆包也逐步拉开差距、向前逼近……
这一年,AI不再只是"工具",而更像"同事"。
🏆 到2026年为止,真正能打的还有谁?
综合表现
GPT-5 / Claude 4
开源赛道的领先者
DeepSeek / Llama
国产实力展示
Qwen 3 / 文心 5
多模态应用方向
Gemini / HappyHorse
这份报告给出了几条关键判断:
⚡
推理成本出现断崖式下滑
自2025年以来,API调用成本累计降幅达到90%+,让AI更容易进入千行百业。
🤖
AI Agent时代已经成形
从"问答"迈向"自主行动",AI不再只是“辅助”,而开始能够接手部分真实岗位。
🌍
全球渗透率刚开始起势
全球AI月活用户已超过30亿,但真正的"AI原生"应用仍处在初期阶段,正开始逐步替换传统软件。
9年、171个模型,背后是无数个日夜的训练、调参、失败与重来。
今天,当你随手打开一个AI助手,和它聊天、让它帮你把事情做完时,你也许并不知道:在这份“习以为常”的背后,有多少人倒在了通往结果的路上。
而所有这一切,才刚刚开始。
「人工智能最好的时刻,是此刻。」