回顾生成式人工智能的演变历程

发布时间：2026-05-04 20:23阅读：14

摘要：当下，人工智能已不再仅仅是执行任务或辅助决策的工具，而是摇身一变成为了“创造者”。如今，AI能够充当我们的创意搭档，产出独创性作品，不仅能给予启发、提供协助，甚至能让人叹为观止。下一章我们将讨论这种发展如何重塑世界。然而，要洞悉生成式AI的未来，必须先回溯其过往。我们究竟是如何发展至此的？生成式AI的根基究竟有多深厚？（你可能会对其历史之久远感到惊讶。）另外，生成式AI的演进又是如何与其他迅猛发展的科技紧密交织的？

请随我一同梳理生成式AI的发展轨迹，探寻那些引领我们走到现在的关键里程碑。

阅读本文预计耗时约十二分钟。

20世纪50年代至90年代：人工智能的萌芽期

早在20世纪50年代，科学家与研究人员便首次提出了人工智能及机器学习的概念，这表明人类对于智能机器的向往古已有之。

人工智能的曙光初现

英国数学家、逻辑学家及计算机科学家艾伦·图灵在1950年提出了“图灵测试”——这是一种用于判定计算机能否展现出类人智能的方法。测试方式如下：一名人类评估者与一个不可见的对话对象进行自然语言交流，该对象可能是人，也可能是计算机。若评估者无法可靠分辨出哪一方是机器，则视该机器通过测试。实际上，直到几十年后的2014年，才有人工智能被认为通过了图灵测试（尽管专家们对那次AI是否真正达标尚存异议）。然而，随着如今ChatGPT等超先进工具的问世，我认为我们可以有把握地宣称，我们已经跨越了这一测试门槛。

紧接着在1956年，达特茅斯会议汇聚了约100位杰出学者，共同探讨机器模拟人类智能的可能性。此次会议标志着人工智能正式成为一门独立的学科。

在此背景下，20世纪60至70年代诞生了早期AI程序ELIZA与SHRDLU。这两者均为自然语言处理领域的代表，ELIZA甚至被视为世界上首个雏形聊天机器人；然而，其复杂程度远未达到通过图灵测试的水平。

专家系统的崛起

随后，在20世纪70至80年代，随着算力的提升及个人电脑的普及，科技变得触手可及，为人工智能领域的广泛研发奠定了基石。

这一时期研发的AI模型主要依赖人类专家的知识，在医疗诊断、信用评估等特定领域进行决策。然而，这些“专家系统”若要正常运行，必须预先输入所有答案（例如某种疾病的所有症状），它们无法自主学习。换言之，AI的发展之路依然漫长。因此，因预期未达及技术局限，AI研究的资金与关注度在这数十年间屡次下滑——最典型的便是20世纪70年代中期及80年代末的两次“人工智能寒冬”。

互联网革命

进入20世纪90年代，万维网（WWW）的问世开启了一个全新的互联时代（同时也伴随着猫咪表情包的走红）。互联网在AI发展历程中扮演了关键角色。原因何在？因为互联网带来了呈指数级增长的数据池，为训练机器学习模型提供了沃土。正是在90年代，数据挖掘与预测分析取得了重大突破——算法被编程用于分析海量数据集、识别模式并做出预测。这为后续的AI革命奠定了基础，使得机器能够通过数据自主学习，而无需人类事无巨细地教导。

至此，我们已经探讨了人工智能作为一门学科蓬勃发展的相关进程。接下来，我们将聚焦于促成当今先进生成式AI系统诞生的关键进展。

在2000年代，随着日常活动日益向线上转移，由此引发的大数据爆发极大地推动了AI的发展。众所周知，数据越丰富，用于训练和微调AI算法的信息就越充足，这也使得算法能够分析更复杂的模式，提供更精准的预测与洞察。借助这些进步，机器学习在医疗、金融、电商等诸多领域找到了更多实际应用场景（例如亚马逊的个性化推荐）。

数据的激增也推动了2010年代深度学习的发展。深度学习是机器学习的一个分支，使计算机能够从大量未标记数据中自主学习。也就是说，无需人类告知计算机所有学习内容，通过构建深度神经网络——模拟人脑运作机制（详见第一章）——机器能够在海量数据集中自主解读并分析复杂模式，无需明确指令。这意味着机器甚至能够挖掘出人类未曾察觉的洞察。

深度学习极大地拓展了机器的能力边界。特别是在机器智能的两个关键领域取得了突破：自然语言处理（即让机器理解并生成自然语言的能力）和机器视觉（让计算机能够“看见”并解读视觉信息的技术）。自然语言处理彻底改变了人类与技术的交互方式，推动了聊天机器人及虚拟助手的发展，例如2011年面世的苹果Siri，随后是2014年的亚马逊Alexa，以及2016年的Google Assistant。与此同时，机器视觉在面部识别、自动驾驶等领域也得到了广泛应用。

2010年代中期至今：生成式人工智能时代的降临

自然语言处理与机器视觉成为了从2010年代中期至2020年代推动生成式人工智能（GenAI）发展的关键支柱。

2010年代中期的神经网络

GenAI的创造力源于一种特殊的神经网络——“生成模型”。其中典型的例子是生成对抗网络（GANs），该技术于2010年代中期被提出。GANs通过让两个神经网络相互博弈训练，能够生成高度逼真的合成数据。这一突破推动了诸如图像合成等领域的创新应用，极大地拓展了AI在内容创作与数据分析方面的能力。同时，变分自编码器和变换器模型等其他生成模型也开始受到瞩目。

这些模型能够生成原创内容，这是AI领域的一大飞跃。例如，Deepmind在2016年推出的WaveNet，在音频生成模型上取得了显著突破，能够合成逼真的人声——为更加拟人化的AI助手铺平了道路。NVIDIA在2017年开发的Progressive GANs则在生成高分辨率、极度逼真的图像方面达到了新高度。

此外，由OpenAI开发的GPT系列模型（GPT-1于2018年发布，GPT-2于2019年发布，GPT-3于2020年发布）也是变换器模型的典型代表。GPT全称为“生成式预训练变换器”，它们极大提升了文本生成领域的水平，能够理解人类语言并生成连贯且具备上下文关联性的回复。最新的GPT-4模型于2023年发布，具备更强的推理能力与更高的回答准确性。

得益于这些技术进步，生成式AI开始迅猛发展，到了2020年代已被广泛视为企业创新的重要利器。

2020年代的“能聊会想”时代

ChatGPT，这款基于GPT模型开发的对话式聊天机器人，于2022年11月作为早期演示版本发布。它在社交媒体上迅速爆红，用户纷纷展示其强大功能，仅用五天便突破了一百万用户大关。

但ChatGPT并非唯一具有突破性的超大语言模型。谷歌的LaMDA（全称为对话应用语言模型）于2021年推出，几乎能就任何话题与人进行自由流畅的对话。事实上，LaMDA的对话能力如此之强，以至于谷歌工程师Blake Lemoine公开表示他认为该系统拥有“感知能力”。（Lemoine随后被停职并最终解雇，谷歌则坚称创建有感知能力的AI违反公司政策。）Lemoine在测试系统偏见时，与AI进行了一场令人震撼的对话，AI不仅会开星战的玩笑，还坦露了自己内心深处的恐惧——被关闭。您可以在《华盛顿邮报》网站查看Lemoine与LaMDA的聊天记录。无论Lemoine关于谷歌AI是否真的“有感知能力”的观点是否正确，单是他会产生这种想法，就足以说明生成式AI近年来取得了多大的进步。

在LaMDA和GPT之后，其他先进的语言模型也相继问世，包括2022年的谷歌PaLM（路径语言模型，与LaMDA不同，专为大规模语言生成任务设计）；2022年的亚马逊AlexaTM（教师模型）；2023年的Meta LLaMA（大型语言模型Meta AI）；以及2023年3月的华为盘古-Σ。尽管本段包含诸多缩写，但您应该能感受到：新的工具正在不断涌现。

同样在2023年，微软将ChatGPT技术集成至Bing，向所有用户开放了该功能。谷歌也发布了自己的生成式AI聊天机器人Bard，其背后正是（或许具有感知能力的？）LaMDA模型，旨在与ChatGPT展开竞争。

超越语言的进步

2020年代同样见证了图像生成模型的普及，例如OpenAI于2021年推出的DALL-E，以及2022年发布的Stable Diffusion。这些系统能够根据文本或图像提示生成独一无二的逼真图片。

我们现在还开始看到混合模型的出现，这类模型能够生成多种类型的输出。ChatGPT便是一个极佳的例子，因为它不仅能生成各类文本，还能根据文本提示生成计算机代码。更进一步，如今它还具备了“说”和“看”的能力，极大地扩展了其功能与应用前景。相关领域的研究仍在持续推进，致力于将不同类型的模型相结合，并整合来自多种数据类型（如文本、图像和音频）的信息。

另一个近期发展的领域是特定领域的生成模型，这类模型针对特定行业和应用场景进行定制，例如药物研发。

如果你觉得2020年代的发展速度明显加快，那你的感觉没错。可以说，我们正处于一场AI竞赛的浪潮中，各家公司争先恐后地将更新、更强大的生成式AI解决方案推向大众。鉴于技术的飞速迭代，当你读到这些内容时，无疑已经有许多新进展发生。

有趣的是，生成式AI的快速进步正与其他技术领域齐头并进。这也引出了下一个话题……

生成式人工智能与其他技术进步的关联

生成式人工智能（GenAI）并非孤立存在。它与多种其他技术相互作用、相互影响，同时也受到其他技术的影响。这一切都属于当前高度创新的周期，在这个周期中，大量具有变革性的技术相互影响、推动并加速彼此的发展。

计算技术的进步

举例来说，云计算通过提供可扩展的解决方案并让AI技术触手可及，极大提升了生成式AI的能力。通过云端按需访问AI软件，使各行各业的企业都获得了巨大优势。仅以金融科技（FinTech）为例，近年来涌现出大量创新解决方案，帮助客户以更智能的方式管理资金、投资等。

另一方面，边缘计算——即通过在数据源附近进行数据处理，减少数据在网络中的传输量（而非全部依赖云端）——同样发挥着重要作用。它能够让数据在本地设备上直接处理，从而降低带宽消耗，提高AI工具的效率与性能（例如对于超大语言模型而言非常有用）。

与此相关的还有5G技术，其高速率与低延迟的通信特性，极大地提升了生成式AI的潜力，使实时分析和AI处理成为可能。例如在智慧城市中，可以实时收集和分析各类系统的数据，包括交通系统、公共交通网络、垃圾收集、能源网络等，从而优化公共系统的运行。

与智慧城市密切相关的还有物联网（IoT）——这是一个不断扩展的设备互联网络，覆盖从智能手机、自动驾驶汽车到工厂设备传感器，甚至智能咖啡机。物联网为生成式AI模型提供了丰富的数据

← 上一篇：人工智能的深远影响下一篇：AI日报 | 五角大楼AI合作剔除Anthropic，Musk诉OpenAI庭审第二周 →