标签

回顾生成式人工智能的演变历程

发布时间:2026-05-04 20:23来源:微信阅读:8

摘要:当下,人工智能已不再仅仅是执行任务或辅助决策的工具,而是摇身一变成为了“创造者”。如今,AI能够充当我们的创意搭档,产出独创性作品,不仅能给予启发、提供协助,甚至能让人叹为观止。下一章我们将讨论这种发展如何重塑世界。然而,要洞悉生成式AI的未来,必须先回溯其过往。我们究竟是如何发展至此的?生成式AI的根基究竟有多深厚?(你可能会对其历史之久远感到惊讶。)另外,生成式AI的演进又是如何与其他迅猛发展的科技紧密交织的?

请随我一同梳理生成式AI的发展轨迹,探寻那些引领我们走到现在的关键里程碑。

阅读本文预计耗时约十二分钟。

20世纪50年代至90年代:人工智能的萌芽期

早在20世纪50年代,科学家与研究人员便首次提出了人工智能及机器学习的概念,这表明人类对于智能机器的向往古已有之。

人工智能的曙光初现

英国数学家、逻辑学家及计算机科学家艾伦·图灵在1950年提出了“图灵测试”——这是一种用于判定计算机能否展现出类人智能的方法。测试方式如下:一名人类评估者与一个不可见的对话对象进行自然语言交流,该对象可能是人,也可能是计算机。若评估者无法可靠分辨出哪一方是机器,则视该机器通过测试。实际上,直到几十年后的2014年,才有人工智能被认为通过了图灵测试(尽管专家们对那次AI是否真正达标尚存异议)。然而,随着如今ChatGPT等超先进工具的问世,我认为我们可以有把握地宣称,我们已经跨越了这一测试门槛。

紧接着在1956年,达特茅斯会议汇聚了约100位杰出学者,共同探讨机器模拟人类智能的可能性。此次会议标志着人工智能正式成为一门独立的学科。

在此背景下,20世纪60至70年代诞生了早期AI程序ELIZA与SHRDLU。这两者均为自然语言处理领域的代表,ELIZA甚至被视为世界上首个雏形聊天机器人;然而,其复杂程度远未达到通过图灵测试的水平。

专家系统的崛起

随后,在20世纪70至80年代,随着算力的提升及个人电脑的普及,科技变得触手可及,为人工智能领域的广泛研发奠定了基石。

这一时期研发的AI模型主要依赖人类专家的知识,在医疗诊断、信用评估等特定领域进行决策。然而,这些“专家系统”若要正常运行,必须预先输入所有答案(例如某种疾病的所有症状),它们无法自主学习。换言之,AI的发展之路依然漫长。因此,因预期未达及技术局限,AI研究的资金与关注度在这数十年间屡次下滑——最典型的便是20世纪70年代中期及80年代末的两次“人工智能寒冬”。

互联网革命

进入20世纪90年代,万维网(WWW)的问世开启了一个全新的互联时代(同时也伴随着猫咪表情包的走红)。互联网在AI发展历程中扮演了关键角色。原因何在?因为互联网带来了呈指数级增长的数据池,为训练机器学习模型提供了沃土。正是在90年代,数据挖掘与预测分析取得了重大突破——算法被编程用于分析海量数据集、识别模式并做出预测。这为后续的AI革命奠定了基础,使得机器能够通过数据自主学习,而无需人类事无巨细地教导。

至此,我们已经探讨了人工智能作为一门学科蓬勃发展的相关进程。接下来,我们将聚焦于促成当今先进生成式AI系统诞生的关键进展。

在2000年代,随着日常活动日益向线上转移,由此引发的大数据爆发极大地推动了AI的发展。众所周知,数据越丰富,用于训练和微调AI算法的信息就越充足,这也使得算法能够分析更复杂的模式,提供更精准的预测与洞察。借助这些进步,机器学习在医疗、金融、电商等诸多领域找到了更多实际应用场景(例如亚马逊的个性化推荐)。

数据的激增也推动了2010年代深度学习的发展。深度学习是机器学习的一个分支,使计算机能够从大量未标记数据中自主学习。也就是说,无需人类告知计算机所有学习内容,通过构建深度神经网络——模拟人脑运作机制(详见第一章)——机器能够在海量数据集中自主解读并分析复杂模式,无需明确指令。这意味着机器甚至能够挖掘出人类未曾察觉的洞察。

深度学习极大地拓展了机器的能力边界。特别是在机器智能的两个关键领域取得了突破:自然语言处理(即让机器理解并生成自然语言的能力)和机器视觉(让计算机能够“看见”并解读视觉信息的技术)。自然语言处理彻底改变了人类与技术的交互方式,推动了聊天机器人及虚拟助手的发展,例如2011年面世的苹果Siri,随后是2014年的亚马逊Alexa,以及2016年的Google Assistant。与此同时,机器视觉在面部识别、自动驾驶等领域也得到了广泛应用。

2010年代中期至今:生成式人工智能时代的降临

自然语言处理与机器视觉成为了从2010年代中期至2020年代推动生成式人工智能(GenAI)发展的关键支柱。

2010年代中期的神经网络

GenAI的创造力源于一种特殊的神经网络——“生成模型”。其中典型的例子是生成对抗网络(GANs),该技术于2010年代中期被提出。GANs通过让两个神经网络相互博弈训练,能够生成高度逼真的合成数据。这一突破推动了诸如图像合成等领域的创新应用,极大地拓展了AI在内容创作与数据分析方面的能力。同时,变分自编码器和变换器模型等其他生成模型也开始受到瞩目。

这些模型能够生成原创内容,这是AI领域的一大飞跃。例如,Deepmind在2016年推出的WaveNet,在音频生成模型上取得了显著突破,能够合成逼真的人声——为更加拟人化的AI助手铺平了道路。NVIDIA在2017年开发的Progressive GANs则在生成高分辨率、极度逼真的图像方面达到了新高度。

此外,由OpenAI开发的GPT系列模型(GPT-1于2018年发布,GPT-2于2019年发布,GPT-3于2020年发布)也是变换器模型的典型代表。GPT全称为“生成式预训练变换器”,它们极大提升了文本生成领域的水平,能够理解人类语言并生成连贯且具备上下文关联性的回复。最新的GPT-4模型于2023年发布,具备更强的推理能力与更高的回答准确性。

得益于这些技术进步,生成式AI开始迅猛发展,到了2020年代已被广泛视为企业创新的重要利器。

2020年代的“能聊会想”时代

ChatGPT,这款基于GPT模型开发的对话式聊天机器人,于2022年11月作为早期演示版本发布。它在社交媒体上迅速爆红,用户纷纷展示其强大功能,仅用五天便突破了一百万用户大关。

但ChatGPT并非唯一具有突破性的超大语言模型。谷歌的LaMDA(全称为对话应用语言模型)于2021年推出,几乎能就任何话题与人进行自由流畅的对话。事实上,LaMDA的对话能力如此之强,以至于谷歌工程师Blake Lemoine公开表示他认为该系统拥有“感知能力”。(Lemoine随后被停职并最终解雇,谷歌则坚称创建有感知能力的AI违反公司政策。)Lemoine在测试系统偏见时,与AI进行了一场令人震撼的对话,AI不仅会开星战的玩笑,还坦露了自己内心深处的恐惧——被关闭。您可以在《华盛顿邮报》网站查看Lemoine与LaMDA的聊天记录。无论Lemoine关于谷歌AI是否真的“有感知能力”的观点是否正确,单是他会产生这种想法,就足以说明生成式AI近年来取得了多大的进步。

在LaMDA和GPT之后,其他先进的语言模型也相继问世,包括2022年的谷歌PaLM(路径语言模型,与LaMDA不同,专为大规模语言生成任务设计);2022年的亚马逊AlexaTM(教师模型);2023年的Meta LLaMA(大型语言模型Meta AI);以及2023年3月的华为盘古-Σ。尽管本段包含诸多缩写,但您应该能感受到:新的工具正在不断涌现。

同样在2023年,微软将ChatGPT技术集成至Bing,向所有用户开放了该功能。谷歌也发布了自己的生成式AI聊天机器人Bard,其背后正是(或许具有感知能力的?)LaMDA模型,旨在与ChatGPT展开竞争。

超越语言的进步

2020年代同样见证了图像生成模型的普及,例如OpenAI于2021年推出的DALL-E,以及2022年发布的Stable Diffusion。这些系统能够根据文本或图像提示生成独一无二的逼真图片。

我们现在还开始看到混合模型的出现,这类模型能够生成多种类型的输出。ChatGPT便是一个极佳的例子,因为它不仅能生成各类文本,还能根据文本提示生成计算机代码。更进一步,如今它还具备了“说”和“看”的能力,极大地扩展了其功能与应用前景。相关领域的研究仍在持续推进,致力于将不同类型的模型相结合,并整合来自多种数据类型(如文本、图像和音频)的信息。

另一个近期发展的领域是特定领域的生成模型,这类模型针对特定行业和应用场景进行定制,例如药物研发。

如果你觉得2020年代的发展速度明显加快,那你的感觉没错。可以说,我们正处于一场AI竞赛的浪潮中,各家公司争先恐后地将更新、更强大的生成式AI解决方案推向大众。鉴于技术的飞速迭代,当你读到这些内容时,无疑已经有许多新进展发生。

有趣的是,生成式AI的快速进步正与其他技术领域齐头并进。这也引出了下一个话题……

生成式人工智能与其他技术进步的关联

生成式人工智能(GenAI)并非孤立存在。它与多种其他技术相互作用、相互影响,同时也受到其他技术的影响。这一切都属于当前高度创新的周期,在这个周期中,大量具有变革性的技术相互影响、推动并加速彼此的发展。

计算技术的进步

举例来说,云计算通过提供可扩展的解决方案并让AI技术触手可及,极大提升了生成式AI的能力。通过云端按需访问AI软件,使各行各业的企业都获得了巨大优势。仅以金融科技(FinTech)为例,近年来涌现出大量创新解决方案,帮助客户以更智能的方式管理资金、投资等。

另一方面,边缘计算——即通过在数据源附近进行数据处理,减少数据在网络中的传输量(而非全部依赖云端)——同样发挥着重要作用。它能够让数据在本地设备上直接处理,从而降低带宽消耗,提高AI工具的效率与性能(例如对于超大语言模型而言非常有用)。

与此相关的还有5G技术,其高速率与低延迟的通信特性,极大地提升了生成式AI的潜力,使实时分析和AI处理成为可能。例如在智慧城市中,可以实时收集和分析各类系统的数据,包括交通系统、公共交通网络、垃圾收集、能源网络等,从而优化公共系统的运行。

与智慧城市密切相关的还有物联网(IoT)——这是一个不断扩展的设备互联网络,覆盖从智能手机、自动驾驶汽车到工厂设备传感器,甚至智能咖啡机。物联网为生成式AI模型提供了丰富的数据