AI为何日益精通语言？——语言学与人工智能交汇之路系列(二)

发布时间：2026-04-15 12:56阅读：13

前篇我们探讨的核心问题是：大语言模型是否真正理解语言？

如今许多人目睹AI能够创作、交谈、问答、翻译，便倾向于认为：它似乎已掌握了语言智能的本质。

然而引入语言学的视角审视，我们会发现事实远比表象复杂。

大模型的确日趋接近“通晓语言”，但它为何能达到这种程度？又是如何发展至今日之境的？

这正是本文所要剖析的焦点。

若将人工智能、自然语言处理以及人机交互的演进历程加以梳理，可见三次重大的技术范式转变。

第一阶段，属于符号主义路线。此阶段的核心逻辑，在于将知识逐一编纂、将规则系统化设定、将推理机制预先构建。机器之所以能运作，源于人类预先向其输入"应当掌握的知识"。词典、规则库、语法模型及专家系统等，均为此思路的典型产物。

第二阶段，属于经验主义路线。发展到此阶段，研究者逐步认识到，仅依赖人工编写规则，成本高昂且覆盖范围有限，更难以应对真实语言中层出不穷的变异现象。于是方法转向统计学习、特征工程、标注语料库。机器不再拘泥于按规则执行任务，而是开始从基于人类智慧标注的数据中推断规律。N-gram语言模型、统计机器翻译、Penn Treebank等资源的涌现，均为这一阶段的关键标志。

第三阶段，属于联结主义路线。这正是当前最受瞩目的路径：从深度神经网络、表征学习，到Transformer、BERT、GPT、ChatGPT，大模型正是在这条路径上发展壮大。它不再主要依赖人工拆解的局部规则，也不依赖人类知识显式标注的语料，而是通过海量自然数据、强大算力和端到端训练，在整体上形成机器自学到的人类无法在细节上理解的参数化"语言表征"。

简言之，人工智能处理语言的方式，已从"将知识传授给机器"，逐步演变为"让机器从数据中自行习得能力"。这一路径转变，正是当下大模型日趋接近"通晓语言"的根本原因。

从直观感受而言，最易被接受的方法似乎是第一种：既然语言有规律可循，便将规律编纂成文；既然词汇有意义，便将词义列举出来；既然句子存在结构，便将句法关系标注清晰。如此一来，机器不就能"理解语言"了吗？

关键在于，语言并非一个小型封闭系统，而是一个极其庞大、开放且多变的体系。人类语言中充斥着大量局部规律、特殊现象、隐性知识与百科知识的交织。规则固然有用，但规则过于繁杂、碎片化且难以穷尽。某一现象能编写规则，并不意味着所有现象都能如此处理；某小范围内可行，亦不能保证置于真实环境中仍能稳定运行。

这正是人工智能后来日益依赖数据的根源所在。尽管数据方法不够透明，却更能覆盖真实语言的多样性与复杂性。它无需研究者预先将所有知识拆解清晰，而是允许机器在大量实例中自行捕捉模式。规则方法更像是追问"为何如此"；数据方法则更追求"如何实现"。前者偏向know-why，后者偏向know-how。

由此，一个重大变化应运而生：机器处理语言的能力，开始不再主要建立在显式规则之上，而越来越依赖于隐性表征。也就是说，知识并未消逝，只是改变了存在形态。

真正令公众深感震撼的，是近十余年来联结主义路线的迅猛跃升。

从反向传播、卷积神经网络，到AlexNet、Word2Vec、Transformer，再到GPT、BERT、ChatGPT，这一技术脉络揭示了一个事实：机器不再仅仅"背诵语句"，它正在形成愈发强大的表示能力。词汇不再只是词典中的一个条目，句子也不再只是一串按顺序排列的字符串；它们被压缩进向量空间、网络权重和层层变换之中。

这便是为何今日之大模型常常给人留下一种印象：它似乎不只是套用模板，而是真正"领悟"了。

因为从表象看，它确实能完成诸多往昔无法实现之事。你给予一句话，它能判断何种解释更为合理；你换一种表述，它往往仍能把握要旨；你让它补全、改写、归纳、概括，它都可能表现得有条不紊。它之所以日益接近通晓语言，根本原因并非背了更多规则，而是通过海量数据训练，获得了愈发强大的整体模式感知能力。

但这里最需留意的是：即便"大模型懂了"，也不等同于"它理解语言的机制与人类理解语言的机制相同"。

它的强，首先体现在行为层面；

它的像，首先体现在输出层面。

至于这种能力与人类语言能力之间究竟是何关系，仍需更深入的分析。前篇提出的问题，并未在此消逝，而是变得更加具体了。

欲看清此事，最好的途径并非空谈"理解"，而是审视一个具体语句。

例如："阿Q是县长派来的。"

理解一句话，始终包含两部分内容：

（1）单个词的义涵；

（2）词与词之间的关联义涵。

一个模型若能真正处理此句，至少需较为稳定地把握以下几层含义：

阿Q并非县长；

阿Q来了；

派遣阿Q前来的正是县长；

阿Q是被县长派遣而来的。

1. 规则模型如何运作？

在规则模型中，机器会将此句拆解为结构规则、词类信息与词语特征。何为NP，何为VP，何为补足结构；"派"属于何种动词类型，"来"属于何种动词类型，句尾"的"起何作用；这些皆需明确表示。而后，机器依据语法与词汇知识逐步推理，最终判定哪些含义成立、哪些含义不成立。

此方法的优点显而易见：过程透明，推理可追溯，可解释性强。你深知它为何得出此结论，亦知其错误所在。它非"猜中"，而是"算出"。

然而此类模型的缺陷同样明显：

要将这套知识完整、精确、可扩展地编写出来，成本极高。某一现象能处理，并不代表另外十个现象亦能顺利迁移。局部知识虽精细，却不易拼凑成真正大规模、稳定、通用的语言能力。

上述规则模型仅能处理与"阿Q是县长派来的"相类似的A组句例，却无法处理极为相似的B组句例。要使模型能够处理B组句例，必须扩充、改造词典与规则，让语言知识覆盖B组句例背后的句法与语义结构。

A组

B组

在神经网络模型中，路径则截然不同。

它并不先将所有规则显式写出，而是将词、句子与上下文皆映射为向量表示。直白而言，词义在此主要非"词典条目"，而是一个向量；词与词之间的关系，亦主要非显式的语法箭头，而是通过注意力权重等机制，在网络中编码而出。

以"阿Q是县长派来的"为例，模型在训练过程中会逐渐习得：哪些词彼此常发生关联，哪些组合意味着施事—受事关系，哪些结构常导向某种解释。它未必"知晓"自己正在运用哪条语法规则，却能在大量相似样本中形成稳定的统计—表征模式。

这正是今日大模型最令人惊叹之处：它无需像传统规则系统那样将每一步都明确写出，却仍能在诸多情况下给出高度合理的解释与输出。正因如此，它常比规则系统更鲁棒、更泛化，甚至更像真正熟练运用语言之人。

对于同样包含"阿Q是县长"这一片段的语句，大模型能以极高准确率加以区分：在"阿Q是县长请来的"中，阿Q非县长；在"阿Q是县长也不管用"中，阿Q是县长。

若将两种方法并列对照，便能看得更为明晰。

符号规则方法的长处，在于精准、透明。其推理链清晰，过程可解释，适合从小数据中提取高精度知识，亦格外擅长挖掘那些隐匿于语言现象深处的隐性规律。其最具力量之处，在于"阐明为何"。

其短处，则在于脆弱、艰辛。知识获取成本高，覆盖范围有限，泛化能力较弱，局部规则难以拼凑成完整大系统。它常能将某点讲得很深，却难以一下子将整个面都铺开。

深度学习方法的长处，在于鲁棒、泛化。它能凭借大数据与强算力，整体建模，快速获得多语言能力、多任务能力，在开放环境中展现出极强适应性。其最具力量之处，在于"先把事做成"。

其短处，则在于玄学、耗能。处理流程犹如黑箱，既会产生幻觉，可控性与可解释性亦较差；资源消耗同样极高。它常能做对，但就连"做对"本身，也带着某种令人不放心的偶然性。

由此，我们大致能够明了：今日之大模型之所以日益接近通晓语言，并非因它将传统语言学的知识尽皆"吸纳"，而是因其走了另一条路径。它凭借的是海量数据、连续表征、整体建模与强大算力，而非逐条显式规则。正因如此，它既强得惊人，也始终让人觉得尚欠火候。

言归此处，我们可将前篇的问题再推进一层：

今日真正值得探讨的，非"规则方法是否已被淘汰"，亦非"语言学是否仍有价值"，而是——

既然大模型已证实，凭借数据与表征可获得极强的语言行为能力，那么语言学的知识究竟应如何融入这套系统？

直接将规则硬塞给模型，显然并非今日最有效之策。

但若完全摒弃语言学，仅相信数据能自行解决一切，问题亦并未真正终结。因为大模型再强，仍会暴露盲区、幻觉、浅层拟合与解释不足等问题。它日益接近通晓语言，却并不意味着它已自然抵达语言智能的核心。

那么，出路在何方？

或许答案并非让语言学回归旧法，继续与机器"硬碰硬"；而是换一种姿态进入AI：不再主要将知识直接写成规则交付系统，而是将知识转化为更高质量、更可验证、更可泛化的数据与任务，再让它们与模型发生作用。

这正是下篇所要探讨的问题。

欲知语言学如何真正融入大模型，且听下回分解。

语言学如何融入大模型？——语言学与AI融合之路系列（三）

← 上一篇：AI-TI:重新定义AI时代的人格坐标系下一篇：周深新歌携带AI禁用声明引热议,国内音乐人首次明确设限 →