标签

AI为何日益精通语言?——语言学与人工智能交汇之路系列(二)

发布时间:2026-04-15 12:56来源:微信阅读:7

前篇我们探讨的核心问题是:大语言模型是否真正理解语言?

如今许多人目睹AI能够创作、交谈、问答、翻译,便倾向于认为:它似乎已掌握了语言智能的本质。

然而引入语言学的视角审视,我们会发现事实远比表象复杂。

大模型的确日趋接近“通晓语言”,但它为何能达到这种程度?又是如何发展至今日之境的?

这正是本文所要剖析的焦点。

若将人工智能、自然语言处理以及人机交互的演进历程加以梳理,可见三次重大的技术范式转变。

第一阶段,属于符号主义路线。 此阶段的核心逻辑,在于将知识逐一编纂、将规则系统化设定、将推理机制预先构建。机器之所以能运作,源于人类预先向其输入"应当掌握的知识"。词典、规则库、语法模型及专家系统等,均为此思路的典型产物。

第二阶段,属于经验主义路线。 发展到此阶段,研究者逐步认识到,仅依赖人工编写规则,成本高昂且覆盖范围有限,更难以应对真实语言中层出不穷的变异现象。于是方法转向统计学习、特征工程、标注语料库。机器不再拘泥于按规则执行任务,而是开始从基于人类智慧标注的数据中推断规律。N-gram语言模型、统计机器翻译、Penn Treebank等资源的涌现,均为这一阶段的关键标志。

第三阶段,属于联结主义路线。 这正是当前最受瞩目的路径:从深度神经网络、表征学习,到Transformer、BERT、GPT、ChatGPT,大模型正是在这条路径上发展壮大。它不再主要依赖人工拆解的局部规则,也不依赖人类知识显式标注的语料,而是通过海量自然数据、强大算力和端到端训练,在整体上形成机器自学到的人类无法在细节上理解的参数化"语言表征"。

简言之,人工智能处理语言的方式,已从"将知识传授给机器",逐步演变为"让机器从数据中自行习得能力"。这一路径转变,正是当下大模型日趋接近"通晓语言"的根本原因。

从直观感受而言,最易被接受的方法似乎是第一种:既然语言有规律可循,便将规律编纂成文;既然词汇有意义,便将词义列举出来;既然句子存在结构,便将句法关系标注清晰。如此一来,机器不就能"理解语言"了吗?

关键在于,语言并非一个小型封闭系统,而是一个极其庞大、开放且多变的体系。人类语言中充斥着大量局部规律、特殊现象、隐性知识与百科知识的交织。规则固然有用,但规则过于繁杂、碎片化且难以穷尽。某一现象能编写规则,并不意味着所有现象都能如此处理;某小范围内可行,亦不能保证置于真实环境中仍能稳定运行。

这正是人工智能后来日益依赖数据的根源所在。尽管数据方法不够透明,却更能覆盖真实语言的多样性与复杂性。它无需研究者预先将所有知识拆解清晰,而是允许机器在大量实例中自行捕捉模式。规则方法更像是追问"为何如此";数据方法则更追求"如何实现"。前者偏向know-why,后者偏向know-how。

由此,一个重大变化应运而生:机器处理语言的能力,开始不再主要建立在显式规则之上,而越来越依赖于隐性表征。也就是说,知识并未消逝,只是改变了存在形态。

真正令公众深感震撼的,是近十余年来联结主义路线的迅猛跃升。

从反向传播、卷积神经网络,到AlexNet、Word2Vec、Transformer,再到GPT、BERT、ChatGPT,这一技术脉络揭示了一个事实:机器不再仅仅"背诵语句",它正在形成愈发强大的表示能力。词汇不再只是词典中的一个条目,句子也不再只是一串按顺序排列的字符串;它们被压缩进向量空间、网络权重和层层变换之中。

这便是为何今日之大模型常常给人留下一种印象:它似乎不只是套用模板,而是真正"领悟"了。

因为从表象看,它确实能完成诸多往昔无法实现之事。你给予一句话,它能判断何种解释更为合理;你换一种表述,它往往仍能把握要旨;你让它补全、改写、归纳、概括,它都可能表现得有条不紊。它之所以日益接近通晓语言,根本原因并非背了更多规则,而是通过海量数据训练,获得了愈发强大的整体模式感知能力。

但这里最需留意的是:即便"大模型懂了",也不等同于"它理解语言的机制与人类理解语言的机制相同"。

它的强,首先体现在行为层面;

它的像,首先体现在输出层面。

至于这种能力与人类语言能力之间究竟是何关系,仍需更深入的分析。前篇提出的问题,并未在此消逝,而是变得更加具体了。

欲看清此事,最好的途径并非空谈"理解",而是审视一个具体语句。

例如:"阿Q是县长派来的。"

理解一句话,始终包含两部分内容:

(1)单个词的义涵;

(2)词与词之间的关联义涵。

一个模型若能真正处理此句,至少需较为稳定地把握以下几层含义:

阿Q并非县长;

阿Q来了;

派遣阿Q前来的正是县长;

阿Q是被县长派遣而来的。

1. 规则模型如何运作?

在规则模型中,机器会将此句拆解为结构规则、词类信息与词语特征。 何为NP,何为VP,何为补足结构;"派"属于何种动词类型,"来"属于何种动词类型,句尾"的"起何作用;这些皆需明确表示。而后,机器依据语法与词汇知识逐步推理,最终判定哪些含义成立、哪些含义不成立。

此方法的优点显而易见:过程透明,推理可追溯,可解释性强。你深知它为何得出此结论,亦知其错误所在。它非"猜中",而是"算出"。

然而此类模型的缺陷同样明显:

要将这套知识完整、精确、可扩展地编写出来,成本极高。某一现象能处理,并不代表另外十个现象亦能顺利迁移。局部知识虽精细,却不易拼凑成真正大规模、稳定、通用的语言能力。

上述规则模型仅能处理与"阿Q是县长派来的"相类似的A组句例,却无法处理极为相似的B组句例。要使模型能够处理B组句例,必须扩充、改造词典与规则,让语言知识覆盖B组句例背后的句法与语义结构。

A组

B组

在神经网络模型中,路径则截然不同。

它并不先将所有规则显式写出,而是将词、句子与上下文皆映射为向量表示。直白而言,词义在此主要非"词典条目",而是一个向量;词与词之间的关系,亦主要非显式的语法箭头,而是通过注意力权重等机制,在网络中编码而出。

以"阿Q是县长派来的"为例,模型在训练过程中会逐渐习得:哪些词彼此常发生关联,哪些组合意味着施事—受事关系,哪些结构常导向某种解释。它未必"知晓"自己正在运用哪条语法规则,却能在大量相似样本中形成稳定的统计—表征模式。

这正是今日大模型最令人惊叹之处:它无需像传统规则系统那样将每一步都明确写出,却仍能在诸多情况下给出高度合理的解释与输出。正因如此,它常比规则系统更鲁棒、更泛化,甚至更像真正熟练运用语言之人。

对于同样包含"阿Q是县长"这一片段的语句,大模型能以极高准确率加以区分:在"阿Q是县长请来的"中,阿Q非县长;在"阿Q是县长也不管用"中,阿Q是县长。

若将两种方法并列对照,便能看得更为明晰。

符号规则方法的长处,在于精准、透明。 其推理链清晰,过程可解释,适合从小数据中提取高精度知识,亦格外擅长挖掘那些隐匿于语言现象深处的隐性规律。其最具力量之处,在于"阐明为何"。

其短处,则在于脆弱、艰辛。 知识获取成本高,覆盖范围有限,泛化能力较弱,局部规则难以拼凑成完整大系统。它常能将某点讲得很深,却难以一下子将整个面都铺开。

深度学习方法的长处,在于鲁棒、泛化。 它能凭借大数据与强算力,整体建模,快速获得多语言能力、多任务能力,在开放环境中展现出极强适应性。其最具力量之处,在于"先把事做成"。

其短处,则在于玄学、耗能。 处理流程犹如黑箱,既会产生幻觉,可控性与可解释性亦较差;资源消耗同样极高。它常能做对,但就连"做对"本身,也带着某种令人不放心的偶然性。

由此,我们大致能够明了:今日之大模型之所以日益接近通晓语言,并非因它将传统语言学的知识尽皆"吸纳",而是因其走了另一条路径。它凭借的是海量数据、连续表征、整体建模与强大算力,而非逐条显式规则。正因如此,它既强得惊人,也始终让人觉得尚欠火候。

言归此处,我们可将前篇的问题再推进一层:

今日真正值得探讨的,非"规则方法是否已被淘汰",亦非"语言学是否仍有价值",而是——

既然大模型已证实,凭借数据与表征可获得极强的语言行为能力,那么语言学的知识究竟应如何融入这套系统?

直接将规则硬塞给模型,显然并非今日最有效之策。

但若完全摒弃语言学,仅相信数据能自行解决一切,问题亦并未真正终结。因为大模型再强,仍会暴露盲区、幻觉、浅层拟合与解释不足等问题。它日益接近通晓语言,却并不意味着它已自然抵达语言智能的核心。

那么,出路在何方?

或许答案并非让语言学回归旧法,继续与机器"硬碰硬";而是换一种姿态进入AI:不再主要将知识直接写成规则交付系统,而是将知识转化为更高质量、更可验证、更可泛化的数据与任务,再让它们与模型发生作用。

这正是下篇所要探讨的问题。

欲知语言学如何真正融入大模型,且听下回分解。

语言学如何融入大模型?——语言学与AI融合之路系列(三)