标签

詹卫东:范式演进下的语言学与AI融合之道

发布时间:2026-05-29 08:28来源:微信阅读:4

2026年第3期

专题研究一

人工智能与语言研究的革新

作者简介

詹卫东

北京大学教授,主要研究方向为计算语言学、语言知识工程、中文信息处理。

从范式嬗变看语言学与人工智能的融合路径

詹卫东

(北京大学中文系北京100871)

提要从规范语言学、比较语言学、结构语言学到生成语言学,语言学跨越千年的范式变迁,终极目标是为人脑内部语言建模。语言学者虽已积累大量微观语言学成果,却难以由量变引起质变,距建构整体语言模型仍有巨大鸿沟。自1950年代至今,人工智能技术范式从符号主义、经验主义发展到联结主义,生成式大语言模型已经可以依靠强大算力和海量数据,对人类语言进行全量建模。但在挖掘表层分布没有充分表达的深层认知规律方面,还无法达到母语者水平。语言学者可以基于自身的语言学洞察力,充分挖掘微观语言现象中蕴含的深层语义问题,把语言知识转化为高质量语言数据,帮助提高人工智能的语言能力。同时利用人工智能技术,在观察充分、描写充分、解释充分的基础上,进一步实现“生成充分”。如何由理论研究成果驱动,由纯手工到半自动再到全自动地生成能与人工智能直接交互的语言数据,是人工智能时代语言学者要认真思考的问题。

关键词生成式人工智能;形式文法;大语言模型;深度学习

一、引言

“生成语法”与“人工智能”(AI)在1950年代几乎同时问世。前者以乔姆斯基为代表,首次提出“语言何以能无限生成”的惊世之问(Chomsky 1957);后者则以图灵关于“模仿游戏”的设想(Turing 1950)以及麦卡锡等人提出的“达特茅斯计划”(McCarthy et al. 1955/2006),宣告了将人类智能机械化的研究正式起步。此后70余年,语言学与人工智能一方面沿着各自的轨道发展,一方面也因共同关注的对象“自然语言”而有机会不时结伴同行。前者不断细化和扩展语音、词汇、句法、语义、语用等层面的理论分析模型,后者则在基于符号的规则方法、基于特征的统计学习和基于神经网络的深度学习等范式转型中屡屡突破。从研究的终极目标来看,现代语言学与人工智能研究都旨在探索人类语言能力的基本原理。然而,从实际成效来看,语言学距离完成其理论目标仍遥遥无期;而随着2022年11月底ChatGPT发布,生成式人工智能在工程层面第一次呈现出大规模、可迁移的跨语言交互能力,甚至被视为触及通用人工智能(AGI)的边缘。两条轨道的速度差如此之大,迫使学界不得不反思:在生成式人工智能时代,语言学应如何重估自身的方法论路径,与人工智能研究更好地互动?(袁毓林2025)

本文尝试将镜头拉远,在历史纵深中考察语言学与人工智能研究的范式嬗变,从较为宏大的视角来对比这两个领域主流工作模式的差异,探讨语言学与人工智能融合发展的具体路径。第二节在两千年大历史尺度上概括语言学观念的变迁。第三节梳理人工智能技术范式从符号主义到经验主义再到联结主义的跃升。第四节参考人工智能的技术演进之路,反观人类语言学研究模式的优势与不足,进而提出由语言学知识驱动,构建语言能力评测任务及数据集的研究思路。主张通过严谨的语言能力评测任务设计,将语言学知识转化为评测数据集,专注于可验证的语言学实证研究,实现语言学数据可持续的规模扩展。第五节是结语,以积极态度展望语言学与人工智能融合之路的前景。

二、语言学的范式嬗变

把“语言”作为一个科学研究的对象,其实是很晚近的事情。人工智能的早期研究者之一特里·维诺格拉德在《语言作为认知过程》(Winograd 1983)一书中,借鉴托马斯·库恩的科学范式革命理论,把语言学的历史概括为4个范式:规范语言学,比较语言学,结构语言学,生成语言学。其中第一个范式严格来说并不适合称为“语言学”,而更应称之为“语文学”。这个阶段从古代一直延续到17、18世纪,人类在这漫长的时间里对语言研究关注的核心问题,一言以蔽之就是:这句话是什么意思?即重视对个别的、具体的字词句的意义阐释。

随着14、15世纪欧洲文艺复兴、宗教改革等一系列重大事件的发生,世界历史开始进入一个崭新的时期。大航海、殖民扩张、宗教和学术传播推动了世界范围的语言接触。比较语言学由此兴起,并以一个全新的问题为中心:语言如何演化?语言学者开始在更广阔的时空尺度上比较不同语言,追溯它们的谱系关系和共同