标签

詹卫东:范式演进视角下语言学与 AI 的融合之道

发布时间:2026-06-07 07:13来源:微信阅读:2

专题研究一

AI 技术与语言学术的革新

作者概况

詹卫东

北京大学教授,核心研究领域涵盖计算语言学、语言知识工程及中文信息处理。

基于范式演变探讨语言学与人工智能的融合途径

詹卫东

(北京大学中文系北京 100871)

摘要从规范语言学、比较语言学、结构语言学演进至生成语言学,语言学历经千年的范式更迭,其终极愿景在于构建人脑内部的语言模型。尽管语言学者已累积了丰硕的微观研究成果,却难以实现从量变到质变的飞跃,距离构建整体语言模型仍存巨大差距。自 20 世纪 50 年代以来,人工智能技术范式由符号主义、经验主义演进至联结主义,生成式大语言模型凭借强大算力与海量数据,已能对人类社会语言进行全量建模。然而,在挖掘表层分布未能充分揭示的深层认知规律方面,尚无法企及母语者水平。语言学者可依托自身的语言学洞察力,深入剖析微观语言现象背后隐含的深层语义问题,将语言知识转化为高品质语言数据,以此赋能人工智能提升语言能力。同时,借助 AI 技术,在观察充分、描写充分、解释充分的基础上,进一步达成“生成充分”。如何以理论研究成果为驱动,实现从纯手工到半自动乃至全自动生成可与 AI 直接交互的语言数据,是人工智能时代语言学者亟需深思的课题。

关键词生成式人工智能;形式文法;大语言模型;深度学习

一、引言

“生成语法”与“人工智能”(AI)于 20 世纪 50 年代几乎同步诞生。前者以乔姆斯基为代表,首次抛出“语言为何能无限生成”这一震撼学界之问(Chomsky 1957);后者则凭借图灵关于“模仿游戏”的构想(Turing 1950)以及麦卡锡等人提出的“达特茅斯计划”(McCarthy et al. 1955/2006),标志着人类智能机械化研究的正式启航。此后七十余载,语言学与人工智能既沿各自轨道演进,又因共同关注“自然语言”这一对象而时有交汇。前者持续细化并拓展语音、词汇、句法、语义、语用等层面的理论分析模型,后者则在基于符号的规则方法、基于特征的统计学习以及基于神经网络的深度学习等范式转型中屡获突破。就终极目标而言,现代语言学与人工智能研究均致力于探索人类语言能力的基本原理。然而,从实际成效审视,语言学距离达成其理论目标仍路漫漫;而随着 2022 年 11 月底 ChatGPT 的问世,生成式人工智能在工程层面首次展现出大规模、可迁移的跨语言交互能力,甚至被视为触及通用人工智能(AGI)的边缘。两条轨道发展速度的巨大落差,迫使学界不得不反思:在生成式人工智能时代,语言学应如何重估自身的方法论路径,从而与人工智能研究实现更优互动?(袁毓林 2025)

本文试图将视野拉远,在历史纵深中审视语言学与人工智能研究的范式演变,从宏观视角对比这两个领域主流工作模式的差异,探究语言学与人工智能融合发展的具体路径。第二节在两千年的宏大历史尺度上概括语言学观念的变迁。第三节梳理人工智能技术范式从符号主义到经验主义再到联结主义的跃迁。第四节参照人工智能的技术演进路径,反观人类语言学研究模式的优势与局限,进而提出由语言学知识驱动,构建语言能力评测任务及数据集的研究思路。主张通过严谨的语言能力评测任务设计,将语言学知识转化为评测数据集,聚焦于可验证的语言学实证研究,实现语言学数据可持续的规模扩展。第五节为结语,以积极姿态展望语言学与人工智能融合之路的前景。

二、语言学的范式演变

将“语言”作为科学研究的对象,实则是相当晚近之事。人工智能早期研究者之一特里·维诺格拉德在《语言作为认知过程》(Winograd 1983)一书中,借鉴托马斯·库恩的科学范式革命理论,将语言学历史概括为四大范式:规范语言学、比较语言学、结构语言学、生成语言学。其中首个范式严格而言并不宜称为“语言学”,更应视作“语文学”。该阶段从古代延续至 17、18 世纪,在这漫长岁月中,人类对语言研究关注的核心问题,简言之即是:这句话是何含义?即重视对个别、具体的字词句进行意义阐释。

伴随 14、15 世纪欧洲文艺复兴、宗教改革等一系列重大事件的发生,世界历史迈入崭新纪元。大航海、殖民扩张、宗教与学术传播推动了全球范围的语言接触。比较语言学由此兴起,并以一个全新问题为核心:语言如何演化?语言学者开始在更广阔的时空维度上比较不同语言,追溯其谱系关系与共同