中大发布全球首个粤语AI评测平台，GPT也“考不及格”

发布时间：2026-05-11 10:36阅读：10

若让ChatGPT翻译“你食咗飯未呀”，它多半能应对。可一旦遇到“呢个case要follow up下先得，你記得send個email俾client”，它可能就支吾其詞了。

这绝非玩笑话。这是2025年全球AI普遍遭遇的难题——全球讲粤语的人口过亿，但主流大模型对粤语的领悟力远超你的想象。

香港中文大学（中大），近期完成了这一领域的空白填补。

先抛出一个可能让你惊讶的观点：即便是当下最顶尖的大模型，在粤语测试中也难逃“挂科”的命运。

中大团队已对CLEVA-Cantonese完成了首轮测试，覆盖了众多海内外的大模型，包含开源与商业产品。结果显示，无论在语法、发音还是词汇维度，各模型均有大幅提升空间。

换句话说，无论是GPT-4还是Gemini，它们虽能驾驭书面中文和普通话交流，但一旦涉及粤语口语、俚语或中英夹杂，表现便断崖式下跌。

诚然，这恰似一位英语流利者，能读能写，却听不懂利物浦街头方言。语言不仅是词汇的堆砌，更是文化的载体。毕竟，会考试和会生活，从来不是一回事。

而这正是症结所在——粤语绝非“不标准的普通话”，它拥有独立的语法体系、发音系统及文化内涵。

面对此境，中大并未选择坐视不管。

他们打造了一款名为CLEVA-Cantonese的系统——全球首个专为粤语打造的动态评测平台及生态系统。

你或许听说过CLEVA。该平台由中大语言与视觉实验室（LaVi Lab）开发，是目前公认的中文大模型评估基准中规模最大、覆盖最全的之一，并已被纳入斯坦福大学的HELM框架。简而言之，CLEVA堪称中文AI界的“高考”。

如今，他们将这一体系拓展至粤语领域。

CLEVA-Cantonese的运作机制颇具特色。它并非静态题库，而是一个持续循环的四步流程：

第一步，数据导入与筛选。并非随意抓取粤语文章。团队与凤凰卫视等数据方合作，持续采集反映粤语新趋势的最新数据，同时过滤可能干扰测试结果的信息。

第二步，模型理解。利用大模型辅助构建多维度评估任务。没错，正是用AI来考AI。

第三步，评估。标准化任务、统一提示语、多重指标，确保比较结果可信。

第四步，反馈。评估结果反馈给开发者，引导下一轮优化。

此循环非一次性操作。随着更强模型问世，CLEVA-Cantonese也将随之迭代，犹如考试本身不断升级。

你或许会问：粤语难在哪里？不就是普通话的变体吗？

并非如此。团队总结了粤语评测面临的三大核心挑战：

第一座大山：粤语白话文。

粤语拥有独立的书面表达。日常口语转写与普通话书面语差异巨大。“我哋聽日去行街”绝非“我们明天去逛街”的简单替换，其语法结构迥异。模型需能理解此类口语用法与俚语。

第二座大山：语码转换。

香港人说话，中英夹杂司空见惯。“我今日要present個proposal，你幫我check下有冇問題”——此类句子在粤语区屡见不鲜。模型不仅需懂中英，还需理解二者在同一句中的切换规则。

第三座大山：粤语拼音。

粤语拥有独特拼音（粤拼）。模型需处理粤拼的输入输出，这对许多仅受普通话训练的模型而言，是全新领域。

有趣的是，这三挑战不仅限于粤语。全球数千种“低资源语言”面临此境——有使用者、有文化，却缺足够数字化语料供AI学习。CLEVA-Cantonese成果可助其他语言AI评测。

此时你可能认为CLEVA-Cantonese只是一个“粤语AI考试系统”。

想法太狭隘了。

中大工程学院院长蒙美玲教授阐明：CLEVA-Cantonese旨在构建生态系统，汇聚学术、数据方及开发者。

此生态野心不小：

教育领域，AI助教能用地道粤语辅导学生，而非仅用普通话语法说粤语词。

医疗领域，许多香港老人只讲粤语，若AI听不懂其症状描述，何谈智慧医疗？

公共服务，若AI能准确理解粤语诉求，服务效率提升显而易见。

文化生活，粤语承载的影视、音乐、文学远超方言范畴。AI懂粤语，意味着这些文化内容的数字化保存与传播有了新可能。

此外，CLEVA-Cantonese正与凤凰卫视合作，持续引入高质量粤语数据。这非闭门造车，而是真正搭建各方桥梁。

归根结底，CLEVA-Cantonese意义不止于技术工具。

它传递一个信号：粤语AI发展正从“野蛮生长”迈向“标准化时代”。

以前各模型各说各话，优劣无标准。现有了CLEVA-Cantonese，犹如给AI界装了把尺子——粤语能力强弱，有了可量化、可比较的指标。

我个人认为，此事最打动我的是其长期主义。

CLEVA-Cantonese非一测即止。它是持续演进系统，模型进步，评测升级；数据更新，标准迭代。这是场无终点马拉松，但至少现在，我们有了计时器。

对于我们这些粤语使用者，这意味着——在AI时代，我们的语言不会消亡。

全球粤语AI模型会增多，但“会说”和“说得好”是两码事。CLEVA-Cantonese旨在确保AI不仅是“会说粤语”，而是真正理解粤语背后的文化与逻辑。

此路漫漫，但第一步已迈出。

你觉得AI能学好粤语吗？欢迎评论区分享，转发给身边粤语朋友看看。