标签

中大发布全球首个粤语AI评测平台,GPT也“考不及格”

发布时间:2026-05-11 10:36来源:微信阅读:4

若让ChatGPT翻译“你食咗飯未呀”,它多半能应对。可一旦遇到“呢个case要follow up下先得,你記得send個email俾client”,它可能就支吾其詞了。

这绝非玩笑话。这是2025年全球AI普遍遭遇的难题——全球讲粤语的人口过亿,但主流大模型对粤语的领悟力远超你的想象。

香港中文大学(中大),近期完成了这一领域的空白填补。

先抛出一个可能让你惊讶的观点:即便是当下最顶尖的大模型,在粤语测试中也难逃“挂科”的命运。

中大团队已对CLEVA-Cantonese完成了首轮测试,覆盖了众多海内外的大模型,包含开源与商业产品。结果显示,无论在语法、发音还是词汇维度,各模型均有大幅提升空间。

换句话说,无论是GPT-4还是Gemini,它们虽能驾驭书面中文和普通话交流,但一旦涉及粤语口语、俚语或中英夹杂,表现便断崖式下跌。

诚然,这恰似一位英语流利者,能读能写,却听不懂利物浦街头方言。语言不仅是词汇的堆砌,更是文化的载体。毕竟,会考试和会生活,从来不是一回事。

而这正是症结所在——粤语绝非“不标准的普通话”,它拥有独立的语法体系、发音系统及文化内涵。

面对此境,中大并未选择坐视不管。

他们打造了一款名为CLEVA-Cantonese的系统——全球首个专为粤语打造的动态评测平台及生态系统。

你或许听说过CLEVA。该平台由中大语言与视觉实验室(LaVi Lab)开发,是目前公认的中文大模型评估基准中规模最大、覆盖最全的之一,并已被纳入斯坦福大学的HELM框架。简而言之,CLEVA堪称中文AI界的“高考”。

如今,他们将这一体系拓展至粤语领域。

CLEVA-Cantonese的运作机制颇具特色。它并非静态题库,而是一个持续循环的四步流程:

第一步,数据导入与筛选。并非随意抓取粤语文章。团队与凤凰卫视等数据方合作,持续采集反映粤语新趋势的最新数据,同时过滤可能干扰测试结果的信息。

第二步,模型理解。利用大模型辅助构建多维度评估任务。没错,正是用AI来考AI。

第三步,评估。标准化任务、统一提示语、多重指标,确保比较结果可信。

第四步,反馈。评估结果反馈给开发者,引导下一轮优化。

此循环非一次性操作。随着更强模型问世,CLEVA-Cantonese也将随之迭代,犹如考试本身不断升级。

你或许会问:粤语难在哪里?不就是普通话的变体吗?

并非如此。团队总结了粤语评测面临的三大核心挑战:

第一座大山:粤语白话文。

粤语拥有独立的书面表达。日常口语转写与普通话书面语差异巨大。“我哋聽日去行街”绝非“我们明天去逛街”的简单替换,其语法结构迥异。模型需能理解此类口语用法与俚语。

第二座大山:语码转换。

香港人说话,中英夹杂司空见惯。“我今日要present個proposal,你幫我check下有冇問題”——此类句子在粤语区屡见不鲜。模型不仅需懂中英,还需理解二者在同一句中的切换规则。

第三座大山:粤语拼音。

粤语拥有独特拼音(粤拼)。模型需处理粤拼的输入输出,这对许多仅受普通话训练的模型而言,是全新领域。

有趣的是,这三挑战不仅限于粤语。全球数千种“低资源语言”面临此境——有使用者、有文化,却缺足够数字化语料供AI学习。CLEVA-Cantonese成果可助其他语言AI评测。

此时你可能认为CLEVA-Cantonese只是一个“粤语AI考试系统”。

想法太狭隘了。

中大工程学院院长蒙美玲教授阐明:CLEVA-Cantonese旨在构建生态系统,汇聚学术、数据方及开发者。

此生态野心不小:

教育领域,AI助教能用地道粤语辅导学生,而非仅用普通话语法说粤语词。

医疗领域,许多香港老人只讲粤语,若AI听不懂其症状描述,何谈智慧医疗?

公共服务,若AI能准确理解粤语诉求,服务效率提升显而易见。

文化生活,粤语承载的影视、音乐、文学远超方言范畴。AI懂粤语,意味着这些文化内容的数字化保存与传播有了新可能。

此外,CLEVA-Cantonese正与凤凰卫视合作,持续引入高质量粤语数据。这非闭门造车,而是真正搭建各方桥梁。

归根结底,CLEVA-Cantonese意义不止于技术工具。

它传递一个信号:粤语AI发展正从“野蛮生长”迈向“标准化时代”。

以前各模型各说各话,优劣无标准。现有了CLEVA-Cantonese,犹如给AI界装了把尺子——粤语能力强弱,有了可量化、可比较的指标。

我个人认为,此事最打动我的是其长期主义。

CLEVA-Cantonese非一测即止。它是持续演进系统,模型进步,评测升级;数据更新,标准迭代。这是场无终点马拉松,但至少现在,我们有了计时器。

对于我们这些粤语使用者,这意味着——在AI时代,我们的语言不会消亡。

全球粤语AI模型会增多,但“会说”和“说得好”是两码事。CLEVA-Cantonese旨在确保AI不仅是“会说粤语”,而是真正理解粤语背后的文化与逻辑。

此路漫漫,但第一步已迈出。

你觉得AI能学好粤语吗?欢迎评论区分享,转发给身边粤语朋友看看。