中国大模型破解东南亚语言困局
"这只海狮正合我意。"
一名在新加坡就职的外籍员工,在历经西方人工智能大模型的种种不便后,转投本地语言模型的怀抱。
他所称的这只海狮,并非海洋中的可爱生物,而是新加坡政府斥巨资构建的国家级大语言模型项目SEA-LION。
该项目的底层架构,源自中国的阿里千问大模型。截至4月15日,在最新东南亚语言模型排名中,这款中国模型持续领先,在印尼语、马来语、泰语、越南语等多个榜单上稳居首位。
然而,这个故事充满戏剧性。这个服务于东南亚7亿人口的国家级AI项目,最初采用的竟是西方模型,竟闹出了将委内瑞拉误认为东盟成员国的尴尬错误。
这一离谱事件,揭示了一个严峻现实:7亿东南亚民众,被挡在了AI的语言高墙之外。
该地区本土语言超过1200种,但主流模型中的东南亚语言数据占比,曾低至0.5%。
例如,曾风靡全球的美国开源模型Llama2,在东南亚语言面前近乎"文盲",处理印尼语、泰语、缅甸语等非拉丁语系时效率极其低下。
当地民众逐渐认识到,依赖英语语料训练的西方模型,这条路根本走不通。
新加坡政府率先行动,2023年12月注资7000万新元(约3.81亿元人民币),启动国家级多模态大模型计划,致力于打造属于东南亚的语言模型。
突破的关键在于词元(Token)——AI处理信息的最小单元。
简单来说,AI对某种语言的理解准确度,取决于训练时输入的语料规模,即词元数量。
西方模型在东南亚表现不佳,根本原因正是东南亚语言词元供给严重不足。
语言与文化紧密相连,表达方式千差万别。比如,菲律宾语对某些词汇有含蓄委婉的表达习惯,若语料投喂不足,大模型根本无法领会其真实含义。
转折点出现在一次重大技术调整。2025年11月,海狮项目宣布放弃Llama架构,转而采用中国阿里千问作为新版旗舰基座模型。
该模型能担此重任,得益于其强大实力——预训练阶段词元规模高达36万亿,涵盖全球119种语言及方言。
这意味着,它并非后天学习东南亚语言,而是从根本上理解亚洲语境,不仅识别印尼语、马来语等文字,更能深度掌握其语法结构。
此外,中国企业深度参与后训练环节,为海狮项目追加投喂了超1000亿词元的东南亚语言数据。
在评估阶段,研发团队特别邀请母语人士参与数据质量评测,并为外籍员工配备了母语聊天机器人。
成效显著。2025年11月,基于中国大模型的海狮V4发布后立即登顶东南亚语言模型排行榜。
这次转向,也映射出全球范围的词元大迁徙。
根据全球AI模型API聚合平台OpenRouter数据,2026年4月第一周,中国AI大模型周调用量连续五周领先美国,最新一周达12.96万亿词元,约为美国4.27倍。更引人注目的是,全球调用量前六名均为中国模型。
中国词元走向世界看似突然,实则是长期积累的必然结果。
国研新经济研究院创始院长朱克力指出,Token出海本质上是中国智能算力、模型技术与服务体系的全球输出,标志着我国人工智能产业从国内应用走向国际竞争,从长远看更是中国新质生产力对外开放的核心路径,将稳步构建全球智能价值输出新生态。