标签

AI是否存在"母语"?——语言如何塑造AI的认知边界

发布时间:2026-06-13 07:54阅读:2

同一个问题用不同语言提问,AI给出的往往不只是表达方式的差异,而是涉及语料权重、分词成本、知识路径、文化预设和价值对齐的全面变化。AI没有母语,但它拥有被训练数据所塑造的语言引力。

同一个问题用不同语言提问,AI改变的不仅是表达形式。它会经历不同的语料权重、分词成本、知识路径、文化预设和价值对齐机制。AI没有母语,但它拥有语言引力。

① 输入法并非关键 → ② 互联网语言分布 → ③ 模型训练数据的公开与保密 → ④ Tokenizer语言税 → ⑤ 语言、文化与意识形态

当你向大语言模型提问时:

用中文提问,它可能谈论学习压力、应试体制、父母、补习班、就业前景。

用英文提问,它可能谈论个性化学习、教育公平、教师效率、隐私保护。

用法语提问,它可能更自然地涉及欧洲公共教育、文化传承、语言多样性。

用俄语提问,它可能引出国家概念、技术主权、地缘安全。

用日语或韩语提问,它可能更容易聚焦于少子化问题、职场环境、学校制度、社会压力。

如果你用拉丁语提问,它甚至会像从一座古典图书馆中回应你:语法规范,历史感厚重,但现实生活气息薄弱。

这就引出了一个关键问题:

AI究竟有没有母语?

如果没有,为何换个语言,答案的风格就会改变?

如果有,它的母语是英语吗?中文模型的母语是中文吗?还是说,模型真正的语言根本不是人类语言,而是向量?

这篇文章试图给出一个更精确的答案:

这个问题表面是技术问题,深层其实是文明问题。

语言不是外壳。语言是人类认知世界的导航图。

当AI学会语言,它学到的不只是词汇和语法,也学到了一套世界如何被划分、命名、排序和评价的方式。

有人会问:AI对中文和英文的差异,是不是因为计算机底层就更适合英文?

毕竟键盘是英文键盘。

编程语言大多是英文。

ASCII最早只服务英文。

英文一个字母只占1个字节,中文一个汉字在UTF-8里通常占3个字节。

这些都是事实,但它们不是最终答案。

你在手机上用中文输入法打出"人工智能"时,输入法先把你的拼音、手写或语音变成汉字。进入计算机之后,它走的是这条链:

AI不是在"英文键盘"里思考。

它也不是直接在"中文输入法"里思考。

输入法只是入口。真正决定模型如何处理语言的,是后面的三件事:

计算机底层确实存在历史遗留问题。ASCII、Unicode、UTF-8、BPE,都不是从一个完美平等的语言宇宙里发展出来的。它们是在真实互联网、真实工程、真实成本下演化的。

所以更准确的说法不是:

而是:

这个先发优势后来被写进了网页、代码、文档、开源社区、论文、评测集、Tokenizer和训练数据。

它没有决定一切。

但它给所有后来语言都设了一道门槛。

大语言模型摄入的不是"人类全部经验"。

它摄入的是可获取、可抓取、可授权、可清洗、可训练的文本。

这句话很重要。

世界上说中文的人很多,说印地语、阿拉伯语、西班牙语的人也很多。但这不等于这些语言在可训练的互联网文本里占同样比例。

W3Techs在2026年6月4日的内容语言统计显示,在已知内容语言的网站中,英文仍占49.7%。后面依次是西班牙语6.0%、德语6.0%、日语5.0%、法语4.6%、葡萄牙语4.1%、俄语3.5%、意大利语2.8%。中文是1.2%,韩语是0.9%。拉丁语则在"低于0.1%"的长尾里。

英文

W3Techs网站内容占比(2026-06-04):49.7%

对AI训练的含义:最大的公开网页知识库,论文、代码、文档、论坛高度集中

西班牙语

W3Techs网站内容占比(2026-06-04):6.0%

对AI训练的含义:高资源语言,拉美和欧洲语境丰富,但仍远低于英文

德语

W3Techs网站内容占比(2026-06-04):6.0%

对AI训练的含义:高资源欧洲语言,技术和制度文本质量较高

日语

W3Techs网站内容占比(2026-06-04):5.0%

对AI训练的含义:资源不低,但书写系统和Tokenizer要求更高

法语

W3Techs网站内容占比(2026-06-04):4.6%

对AI训练的含义:高资源语言,欧洲、非洲、加拿大语境混合

葡萄牙语

W3Techs网站内容占比(2026-06-04):4.1%

对AI训练的含义:巴西语境很重要,和欧洲葡语也不同

俄语

W3Techs网站内容占比(2026-06-04):3.5%

对AI训练的含义:技术、文学、地缘政治内容都强,但语境高度区域化

中文

W3Techs网站内容占比(2026-06-04):1.2%

对AI训练的含义:人口大,但大量内容在App、公众号、平台墙和不可抓取空间里

韩语

W3Techs网站内容占比(2026-06-04):0.9%

对AI训练的含义:本土平台和文化语境强,需要专门数据补足

拉丁语

W3Techs网站内容占比(2026-06-04):<0.1%

对AI训练的含义:古典文本多,活的日常反馈极少

这张表不能简单等同于训练语料比例。模型公司会购买数据、合成数据、过滤数据、加权采样,也会刻意补齐某些语言。

但它揭示了一个基本事实:

AI吃到的世界,不是人口统计意义上的世界,而是可数字化、可抓取、可训练的世界。

中文世界有一个特殊问题:很多真正有价值的中文内容不在开放网页上。

公众号、微信群、知乎盐选、小红书、B站评论、垂直社群、企业文档、地方政务材料、课堂笔记、行业报告,大量内容要么不可爬,要么版权复杂,要么噪声巨大,要么平台封闭。

所以中文不是"不重要"。

恰恰相反,中文世界很大。

问题是:这个世界有相当一部分没有以训练友好的方式进入模型。

这也是为什么"数据主权"不是一句口号。它背后是一个非常具体的技术问题:

很多人想知道:GPT、Claude、Qwen、DeepSeek、Llama,到底用了多少中文、多少英文、多少日语、多少韩语?

真正麻烦的是:大多数模型并不公开精确语言分布。

目前最有代表性的精确公开数字,反而来自比较早的GPT-3。

OpenAI在GPT-3论文配套数据中公开过按词数统计的语言分布:英文92.64708%,法语1.81853%,德语1.46937%,西班牙语0.77289%,意大利语0.60793%,葡萄牙语0.52483%,俄语0.18843%,日语0.11109%,中文0.09905%。

换句话说,GPT-3不是一个"多语言均衡模型"。

它首先是一个英文互联网压缩器,然后在这个基础上发展出了跨语言迁移能力。

我们先把能看到的线索摆出来。

GPT-3

公开线索:官方公开语言表,英文92.65%,中文约0.10%,日语约0.11%,俄语约0.19%

我会怎么读:这是早期GPT英文重心的硬证据

还不确定的地方:拿这个比例直接推GPT-5/ GPT-5.5,会太粗

GPT-5/ GPT-5.5

公开线索:GPT-5系统卡说用了公开互联网信息、第三方合作数据、用户/标注员/研究者提供或生成的数据,并经过过滤和安全训练;GPT-5.5系统卡更多谈安全评测和部署防护

我会怎么读:可以判断它早已不是GPT-3那种简单英文网页压缩器,而是混合数据、后训练和产品制度共同塑形的系统

还不确定的地方:中文、英文各占多少,官方没给,只能从能力、评测和产品定位侧面估

GPT-4o

公开线索:旧系统卡提到Web、代码数学、多模态数据,也提到45种语言红队测试和低代表性语言评测

我会怎么读:说明OpenAI很早就在补多语言和多模态评测

还不确定的地方:训练语料的语言比例依然不是一本公开账

Claude 4.x系列

公开线索:Anthropic系统卡和透明度报告说有公开互联网信息、第三方非公开数据、标注数据、用户选择加入数据和内部生成数据;系统卡页截至2026-06-04已列到Claude Opus 4.8

我会怎么读:可以读出它是专有混合数据,再经过helpful, honest, harmless、Constitutional AI、RLHF/RLAIF等对齐塑形

还不确定的地方:中文、英文、法语、日语各占多少,没有公开

Llama 3

公开线索:约15T多语言token;最终数据混合约50%通用知识、25%数学推理、17%代码、8%多语言;128K词表中额外加入28K非英语token

我会怎么读:这是英文、代码、通用知识很强,同时主动补非英语token的路线

还不确定的地方:8%多语言里每种自然语言怎么分,没有细账

DeepSeek-V2

公开线索:8.1T token;技术报告明确说中文token约比英文多12%;主要由中文和英文内容组成,其他语言需谨慎

我会怎么读:这是少数把中英文相对比例说得比较清楚的中国模型

还不确定的地方:拿V2的比例直接推DeepSeek-V3或后续模型,也会太粗

Qwen2.5

公开线索:18T token;151,643词表;多语言语料、中文英文评测、多语言后训练都很明确

我会怎么读:中英和多语言不是补丁,而是核心设计之一

还不确定的地方:中文精确占比没有公开

GLM-4

公开线索:约十万亿token,主要是中文和英文,另有24种语言小规模语料;150K词表由中文、多语言和cl100k_base合并

我会怎么读:典型的中英双主干路线

还不确定的地方:中文、英文各自百分比没有公开

Baichuan 2

公开线索:2.6T token,多语言,重点覆盖中文和英文,125,696词表

我会怎么读:明显是在中英文上做优化

还不确定的地方:语言比例没有公开

BLOOM

公开线索:ROOTS语料1.61TB,46种自然语言+13种编程语言

我会怎么读:它不一定是今天最强助手,但多语言治理和透明度很有标本价值

还不确定的地方:它更像透明多语言项目的标本,不等于前沿闭源模型的普遍做法

这张表不只是为了列资料。它真正想说明的是:

闭源前沿模型能力最强,但语言分布最不透明;开放模型透明一些,但也很少把每种语言比例完整公开。

所以,面对"GPT的中文占比多少""Claude的中文占比多少"这类问题,我不会说完全不能估。

人当然会估。

我自己也会估。

但要把两件事分开:

前者是账本。

后者是判断。

判断可以大胆一点,但不能把它写成账本。

从现有公开材料看,我会这样读:

从系统卡和产品评测看,GPT-5/ GPT-5.5已比GPT-3时代更系统地处理多语言、工具和安全评测,但语言比例仍然不知道。

Claude 4.x系列也明确使用大规模多样数据和多语言安全评测,但比例同样不知道。

Qwen、DeepSeek、GLM、Baichuan这类中国模型明显把中文和英文作为核心训练语言,而不是把中文当作英文模型的附属能力。

Llama 3则更像一个以英文和代码为强中心、额外增强多语言能力的开放权重模型。

这就是模型的"语言重心"。

它不是母语。

但它会影响模型默认知道什么,优先联想到什么,在哪些语言里更顺,在哪些语境里更容易露怯。

训练数据决定模型见过什么世界。

Tokenizer决定模型用多大代价读这个世界。

这件事常常被低估。

同一句话,如果英文只需要10个token,某些语言却需要20、30、甚至100多个token,那么这个语言的用户就天然吃亏:

更贵。

更慢。

上下文窗口里能塞进去的信息更少。

同样128K context,英文用户能塞一本书,某些低资源语言用户可能只能塞半本甚至更少。

NeurIPS 2023有篇论文《Language Model Tokenizers Introduce Unfairness Between Languages》,研究的就是这道隐藏的语言成本。它发现,同一内容翻译成不同语言后,token长度可以相差非常大,极端情况下可到15倍。即使是刻意支持多语言的tokenizer,也无法完全消除差异。

这就是所谓的tokenization unfairness。

它不是模型"回答得好不好"之后才出现的问题。

它在模型看到文本之前就已经发生了。

对中文来说,早期英文中心tokenizer的问题非常明显。

原始LLaMA词表里中文token很少,很多汉字会被拆成3到4个UTF-8字节token。Chinese-LLaMA的技术报告直接指出:原始LLaMA vocabulary对中文覆盖不足,所以他们额外加入20,000个中文token,把中文tokenizer合并后扩到约49,953个token。初步实验显示,新的中文LLaMA tokenizer生成的token数大约是原始LLaMA tokenizer的一半。

这不是小修小补。

这意味着同样的上下文窗口可以装进大约两倍中文信息,生成速度也显著改善。

Llama 3也吸取了这个教训。它的128K词表里,100K来自tiktoken,另外加入28K token来更好支持非英语语言。Meta的技术报告明确说,这改善了非英语语言压缩率和下游性能,并且不影响英文tokenization。

Qwen和GLM的路线更直接:一开始就把中文、多语言和英文token设计进统一词表。

这里有一个关键判断:

英文有空格,BPE容易学出高频词块。

中文没有空格,一个词的边界本来就需要统计和语义判断。

日语混用汉字、假名、外来语片假名。

韩语有音节块和词尾变化。

俄语、西班牙语、法语有复杂屈折、性数格、重音符号。

阿拉伯语、印地语、泰语、藏语、缅甸语、许多少数民族语言还有更复杂的书写和分词问题。

如果tokenizer的训练数据里这些语言少,它就不会给它们留下足够好的"短编码"。

你可以把它理解成一种语言税:

从这个角度看,中文模型不是只在"民族情绪"上需要。

它在工程上也需要。

如果一个语言长期用别人的tokenizer、别人的语料重心、别人的对齐制度来进入AI,它就会长期多交这道税。

到这里,问题又变复杂了。

如果模型最终都把token变成向量,那么它内部到底是在中文里思考,还是在英文里思考?

我的判断是:

都不是。

模型内部不是中文句子,也不是英文句子。

它内部是高维向量、注意力模式、残差流、MLP激活和概率分布。

在《万物皆向量》那篇文章里,我们说过一句话:

这句话放在多语言问题上同样成立。

"苹果""apple""pomme""manzana""яблоко""りんご""사과"这些词,在人类语言里属于不同系统。但在模型的向量空间里,它们可以被拉到相近区域,因为它们出现在相似语境里,和类似视觉、味觉、购买、食物、神话、科技品牌等概念共同出现。

但"相近"不等于"完全一样"。

还有一个更细的问题:同一个事实,换一种语言问,模型是不是真的在调用同一份知识?

2023年有篇跨语言事实一致性研究(arXiv:2310.10378)就在看这个问题。它发现,不同语言用户向同一个模型问同一个事实问题时,模型不一定给出一致答案;模型变大可以提升很多语言的事实准确率,但不必然提升跨语言一致性;语言之间的词表重叠和书写系统相似度,会显著影响知识是否能跨语言共享。

这就解释了一个现象:

模型不是简单地在"世界知识库"里查一个事实,然后翻译成不同语言。

很多时候,它是在不同语言入口下,激活了不同的局部路径。

这些路径可能重合。

也可能分叉。

英文和西班牙语、法语之间,拉丁字母、词源、互联网交叉引用、翻译数据和共享知识更多,路径更容易相连。

俄语和乌克兰语同属西里尔书写和相近语系,某些事实路径也可能更接近。

中文、日语、韩语之间共享一部分汉字文化圈遗产,但现代语料、政治语境、平台生态和tokenizer设计又差异很大。

拉丁语则更特殊。它有大量高质量古典文本,却缺少现代生活中的原生反馈。模型会学会"拉丁语作为古典文本"的世界,却很难学到"拉丁语作为当代社区日常语言"的世界。

所以,"AI是不是在英文里思考"这个问题,答案不能简单说是或否。

更准确的说法是:

英文不是模型内部唯一的语言。

但它经常是最大的重力源。

现在可以回答一个更现实的问题:

如果法国人、西班牙人、俄罗斯人、中国人、日本人、韩国人、拉丁语学习者都用母语问同一个AI,他们拿到的信息一样吗?

不完全一样。

差异大致来自五个层面:

这不是说AI每次都会给出相反答案。

而是说,语言会改变模型进入知识空间的路径。

英文是当前AI世界的主干语言。

论文、代码、GitHub issue、Stack Overflow、产品文档、Hacker News、Reddit、技术博客、模型评测,大量关键训练材料和对齐材料都以英文存在。

所以英文用户经常得到最稳定、最完整、最少翻译腔的回答。

这不是因为英文更高级。

是因为可训练数字世界长期围绕英文组织。

中文的优势是使用者多、文化密度高、现实议题强。

中文的劣势是开放网页占比不高,大量内容在平台内、App内、封闭社群内、图片视频内,或者以难以清洗的形式存在。

中国模型通过提高中文语料、重训tokenizer、做中文后训练和中文评测,把这个差距补回来。

DeepSeek-V2的"中文token约比英文多12%",GLM-4的"主要中文和英文",Qwen的151K大词表和中文多语言评测,都是这个方向的工程信号。

但中文还有一个额外问题:政治和平台生态会强烈影响可见文本。

这不是中文独有的问题。

所有语言都有自己的政治过滤、媒体结构和平台偏见。

只是中文在中美AI竞争、信息管制、平台封闭和地缘叙事上,表现得更集中、更显眼。

法语和西班牙语是高资源语言。

它们有大量网页、书籍、媒体、法律和教育文本,也和英文共享大量拉丁词根、学术概念和翻译数据。

所以它们通常比低资源语言更接近英文主干。

但它们不是英文的翻译。

法国语境里的世俗主义、教育、文化保护、欧盟监管,和美国英语语境不同。

西班牙语也不是一个单一世界。西班牙、墨西哥、阿根廷、哥伦比亚、智利、美国拉美社区,政治文化和日常生活差异很大。

模型如果只学到"西班牙语=西班牙或泛拉美刻板印象",就会在具体文化问题上犯错。

俄语资源丰富,文学传统深,技术资料也不少。

但俄语语料里的政治、媒体和国家叙事高度集中。

当用户用俄语问历史、战争、国际关系、国家制度,模型激活的不只是俄语语法,还可能激活一整套俄语互联网中的叙事结构。

这不意味着俄语一定带来某种立场。

它意味着:语言入口会改变模型最容易调用的语料邻域。

日语和韩语都有高度发达的本土互联网、媒体、娱乐、教育和职场语境。

它们对AI的挑战不只是"翻译准确"。

而是能不能理解:

敬语。

暧昧表达。

社会角色。

学校和公司制度。

偶像文化、游戏文化、漫画语境。

南北韩同用韩语,但文化现实完全不同。BLEND文化基准里就把South Korea和North Korea分开处理,因为同一种语言可以承载不同社会。

这件事提醒我们:

语言不是文化的全部,但语言是进入文化的主要入口。

拉丁语是一个很好的反例。

它有高度经典化的文本传统:西塞罗、维吉尔、奥古斯丁、经院哲学、教会文献、科学命名。

模型可以学到很多"高质量拉丁语"。

但拉丁语缺少现代母语社区、现代口语生活、当代社交媒体反馈和日常纠错。

所以AI的拉丁语能力很容易像一座博物馆:

典雅。

庄重。

但不太像一个活人生活的街区。

这也解释了为什么"语料质量"和"语料生命力"不是一回事。

一个语言可以有极高质量的经典文本,却缺少现代经验。

一个语言可以有海量日常文本,却充满噪声、平台梗、广告和重复。

模型需要两者:经典给结构,日常给生命。

2024年的BLEND benchmark做了一件很有意义的事:它不是问模型"法国首都是哪里"这种百科题,而是问日常文化问题。

例如一个国家的人生日吃什么、孩子在学校玩什么、体育场常吃什么、节日怎么过。

这些知识不一定写在维基百科里。

但它们是真实生活的一部分。

BLEND覆盖16个国家或地区、13种语言、约52.6K个问答对。结果很清楚:模型对互联网高代表性文化表现更好,对低代表性文化表现明显更差。论文里有个很刺眼的数字:在短答格式下,GPT-4作为最佳模型,也可能出现最高57.34%的文化表现差距。

更有意思的是:

对西班牙语、中文这类中高资源语言,模型用当地语言回答时往往更好。

对阿姆哈拉语、巽他语、阿塞拜疆语这类低资源语言,模型用英文反而更好。

这就很有意思了:

如果模型没有足够的本地语言能力,它可能用你的母语说出一段很像翻译过来的英文世界。

如果模型有本地语料和本地后训练,它才更可能给出本地生活感。

这也是为什么Qwen在中文文化问题上可能有优势,HyperCLOVA在韩语语境中可能有优势。

不是因为它们拥有某种神秘的"民族灵魂"。

而是因为它们更可能吃过那个语言共同体真实留下的文本。

到这里,这篇文章必须进入最敏感也最重要的一层:

AI的政治导向从哪里来?

答案不是单一的。

至少有五个