AI是否存在"母语"？——语言如何塑造AI的认知边界

发布时间：2026-06-13 07:54阅读：20

同一个问题用不同语言提问，AI给出的往往不只是表达方式的差异，而是涉及语料权重、分词成本、知识路径、文化预设和价值对齐的全面变化。AI没有母语，但它拥有被训练数据所塑造的语言引力。

同一个问题用不同语言提问，AI改变的不仅是表达形式。它会经历不同的语料权重、分词成本、知识路径、文化预设和价值对齐机制。AI没有母语，但它拥有语言引力。

① 输入法并非关键 → ② 互联网语言分布 → ③ 模型训练数据的公开与保密 → ④ Tokenizer语言税 → ⑤ 语言、文化与意识形态

当你向大语言模型提问时：

用中文提问，它可能谈论学习压力、应试体制、父母、补习班、就业前景。

用英文提问，它可能谈论个性化学习、教育公平、教师效率、隐私保护。

用法语提问，它可能更自然地涉及欧洲公共教育、文化传承、语言多样性。

用俄语提问，它可能引出国家概念、技术主权、地缘安全。

用日语或韩语提问，它可能更容易聚焦于少子化问题、职场环境、学校制度、社会压力。

如果你用拉丁语提问，它甚至会像从一座古典图书馆中回应你：语法规范，历史感厚重，但现实生活气息薄弱。

这就引出了一个关键问题：

AI究竟有没有母语？

如果没有，为何换个语言，答案的风格就会改变？

如果有，它的母语是英语吗？中文模型的母语是中文吗？还是说，模型真正的语言根本不是人类语言，而是向量？

这篇文章试图给出一个更精确的答案：

这个问题表面是技术问题，深层其实是文明问题。

语言不是外壳。语言是人类认知世界的导航图。

当AI学会语言，它学到的不只是词汇和语法，也学到了一套世界如何被划分、命名、排序和评价的方式。

有人会问：AI对中文和英文的差异，是不是因为计算机底层就更适合英文？

毕竟键盘是英文键盘。

编程语言大多是英文。

ASCII最早只服务英文。

英文一个字母只占1个字节，中文一个汉字在UTF-8里通常占3个字节。

这些都是事实，但它们不是最终答案。

你在手机上用中文输入法打出"人工智能"时，输入法先把你的拼音、手写或语音变成汉字。进入计算机之后，它走的是这条链：

AI不是在"英文键盘"里思考。

它也不是直接在"中文输入法"里思考。

输入法只是入口。真正决定模型如何处理语言的，是后面的三件事：

计算机底层确实存在历史遗留问题。ASCII、Unicode、UTF-8、BPE，都不是从一个完美平等的语言宇宙里发展出来的。它们是在真实互联网、真实工程、真实成本下演化的。

所以更准确的说法不是：

而是：

这个先发优势后来被写进了网页、代码、文档、开源社区、论文、评测集、Tokenizer和训练数据。

它没有决定一切。

但它给所有后来语言都设了一道门槛。

大语言模型摄入的不是"人类全部经验"。

它摄入的是可获取、可抓取、可授权、可清洗、可训练的文本。

这句话很重要。

世界上说中文的人很多，说印地语、阿拉伯语、西班牙语的人也很多。但这不等于这些语言在可训练的互联网文本里占同样比例。

W3Techs在2026年6月4日的内容语言统计显示，在已知内容语言的网站中，英文仍占49.7%。后面依次是西班牙语6.0%、德语6.0%、日语5.0%、法语4.6%、葡萄牙语4.1%、俄语3.5%、意大利语2.8%。中文是1.2%，韩语是0.9%。拉丁语则在"低于0.1%"的长尾里。

英文

W3Techs网站内容占比（2026-06-04）：49.7%

对AI训练的含义：最大的公开网页知识库，论文、代码、文档、论坛高度集中

西班牙语

W3Techs网站内容占比（2026-06-04）：6.0%

对AI训练的含义：高资源语言，拉美和欧洲语境丰富，但仍远低于英文

德语

W3Techs网站内容占比（2026-06-04）：6.0%

对AI训练的含义：高资源欧洲语言，技术和制度文本质量较高

日语

W3Techs网站内容占比（2026-06-04）：5.0%

对AI训练的含义：资源不低，但书写系统和Tokenizer要求更高

法语

W3Techs网站内容占比（2026-06-04）：4.6%

对AI训练的含义：高资源语言，欧洲、非洲、加拿大语境混合

葡萄牙语

W3Techs网站内容占比（2026-06-04）：4.1%

对AI训练的含义：巴西语境很重要，和欧洲葡语也不同

俄语

W3Techs网站内容占比（2026-06-04）：3.5%

对AI训练的含义：技术、文学、地缘政治内容都强，但语境高度区域化

中文

W3Techs网站内容占比（2026-06-04）：1.2%

对AI训练的含义：人口大，但大量内容在App、公众号、平台墙和不可抓取空间里

韩语

W3Techs网站内容占比（2026-06-04）：0.9%

对AI训练的含义：本土平台和文化语境强，需要专门数据补足

拉丁语

W3Techs网站内容占比（2026-06-04）：<0.1%

对AI训练的含义：古典文本多，活的日常反馈极少

这张表不能简单等同于训练语料比例。模型公司会购买数据、合成数据、过滤数据、加权采样，也会刻意补齐某些语言。

但它揭示了一个基本事实：

AI吃到的世界，不是人口统计意义上的世界，而是可数字化、可抓取、可训练的世界。

中文世界有一个特殊问题：很多真正有价值的中文内容不在开放网页上。

公众号、微信群、知乎盐选、小红书、B站评论、垂直社群、企业文档、地方政务材料、课堂笔记、行业报告，大量内容要么不可爬，要么版权复杂，要么噪声巨大，要么平台封闭。

所以中文不是"不重要"。

恰恰相反，中文世界很大。

问题是：这个世界有相当一部分没有以训练友好的方式进入模型。

这也是为什么"数据主权"不是一句口号。它背后是一个非常具体的技术问题：

很多人想知道：GPT、Claude、Qwen、DeepSeek、Llama，到底用了多少中文、多少英文、多少日语、多少韩语？

真正麻烦的是：大多数模型并不公开精确语言分布。

目前最有代表性的精确公开数字，反而来自比较早的GPT-3。

OpenAI在GPT-3论文配套数据中公开过按词数统计的语言分布：英文92.64708%，法语1.81853%，德语1.46937%，西班牙语0.77289%，意大利语0.60793%，葡萄牙语0.52483%，俄语0.18843%，日语0.11109%，中文0.09905%。

换句话说，GPT-3不是一个"多语言均衡模型"。

它首先是一个英文互联网压缩器，然后在这个基础上发展出了跨语言迁移能力。

我们先把能看到的线索摆出来。

GPT-3

公开线索：官方公开语言表，英文92.65%，中文约0.10%，日语约0.11%，俄语约0.19%

我会怎么读：这是早期GPT英文重心的硬证据

还不确定的地方：拿这个比例直接推GPT-5/ GPT-5.5，会太粗

GPT-5/ GPT-5.5

公开线索：GPT-5系统卡说用了公开互联网信息、第三方合作数据、用户/标注员/研究者提供或生成的数据，并经过过滤和安全训练；GPT-5.5系统卡更多谈安全评测和部署防护

我会怎么读：可以判断它早已不是GPT-3那种简单英文网页压缩器，而是混合数据、后训练和产品制度共同塑形的系统

还不确定的地方：中文、英文各占多少，官方没给，只能从能力、评测和产品定位侧面估

GPT-4o

公开线索：旧系统卡提到Web、代码数学、多模态数据，也提到45种语言红队测试和低代表性语言评测

我会怎么读：说明OpenAI很早就在补多语言和多模态评测

还不确定的地方：训练语料的语言比例依然不是一本公开账

Claude 4.x系列

公开线索：Anthropic系统卡和透明度报告说有公开互联网信息、第三方非公开数据、标注数据、用户选择加入数据和内部生成数据；系统卡页截至2026-06-04已列到Claude Opus 4.8

我会怎么读：可以读出它是专有混合数据，再经过helpful, honest, harmless、Constitutional AI、RLHF/RLAIF等对齐塑形

还不确定的地方：中文、英文、法语、日语各占多少，没有公开

Llama 3

公开线索：约15T多语言token；最终数据混合约50%通用知识、25%数学推理、17%代码、8%多语言；128K词表中额外加入28K非英语token

我会怎么读：这是英文、代码、通用知识很强，同时主动补非英语token的路线

还不确定的地方：8%多语言里每种自然语言怎么分，没有细账

DeepSeek-V2

公开线索：8.1T token；技术报告明确说中文token约比英文多12%；主要由中文和英文内容组成，其他语言需谨慎

我会怎么读：这是少数把中英文相对比例说得比较清楚的中国模型

还不确定的地方：拿V2的比例直接推DeepSeek-V3或后续模型，也会太粗

Qwen2.5

公开线索：18T token；151,643词表；多语言语料、中文英文评测、多语言后训练都很明确

我会怎么读：中英和多语言不是补丁，而是核心设计之一

还不确定的地方：中文精确占比没有公开

GLM-4

公开线索：约十万亿token，主要是中文和英文，另有24种语言小规模语料；150K词表由中文、多语言和cl100k_base合并

我会怎么读：典型的中英双主干路线

还不确定的地方：中文、英文各自百分比没有公开

Baichuan 2

公开线索：2.6T token，多语言，重点覆盖中文和英文，125,696词表

我会怎么读：明显是在中英文上做优化

还不确定的地方：语言比例没有公开

BLOOM

公开线索：ROOTS语料1.61TB，46种自然语言+13种编程语言

我会怎么读：它不一定是今天最强助手，但多语言治理和透明度很有标本价值

还不确定的地方：它更像透明多语言项目的标本，不等于前沿闭源模型的普遍做法

这张表不只是为了列资料。它真正想说明的是：

闭源前沿模型能力最强，但语言分布最不透明；开放模型透明一些，但也很少把每种语言比例完整公开。

所以，面对"GPT的中文占比多少""Claude的中文占比多少"这类问题，我不会说完全不能估。

人当然会估。

我自己也会估。

但要把两件事分开：

前者是账本。

后者是判断。

判断可以大胆一点，但不能把它写成账本。

从现有公开材料看，我会这样读：

从系统卡和产品评测看，GPT-5/ GPT-5.5已比GPT-3时代更系统地处理多语言、工具和安全评测，但语言比例仍然不知道。

Claude 4.x系列也明确使用大规模多样数据和多语言安全评测，但比例同样不知道。

Qwen、DeepSeek、GLM、Baichuan这类中国模型明显把中文和英文作为核心训练语言，而不是把中文当作英文模型的附属能力。

Llama 3则更像一个以英文和代码为强中心、额外增强多语言能力的开放权重模型。

这就是模型的"语言重心"。

它不是母语。

但它会影响模型默认知道什么，优先联想到什么，在哪些语言里更顺，在哪些语境里更容易露怯。

训练数据决定模型见过什么世界。

Tokenizer决定模型用多大代价读这个世界。

这件事常常被低估。

同一句话，如果英文只需要10个token，某些语言却需要20、30、甚至100多个token，那么这个语言的用户就天然吃亏：

更贵。

更慢。

上下文窗口里能塞进去的信息更少。

同样128K context，英文用户能塞一本书，某些低资源语言用户可能只能塞半本甚至更少。

NeurIPS 2023有篇论文《Language Model Tokenizers Introduce Unfairness Between Languages》，研究的就是这道隐藏的语言成本。它发现，同一内容翻译成不同语言后，token长度可以相差非常大，极端情况下可到15倍。即使是刻意支持多语言的tokenizer，也无法完全消除差异。

这就是所谓的tokenization unfairness。

它不是模型"回答得好不好"之后才出现的问题。

它在模型看到文本之前就已经发生了。

对中文来说，早期英文中心tokenizer的问题非常明显。

原始LLaMA词表里中文token很少，很多汉字会被拆成3到4个UTF-8字节token。Chinese-LLaMA的技术报告直接指出：原始LLaMA vocabulary对中文覆盖不足，所以他们额外加入20,000个中文token，把中文tokenizer合并后扩到约49,953个token。初步实验显示，新的中文LLaMA tokenizer生成的token数大约是原始LLaMA tokenizer的一半。

这不是小修小补。

这意味着同样的上下文窗口可以装进大约两倍中文信息，生成速度也显著改善。

Llama 3也吸取了这个教训。它的128K词表里，100K来自tiktoken，另外加入28K token来更好支持非英语语言。Meta的技术报告明确说，这改善了非英语语言压缩率和下游性能，并且不影响英文tokenization。

Qwen和GLM的路线更直接：一开始就把中文、多语言和英文token设计进统一词表。

这里有一个关键判断：

英文有空格，BPE容易学出高频词块。

中文没有空格，一个词的边界本来就需要统计和语义判断。

日语混用汉字、假名、外来语片假名。

韩语有音节块和词尾变化。

俄语、西班牙语、法语有复杂屈折、性数格、重音符号。

阿拉伯语、印地语、泰语、藏语、缅甸语、许多少数民族语言还有更复杂的书写和分词问题。

如果tokenizer的训练数据里这些语言少，它就不会给它们留下足够好的"短编码"。

你可以把它理解成一种语言税：

从这个角度看，中文模型不是只在"民族情绪"上需要。

它在工程上也需要。

如果一个语言长期用别人的tokenizer、别人的语料重心、别人的对齐制度来进入AI，它就会长期多交这道税。

到这里，问题又变复杂了。

如果模型最终都把token变成向量，那么它内部到底是在中文里思考，还是在英文里思考？

我的判断是：

都不是。

模型内部不是中文句子，也不是英文句子。

它内部是高维向量、注意力模式、残差流、MLP激活和概率分布。

在《万物皆向量》那篇文章里，我们说过一句话：

这句话放在多语言问题上同样成立。

"苹果""apple""pomme""manzana""яблоко""りんご""사과"这些词，在人类语言里属于不同系统。但在模型的向量空间里，它们可以被拉到相近区域，因为它们出现在相似语境里，和类似视觉、味觉、购买、食物、神话、科技品牌等概念共同出现。

但"相近"不等于"完全一样"。

还有一个更细的问题：同一个事实，换一种语言问，模型是不是真的在调用同一份知识？

2023年有篇跨语言事实一致性研究（arXiv:2310.10378）就在看这个问题。它发现，不同语言用户向同一个模型问同一个事实问题时，模型不一定给出一致答案；模型变大可以提升很多语言的事实准确率，但不必然提升跨语言一致性；语言之间的词表重叠和书写系统相似度，会显著影响知识是否能跨语言共享。

这就解释了一个现象：

模型不是简单地在"世界知识库"里查一个事实，然后翻译成不同语言。

很多时候，它是在不同语言入口下，激活了不同的局部路径。

这些路径可能重合。

也可能分叉。

英文和西班牙语、法语之间，拉丁字母、词源、互联网交叉引用、翻译数据和共享知识更多，路径更容易相连。

俄语和乌克兰语同属西里尔书写和相近语系，某些事实路径也可能更接近。

中文、日语、韩语之间共享一部分汉字文化圈遗产，但现代语料、政治语境、平台生态和tokenizer设计又差异很大。

拉丁语则更特殊。它有大量高质量古典文本，却缺少现代生活中的原生反馈。模型会学会"拉丁语作为古典文本"的世界，却很难学到"拉丁语作为当代社区日常语言"的世界。

所以，"AI是不是在英文里思考"这个问题，答案不能简单说是或否。

更准确的说法是：

英文不是模型内部唯一的语言。

但它经常是最大的重力源。

现在可以回答一个更现实的问题：

如果法国人、西班牙人、俄罗斯人、中国人、日本人、韩国人、拉丁语学习者都用母语问同一个AI，他们拿到的信息一样吗？

不完全一样。

差异大致来自五个层面：

这不是说AI每次都会给出相反答案。

而是说，语言会改变模型进入知识空间的路径。

英文是当前AI世界的主干语言。

论文、代码、GitHub issue、Stack Overflow、产品文档、Hacker News、Reddit、技术博客、模型评测，大量关键训练材料和对齐材料都以英文存在。

所以英文用户经常得到最稳定、最完整、最少翻译腔的回答。

这不是因为英文更高级。

是因为可训练数字世界长期围绕英文组织。

中文的优势是使用者多、文化密度高、现实议题强。

中文的劣势是开放网页占比不高，大量内容在平台内、App内、封闭社群内、图片视频内，或者以难以清洗的形式存在。

中国模型通过提高中文语料、重训tokenizer、做中文后训练和中文评测，把这个差距补回来。

DeepSeek-V2的"中文token约比英文多12%"，GLM-4的"主要中文和英文"，Qwen的151K大词表和中文多语言评测，都是这个方向的工程信号。

但中文还有一个额外问题：政治和平台生态会强烈影响可见文本。

这不是中文独有的问题。

所有语言都有自己的政治过滤、媒体结构和平台偏见。

只是中文在中美AI竞争、信息管制、平台封闭和地缘叙事上，表现得更集中、更显眼。

法语和西班牙语是高资源语言。

它们有大量网页、书籍、媒体、法律和教育文本，也和英文共享大量拉丁词根、学术概念和翻译数据。

所以它们通常比低资源语言更接近英文主干。

但它们不是英文的翻译。

法国语境里的世俗主义、教育、文化保护、欧盟监管，和美国英语语境不同。

西班牙语也不是一个单一世界。西班牙、墨西哥、阿根廷、哥伦比亚、智利、美国拉美社区，政治文化和日常生活差异很大。

模型如果只学到"西班牙语=西班牙或泛拉美刻板印象"，就会在具体文化问题上犯错。

俄语资源丰富，文学传统深，技术资料也不少。

但俄语语料里的政治、媒体和国家叙事高度集中。

当用户用俄语问历史、战争、国际关系、国家制度，模型激活的不只是俄语语法，还可能激活一整套俄语互联网中的叙事结构。

这不意味着俄语一定带来某种立场。

它意味着：语言入口会改变模型最容易调用的语料邻域。

日语和韩语都有高度发达的本土互联网、媒体、娱乐、教育和职场语境。

它们对AI的挑战不只是"翻译准确"。

而是能不能理解：

敬语。

暧昧表达。

社会角色。

学校和公司制度。

偶像文化、游戏文化、漫画语境。

南北韩同用韩语，但文化现实完全不同。BLEND文化基准里就把South Korea和North Korea分开处理，因为同一种语言可以承载不同社会。

这件事提醒我们：

语言不是文化的全部，但语言是进入文化的主要入口。

拉丁语是一个很好的反例。

它有高度经典化的文本传统：西塞罗、维吉尔、奥古斯丁、经院哲学、教会文献、科学命名。

模型可以学到很多"高质量拉丁语"。

但拉丁语缺少现代母语社区、现代口语生活、当代社交媒体反馈和日常纠错。

所以AI的拉丁语能力很容易像一座博物馆：

典雅。

庄重。

但不太像一个活人生活的街区。

这也解释了为什么"语料质量"和"语料生命力"不是一回事。

一个语言可以有极高质量的经典文本，却缺少现代经验。

一个语言可以有海量日常文本，却充满噪声、平台梗、广告和重复。

模型需要两者：经典给结构，日常给生命。

2024年的BLEND benchmark做了一件很有意义的事：它不是问模型"法国首都是哪里"这种百科题，而是问日常文化问题。

例如一个国家的人生日吃什么、孩子在学校玩什么、体育场常吃什么、节日怎么过。

这些知识不一定写在维基百科里。

但它们是真实生活的一部分。

BLEND覆盖16个国家或地区、13种语言、约52.6K个问答对。结果很清楚：模型对互联网高代表性文化表现更好，对低代表性文化表现明显更差。论文里有个很刺眼的数字：在短答格式下，GPT-4作为最佳模型，也可能出现最高57.34%的文化表现差距。

更有意思的是：

对西班牙语、中文这类中高资源语言，模型用当地语言回答时往往更好。

对阿姆哈拉语、巽他语、阿塞拜疆语这类低资源语言，模型用英文反而更好。

这就很有意思了：

如果模型没有足够的本地语言能力，它可能用你的母语说出一段很像翻译过来的英文世界。

如果模型有本地语料和本地后训练，它才更可能给出本地生活感。

这也是为什么Qwen在中文文化问题上可能有优势，HyperCLOVA在韩语语境中可能有优势。

不是因为它们拥有某种神秘的"民族灵魂"。

而是因为它们更可能吃过那个语言共同体真实留下的文本。

到这里，这篇文章必须进入最敏感也最重要的一层：

AI的政治导向从哪里来？

答案不是单一的。

至少有五个

← 上一篇：2026年高考志愿：人工智能专业还值得选择吗下一篇：AI 金融快报：SpaceX 上市首日暴涨 29%；扎克伯格认错；四川警方破获技术诈骗大案 →