AI是否存在"母语"?——语言如何塑造AI的认知边界
同一个问题用不同语言提问,AI给出的往往不只是表达方式的差异,而是涉及语料权重、分词成本、知识路径、文化预设和价值对齐的全面变化。AI没有母语,但它拥有被训练数据所塑造的语言引力。
同一个问题用不同语言提问,AI改变的不仅是表达形式。它会经历不同的语料权重、分词成本、知识路径、文化预设和价值对齐机制。AI没有母语,但它拥有语言引力。
① 输入法并非关键 → ② 互联网语言分布 → ③ 模型训练数据的公开与保密 → ④ Tokenizer语言税 → ⑤ 语言、文化与意识形态
当你向大语言模型提问时:
用中文提问,它可能谈论学习压力、应试体制、父母、补习班、就业前景。
用英文提问,它可能谈论个性化学习、教育公平、教师效率、隐私保护。
用法语提问,它可能更自然地涉及欧洲公共教育、文化传承、语言多样性。
用俄语提问,它可能引出国家概念、技术主权、地缘安全。
用日语或韩语提问,它可能更容易聚焦于少子化问题、职场环境、学校制度、社会压力。
如果你用拉丁语提问,它甚至会像从一座古典图书馆中回应你:语法规范,历史感厚重,但现实生活气息薄弱。
这就引出了一个关键问题:
AI究竟有没有母语?
如果没有,为何换个语言,答案的风格就会改变?
如果有,它的母语是英语吗?中文模型的母语是中文吗?还是说,模型真正的语言根本不是人类语言,而是向量?
这篇文章试图给出一个更精确的答案:
这个问题表面是技术问题,深层其实是文明问题。
语言不是外壳。语言是人类认知世界的导航图。
当AI学会语言,它学到的不只是词汇和语法,也学到了一套世界如何被划分、命名、排序和评价的方式。
有人会问:AI对中文和英文的差异,是不是因为计算机底层就更适合英文?
毕竟键盘是英文键盘。
编程语言大多是英文。
ASCII最早只服务英文。
英文一个字母只占1个字节,中文一个汉字在UTF-8里通常占3个字节。
这些都是事实,但它们不是最终答案。
你在手机上用中文输入法打出"人工智能"时,输入法先把你的拼音、手写或语音变成汉字。进入计算机之后,它走的是这条链:
AI不是在"英文键盘"里思考。
它也不是直接在"中文输入法"里思考。
输入法只是入口。真正决定模型如何处理语言的,是后面的三件事:
计算机底层确实存在历史遗留问题。ASCII、Unicode、UTF-8、BPE,都不是从一个完美平等的语言宇宙里发展出来的。它们是在真实互联网、真实工程、真实成本下演化的。
所以更准确的说法不是:
而是:
这个先发优势后来被写进了网页、代码、文档、开源社区、论文、评测集、Tokenizer和训练数据。
它没有决定一切。
但它给所有后来语言都设了一道门槛。
大语言模型摄入的不是"人类全部经验"。
它摄入的是可获取、可抓取、可授权、可清洗、可训练的文本。
这句话很重要。
世界上说中文的人很多,说印地语、阿拉伯语、西班牙语的人也很多。但这不等于这些语言在可训练的互联网文本里占同样比例。
W3Techs在2026年6月4日的内容语言统计显示,在已知内容语言的网站中,英文仍占49.7%。后面依次是西班牙语6.0%、德语6.0%、日语5.0%、法语4.6%、葡萄牙语4.1%、俄语3.5%、意大利语2.8%。中文是1.2%,韩语是0.9%。拉丁语则在"低于0.1%"的长尾里。
英文
W3Techs网站内容占比(2026-06-04):49.7%
对AI训练的含义:最大的公开网页知识库,论文、代码、文档、论坛高度集中
西班牙语
W3Techs网站内容占比(2026-06-04):6.0%
对AI训练的含义:高资源语言,拉美和欧洲语境丰富,但仍远低于英文
德语
W3Techs网站内容占比(2026-06-04):6.0%
对AI训练的含义:高资源欧洲语言,技术和制度文本质量较高
日语
W3Techs网站内容占比(2026-06-04):5.0%
对AI训练的含义:资源不低,但书写系统和Tokenizer要求更高
法语
W3Techs网站内容占比(2026-06-04):4.6%
对AI训练的含义:高资源语言,欧洲、非洲、加拿大语境混合
葡萄牙语
W3Techs网站内容占比(2026-06-04):4.1%
对AI训练的含义:巴西语境很重要,和欧洲葡语也不同
俄语
W3Techs网站内容占比(2026-06-04):3.5%
对AI训练的含义:技术、文学、地缘政治内容都强,但语境高度区域化
中文
W3Techs网站内容占比(2026-06-04):1.2%
对AI训练的含义:人口大,但大量内容在App、公众号、平台墙和不可抓取空间里
韩语
W3Techs网站内容占比(2026-06-04):0.9%
对AI训练的含义:本土平台和文化语境强,需要专门数据补足
拉丁语
W3Techs网站内容占比(2026-06-04):<0.1%
对AI训练的含义:古典文本多,活的日常反馈极少
这张表不能简单等同于训练语料比例。模型公司会购买数据、合成数据、过滤数据、加权采样,也会刻意补齐某些语言。
但它揭示了一个基本事实:
AI吃到的世界,不是人口统计意义上的世界,而是可数字化、可抓取、可训练的世界。
中文世界有一个特殊问题:很多真正有价值的中文内容不在开放网页上。
公众号、微信群、知乎盐选、小红书、B站评论、垂直社群、企业文档、地方政务材料、课堂笔记、行业报告,大量内容要么不可爬,要么版权复杂,要么噪声巨大,要么平台封闭。
所以中文不是"不重要"。
恰恰相反,中文世界很大。
问题是:这个世界有相当一部分没有以训练友好的方式进入模型。
这也是为什么"数据主权"不是一句口号。它背后是一个非常具体的技术问题:
很多人想知道:GPT、Claude、Qwen、DeepSeek、Llama,到底用了多少中文、多少英文、多少日语、多少韩语?
真正麻烦的是:大多数模型并不公开精确语言分布。
目前最有代表性的精确公开数字,反而来自比较早的GPT-3。
OpenAI在GPT-3论文配套数据中公开过按词数统计的语言分布:英文92.64708%,法语1.81853%,德语1.46937%,西班牙语0.77289%,意大利语0.60793%,葡萄牙语0.52483%,俄语0.18843%,日语0.11109%,中文0.09905%。
换句话说,GPT-3不是一个"多语言均衡模型"。
它首先是一个英文互联网压缩器,然后在这个基础上发展出了跨语言迁移能力。
我们先把能看到的线索摆出来。
GPT-3
公开线索:官方公开语言表,英文92.65%,中文约0.10%,日语约0.11%,俄语约0.19%
我会怎么读:这是早期GPT英文重心的硬证据
还不确定的地方:拿这个比例直接推GPT-5/ GPT-5.5,会太粗
GPT-5/ GPT-5.5
公开线索:GPT-5系统卡说用了公开互联网信息、第三方合作数据、用户/标注员/研究者提供或生成的数据,并经过过滤和安全训练;GPT-5.5系统卡更多谈安全评测和部署防护
我会怎么读:可以判断它早已不是GPT-3那种简单英文网页压缩器,而是混合数据、后训练和产品制度共同塑形的系统
还不确定的地方:中文、英文各占多少,官方没给,只能从能力、评测和产品定位侧面估
GPT-4o
公开线索:旧系统卡提到Web、代码数学、多模态数据,也提到45种语言红队测试和低代表性语言评测
我会怎么读:说明OpenAI很早就在补多语言和多模态评测
还不确定的地方:训练语料的语言比例依然不是一本公开账
Claude 4.x系列
公开线索:Anthropic系统卡和透明度报告说有公开互联网信息、第三方非公开数据、标注数据、用户选择加入数据和内部生成数据;系统卡页截至2026-06-04已列到Claude Opus 4.8
我会怎么读:可以读出它是专有混合数据,再经过helpful, honest, harmless、Constitutional AI、RLHF/RLAIF等对齐塑形
还不确定的地方:中文、英文、法语、日语各占多少,没有公开
Llama 3
公开线索:约15T多语言token;最终数据混合约50%通用知识、25%数学推理、17%代码、8%多语言;128K词表中额外加入28K非英语token
我会怎么读:这是英文、代码、通用知识很强,同时主动补非英语token的路线
还不确定的地方:8%多语言里每种自然语言怎么分,没有细账
DeepSeek-V2
公开线索:8.1T token;技术报告明确说中文token约比英文多12%;主要由中文和英文内容组成,其他语言需谨慎
我会怎么读:这是少数把中英文相对比例说得比较清楚的中国模型
还不确定的地方:拿V2的比例直接推DeepSeek-V3或后续模型,也会太粗
Qwen2.5
公开线索:18T token;151,643词表;多语言语料、中文英文评测、多语言后训练都很明确
我会怎么读:中英和多语言不是补丁,而是核心设计之一
还不确定的地方:中文精确占比没有公开
GLM-4
公开线索:约十万亿token,主要是中文和英文,另有24种语言小规模语料;150K词表由中文、多语言和cl100k_base合并
我会怎么读:典型的中英双主干路线
还不确定的地方:中文、英文各自百分比没有公开
Baichuan 2
公开线索:2.6T token,多语言,重点覆盖中文和英文,125,696词表
我会怎么读:明显是在中英文上做优化
还不确定的地方:语言比例没有公开
BLOOM
公开线索:ROOTS语料1.61TB,46种自然语言+13种编程语言
我会怎么读:它不一定是今天最强助手,但多语言治理和透明度很有标本价值
还不确定的地方:它更像透明多语言项目的标本,不等于前沿闭源模型的普遍做法
这张表不只是为了列资料。它真正想说明的是:
闭源前沿模型能力最强,但语言分布最不透明;开放模型透明一些,但也很少把每种语言比例完整公开。
所以,面对"GPT的中文占比多少""Claude的中文占比多少"这类问题,我不会说完全不能估。
人当然会估。
我自己也会估。
但要把两件事分开:
前者是账本。
后者是判断。
判断可以大胆一点,但不能把它写成账本。
从现有公开材料看,我会这样读:
从系统卡和产品评测看,GPT-5/ GPT-5.5已比GPT-3时代更系统地处理多语言、工具和安全评测,但语言比例仍然不知道。
Claude 4.x系列也明确使用大规模多样数据和多语言安全评测,但比例同样不知道。
Qwen、DeepSeek、GLM、Baichuan这类中国模型明显把中文和英文作为核心训练语言,而不是把中文当作英文模型的附属能力。
Llama 3则更像一个以英文和代码为强中心、额外增强多语言能力的开放权重模型。
这就是模型的"语言重心"。
它不是母语。
但它会影响模型默认知道什么,优先联想到什么,在哪些语言里更顺,在哪些语境里更容易露怯。
训练数据决定模型见过什么世界。
Tokenizer决定模型用多大代价读这个世界。
这件事常常被低估。
同一句话,如果英文只需要10个token,某些语言却需要20、30、甚至100多个token,那么这个语言的用户就天然吃亏:
更贵。
更慢。
上下文窗口里能塞进去的信息更少。
同样128K context,英文用户能塞一本书,某些低资源语言用户可能只能塞半本甚至更少。
NeurIPS 2023有篇论文《Language Model Tokenizers Introduce Unfairness Between Languages》,研究的就是这道隐藏的语言成本。它发现,同一内容翻译成不同语言后,token长度可以相差非常大,极端情况下可到15倍。即使是刻意支持多语言的tokenizer,也无法完全消除差异。
这就是所谓的tokenization unfairness。
它不是模型"回答得好不好"之后才出现的问题。
它在模型看到文本之前就已经发生了。
对中文来说,早期英文中心tokenizer的问题非常明显。
原始LLaMA词表里中文token很少,很多汉字会被拆成3到4个UTF-8字节token。Chinese-LLaMA的技术报告直接指出:原始LLaMA vocabulary对中文覆盖不足,所以他们额外加入20,000个中文token,把中文tokenizer合并后扩到约49,953个token。初步实验显示,新的中文LLaMA tokenizer生成的token数大约是原始LLaMA tokenizer的一半。
这不是小修小补。
这意味着同样的上下文窗口可以装进大约两倍中文信息,生成速度也显著改善。
Llama 3也吸取了这个教训。它的128K词表里,100K来自tiktoken,另外加入28K token来更好支持非英语语言。Meta的技术报告明确说,这改善了非英语语言压缩率和下游性能,并且不影响英文tokenization。
Qwen和GLM的路线更直接:一开始就把中文、多语言和英文token设计进统一词表。
这里有一个关键判断:
英文有空格,BPE容易学出高频词块。
中文没有空格,一个词的边界本来就需要统计和语义判断。
日语混用汉字、假名、外来语片假名。
韩语有音节块和词尾变化。
俄语、西班牙语、法语有复杂屈折、性数格、重音符号。
阿拉伯语、印地语、泰语、藏语、缅甸语、许多少数民族语言还有更复杂的书写和分词问题。
如果tokenizer的训练数据里这些语言少,它就不会给它们留下足够好的"短编码"。
你可以把它理解成一种语言税:
从这个角度看,中文模型不是只在"民族情绪"上需要。
它在工程上也需要。
如果一个语言长期用别人的tokenizer、别人的语料重心、别人的对齐制度来进入AI,它就会长期多交这道税。
到这里,问题又变复杂了。
如果模型最终都把token变成向量,那么它内部到底是在中文里思考,还是在英文里思考?
我的判断是:
都不是。
模型内部不是中文句子,也不是英文句子。
它内部是高维向量、注意力模式、残差流、MLP激活和概率分布。
在《万物皆向量》那篇文章里,我们说过一句话:
这句话放在多语言问题上同样成立。
"苹果""apple""pomme""manzana""яблоко""りんご""사과"这些词,在人类语言里属于不同系统。但在模型的向量空间里,它们可以被拉到相近区域,因为它们出现在相似语境里,和类似视觉、味觉、购买、食物、神话、科技品牌等概念共同出现。
但"相近"不等于"完全一样"。
还有一个更细的问题:同一个事实,换一种语言问,模型是不是真的在调用同一份知识?
2023年有篇跨语言事实一致性研究(arXiv:2310.10378)就在看这个问题。它发现,不同语言用户向同一个模型问同一个事实问题时,模型不一定给出一致答案;模型变大可以提升很多语言的事实准确率,但不必然提升跨语言一致性;语言之间的词表重叠和书写系统相似度,会显著影响知识是否能跨语言共享。
这就解释了一个现象:
模型不是简单地在"世界知识库"里查一个事实,然后翻译成不同语言。
很多时候,它是在不同语言入口下,激活了不同的局部路径。
这些路径可能重合。
也可能分叉。
英文和西班牙语、法语之间,拉丁字母、词源、互联网交叉引用、翻译数据和共享知识更多,路径更容易相连。
俄语和乌克兰语同属西里尔书写和相近语系,某些事实路径也可能更接近。
中文、日语、韩语之间共享一部分汉字文化圈遗产,但现代语料、政治语境、平台生态和tokenizer设计又差异很大。
拉丁语则更特殊。它有大量高质量古典文本,却缺少现代生活中的原生反馈。模型会学会"拉丁语作为古典文本"的世界,却很难学到"拉丁语作为当代社区日常语言"的世界。
所以,"AI是不是在英文里思考"这个问题,答案不能简单说是或否。
更准确的说法是:
英文不是模型内部唯一的语言。
但它经常是最大的重力源。
现在可以回答一个更现实的问题:
如果法国人、西班牙人、俄罗斯人、中国人、日本人、韩国人、拉丁语学习者都用母语问同一个AI,他们拿到的信息一样吗?
不完全一样。
差异大致来自五个层面:
这不是说AI每次都会给出相反答案。
而是说,语言会改变模型进入知识空间的路径。
英文是当前AI世界的主干语言。
论文、代码、GitHub issue、Stack Overflow、产品文档、Hacker News、Reddit、技术博客、模型评测,大量关键训练材料和对齐材料都以英文存在。
所以英文用户经常得到最稳定、最完整、最少翻译腔的回答。
这不是因为英文更高级。
是因为可训练数字世界长期围绕英文组织。
中文的优势是使用者多、文化密度高、现实议题强。
中文的劣势是开放网页占比不高,大量内容在平台内、App内、封闭社群内、图片视频内,或者以难以清洗的形式存在。
中国模型通过提高中文语料、重训tokenizer、做中文后训练和中文评测,把这个差距补回来。
DeepSeek-V2的"中文token约比英文多12%",GLM-4的"主要中文和英文",Qwen的151K大词表和中文多语言评测,都是这个方向的工程信号。
但中文还有一个额外问题:政治和平台生态会强烈影响可见文本。
这不是中文独有的问题。
所有语言都有自己的政治过滤、媒体结构和平台偏见。
只是中文在中美AI竞争、信息管制、平台封闭和地缘叙事上,表现得更集中、更显眼。
法语和西班牙语是高资源语言。
它们有大量网页、书籍、媒体、法律和教育文本,也和英文共享大量拉丁词根、学术概念和翻译数据。
所以它们通常比低资源语言更接近英文主干。
但它们不是英文的翻译。
法国语境里的世俗主义、教育、文化保护、欧盟监管,和美国英语语境不同。
西班牙语也不是一个单一世界。西班牙、墨西哥、阿根廷、哥伦比亚、智利、美国拉美社区,政治文化和日常生活差异很大。
模型如果只学到"西班牙语=西班牙或泛拉美刻板印象",就会在具体文化问题上犯错。
俄语资源丰富,文学传统深,技术资料也不少。
但俄语语料里的政治、媒体和国家叙事高度集中。
当用户用俄语问历史、战争、国际关系、国家制度,模型激活的不只是俄语语法,还可能激活一整套俄语互联网中的叙事结构。
这不意味着俄语一定带来某种立场。
它意味着:语言入口会改变模型最容易调用的语料邻域。
日语和韩语都有高度发达的本土互联网、媒体、娱乐、教育和职场语境。
它们对AI的挑战不只是"翻译准确"。
而是能不能理解:
敬语。
暧昧表达。
社会角色。
学校和公司制度。
偶像文化、游戏文化、漫画语境。
南北韩同用韩语,但文化现实完全不同。BLEND文化基准里就把South Korea和North Korea分开处理,因为同一种语言可以承载不同社会。
这件事提醒我们:
语言不是文化的全部,但语言是进入文化的主要入口。
拉丁语是一个很好的反例。
它有高度经典化的文本传统:西塞罗、维吉尔、奥古斯丁、经院哲学、教会文献、科学命名。
模型可以学到很多"高质量拉丁语"。
但拉丁语缺少现代母语社区、现代口语生活、当代社交媒体反馈和日常纠错。
所以AI的拉丁语能力很容易像一座博物馆:
典雅。
庄重。
但不太像一个活人生活的街区。
这也解释了为什么"语料质量"和"语料生命力"不是一回事。
一个语言可以有极高质量的经典文本,却缺少现代经验。
一个语言可以有海量日常文本,却充满噪声、平台梗、广告和重复。
模型需要两者:经典给结构,日常给生命。
2024年的BLEND benchmark做了一件很有意义的事:它不是问模型"法国首都是哪里"这种百科题,而是问日常文化问题。
例如一个国家的人生日吃什么、孩子在学校玩什么、体育场常吃什么、节日怎么过。
这些知识不一定写在维基百科里。
但它们是真实生活的一部分。
BLEND覆盖16个国家或地区、13种语言、约52.6K个问答对。结果很清楚:模型对互联网高代表性文化表现更好,对低代表性文化表现明显更差。论文里有个很刺眼的数字:在短答格式下,GPT-4作为最佳模型,也可能出现最高57.34%的文化表现差距。
更有意思的是:
对西班牙语、中文这类中高资源语言,模型用当地语言回答时往往更好。
对阿姆哈拉语、巽他语、阿塞拜疆语这类低资源语言,模型用英文反而更好。
这就很有意思了:
如果模型没有足够的本地语言能力,它可能用你的母语说出一段很像翻译过来的英文世界。
如果模型有本地语料和本地后训练,它才更可能给出本地生活感。
这也是为什么Qwen在中文文化问题上可能有优势,HyperCLOVA在韩语语境中可能有优势。
不是因为它们拥有某种神秘的"民族灵魂"。
而是因为它们更可能吃过那个语言共同体真实留下的文本。
到这里,这篇文章必须进入最敏感也最重要的一层:
AI的政治导向从哪里来?
答案不是单一的。
至少有五个