AI生成汉字时为何常现'伪汉字'与日文？

发布时间：2026-05-10 18:12阅读：46

例如当我想在画面中显示“气象”二字时，AI却经常将“气”字生成得类似日文中的“気”。初次遇到这种情况，我甚至怀疑系统是否偷偷使用了日文字体库。

经过一番研究后发现，这问题其实并不简单。

我们在日常使用的Word或PPT中输入文字时，实际上是在调用系统字体。当你输入“气象”时，系统会通过Unicode找到对应字符，并使用中文字体渲染出来。整个过程是确定性的，“气”就是“气”，不会发生变化。

但AI视频模型的工作方式却不同。

它不是像排版软件那样“输入文字”，而是在“绘制文字”。也就是说，对AI来说，文字不一定是结构明确的字符，而更像是一种视觉元素。

这一点非常关键。

人看到“气”字时，会知道它有固定的笔画、结构和读音；但AI可能只是认为：这里需要一种“方块字风格的纹理”。于是它开始生成一种“看起来像汉字”的图像。

因此，我们常常会看到一种奇怪的现象：远看像是中文，近看却无法辨认；整体像一块文字区域，但单个字却难以识别。这种感觉就像AI在努力模仿文字，但它并不真正理解文字。

英文也会出错，但没那么明显。因为英文只有26个字母，结构简单，错误也较容易发现。但汉字则不同，多一笔或少一笔可能就变成另一个字，甚至变成一个不存在的“伪字”。

而“气”、“氣”、“気”这几个字在字形上存在历史和视觉上的联系。

“气”是现代简体中文，“氣”是繁体字，“気”是日文写法。对人来说，这几个字的区别很明确；但对AI来说，它可能只是从大量图片中学到：方块字大概长这样。

于是，它会把这些相近的字形特征混合在一起。

最终生成一个乍一看合理，但其实不准确的字。

后来我专门查阅了Unicode相关资料，发现中日韩文字系统本身就存在大量共享汉字。Unicode中有一个概念叫CJK，即Chinese、Japanese、Korean。

也就是说，在编码层面，中日韩文字原本就有一大片重叠的公共区域。

AI在训练时，很可能同时看过中文海报、简体字幕、日文广告、韩文环境里的汉字、繁体书籍、漫画封面、网页截图……这些东西在模型眼里，很可能都属于一种大致相似的方块字视觉模式。

于是，如果提示词约束不够强，它就容易生成一种特别奇怪的东西：像中文、像日文、又像乱码。

视频又会把这个问题进一步放大。

图片只需要生成一帧，但视频要连续生成几十帧甚至上百帧。镜头在移动，光影在变化，景深在波动，文字还要保持时间上的一致性，这对模型来说其实非常困难。

尤其汉字笔画又细、结构又复杂。

于是我们经常会看到一种特别魔幻的场景：第一帧还是“气”，第二帧突然变成“気”，第三帧干脆长成一个不存在的字。远看特别高级，暂停一看全是伪文字。

后来这个现象甚至让我形成了一个固定习惯：做AI视频时，千万不要把重要文字交给 AI 自己生成。尤其是书名、专家推荐语、品牌名、机构名、课程标题、二维码说明这些东西，一旦生成错，整个视频的专业感会瞬间掉下去。

所以现在我的流程基本已经固定了：AI 负责生成背景、镜头、氛围和动态效果；真正重要的文字，全部后期单独添加。这样既能保留 AI 视频的视觉冲击力，又能保证信息准确。

现在我在用即梦、可灵、Runway 这些工具时，会像祥林嫂一样，在提示词里反复念叨：不要出现任何可读文字，不要生成汉字，不要生成日文，不要生成乱码文字。

如果必须展示书籍封面或者海报，我一般会直接上传真实图片，让AI只负责让图片动起来。即便如此，最后还是得逐帧检查。因为很多时候，AI连图片中原本正确的文字都能修坏。

表面上看，“气”变成“気”，只是一个很小的问题。

但它背后其实暴露了一个更深层的事实：AI 很擅长生成逼真的东西，但是再逼真，毕竟还不是真的。

它可以生成电影级光影、复杂镜头、逼真的人物和城市；但却可能在一个小小的汉字上翻车。某种意义上，这些“伪汉字”其实像一个窗口，让我们第一次非常直观地看到：AI 也许已经很会模仿世界，但它离真正理解世界，可能还有一段距离。