AI生成汉字时为何常现'伪汉字'与日文?
例如当我想在画面中显示“气象”二字时,AI却经常将“气”字生成得类似日文中的“気”。初次遇到这种情况,我甚至怀疑系统是否偷偷使用了日文字体库。
经过一番研究后发现,这问题其实并不简单。
我们在日常使用的Word或PPT中输入文字时,实际上是在调用系统字体。当你输入“气象”时,系统会通过Unicode找到对应字符,并使用中文字体渲染出来。整个过程是确定性的,“气”就是“气”,不会发生变化。
但AI视频模型的工作方式却不同。
它不是像排版软件那样“输入文字”,而是在“绘制文字”。也就是说,对AI来说,文字不一定是结构明确的字符,而更像是一种视觉元素。
这一点非常关键。
人看到“气”字时,会知道它有固定的笔画、结构和读音;但AI可能只是认为:这里需要一种“方块字风格的纹理”。于是它开始生成一种“看起来像汉字”的图像。
因此,我们常常会看到一种奇怪的现象:远看像是中文,近看却无法辨认;整体像一块文字区域,但单个字却难以识别。这种感觉就像AI在努力模仿文字,但它并不真正理解文字。
英文也会出错,但没那么明显。因为英文只有26个字母,结构简单,错误也较容易发现。但汉字则不同,多一笔或少一笔可能就变成另一个字,甚至变成一个不存在的“伪字”。
而“气”、“氣”、“気”这几个字在字形上存在历史和视觉上的联系。
“气”是现代简体中文,“氣”是繁体字,“気”是日文写法。对人来说,这几个字的区别很明确;但对AI来说,它可能只是从大量图片中学到:方块字大概长这样。
于是,它会把这些相近的字形特征混合在一起。
最终生成一个乍一看合理,但其实不准确的字。
后来我专门查阅了Unicode相关资料,发现中日韩文字系统本身就存在大量共享汉字。Unicode中有一个概念叫CJK,即Chinese、Japanese、Korean。
也就是说,在编码层面,中日韩文字原本就有一大片重叠的公共区域。
AI在训练时,很可能同时看过中文海报、简体字幕、日文广告、韩文环境里的汉字、繁体书籍、漫画封面、网页截图……这些东西在模型眼里,很可能都属于一种大致相似的方块字视觉模式。
于是,如果提示词约束不够强,它就容易生成一种特别奇怪的东西:像中文、像日文、又像乱码。
视频又会把这个问题进一步放大。
图片只需要生成一帧,但视频要连续生成几十帧甚至上百帧。镜头在移动,光影在变化,景深在波动,文字还要保持时间上的一致性,这对模型来说其实非常困难。
尤其汉字笔画又细、结构又复杂。
于是我们经常会看到一种特别魔幻的场景:第一帧还是“气”,第二帧突然变成“気”,第三帧干脆长成一个不存在的字。远看特别高级,暂停一看全是伪文字。
后来这个现象甚至让我形成了一个固定习惯:做AI视频时,千万不要把重要文字交给 AI 自己生成。尤其是书名、专家推荐语、品牌名、机构名、课程标题、二维码说明这些东西,一旦生成错,整个视频的专业感会瞬间掉下去。
所以现在我的流程基本已经固定了:AI 负责生成背景、镜头、氛围和动态效果;真正重要的文字,全部后期单独添加。这样既能保留 AI 视频的视觉冲击力,又能保证信息准确。
现在我在用即梦、可灵、Runway 这些工具时,会像祥林嫂一样,在提示词里反复念叨:不要出现任何可读文字,不要生成汉字,不要生成日文,不要生成乱码文字。
如果必须展示书籍封面或者海报,我一般会直接上传真实图片,让AI只负责让图片动起来。即便如此,最后还是得逐帧检查。因为很多时候,AI连图片中原本正确的文字都能修坏。
表面上看,“气”变成“気”,只是一个很小的问题。
但它背后其实暴露了一个更深层的事实:AI 很擅长生成逼真的东西,但是再逼真,毕竟还不是真的。
它可以生成电影级光影、复杂镜头、逼真的人物和城市;但却可能在一个小小的汉字上翻车。某种意义上,这些“伪汉字”其实像一个窗口,让我们第一次非常直观地看到:AI 也许已经很会模仿世界,但它离真正理解世界,可能还有一段距离。