AI绘画的真相:它不是在画,而是在雕
你有没有思考过这样一个问题:你输入一段文字,短短几秒后一张图片就出现了,这个过程究竟是如何实现的?
当我第一次尝试用AI创作图像时,感觉这就像是魔法一样。输入"一只橘猫在阳光下小憩",眨眼间,一张毛茸茸的猫咪图片就呈现在眼前。但随着使用次数增多,我越来越好奇它的工作原理是什么?后来花了大量时间查阅资料,终于弄清楚了一个大致的框架。今天用最通俗的方式分享给大家。
这个发现相当颠覆认知。我们常说"AI绘画",但AI所做的事情,与人类手握画笔作画完全是两码事。
它更接近雕刻。
米开朗琪罗曾说过:"雕像本来就存在于石头中,我只是把多余的部分去除。"AI所做的正是如此:从一块充满随机噪点的"石块"中,将不需要的噪声一点点剔除,剩下的就是你想要的图像。
每张由AI生成的图片,起始点都是一张纯噪声图像。就像电视失去信号时出现的雪花屏幕那样。
这个过程在技术领域被称为"扩散"(Diffusion)。可以这样理解:
想象一滴墨水落入清水。墨水逐渐扩散,最终均匀分布在水中,你再也看不出原本墨滴的形态。这就是"正向扩散",即从清晰的图像转变为纯噪声。
AI执行的是相反的操作:从纯噪声出发,逐步还原出墨水的轮廓。这便是"反向扩散",也就是AI"创作"图像的核心机制。
每一步降噪,AI都在预测:这片噪声之下,大概应该是什么?预测一次就去除一层,经过数十步之后,一张清晰的图片就逐渐显现了。
从噪声到清晰图像的扩散过程示意
只会雕刻石头还不够,你还必须清楚要雕刻出什么样的形态。这正是文字提示词的作用。
AI中有一个组件叫CLIP,你可以把它想象成一个"双语翻译员":一边理解你所说的"橘猫",一边明白橘猫长什么样子。它把你的文字转换为一组数字,这组数字如同食谱一般,引导AI在每一步降噪时"对照参考"。
技术层面上这叫做"交叉注意力"(Cross-Attention)。简而言之就是:AI每雕刻一刀之前,先查看你提供的食谱,"哦,这个位置应该有猫耳朵,那个位置是阳光"。
你写的提示词越详尽,食谱就越丰富,AI雕刻得就越精确。
使用过即梦或Stable Diffusion的人可能见过CFG Scale这个参数(没接触过也没关系,知道有这么个概念即可)。它究竟是什么?
CFG的全称是Classifier-Free Guidance,名字听起来很复杂,原理其实很简单:
AI同时执行两件事——一次参照你的提示词进行降噪,一次不参照提示词进行降噪。两次结果的差异,就是"你的文字对画面有多大的影响力"。CFG Scale就是这个差异的放大倍数。
CFG值如何选择?
CFG 1-5:AI比较随性,你说"橘猫"它可能画成老虎
CFG 7-12:比较顺从,日常使用这个区间
CFG 15以上:AI用力过度,色彩会过度饱和,画面反而失真
所以并非越高越好。7到12之间,是最佳区间。
还有一个关键点:AI并非在512×512=26万个像素上逐个修改,它足够聪明,不会做这种笨拙的工作。
它先将图像压缩成一种"摘要",技术术语叫潜在空间(Latent Space)。可以类比为图片的DNA:一个64×64×4的小方块,蕴含着整张图的核心信息。AI在这个小方块上进行降噪处理,完成后再"解压"还原为完整图像。
潜在空间:从压缩摘要到完整图像的"解压"过程
这就是为什么即梦、可灵等工具能在普通手机上运行:它们不在26万像素上操作,而是在一个压缩了64倍的空间里工作,最后再还原。
算力需求降低了,速度自然就提升了。
你可能会想,我只是想创作图片,为什么要了解这些?
两个实际的好处。
第一,调整参数不再是盲目猜测。了解CFG是"顺从度调节器",你就不会一味追求高数值;了解步数是"雕刻精细度",日常25-30步就足够,无需等待100步。
第二,出现问题能准确诊断。图片模糊,可能是步数不足;图片过饱和,可能是CFG过高;图片与提示词不符,可能是提示词与模型理解的"表达方式"不一致。
不需要记忆那些公式。记住"雕刻"和"食谱"这两个比喻,你在使用AI绘画时,就已经比90%的人更清醒了。