AI绘画的真相：它不是在画，而是在雕

发布时间：2026-06-13 02:07阅读：30

你有没有思考过这样一个问题：你输入一段文字，短短几秒后一张图片就出现了，这个过程究竟是如何实现的？

当我第一次尝试用AI创作图像时，感觉这就像是魔法一样。输入"一只橘猫在阳光下小憩"，眨眼间，一张毛茸茸的猫咪图片就呈现在眼前。但随着使用次数增多，我越来越好奇它的工作原理是什么？后来花了大量时间查阅资料，终于弄清楚了一个大致的框架。今天用最通俗的方式分享给大家。

这个发现相当颠覆认知。我们常说"AI绘画"，但AI所做的事情，与人类手握画笔作画完全是两码事。

它更接近雕刻。

米开朗琪罗曾说过："雕像本来就存在于石头中，我只是把多余的部分去除。"AI所做的正是如此：从一块充满随机噪点的"石块"中，将不需要的噪声一点点剔除，剩下的就是你想要的图像。

每张由AI生成的图片，起始点都是一张纯噪声图像。就像电视失去信号时出现的雪花屏幕那样。

这个过程在技术领域被称为"扩散"（Diffusion）。可以这样理解：

想象一滴墨水落入清水。墨水逐渐扩散，最终均匀分布在水中，你再也看不出原本墨滴的形态。这就是"正向扩散"，即从清晰的图像转变为纯噪声。

AI执行的是相反的操作：从纯噪声出发，逐步还原出墨水的轮廓。这便是"反向扩散"，也就是AI"创作"图像的核心机制。

每一步降噪，AI都在预测：这片噪声之下，大概应该是什么？预测一次就去除一层，经过数十步之后，一张清晰的图片就逐渐显现了。

从噪声到清晰图像的扩散过程示意

只会雕刻石头还不够，你还必须清楚要雕刻出什么样的形态。这正是文字提示词的作用。

AI中有一个组件叫CLIP，你可以把它想象成一个"双语翻译员"：一边理解你所说的"橘猫"，一边明白橘猫长什么样子。它把你的文字转换为一组数字，这组数字如同食谱一般，引导AI在每一步降噪时"对照参考"。

技术层面上这叫做"交叉注意力"（Cross-Attention）。简而言之就是：AI每雕刻一刀之前，先查看你提供的食谱，"哦，这个位置应该有猫耳朵，那个位置是阳光"。

你写的提示词越详尽，食谱就越丰富，AI雕刻得就越精确。

使用过即梦或Stable Diffusion的人可能见过CFG Scale这个参数（没接触过也没关系，知道有这么个概念即可）。它究竟是什么？

CFG的全称是Classifier-Free Guidance，名字听起来很复杂，原理其实很简单：

AI同时执行两件事——一次参照你的提示词进行降噪，一次不参照提示词进行降噪。两次结果的差异，就是"你的文字对画面有多大的影响力"。CFG Scale就是这个差异的放大倍数。

CFG值如何选择？

CFG 1-5：AI比较随性，你说"橘猫"它可能画成老虎

CFG 7-12：比较顺从，日常使用这个区间

CFG 15以上：AI用力过度，色彩会过度饱和，画面反而失真

所以并非越高越好。7到12之间，是最佳区间。

还有一个关键点：AI并非在512×512=26万个像素上逐个修改，它足够聪明，不会做这种笨拙的工作。

它先将图像压缩成一种"摘要"，技术术语叫潜在空间（Latent Space）。可以类比为图片的DNA：一个64×64×4的小方块，蕴含着整张图的核心信息。AI在这个小方块上进行降噪处理，完成后再"解压"还原为完整图像。

潜在空间：从压缩摘要到完整图像的"解压"过程

这就是为什么即梦、可灵等工具能在普通手机上运行：它们不在26万像素上操作，而是在一个压缩了64倍的空间里工作，最后再还原。

算力需求降低了，速度自然就提升了。

你可能会想，我只是想创作图片，为什么要了解这些？

两个实际的好处。

第一，调整参数不再是盲目猜测。了解CFG是"顺从度调节器"，你就不会一味追求高数值；了解步数是"雕刻精细度"，日常25-30步就足够，无需等待100步。

第二，出现问题能准确诊断。图片模糊，可能是步数不足；图片过饱和，可能是CFG过高；图片与提示词不符，可能是提示词与模型理解的"表达方式"不一致。

不需要记忆那些公式。记住"雕刻"和"食谱"这两个比喻，你在使用AI绘画时，就已经比90%的人更清醒了。