让AI听懂你：绘画提示词的实用心法

发布时间：2026-06-20 15:36阅读：1

跟你们说个真事儿。

我想让AI给我生成一张“一家三口在樱花树下野餐”的图，寻思着发朋友圈应该挺好看。结果AI给了我一张——樱花树长在野餐布上，小孩有七根手指，而妈妈的胳膊肘朝外弯了45度。

盯着那张图看了半天，我分不清它到底是在敷衍我，还是在创作某种后现代恐怖艺术。

后来我意识到一个残酷的事实：AI根本不懂这个世界是什么样子的，它只是在玩“元素拼图”。你给的信息越模糊，它拼得就越离谱。

那有没有办法让它“听懂人话”？折腾了不少回，我总结出一套还算好用的方法。分享给你们。

别管网上那些花里胡哨的教程，你先把这句话记下来：

画什么 + 在干嘛 + 在哪儿 + 什么风格 + 画质要多好

就这么简单。我们对比一下效果。

你输入：画一只猫

AI的理解是：猫 → 随便什么猫 → 随便在哪 → 随便什么风格 → 随便什么质量。

然后你就得到了一个长着狗鼻子、有三条尾巴的“猫科未知生物”。

但如果改成：

一只胖橘猫，眯着眼睛趴在窗台上晒太阳，午后阳光从百叶窗缝隙照进来，吉卜力动画风格，高清8K

AI收到的信息就变成了：主角明确、状态具体、环境清晰、风格统一、质量达标。

你说得越像“人话”，它翻译得就越准确。这跟跟外国人说话一个道理——你词汇量越大，对方越不容易会错意。

光有公式还不够。下面这几招是我翻车无数回之后才摸索出来的，属于“用过就回不去”的那种。

第一个：一定要告诉AI“不要什么”

这是最容易被忽略但效果最明显的一招。

你光说“画一只手”，AI满脑子都是“手手手”，然后给你塞满各种手的可能性——六根的、长在脚踝上的、手指头分不开的。

你加上一句“不要畸形的手、不要多指、不要模糊”，效果立竿见影。有同行做过测试，加了负面提示词之后，合格率能从六成出头拉到将近九成。

操作起来很简单，在提示词末尾加上：

--no bad anatomy, extra fingers, deformed hands, low quality

中文模型就直接写：不要畸形, 不要多指, 不要模糊, 不要水印

第二个：重要的词往前放

AI读提示词是按顺序“理解”的，越靠前的词权重越高。

如果你想画“宇航员骑着恐龙在火星上”，那就把“宇航员”和“恐龙”放在最前面，把“火星”往后搁。否则AI可能给你画一个火星人骑着宇航员形状的恐龙——别笑，这事儿真发生过。

第三个：给关键词“加磅”

不同的工具有不同的加磅方式，但思路是一样的——哪个元素最重要，就给它“加个鸡腿”。

比如用Stable Diffusion，你可以写 (宇航员:1.3)，意思就是让AI多花30%的精力在这个词上。用Midjourney则是通过--iw参数控制对参考图的依赖程度。

这块儿不同工具不太一样，你们用到哪个再细查就行。关键是记住“权重”这个概念，知道可以主动控制AI的注意力分配。

到了这个层面，你已经不是在“提需求”了，而是在“导戏”。

你可以告诉AI用什么镜头——特写还是广角，光线是黄昏的金色逆光还是阴天的柔光，色调是青橙对比还是黑白胶片。

举个例子：

穿红裙子的女孩，在雨夜的霓虹灯下回头，电影级光影，浅景深，背景有虚化的车流灯光

和

女孩，红裙子，夜晚，好看

这两者出来的效果，完全不在一个维度上。

这些词不复杂，平时看电影的时候稍微留意一下字幕里的描述词，积累下来就够用了。

第一个是“喂图”——把你喜欢的图丢给AI，让它参考着画。

Midjourney新版本里有个叫全能参考（--oref）的功能，参考得非常精准。你给它一张你喜欢的构图，它能学个七八成。

第二个是“反向破译”——看到一张别人生成的图特别喜欢，但又不知道提示词怎么写的？

用个叫CLIP Interrogator的工具，它能帮你把图片“翻译”回提示词。相当于抄学霸作业的时候，顺便看看人家的解题思路。

AI绘画这事儿，本质上是一个沟通问题，不是技术问题。

你越把它当“人”来沟通，它就越不给你整那些六指琴魔的烂活儿。你把画面在脑子里先过一遍，然后用上面的公式和技巧翻译给它听，它大概率能给你一个交代。

当然，偶尔翻车也是难免的。我上周还收到过一张“宇航员的头盔里装满了咖啡”的图——我要的是“宇航员在火星上喝咖啡”。

但我已经懒得生气了，毕竟它确实把“咖啡”和“宇航员”都凑齐了。只是按照它的睡梦逻辑，擅自进行了一次元素大乱炖。

这大概就是跟AI合作的真相吧——你永远不知道它这次是把人类进化史倒放了，还是把宇宙基本常数给篡改了。

但至少，用对方法之后，翻车的次数会少很多。

← 上一篇：AI写作为何总被识破?我拆解了50篇文章,问题集中在这5处下一篇：创投圈AI周报 | 迎来AI企业上市高峰 →