让AI听懂你:绘画提示词的实用心法
跟你们说个真事儿。
我想让AI给我生成一张“一家三口在樱花树下野餐”的图,寻思着发朋友圈应该挺好看。结果AI给了我一张——樱花树长在野餐布上,小孩有七根手指,而妈妈的胳膊肘朝外弯了45度。
盯着那张图看了半天,我分不清它到底是在敷衍我,还是在创作某种后现代恐怖艺术。
后来我意识到一个残酷的事实:AI根本不懂这个世界是什么样子的,它只是在玩“元素拼图”。你给的信息越模糊,它拼得就越离谱。
那有没有办法让它“听懂人话”?折腾了不少回,我总结出一套还算好用的方法。分享给你们。
别管网上那些花里胡哨的教程,你先把这句话记下来:
画什么 + 在干嘛 + 在哪儿 + 什么风格 + 画质要多好
就这么简单。我们对比一下效果。
你输入:画一只猫
AI的理解是:猫 → 随便什么猫 → 随便在哪 → 随便什么风格 → 随便什么质量。
然后你就得到了一个长着狗鼻子、有三条尾巴的“猫科未知生物”。
但如果改成:
一只胖橘猫,眯着眼睛趴在窗台上晒太阳,午后阳光从百叶窗缝隙照进来,吉卜力动画风格,高清8K
AI收到的信息就变成了:主角明确、状态具体、环境清晰、风格统一、质量达标。
你说得越像“人话”,它翻译得就越准确。这跟跟外国人说话一个道理——你词汇量越大,对方越不容易会错意。
光有公式还不够。下面这几招是我翻车无数回之后才摸索出来的,属于“用过就回不去”的那种。
第一个:一定要告诉AI“不要什么”
这是最容易被忽略但效果最明显的一招。
你光说“画一只手”,AI满脑子都是“手手手”,然后给你塞满各种手的可能性——六根的、长在脚踝上的、手指头分不开的。
你加上一句“不要畸形的手、不要多指、不要模糊”,效果立竿见影。有同行做过测试,加了负面提示词之后,合格率能从六成出头拉到将近九成。
操作起来很简单,在提示词末尾加上:
--no bad anatomy, extra fingers, deformed hands, low quality
中文模型就直接写:不要畸形, 不要多指, 不要模糊, 不要水印
第二个:重要的词往前放
AI读提示词是按顺序“理解”的,越靠前的词权重越高。
如果你想画“宇航员骑着恐龙在火星上”,那就把“宇航员”和“恐龙”放在最前面,把“火星”往后搁。否则AI可能给你画一个火星人骑着宇航员形状的恐龙——别笑,这事儿真发生过。
第三个:给关键词“加磅”
不同的工具有不同的加磅方式,但思路是一样的——哪个元素最重要,就给它“加个鸡腿”。
比如用Stable Diffusion,你可以写 (宇航员:1.3),意思就是让AI多花30%的精力在这个词上。用Midjourney则是通过--iw参数控制对参考图的依赖程度。
这块儿不同工具不太一样,你们用到哪个再细查就行。关键是记住“权重”这个概念,知道可以主动控制AI的注意力分配。
到了这个层面,你已经不是在“提需求”了,而是在“导戏”。
你可以告诉AI用什么镜头——特写还是广角,光线是黄昏的金色逆光还是阴天的柔光,色调是青橙对比还是黑白胶片。
举个例子:
穿红裙子的女孩,在雨夜的霓虹灯下回头,电影级光影,浅景深,背景有虚化的车流灯光
和
女孩,红裙子,夜晚,好看
这两者出来的效果,完全不在一个维度上。
这些词不复杂,平时看电影的时候稍微留意一下字幕里的描述词,积累下来就够用了。
第一个是“喂图”——把你喜欢的图丢给AI,让它参考着画。
Midjourney新版本里有个叫全能参考(--oref)的功能,参考得非常精准。你给它一张你喜欢的构图,它能学个七八成。
第二个是“反向破译”——看到一张别人生成的图特别喜欢,但又不知道提示词怎么写的?
用个叫CLIP Interrogator的工具,它能帮你把图片“翻译”回提示词。相当于抄学霸作业的时候,顺便看看人家的解题思路。
AI绘画这事儿,本质上是一个沟通问题,不是技术问题。
你越把它当“人”来沟通,它就越不给你整那些六指琴魔的烂活儿。你把画面在脑子里先过一遍,然后用上面的公式和技巧翻译给它听,它大概率能给你一个交代。
当然,偶尔翻车也是难免的。我上周还收到过一张“宇航员的头盔里装满了咖啡”的图——我要的是“宇航员在火星上喝咖啡”。
但我已经懒得生气了,毕竟它确实把“咖啡”和“宇航员”都凑齐了。只是按照它的睡梦逻辑,擅自进行了一次元素大乱炖。
这大概就是跟AI合作的真相吧——你永远不知道它这次是把人类进化史倒放了,还是把宇宙基本常数给篡改了。
但至少,用对方法之后,翻车的次数会少很多。