AI工作流真正的差距:在验收能力
这不是官方素材,是AI生成的。但它不像以前那类一眼就能识破的AI画面——画里有商品、有版式、有品牌露出,甚至还凭借模型的推理做出了两个品牌联名的饮品。你明知道它可能是假的,但初看时不会觉得“假”得明显。
这张图本身不是重点。真正重要的是它传递出来的信号:广告视觉最表层的语言,AI已经能跟上。品牌露出的顺序怎么摆、产品关系怎么组织、版式秩序怎么排、拍摄质感怎么呈现——它不一定把底层逻辑完全吃透,但它已经能做出那套“像真的”样子。
对普通人来说,这也许只是个段子。可对做品牌和campaign的人来说,这件事值得认真对待。
不过,我今天要追问的就不是“AI能不能画图”。我更想弄清楚:当AI把一个还没想清楚的方向包装得像已经能拿去提案,你还能不能准确判断它到底靠不靠谱?
我先抛出一个概念——中间生产层。
过去要把一个还没真正落地的campaign做得像已经发生过,主要靠设计师用经验一层层垫出来:找参考、拼图、修图、调色、排版。它们未必等同于战略或大创意,但却是让方向能够被看见、被讨论的必要劳动。
AI出现以后,被压缩的正是这一步。
有设计师把Image2直接接进真实的工作流里,两天就做出了三条风格线和四个可以拿来讨论的画面:一条偏插画感,一条偏实拍广告感,还有一条超现实特摄风。四张KV的完成度很高,而且每条风格线都不是草稿——从模糊想法推进到三套完整的视觉语法,只用两天。
这并不只是“提效”。更像是把中间生产层直接补齐了。
在旧世界里,草稿往往是粗糙的。粗糙有它的好处:错的方向通常一眼就能看出来——构图不对、比例失衡、调性跑偏。但如今AI能把这些粗糙部分补得更像样,让一个还没想清楚的方向,看起来仿佛已经做完、已经能交付。
生成这边的成本在下降,验收那边的成本却在上升。
这就是AI时代工作流里最容易被忽视的一次关键转折。
在这里,我看到一个有点反直觉的机制,我把它称作"体面错误陷阱"。
在商业设计里,很多糟糕的方案并不是“丑到没法看”。它更常见的状态是——"挺好的"。看起来完整、看起来能提案、看起来还能直接发群。因为没有明显硬伤,大多数人就会顺着它继续往下走。但它可能只是品类里的平均水平——平台上见过一万次的广告感,一个不会出错、也不会留下记忆的方案。
Image2最擅长的,恰恰就是这种东西:把画面做“满”,把质感拉齐。
它会补齐元素、把质感拉到位,把光影调得像正经广告。但它往往不会主动追问你:这次活动为什么偏偏要由这个品牌来做?这个画面有没有一个能让消费者记住的关键动作?
更值得警惕的是:以前一个错误方向往往会死在草图阶段——因为太粗糙,所以很快就被发现不对。而现在,错误方向可以穿上完整的“外套”,直接出现在会议里。
它拥有光影、有角色、有文案区、还有社媒封面,甚至能配出一整套看上去成体系的资产。它未必更正确,但它更有说服力。
当视觉完成度很高时,还会带来心理层面的沉没成本——一旦一张图看起来已经投入很多,你就更不容易当场开口说“它不对”。
于是,"体面"之后是否否掉它,就需要更硬的理由。否掉一张粗糙草图,大家往往更容易接受;可否掉一张看起来已经很完整的图,就得把它到底哪里不对讲清楚。
不能只停在"我觉得不对"。你需要给出更具体的判断:主动作没讲清楚、活动的记忆点不够、视觉语言过于像竞品。
换句话说,AI不是让设计师解释得更少了,而是让设计师更需要解释。
这种机制并不只存在于设计圈。
代码、内容、策略——只要是任何AI能加速执行的领域,都要面对同样的矛盾:生成变快了,但验收并不会跟着变快。AI把执行成本压低了,却把判断成本顶了上来。
Karpathy在一次演讲里提到过一个判断,我越想越觉得有道理。
他说,新的10x工程师,并不一定是会写代码的人。
更准确地说,是那些能做下面这五件事的人:规范、监督、审查、评估、权限管理。
其中没有一件是“写代码本身”。
规范,是定义什么该做、什么不该做。监督,是确保执行过程符合预期。审查,是判断产出是否真正解决了问题。评估,是建立一套标准用来衡量质量。权限管理,是确定谁来承担决策后的后果。
你认真看这五件事——它们的核心都不在"生成",而在"判断"。
这条逻辑在AI Agent的设计领域同样能找到对应。真正做过多Agent系统的人都知道,难点往往不在于让Agent去调用工具、并行执行、协同工作。最大的困难是:当多个Agent各自产出结果时,你信哪个?你如何判断它们输出的质量?又怎么知道什么时候该让人介入,什么时候该继续让流程跑下去?
代理式AI公司的实践者也给过一个很明确的结论:评估、监控、黄金数据集、失败回归测试,比追新框架重要十倍。他们的意思是:只要你有一套可靠的评估体系,你可以随时换框架;但如果缺少这套体系,任何新框架都可能把你带去错误的方向。
AI使用水平被拆成十级分层,Level 6往往是一个分水岭。
Level 5及以下更像是"会用工具":掌握基础提示,能完成日常的简单任务。Level 6则是"会用系统":用更系统化的提示进行多轮迭代,像是在指挥AI一样推进。Level 7是"会用流程":AI深度嵌入工作流,能自我优化提示,并把重复任务自动化起来。
从Level 6开始,真正的分界线已经不再是"会不会用工具"。
而是"能不能判断AI的输出质量"。
我拿自己的内容工作流举个例子。
今年我把公众号写作流程Skill化了:做出一套可复用的Bingo公众号写作Skill,覆盖账号定位、读者画像、内容标准、审核标准。之后每次写稿都会触发Skill,让AI按规则自动运转。
效果很直观:生成速度提升了、结构一致性提升了、格式规范性也更稳定了。
但真正卡住我的,不是让AI先写出一版。
而是判断这版到底能不能发。
AI当然能生成标题,但它不知道这个标题有没有偏离我账号的核心主轴——AI工作流、自动化实战、内容系统、项目复盘。它可能写出传播性很强、却完全不贴合定位的标题。
AI也能生成正文,但它可能会写成一篇偏泛AI认知的内容:讲的是"AI时代判断力很重要",而不是"Bingo研究的是工作流节点"。读者看完也许只会记住“判断力重要”,却不会记住“这是做AI工作流的人写的”。
AI还能生成CTA,但它不清楚我到底是承接咨询、订阅,还是别的什么路径。
每一次验收,本质上都在追问几个问题:它有没有偏离我的主轴?它有没有写成公共答案?它有没有作者自己的痕迹?它有没有把下一步的承接铺好?
这些判断,AI本身帮不了我。
最终那一步——敢不敢点发送——仍然得由人来拍板。
我越来越觉得,一个工作流跑不跑得通,最后看的是验收节点,而不是生成节点。
在Skill化的过程中,我总结出了五个验收问题,每次让AI输出完成后都会逐条过一遍。
第一个:目标有没有被正确理解?
不要只问AI"你觉得对不对"。要追问的是:它有没有理解我真正想解决的核心问题?有时AI给出的内容语法正确、结构完整、格式规范,但它解决的却是另一个问题。验收的第一步,就是确认输出针对的是正确的“题目”。
第二个:输出能不能直接进入真实流程?
AI擅长生成,但它不知道你的下游是什么系统。这版内容能不能立刻发出去?还是需要人工再调一遍,才能进入你的发布环境?需要改的部分有多大?如果调整成本太高,这个输出就还不能算作真正完成。
第三个:证据和