标签

利用5张参考图制作AI旅行短片

发布时间:2026-05-31 00:28来源:微信阅读:4

📖 文章大纲 • 提示词架构 • 五张分镜参考图 • 核心原理

📖 文章大纲

• 提示词架构

• 五张分镜参考图

• 核心原理

我创作了一支AI旅行影片,核心是依靠五张参考图作为分镜。

制作流程:生成底图 → 设定动画参考 → 编写电影级提示词 → 生成15秒片段 → 拼接成完整视频。

AI视频想出好片,参考图绝不能仅仅追求“视觉美观”。

每张参考图必须明确界定:

• 角色设定 —— 保持同一人,每一帧都得是她

• 服装统一 —— 衣着、发型、配饰,全程锁定

• 场景背景 —— 不是“一个城市”,是“雨夜的重庆山城”

• 拍摄手法 —— 手持vlog?电影推拉?手机自拍?

• 情感基调 —— 孤独?兴奋?紧张?

• 动作指令 —— 人物在干嘛?跑?转身?拿杯子?

少写一个维度,AI就会“放飞自我”——第三秒换了衣服,第七秒脸歪了,最后一秒场景跑偏。

每段15秒的提示词,按时间点拆解成镜头:

image1为角色,重庆山城夜景,层叠立交桥、防空洞、霓虹灯牌密集排列,手机vlog风格。锁定同一成年女性:丸子头、白色短袖crop top、黑色工装背带裤、帆布鞋、手腕上缠着耳机线。朋克但不装,像本地人下班乱逛。

0-2秒 · 楼梯口自拍 极近距离自拍,身后是重庆特有的那种看不到头的石梯。霓虹招牌从头顶漏下来,她擦了一把汗,对着镜头翻了个白眼。 台词(方言感普通话):“又走错了。” 2秒处失真吉他riff落下,硬切。

2-4.5秒 · 穿楼而过 手持跟拍,她穿过一栋居民楼的底层通道——重庆那种“一楼出来是马路,十楼出来还是马路”的魔幻结构。通道尽头突然打开,整个渝中半岛的夜景铺在脚下。 音效:脚步回响、摩托车引擎从远处穿过、火锅店排风扇嗡嗡声。

4.5-7.5秒 · 街头快剪 - 防空洞火锅店门口,蒸汽从半掩的帘子里涌出来,她探头看了一眼 - 轻轨从头顶居民楼之间穿过,她举手机拍,头发被气流吹起来 - 洪崖洞对面的马路边,她蹲着吃一碗酸辣粉,辣椒油映着身后的金色灯光

7.5-11.5秒 · 江边台阶 中景,手持但稳了。她坐在南滨路的江边台阶上,脚悬着,身后是千厮门大桥和对岸的高楼灯光倒映在江面。4秒内从全身缓缓推到侧脸。江风把碎发吹到嘴角。 台词(安静地):“重庆这个城市,导航没用。” 音乐为这句降下来,只剩江水声,然后重新推起。

11.5-15秒 · 最后一跳 快切:索道车厢里她贴着玻璃往下看、从缆车出来时差点绊倒笑了、鹅岭二厂天台上她张开手臂。最后镜头:空旷的天台栏杆边,她回头看镜头,嘴角一歪,然后画面切到她身后的万家灯火。最后0.3秒定格在远处一盏霓虹灯牌熄灭的瞬间。

image1为角色,苏州园林场景,拙政园/留园那种假山回廊、荷塘月色,阴天小雨。白色棉麻衬衫、浅灰阔腿裤、编了一半的侧辫、布包、一把深色长柄伞。静谧的vlog日记风格,不是游客打卡,是本地人偷溜进去发呆。

0-2秒 · 月亮门自拍 透过圆形月亮门拍的自拍。雨丝斜着飘进来,她把伞夹在肩上,另一只手举手机。背景是模糊的太湖石和竹林。 台词(轻声):“下雨天园林没人,赚到了。” 2秒处古琴泛音+轻电子beat起。

2-4.5秒 · 回廊漫步 中远景手持跟拍,她沿着曲折回廊走。廊外荷塘雨点打出一圈圈涟漪,她停下来伸手接了一下雨水,手指尖特写0.5秒。然后继续走,转角消失在廊柱后面。 音效:雨打芭蕉叶、木屐踩石板、远处评弹隐约传来。

4.5-7.5秒 · 三个静物 - 假山石缝里长出来的一株青苔,镜头停留1秒,然后摇到她蹲着看的脸 - 荷叶上一颗水珠滚落的特写,她在画面边缘,没注意到镜头在拍她 - 茶室窗口,她端着一杯碧螺春,蒸汽上升模糊了她的眼睛

7.5-11.5秒 · 听雨亭 侧面中景,慢推4秒。她坐在石亭里,伞收了靠在柱子上,布包放在膝盖上。她没在看手机,就是看着雨从亭檐滴下来。远处有一对老人撑伞走过石桥,她目送了一下。 特效提示:雨帘在亭檐前形成自然水幕,不加任何后期光效。 台词(没有台词,只有呼吸和雨声)。

11.5-15秒 · 走出园林 快切:她起身撑伞、雨中石板路的脚步特写、园林门口石狮子上的水痕、她撑伞走入巷子的背影。最后镜头:巷子尽头她回头,雨还在下,对镜头轻轻点了个头,像是“你也该来”。最后0.4秒定格在巷口一盏还没灭的路灯上。

image1为角色,大理古城+周边白族村落集市,苍山洱海远景,扎染布、鲜花饼摊、银器铺。白族风格刺绣马甲+白色打底长裙+草编凉鞋+斜挎民族风布包。阳光高原感,俏皮手机vlog风格,手忙脚乱的那种真实感。

0-2秒 · 菜市场自拍 菜市场门口的极近距离自拍。身后是堆成山的野生菌,她举着一朵鸡枞凑到镜头前,表情是“你看看这个!” 台词:“七块钱一斤!深圳要七十!” 2秒处欢快的手鼓+笛子beat落下。

2-4.5秒 · 扎染翻车 手持跟拍,她在白族阿奶的扎染摊上学扎布。手忙脚乱地绑绳子,阿奶在旁边笑着摇头。布散开了——染料溅到了她的马甲上。她低头看了一眼,抬头对着镜头:“完了。” 音效:布料撕扯声、阿奶笑声、远处集市叫卖。

4.5-7.5秒 · 集市快剪 - 鲜花饼摊前她咬了一口,酥皮碎了一身,手忙脚乱拍掉 - 银器铺里她试戴一个手镯,卡住了,使劲拔 - 一个白族小朋友抱着一束花跑过,她蹲下来想说话,小朋友跑了

7.5-11.5秒 · 洱海边 中景手持,突然安静了。她坐在洱海边的堤岸上,脚垂着,鞋脱了放在旁边。4秒内从全身推到她看着湖面的侧脸。苍山在对面,云很低,风把她散开的头发吹过脸。 台词(安静了):“扎染那件衣服……算了,就这样吧。” 音乐切到安静的吉他,湖水声进来。

11.5-15秒 · 骑车回去 快切:她骑着小电驴在洱海边的路上、风把裙摆吹起来她用手按住、路过一片油菜花田她回头看了一眼、古城城门口她停下来买了一个烤乳扇。最后镜头:她骑车消失在古城巷子里,扎染的污渍在马甲上清晰可见。最后0.3秒定格在巷子尽头的苍山剪影。

image1为角色,拉萨老城区,八廓街清晨,转经道、甜茶馆、经幡、大昭寺金顶。藏红色围巾、深蓝冲锋衣、牛仔裤、登山靴、一个磨损的帆布腰包。非游客视角,是住了一段时间的人那种松弛感。手持手机镜头,高原晨光,冷色调但有温度。

0-2秒 · 甜茶馆自拍 甜茶馆里的极近距离自拍。光线从窗户进来,她面前放着一杯甜茶和一个藏式包子。她咬了一口包子,对着镜头含糊不清地说。 台词(嘴里有东西):“一块钱一杯,一块钱。” 2秒处低沉的手鼓+弦子起。

2-4.5秒 · 跟着转经的人走 手持跟拍,她走在八廓街上,混在清晨转经的藏族老人中间。她没在转经,只是跟着人流走,偶尔侧身让过磕长头的人。阳光从街尽头斜着打进来,所有人都带着长长的影子。 音效:念经声、转经筒哗哗声、靴子踩石板、远处寺庙法号。

4.5-7.5秒 · 三个发现 - 她蹲在一个卖绿松石的地摊前,拿起一串珠子对着光看 - 一面经幡墙前她站着不动,风把经幡吹到她脸上,她笑着拨开 - 一个老阿妈递给她一块糌粑,她学着捏了一下,形状很丑,两个人都笑了

7.5-11.5秒 · 大昭寺广场 中景手持,较稳。她坐在大昭寺广场的台阶上,双手抱着膝盖。4秒内从全身推到中近景。晨光很柔,打在她侧脸上。身后来来往往的人,但她的节奏很慢。 台词(自言自语):“来了八天了,还没去布达拉宫。” 说完自己笑了。音乐在她笑的时候轻轻推了一下。

11.5-15秒 · 走回巷子 快切:她起身走、路过一面涂着白蓝红三色的藏式窗户、买了第二杯甜茶端着走、拐进一条安静的小巷。最后镜头:巷子深处她停下来,回头看了一眼大昭寺方向的金顶,阳光刚好从屋檐角切过来。最后0.5秒定格在金顶反光和她眯起眼的表情上。

image1为角色,长沙夜市/坡子街/太平老街,霓虹灯牌密集、小吃摊蒸汽弥漫、人群嘈杂。白色吊带背心+高腰阔腿牛仔裤+人字拖+手腕上的运动手环。手机vlog,边吃边拍,吃货暴走风格。

0-2秒 · 臭豆腐摊自拍 臭豆腐摊前的极近距离自拍。油锅在身后滋滋响,她用竹签戳了一块臭豆腐举到镜头前,酱汁快滴下来了。 台词:“闻着臭吃着香,老台词了但它是真的。” 2秒处踩点beat落下。

2-4.5秒 · 挤进人群 手持跟拍,她挤进太平老街的人潮。两侧全是灯牌和招牌,蒸汽从各个摊位冒出来。她侧身让过一个举着糖葫芦的小孩,镜头被人群挤得晃了一下。 音效:人群嘈杂、叫卖声、油炸声、远处有人在唱K。

4.5-7.5秒 · 小吃快剪 - 茶颜悦色门口排长队,她踮脚看了一眼队伍长度,转身走了 - 糖油粑粑摊前她接过来,咬了一口烫到了,吸着气说“烫烫烫” - 口味虾摊前她戴上手套,刚剥了一只,虾汁溅到脸上了

7.5-11.5秒 · 江边消食 中景手持,节奏慢下来了。她坐在湘江边的台阶上,手里还端着半杯奶茶。4秒内从全身推到侧脸。江面上有游船的灯光在晃,远处是橘子洲的方向。 台词(摸着肚子):“不行了,还有三家没吃。” 音乐降下来,只剩江水声和远处的喧嚣。

11.5-15秒 · 继续吃 快切:她站起来走回夜市方向、路过一个烤串摊又停下了、接了一把刚烤好的牛肉串、边走边吃回头对镜头竖了个大拇指。最后镜头:她消失在蒸汽和灯光交织的人群里。最后0.3秒定格在一个还在滋滋冒油的铁板上。

旧法是写模糊描述让AI瞎编。新法是你当导演,AI当摄影师。

时间码精准控制节奏 —— 每个镜头精确到0.1秒,AI不会自己决定“这里该停3秒还是5秒”。

音效与台词融入提示词 —— AI视频模型会参考提示词里的声音描述来决定画面运动节奏。写上“鼓点落下”、“鞋底拍打湿路面”,镜头的起承转合会跟着走。

连续性约束 —— 每段结尾加一句 “same outfit, no logo, no readable text, no face drift”。没有这句,第10秒大概率出事。

参考板定义一致性,而非单纯美观 —— 角色长什么样、穿什么、在什么世界里、镜头怎么动。一张图把这些全锁死了,后面5段视频才能串成一个人的故事。

本文方法参考了某位网友分享,链接已遗失。若觉侵权,请留言联系,即刻处理。