用工程師的方法做 AI 影片:為什麼新手都死在最後一步,而真正的風險在第一步
多數人做 AI 影片失敗,不是因為模型不夠強,而是因為「人在錯的環節介入」。他們把 80% 的力氣花在最後一步,卻沒人在第一步把故事寫好。這篇分享我用工程師的方法,把 AI 影片產線拆成風險、從最高風險的地方開始一個一個卡死的整個邏輯。
你有沒有這樣的經驗 ——
開了 Sora、Runway、Veo,輸入第一個 prompt。
人物臉跟你想的不一樣。重生一次。場景接不起來。重生一次。運鏡像喝醉。重生一次。
兩個小時過去,你連 30 秒的成品都做不出來。
更氣的是,你看別人在社群上發的 AI 影片,人物穩定、場景連貫、運鏡精準 —— 你開始懷疑是不是自己不會下 prompt、是不是自己工具不夠多、是不是自己美感不夠好。
但這些問題,可能全部都不是重點。
我最近用 AI 做完一支戚風蛋糕的短片,從腳本到成品,整個流程一次跑完、幾乎不需要重生。成品先放在這 ——
我不是專業影片製作師,我是工程師。
而我意識到一件事 ——
多數人做 AI 影片失敗,不是因為模型不夠強,而是因為「人在錯的環節介入」。
他們把 80% 的力氣花在最後一步(挑 AI 生出來的影片有什麼問題),卻沒人在第一步把故事寫好。
這篇要分享的,不是又一篇「AI 影片教學」。是我用工程師的方法,把 AI 影片這件事拆成風險、從最高風險的地方開始一個一個卡死的整個邏輯。
新手都死在第 4 步,但風險在第 1 步
先說一個我觀察到的現象。
大部分人用 AI 生影片的方式是這樣的 ——
打開工具 → 想到一個主題 → 直接下 prompt → 生影片 → 不滿意 → 改 prompt → 再生 → 還是不滿意 → 再改 → 一直在改最後一步。
這個流程的問題在哪?
問題在於:他們把所有的決策權,全部押在「生成」這個動作上。
故事是模糊的,所以 AI 自由發揮。分鏡沒設計,所以 AI 自由發揮。角色長相不固定,所以 AI 每次自由發揮一個新版本。場景大小沒概念,所以 AI 自由發揮一個亂飄的空間。
然後到了最後一步,他們抱怨「AI 生得不好」。
問題不是 AI 生得不好,是你前面什麼都沒給它。
模型很強,但模型不會猜你的腦袋。你給它的 context 越模糊,它的自由度就越大,你能控制的就越少。
這就是為什麼 —— 你會發現,你每改一次 prompt,生出來的東西不是「更接近你要的」,而是「換了一個方向偏離你要的」。
因為你根本沒有「你要的」這個錨點。你只有「我覺得這個不對」的直覺,沒有「我要的長這樣」的明確規格。
工程師處理這種問題的方式,不是把所有風險都堆到最後一步,而是把風險前置、一個一個拆解、一個一個確認。
AI 影片產線的四個風險,從高到低
我把整個 AI 影片產線的風險,做成一張排序表。
第 1 級風險:故事腳本
這是最致命的環節,因為故事爛了,後面所有的努力都是白費。
而且這個環節,AI 完全幫不上忙。AI 可以幫你「擴寫」一個故事,但它寫不出有靈魂的故事。它寫的東西總是合理、總是順暢、但總是沒記憶點。
這一步必須由人親自完成。不是因為 AI 笨,是因為「為什麼這個故事值得被拍」這件事,只有你自己知道。
第 2 級風險:分鏡與運鏡
有了故事之後,要拆成一個一個鏡頭。每個鏡頭的景別(遠景/中景/特寫)、運鏡方式(推軌/搖鏡/靜止)、燈光、聲音、對白,都要先在文字上確認。
這一步如果跳過,AI 就會「自由發揮」 —— 你想要溫馨,它給你冷冽;你想要俯視,它給你平視。
第 3 級風險:角色、場景、物品的一致性
這就是我說的「馴化」AI。模型本身沒有物理常識 —— 它不知道你的主角長什麼樣、不知道你的廚房有多大、不知道你的牛奶瓶該多高。
如果這一步沒餵清楚,你會發現:鏡頭 1 的媽媽跟鏡頭 5 的媽媽不是同一個人;鏡頭 2 的廚房跟鏡頭 4 的廚房門窗位置不一樣;蛋糕一下大一下小。
第 4 級風險:影片生成
風險最低的一步。
因為前面三層都卡好了,這一步只是「執行」 —— 把已經確認過的腳本、分鏡、角色、場景,送進影片模型,平行生成、自動合併。
這個排序的反直覺點是 ——
新手 80% 的時間花在第 4 級,只有 5% 的時間花在第 1 級。工程師正好相反。
第 2 階段:分鏡 —— 為什麼要在文字上吵完
很多人問我:既然要做影片,為什麼不直接生圖、生影片來看?用文字討論不是很慢嗎?
剛好相反。
文字討論不慢,文字討論超快。慢的是「每生一次圖、每生一次影片,你才發現方向錯了,然後重來」。
我做戚風蛋糕這支影片的時候,先把整個 storyboard 寫成一張表 —— 你可以看下面這張圖。
每個鏡頭都標清楚:
- 景別:EWS 極遠景、MS 中景、CU 特寫、ECU 大特寫
- 運鏡:緩慢推軌、靜止鏡頭、輕微上仰
- 燈光:左側自然側光 + 粉橘晨光 + 暖白吸頂燈微補光
- 動作:媽媽雙手捧蛋、輕輕轉動端詳
- 聲音:輕柔晨鳥聲、瓦斯爐火微音、倒牛奶細膩聲
- 對白:「不能要吃的東西…」(媽媽 OS)
這張表先做完,我才開始生圖。
因為在文字階段改一個鏡頭,只是改幾個字。在影片階段改一個鏡頭,要重生整個片段。時間成本差 100 倍。
而且更重要的是 —— 文字階段你看得到「故事的整體節奏」。
15 秒的影片,5 個鏡頭,每個 3 秒,從遠景進入廚房、特寫媽媽手部、看見牛奶倒入、攪拌麵糊、最後切回媽媽滿足的微笑。
這個節奏感,你只能在文字表格上看得到。
一旦你跳進影片產線,你就會卡在「這一格畫面好不好看」,而忘了「整個故事在說什麼」。
第 3 階段:馴化 AI —— 你要餵給它的物理常識
到了第 3 階段,事情變得有趣。
所謂「馴化」AI,不是叫 AI 聽話,是讓它認識你的世界。
模型是野的、模型很強、但模型沒有物理常識。它不知道你的主角長什麼樣、不知道你的廚房有多大、不知道你的蛋糕應該多寬。
你要餵給它三件事:
1. 角色設計表
這次我做了兩個角色 —— 媽媽(character_a)和小女孩(character_b)。
每個角色都有:正面、側面、背面三個視角,加上頭部特寫和服裝細節。媽媽穿米色圍裙、粉色長袖、卡其色長褲、米白色拖鞋。小女孩黃色 T-shirt、丹寧吊帶裙、白襪、紅色小皮鞋。
這些細節都先固定下來,後面每一個鏡頭只要參照這張角色表,人物就不會變來變去。
2. 場景平面圖
光是給 AI 一張廚房照片不夠 —— 它還是會幻想出奇怪的空間。
所以我做了一張有尺寸的平面圖 —— 4m × 3m 的廚房,左側落地窗(自然光來源)、中間中島料理檯(2.5m × 0.9m)、右側烤箱、上方餐桌、下方玄關(標明小女孩進入位置)。
有了這張平面圖,AI 就有「物理性的空間概念」 —— 鏡頭 1 從哪個角度進、鏡頭 5 從哪個方向出,都不會撞牆。
3. 物品尺寸表
戚風蛋糕直徑 18cm、牛奶瓶高 19cm 容量 500ml、玻璃糖罐高 13cm 直徑 9cm、打蛋器長 24cm、雞蛋托盤 18cm x 12cm 放 6 顆蛋。
為什麼要標尺寸?
因為沒標尺寸的話,AI 會把蛋糕生成跟人臉一樣大,或者把牛奶瓶生成跟雞蛋一樣小。
模型沒有「物理常識」,你得餵給它。
工程師做創作 vs 創作者用工具
寫到這裡我必須老實說一件事。
我不是專業的影片製作師。
我從來沒念過電影、沒進過劇組、沒當過導演助理。我對運鏡、構圖、色彩學的理解,都來自我這幾個月為了做這套流程而看的網路課程。
如果你要拍一支真正的商業廣告、真正的藝術短片,你應該找專業的導演,不是找我。
但這篇文章要解決的,不是那種等級的需求。
這篇文章要解決的,是「想做影片但不敢開始」的素人。
你可能是:
- 想為自己的小生意做產品短片
- 想做一支個人品牌的開場動畫
- 想把自己的故事拍成 30 秒分享給家人
這些需求,過去都需要找專業團隊或自學一年。
現在,工程化的方法可以幫你跳過 80% 的學習曲線。
不是因為你變成專業影片人了 —— 你沒有 —— 而是因為工程思維天生擅長「把不確定性壓下來」。
專業影片人擅長的是「品味」 —— 知道什麼好看、什麼難看、什麼動人、什麼俗氣。
工程師擅長的是「拆解」 —— 把一個大目標拆成可控的小步驟、把風險前置、把錯誤隔離。
這兩種能力其實是互補的,不是衝突的。
最強的影片人,會用工程思維加速產出;最強的工程師,會學一點品味補上美感。
至於現在的我,還在這條光譜的工程師那一端。我會繼續往中間移動,但這需要時間。
如果你跟我一樣是工程背景、對影片有興趣但不敢開始 —— 我想跟你說:你不用變成影片人才能做影片。
你只需要學會用工程的方法,把你的想法,一步一步落地。
寫給跟我一樣的人
我把這整套流程,封裝成一個 Claude skill,叫做 vpick。
它會引導你跑完五個階段:
- 確認方向(直式還橫式、風格、目標)
- 從腳本生成完整 storyboard(每個鏡頭含景別、運鏡、燈光、聲音、對白)
- 馴化 AI(角色設計表、場景平面圖、物品尺寸表)
- 確認 storyboard 視覺(先看靜態圖、確認方向再動)
- 平行生成影片片段、自動合併
整個流程下來,你只需要:
- 提供你的故事(這部分 AI 幫不了你)
- 在每個階段確認方向(像專案 PM 一樣)
- 不需要懂運鏡、不需要懂 prompt 工程
如果你想要這個 skill,或這個 Claude project 的設定檔 ——
在 Threads 或 FB 留言「vpick」,我寄給你。