讓 Claude 幫你做影片，這件事真的可能嗎？

讓 AI 做影片有幾個很明顯的好處：自動選擇最佳模型、省去大量人工活、串接整個製作流程。本文分享各生圖和影片模型的差異，以及如何用 vpick 讓 Claude 幫你做影片。

06 Mar 2026 — 4 min read

AI 做影片的痛點

你有試過用 AI 來做影片嗎？如果有，你大概知道那個過程有多折騰。

先選一個生圖工具，想好 prompt，生成一張圖片，下載下來，覺得不滿意再重來。好不容易圖片弄好了，接著要去另一個平台生成影片，上傳剛才的圖片，設定運鏡參數，等幾分鐘出結果。然後你發現角色長得不一樣了，場景風格對不上，於是又回去重做。

每一個步驟都是手動的，每一次來回都在消耗你的耐心。

讓 AI 做影片有幾個很明顯的好處。

第一，它可以知道所有模型各自的優缺點，進而調用最合適的那個。你不用再自己去比較哪個工具生圖好、哪個做影片穩定，AI 可以根據你的需求自動選擇。

第二，它省去了大量的人工活。生成 prompt、產生語音、複製貼上到各平台、下載素材、合併剪輯——這些瑣碎的工作，其實 AI Agent 之間互相溝通就能完成。

第三，AI 可以串接整個製作流程。從腳本、導演企劃、分鏡，到實際的圖片生成和影片合成，每個環節都可以用不同的 skill 來處理。你只需要把重點放在「我要講什麼故事」，而所有執行面的拍攝工作，都讓 AI 來幫你完成，再由你進去確認每一個環節就好。

Nano Banana 是一款很適合做一致性調整的模型。它能在不改變人物的情況下，更換衣服或指定的細節，這在需要角色一致性的影片製作中非常有用。

Midjourney 在保持亞洲人風格方面表現不錯，API 使用成本也相對便宜。雖然沒辦法讓人物一模一樣地出現在新圖片中，但它可以維持類似的風格和拍攝質感。

Grok 是一個非常物美價廉的生圖服務。它的價格比 Midjourney 和 Nano Banana 低了將近十分之一，如果你有興趣，真的要試試看。

Google VEO 3.1 是目前的品質首選。它可以精準控制首尾幀的固定，還能透過參照讓人物、場景、物品保持一致性，這些都能得到很好的效果。

可靈 3.0 也能做到類似的事情，而且秒數控制更靈活彈性。你甚至可以要求在同一個短片中有不同的運鏡，也就是不同的 Story。

另外像是 Midjourney、Runway 和 Grok，也都是物美價廉的選擇。有的可能因為便宜而無法產出聲音，有的可能無法在同一個 Story 中呈現不同運鏡。但不同情境下，你可能會需要不同的模型。

這裡介紹一個工具叫 vpick。它是一款可以讓大語言模型透過 MCP Connector，知道所有可以利用的模型，進而建立工作流程的平台。

它讓這些生圖、生影片的模型有所參照，甚至可以直接生成和合併影音素材。Claude 裝 Connector 也不難，把 MCP 連結貼到 Connector 就可以了。裝好之後就能直接下指令，讓 Claude 根據你要的場景去生成不同的圖片。

1. 管理模型開關：把比較常用到的模型打開，不需要的先關掉。這樣可以避免模型產生幻覺，也不會因為拿到錯誤的模型而造成不必要的花費。

2. 選擇操控方式：Claude 有 Chat、Claude Code 和 Claude CoWork 幾種模式。比較建議用 Claude Code 來操控 MCP，因為它比較不會中斷，Opus 模型也比較不會產生幻覺。

3. 建立自動化流程：當你運行順利以後，可以再把整個流程調整成一個 Claude 的 instruction。隨著你不斷地來回互動，你會越來越熟悉各個模型擅長的地方。

立即開始打造你的第一個影片製作助理吧！