如何用 Sora 2 + n8n AI 代理，把影片成本降6倍、產量放大10倍？完整新手實作解析

Andy Lin

24 Oct 2025 — 9 min read

導言：Sora 2正席捲網路，能把文字、圖片、名人臉孔直接變成可上線的短影片。Nate Herk 在教學影片中示範如何把 Sora 2 與自動化工具 n8n（他稱為 NADN）串接，聲稱可以「取得10倍產出、更高品質、無浮水印，且透過 Key.ai 使用 Sora 2 比 OpenAI 直接呼叫便宜6倍」。本文將從連線設定、範例工作流程、提示工程到錯誤處理逐步解析，並以數據與引言突顯關鍵步驟，幫助你把這套系統從 Proof‑of‑Concept 做到可量產化。

關鍵數據：Key.ai 對 Sora 2 的收費為 1.5 美分／秒（$0.015/sec）；相比之下，FAL / OpenAI 為 10 美分／秒（$0.10/sec）。
換算：10 秒影片在 Key.ai 僅需 $0.15；在 FAL/OpenAI 則約 $1.00 —— 相當於「6 倍」成本優勢。
Nate 指出：「如果你用 Key.ai，這 10 秒的影片只會花 15 美分，而在 Fowl 或 OpenAI 那邊會花到 1 塊美元。」（原話：“If we make a 10‑second video, that's only going to cost us 15. Whereas on Fowl or OpenAI, that 10‑second video would cost us a dollar.”）
實務建議：註冊 Key.ai 後先充值少量（例如 $5）測試即可，並在平台取得 API key 用於自動化流程。

2. 在 n8n 裡的 API 串接核心步驟（一步步）

流程概述：在 Key.ai 的 Model Marketplace 找到 Sora 2（text-to-video、image-to-video、Pro、storyboard 等型式），複製 request 的 curl 範例，然後在 n8n 用 HTTP Request 節點選「Import curl」自動填入。
驗證與安全：
將 Authorization header 設為 Bearer （注意空格），建議在 n8n 建立一個通用憑證（generic header），命名為例如 keyai，以免每次重複貼 API Key。Nate 示範：「為名稱輸入 authorization，值為 capital B bearer space + API key」，然後儲存為 keyai。
必備欄位範例（JSON body 範圍）：
model: e.g., "sora-2-text-to-video" 或 "sora-2-image-to-video"
prompt: 文字提示（必填）
aspect_ratio: 可選（portrait/landscape）
number_of_frames: 10 或 15（可選）
remove_watermark: true / false（可移除浮水印）
image_urls:（image→video 時需為公開可存取的 URL）

3. 非同步處理模式：Task ID + Polling（如何確保影片產出完成）

兩階段請求模式：
1) 發送產生請求 → 回傳 task_id（代表已排入生成）
2) 以 query task endpoint 用 task_id 持續查詢狀態，直到 state == "success"（或處理 "failed"）
Nate 示範 Polling 的作法：每 10 秒做一次狀態檢查直到成功。優點是避免固定等待時間被誤判（如單純等待 4 分鐘可能不足或浪費），缺點是會造成多次 API 查詢。
實測數據範例：Nate 的紀錄顯示過去執行時間包括 195s、227s；一支任務實際經歷 18 次檢查約 180s；Storyboard 類型任務可能長達 500–700 秒（或更久，示範中出現 740 秒、甚至 35 分鐘的情形）。

4. 範例解析：文字→影片（text-to-video）

最小測試：只用「a video of a young man throwing a coffee mug against the wall」這類簡短描述會得到粗糙輸出（慢動作、聲音不同步）。Nate 指出：「你真的不能期待沒有好提示就得到好結果。」
重要參數：aspect_ratio（若要 TikTok／Reels 選 portrait）、number_of_frames（10 或 15）、remove_watermark=true。
結果觀察：在加入完整提示工程前，影片可能「慢、聲音怪」，但基本功能完整（可下載有 / 無浮水印的兩個 URL）。

5. 進階應用一：圖片→影片（image-to-video）與 UGC 廣告自動化價值

工作流程差異：將 model 改為 image-to-video，於 body 傳入 image_urls（公開 URL），並在 prompt 中指定「產品不應改變、必須與來源圖一致」。
UGC 廣告關鍵：Nate 以 Curl Cream（假想產品）示範，生成「真人風格 selfie‑style 的女性在車內推薦產品」影片，並指定台詞：「I absolutely love this curl cream. It keeps my hair bouncy…」
限制與觀察：
來源圖不得為真實人物（Sora 2 會拒絕 realistic person 的圖片）；Nate：「you can't have it be a person in the image」——V3 在某些情況下更寬鬆。
第一個畫面往往會顯示原始靜態圖（首毫秒為原圖），目前可能需後製裁切。
實務價值：可持續以自家產品圖產出大量 UGC 影片（省去僱演員、場景、錄音等成本）。

6. 進階應用二：名人 Cameos 與故事板（storyboards）

Cameos：Sora 平台上使用者可上傳「cameo」資料，公開互動後他人即可透過 username（例如 Sam A）在生成影片時指定該名人的臉部/聲音風格。Nate 示範 Sam Altman 的 cameo，影片「看起來像他、聲音也近似」，但系統對名人使用會較敏感、會拒絕較大或奇怪的請求（會有內容限制）。
Storyboard：可以把一支影片分成多個 scene，並對每個場景指定時長，總時長可選 10、15 或 25 秒，且各場景時長需加總為總時長。Nate 示範用三個 scene 且維持同一角色的一致性（例如「青蛙找尋寶藏」），但 Storyboard 任務通常是最耗時（示範中有 500–700s、甚至 35分鐘的情況）。
風險：Key.ai 在高流量時段或複雜 Storyboard 請求可能回 500 Internal Server Error。

7. 提示工程（Prompting）：用 AI Agent 自動把草稿變成專業攝影指令

原理：在 n8n 中建立一個「提示工程 AI 代理」（agent），系統提示（system prompt）會要求該代理扮演「專業 AI 影片提示工程師」，把簡短的原始概念自動擴充為高度細節化的影片提示。Nate 的規則包含必須描述：主要對象（外觀、服裝、年齡、表情、動作）、場景（位置、背景、光線、時間）、攝影風格（鏡頭角度、鏡頭焦段、移動方式）、整體調性與導演註記等。
成效比較（同一原始輸入）：
不經過優化的原始提示輸出：「Sora 2 is now available on Kai AI making it easier than ever to create stunning videos. You can experiment...」——基本可用，但較平淡。
經過代理優化後輸出：加入「lively cinematic classroom shot」「wide shot 24mm tripod dolly」「medium two‑shot 35mm gentle handheld」「reaction close‑ups 50mm」「lip sync」「directorial notes」等多段鏡頭說明，結果影片更有電影感、剪接更生動。Nate 評語：「第二支感覺更具戲劇性與鏡頭切換。」
建議：針對用途（UGC 廣告、VFX、故事板）去微調 agent 的規則庫，並配合產品資料表（Google Sheet）自動產出一系列影片腳本與提示。

8. 資料清理（避免 JSON 被破壞）與常見錯誤處理

問題來源：AI agent 輸出常包含換行符（newlines）或雙引號，這會破壞 JSON 字串格式，導致請求失敗。
解法：在 n8n 的表達式或變數處理步驟使用 replace 函數：
移除換行（\n）與回車，並移除雙引號（"），確保送出的 prompt 為單行、無破壞字元的字串。Nate 示範：先把 agent 輸出 show 出來，再對其做 replace，右側可看到清潔後的結果。
常見錯誤碼與成因：
500 Internal Server Error：通常是 Key.ai / Sora 伺服器端錯誤（過載、外部雲端中斷）或特定內容被內部拒絕。
內容被拒（限制）：系統可能因為政策或名人肖像保護而拒絕某些請求（尤其是 cameos 或 realistic persons）。
錯誤處理建議：在工作流程中加入 Switch 或 If 節點：檢查 state 為 success、generating 或 failed，若 failed 則觸發通知（Email / Slack /重試機制 / 記錄日誌）。

9. 實務建議與量產化考量（商業面）

成本估算示例：以 10 秒影片為單位，在 Key.ai 為 $0.15；若每天產出 100 支 10 秒 UGC 廣告，單日成本約 $15；相同產量在其他平台可能為 $100。
產能與品質：結合提示工程 agent，可把原始概念放大成具體攝影描述，進一步提升影片品質並降低人工成本（不需外拍、演員、場景租借等）。Nate 指出：「如果你懂得提示，能為企業省下大量時間與成本，還可以賺很多錢。」（原話大意）
風險管理：考慮 API 呼叫速率限制、伺服器穩定性、浮水印與肖像授權問題，以及生成內容的合規審查（避免違規內容被拒）。

結論與延伸思考

重點總結：
成本：Key.ai 呼叫 Sora 2 價格約為 1.5¢/秒，比 OpenAI / FAL 的 10¢/秒低約 6 倍（示例：10 秒 $0.15 vs $1）。
工作流程：用 n8n 結合 HTTP Request 節點採「發請求 → 取回 task_id → Polling 查狀態」的常見模式。
產能提升：透過 AI 代理（提示工程）可從「單句想法」自動產出專業級提示，實務上可顯著提升輸出品質與產量（Nate 宣稱「10 倍產出」為目標定位）。
風險與限制：Storyboard 任務耗時長且更容易遇到 500 錯誤；cameos 與人像處理有使用限制；需做好錯誤與內容審查機制。
思考題（給決策者）：你是否已具備穩定的素材（產品照、品牌聲音、ICP 定義）來建立批量生成流程？若是，這套技術能否把拍片成本與時間縮到你可接受的範圍，並轉化為實際營收？
參考與進一步資源：Nate 提供了完整的 n8n JSON 模板與社群教學，加入其 free school 可下載範例並取得設定指南（影片說明欄中有連結）。

參考資料：YouTube — Nate Herk | AI Automation：Create ANYTHING with Sora 2 + n8n AI Agents (Full Beginner's Guide)
https://www.youtube.com/watch?v=Vm8QOo9MiC4