2025年AI影片真實挑戰:4步驟克服連貫性難題,遠非頭條所說的取代好萊塢

2025年AI影片真實挑戰:4步驟克服連貫性難題,遠非頭條所說的取代好萊塢

YouTube頻道主Jeff Su在最新影片中直擊AI影片生成的現實面,粉碎了媒體頭條中「AI即將取代好萊塢」的迷思。作為一位專注AI工具實戰的內容創作者,Su透過生動示範和簡單類比,揭示AI影片雖強大卻受限於「連貫性」瓶頸。他強調,目前AI能輕鬆產生逼真片段,但要串聯成完整故事,仍需特定工作流程。這不僅適用於YouTuber或電影製作者,更為2025年AI應用提供實用洞見。

Jeff Su一開頭就駁斥媒體炒作,他表示:「如果你相信頭條,好萊塢電影產業將在幾分鐘內被AI取代。但事實上,我們還遠遠不夠。」

Su使用ChatGPT類比說明AI的強項與弱點:當要求ChatGPT撰寫電視劇開場場景時,它能在數秒內產生包含設定、角色和劇情的腳本;續寫下一場景時,AI能「記住」前情,維持角色、設定和故事的一致性。這突顯AI在文字生成上的連貫優勢。

然而,轉移到影片領域,情況大不同。Su指出,連貫性是AI影片生成的最大障礙。即使使用先進工具如Google的Veo app(Su稱之為Flow),AI也難以維持跨場景的角色外貌、聲音和背景穩定。

示範AI影片的強大與局限

Su親自示範使用Veo app重現達斯維德(Darth Vader)場景:一個僅8秒的片段,維德走向鏡頭,伴隨火花音效和逼真聲音,說出「我是你的母親」。他透露:「只要付費使用Veo app,並輸入特定提示詞,任何人能在5分鐘內生成此片段。」

這證明AI影片模型「極其強大」,能產生高細節、高寫實的內容。但當Su試圖延續場景——讓維德舉起紅色光劍說「準備好挨打吧」——結果慘不忍睹:光劍出現在錯誤手上,維德外貌變樣,聲音不一致,背景完全更換。

Su總結:「影片模型不記得先前生成的細節。即使重複相同提示描述維德,AI仍會產生略有差異的角色,破壞跨場景連貫性。」這是典型「角色不一致」問題,凸顯AI從單場景到多場景的轉型挑戰。

OpenAI Sora 2的進展與侷限

影片錄製後,OpenAI推出Sora 2,針對連貫性問題新增功能。Su補充說明:Sora 2包含「Cameo」功能,使用真實人物或寵物的臉部和聲音錄製,維持跨場景一致;以及「Recut」功能,將前幾秒片段載入下一個提示,確保連續性。

然而,Su強調:「這些功能不取代我即將分享的工作流程。」Cameo僅限真人與寵物,無法廣泛應用於虛構角色;Recut雖有助連續,但仍需生成角色、撰寫提示、修復音頻等步驟。Su預測,Sora 2是進步,但僅為工作流程的一環。

4步驟工作流程:實現角色視覺與聲音連貫

Su分享從零創作兩個小品(skit)的實戰流程,主角為Google Gemini吉祥物,維持跨場景一致。整個過程強調工具次要、工作流程為主。他使用免費或付費工具,證明門檻不高。

步驟1:生成角色靜態影像

首先,使用Google的免費影像生成工具Whisk(基於Imagen 3模型)產生角色。Su輸入提示詞生成Gemini吉祥物影像,設定中關閉「精準參考」以給AI創作自由。結果顯示,首批生成即高品質,若不滿可重跑。

專業提示:若需微調,如「將毛色改為白色漸層橙」,啟用精準參考,Whisk能僅變更指定部分,維持角色一致。Su表示:「這得益於Google的Imagen 3模型,在靜態影像中維持角色連貫極為出色。」所有方法免費,無需贊助。

步驟2:建立起始畫面

在Whisk中,將步驟1的角色影像上傳為「主體」,啟用精準參考,輸入場景提示(如吉祥物與女職員辦公對話)。這確保角色外貌固定。Su生成多批,選取最佳者作為第一個影片的起始畫面。

為證明設定重要性,Su關閉精準參考重試相同提示:結果角色外貌混亂,甚至同一批次不一致。重複流程為第二場景(與男職員互動)生成起始畫面,維持吉祥物一致。

步驟3:生成影片片段

轉至Google Veo app(Su使用付費V3品質模型,免費用戶的V3 Fast同樣適用)。選擇「畫面轉影片」模式,上傳起始畫面,輸入詳細提示(如對話與動作)。設定為橫向、每提示產生4個輸出,提高可用率。

Su示範第一場景:吉祥物回應「找昨天郵件」時顯示廣告。首批中一輸出失敗(動作不符),但其他三個可用,他選最佳者下載。第二場景類似,吉祥物回應播放影片時插入廣告。兩個片段串聯後,視覺連貫,但聲音仍不一致。

提示撰寫訣竿:Su使用自製Gemini Gem(自訂AI助手),上傳起始畫面與Veo介面截圖,輸入劇本,Gemini輸出優化提示。Su提供連結讓觀眾免費試用。

步驟4:統一聲音與後製

使用11 Labs工具處理音頻一致。Su上傳第一片段影片,選擇「怪物聲」(Malvorax)替換吉祥物聲音,生成新音檔。重複第二片段,使用相同聲音。

最後,在Final Cut Pro等編輯軟體中:分離原片不一致音頻,僅替換吉祥物台詞為新聲音,保留真人聲線;添加辦公環境音效。成品兩個小品串聯,吉祥物視覺與聲音完美連貫。

Su補充:此流程可擴展至多角色(Whisk上傳多主體);第三方工具如OpenArt、Hygenura雖方便,但仍需手動修復,且不易上手。

結論:AI影片的未來與實踐建議

Jeff Su總結,AI影片模型已極其強大,但僅為工具,需透過工作流程整合多工具優勢:Whisk生成角色與起始畫面、Gemini優化提示、Veo產生影片、11 Labs統一聲音、最後編輯整合。這不僅解決連貫性,更讓業餘者創作專業級內容。

面對2025年AI進展,Su提醒:別被頭條迷惑,專注學習工具強項與流程,將開啟無限創作可能。你是否準備好嘗試?這不僅是技術革命,更是內容創作者的轉型契機。

參考資料:YouTube影片連結 https://www.youtube.com/watch?v=0-0gFuDwmXI

Read more

Claude 的 Project、Skill、Connector 到底怎麼分?一次搞懂三者的關係

Claude 的 Project、Skill、Connector 到底怎麼分?一次搞懂三者的關係

很多人問我,在 Claude 裡面,Project、Skill、Connector 這三個東西到底差在哪裡? 什麼時候該用哪一個? 老實說,我一開始也搞得很混亂。 但實際用了一段時間之後,我發現其實邏輯很簡單。 先從最基本的開始:Connector 是對外的資料來源 如果你需要從外部拿資料,比如說接 Google Calendar、接 Notion、接你自己的資料庫,你就需要 Connector。 它就是一個 MCP 的連結,讓 Claude 可以去外面抓資料回來。 沒有 Connector,Claude 就只能用它自己知道的東西,沒辦法碰到你的資料。 Skill 則是內部的運算邏輯 Skill 沒有辦法對外連接。 它只能在內部用 Python 或程式碼執行。 你可以把它想成是一個 Controller,專門負責處理運算的部分。 比如說,你想讓 Claude 用特定的格式改寫文章、

By Andy Lin
讓 AI 認識你 — Memory is All You Need

讓 AI 認識你 — Memory is All You Need

讓 AI 認識你 — Memory is All You Need 最近我在 Claude 上快速搭建了七大 Agent。 原因很簡單:你的助理應該是越使用越懂你。 而 Claude Project 有個關鍵功能叫 Memory,它會根據你不斷詢問的過程,主動提取記憶。 這就是我認為 AI 助手真正強大的地方。 GA 分析助手:從進階到客製化 自從我串接 GA MCP 後,這位助手已經變得非常厲害。 漏斗分析、訪客來源、異常事件追蹤、站上任何問題都難不倒它。 但我想要的不只是這些。 我希望它隨著時間,能夠對齊我的知識,知道我要什麼。 你不用想太多,不用一次設定好整個 instructions。 試著使用一週,再回頭看看 memory,你會發現它已經根據你的行為開始學習客製化了。 許多助手不需要懂老闆要什麼,但網站分析不一樣。 因為我沒有那麼多美國時間,

By Andy Lin
AGI 來臨:兩大 AI 巨頭的預測與警示

AGI 來臨:兩大 AI 巨頭的預測與警示

在近期的達沃斯論壇上,Anthropic 執行長 Dario Amodei 與 Google DeepMind 執行長 Demis Hassabis 進行了一場關於「AGI 之後的世界」的深度對談,揭示了 AI 發展的最新進展與未來展望。 AGI 時間線預測 Dario 重申了他去年的預測:在 2026-2027 年,AI 模型將能夠在諸多領域達到諾貝爾獎得主的水準。他表示目前 Anthropic 的工程師已經不再親自寫程式碼,而是讓模型來完成編寫工作,人類只負責編輯和周邊任務。他預估在 6-12 個月內,模型將能端到端完成大部分工程師的工作。 Demis 則持稍微保守的態度,認為在十年內有 50% 的機會實現 AGI。他指出編程和數學領域較容易自動化,因為結果可驗證;但自然科學領域則更具挑戰性,需要實驗驗證,且目前模型在「提出問題」和「建立理論」

By Andy Lin
讓 AI 當你的健康顧問:我用 Apple Watch 數據打造個人健康分析 Agent

讓 AI 當你的健康顧問:我用 Apple Watch 數據打造個人健康分析 Agent

最近我嘗試做了一個 Agent,專門用來分析我的身體健康狀況。 這不是什麼有商業潛力的專案,純粹是出於好奇。 我想知道現在的 AI 到底能幫我們把健康分析做到什麼程度。 資料從哪來? 要讓 AI 分析任何東西,首先得有資料。 我第一個想到的就是 Apple Health。 因為我每天戴著 Apple Watch,它本來就會自動記錄睡眠、運動、心跳這些數據。 除此之外,我也在嘗試另一個經絡檢測的儀器,有點像中醫把脈的概念,只是還沒整合進來。 我覺得如果未來能把更多資料源串在一起,應該可以做出更有意思的應用。 技術架構其實不難 我用了一個叫「Apple Health Auto Export」的 App。 這個 App 可以把健康資料透過 REST API 自動傳送到你指定的伺服器。 資料打到伺服器後,我再處理並存到 Database 裡。 接著寫一個 MCP Server,然後在

By Andy Lin