做出虛擬網紅的三大關鍵:人物、場景、聲音的一致性攻略
研究虛擬網紅的三大核心挑戰:人物一致性、場景一致性、聲音一致性,以及如何用 Nano Banana、Gemini、ElevenLabs 等工具逐一克服。
我研究怎麼做出一個自己的「數位人」,這件事已經研究了非常久。
從最早開始關注這個領域,我就發現技術其實一直在演進,但過去的問題真的很多——成本太高、跟本人的相似度不夠、聲音聽起來不自然,而且這些問題的改善速度一直都很緩慢。
但到了今天,我可以很有信心地說,八九成的問題已經逐漸被克服了。
以下是我目前的觀察跟實際研究的分享。
第一關:人物的一致性
首先,人物一致性這件事,Nano Banana 已經幫你解決了大半。
在製作數位人的過程中,你要去描述每一個分鏡的畫面,核心就是「人、事、時、地、物」再加上鏡頭角度,用這些元素去鎖住你的畫面。
這部分需要長期測試,我目前也還在觀摩一些做得好的大 V,他們到底是怎麼下 Prompt 的。
但以目前的模型能力來講,人物一致性的問題,其實已經算是解決了。
第二關:場景的一致性
這是我覺得比較有趣的挑戰。
當你拍了一個人在客廳的畫面,要怎麼確保後面每一個鏡頭的客廳場景都能維持一致呢?
我觀察到一個很聰明的做法:那些大 V 的工作流中,他們使用 Gemini 1.5 Flash,把一張場景圖丟進模型之後下 Prompt,要求它從不同視角跟鏡頭角度去描述這個場景。
產出 10 個不同的 Prompt 之後,再分別用這些文字 Prompt 去生成 10 張場景圖。
也就是說,透過一張參照圖加上不同角度的描述,從各個視角去模擬出這個場景的樣子。
我覺得這方法非常聰明,因為要讓模型理解一個它沒看過的場景,確實是個大挑戰。
過去我一直用 reference 同一張場景圖的方式,但總是會有一些無法控制的部分。
而在 NanoBanana 裡,它不只能做 reference,還能根據文字描述對參考圖做出合理的推算與延伸。這種處理方式非常值得學習。
第三關:聲音的一致性
這也是我一直在思考的:當你有了不同的場景、也產出了這些影片片段,那聲音呢?
要怎麼在不同片段中,維持同一個人的聲音特色?
這裡用到的是 ElevenLabs 的 Voice Convert。
只要你能複製自己(或別人)的聲音,把 AI 產生的語音傳入後,就能轉換成對應的目標聲音。
但在轉換之前,有一個關鍵步驟:人聲分離。
流程是這樣的:先把原始音訊中的人聲分離出來,接著用純人聲轉換成目標人聲,最後再把轉換後的人聲還原回原本的環境音中,合成一條新的音軌。
透過這個流程,你才能真正完成「人物一致 × 場景一致 × 聲音一致」的完整效果。
打通這條路,你就不用親自出面了
當然,這些東西都還需要更多實驗去驗證。
但我覺得這是一個非常關鍵的里程碑——如果你能打通這整條流程,以後拍片的時候就不用親自出面,而是讓你的「複製人」出來幫你引導。
到那時候,腳本的設計跟整個場景的營造,就是下一個需要花功夫的地方了。
我的目標是把成本壓在每分鐘 50 元以內,就能完成這整件事。
也歡迎跟我交流你是怎麼做到這個數位人的,我真的很想把這件事做出來。