做出虛擬網紅的三大關鍵:人物、場景、聲音的一致性攻略

研究虛擬網紅的三大核心挑戰:人物一致性、場景一致性、聲音一致性,以及如何用 Nano Banana、Gemini、ElevenLabs 等工具逐一克服。

做出虛擬網紅的三大關鍵:人物、場景、聲音的一致性攻略
虛擬網紅三大關鍵

我研究怎麼做出一個自己的「數位人」,這件事已經研究了非常久。

從最早開始關注這個領域,我就發現技術其實一直在演進,但過去的問題真的很多——成本太高、跟本人的相似度不夠、聲音聽起來不自然,而且這些問題的改善速度一直都很緩慢。

但到了今天,我可以很有信心地說,八九成的問題已經逐漸被克服了。

以下是我目前的觀察跟實際研究的分享。

第一關:人物的一致性

首先,人物一致性這件事,Nano Banana 已經幫你解決了大半。

在製作數位人的過程中,你要去描述每一個分鏡的畫面,核心就是「人、事、時、地、物」再加上鏡頭角度,用這些元素去鎖住你的畫面。

這部分需要長期測試,我目前也還在觀摩一些做得好的大 V,他們到底是怎麼下 Prompt 的。

但以目前的模型能力來講,人物一致性的問題,其實已經算是解決了。

第二關:場景的一致性

這是我覺得比較有趣的挑戰。

當你拍了一個人在客廳的畫面,要怎麼確保後面每一個鏡頭的客廳場景都能維持一致呢?

我觀察到一個很聰明的做法:那些大 V 的工作流中,他們使用 Gemini 1.5 Flash,把一張場景圖丟進模型之後下 Prompt,要求它從不同視角跟鏡頭角度去描述這個場景。

產出 10 個不同的 Prompt 之後,再分別用這些文字 Prompt 去生成 10 張場景圖。

也就是說,透過一張參照圖加上不同角度的描述,從各個視角去模擬出這個場景的樣子。

我覺得這方法非常聰明,因為要讓模型理解一個它沒看過的場景,確實是個大挑戰。

過去我一直用 reference 同一張場景圖的方式,但總是會有一些無法控制的部分。

而在 NanoBanana 裡,它不只能做 reference,還能根據文字描述對參考圖做出合理的推算與延伸。這種處理方式非常值得學習。

第三關:聲音的一致性

這也是我一直在思考的:當你有了不同的場景、也產出了這些影片片段,那聲音呢?

要怎麼在不同片段中,維持同一個人的聲音特色?

這裡用到的是 ElevenLabs 的 Voice Convert。

只要你能複製自己(或別人)的聲音,把 AI 產生的語音傳入後,就能轉換成對應的目標聲音。

但在轉換之前,有一個關鍵步驟:人聲分離

流程是這樣的:先把原始音訊中的人聲分離出來,接著用純人聲轉換成目標人聲,最後再把轉換後的人聲還原回原本的環境音中,合成一條新的音軌。

透過這個流程,你才能真正完成「人物一致 × 場景一致 × 聲音一致」的完整效果。

打通這條路,你就不用親自出面了

當然,這些東西都還需要更多實驗去驗證。

但我覺得這是一個非常關鍵的里程碑——如果你能打通這整條流程,以後拍片的時候就不用親自出面,而是讓你的「複製人」出來幫你引導。

到那時候,腳本的設計跟整個場景的營造,就是下一個需要花功夫的地方了。

我的目標是把成本壓在每分鐘 50 元以內,就能完成這整件事。

也歡迎跟我交流你是怎麼做到這個數位人的,我真的很想把這件事做出來。