做出虛擬網紅的三大關鍵：人物、場景、聲音的一致性攻略

研究虛擬網紅的三大核心挑戰：人物一致性、場景一致性、聲音一致性，以及如何用 Nano Banana、Gemini、ElevenLabs 等工具逐一克服。

11 Mar 2026 — 4 min read

我研究怎麼做出一個自己的「數位人」，這件事已經研究了非常久。

從最早開始關注這個領域，我就發現技術其實一直在演進，但過去的問題真的很多——成本太高、跟本人的相似度不夠、聲音聽起來不自然，而且這些問題的改善速度一直都很緩慢。

但到了今天，我可以很有信心地說，八九成的問題已經逐漸被克服了。

以下是我目前的觀察跟實際研究的分享。

第一關：人物的一致性

首先，人物一致性這件事，Nano Banana 已經幫你解決了大半。

在製作數位人的過程中，你要去描述每一個分鏡的畫面，核心就是「人、事、時、地、物」再加上鏡頭角度，用這些元素去鎖住你的畫面。

這部分需要長期測試，我目前也還在觀摩一些做得好的大 V，他們到底是怎麼下 Prompt 的。

但以目前的模型能力來講，人物一致性的問題，其實已經算是解決了。

這是我覺得比較有趣的挑戰。

當你拍了一個人在客廳的畫面，要怎麼確保後面每一個鏡頭的客廳場景都能維持一致呢？

我觀察到一個很聰明的做法：那些大 V 的工作流中，他們使用 Gemini 1.5 Flash，把一張場景圖丟進模型之後下 Prompt，要求它從不同視角跟鏡頭角度去描述這個場景。

產出 10 個不同的 Prompt 之後，再分別用這些文字 Prompt 去生成 10 張場景圖。

也就是說，透過一張參照圖加上不同角度的描述，從各個視角去模擬出這個場景的樣子。

我覺得這方法非常聰明，因為要讓模型理解一個它沒看過的場景，確實是個大挑戰。

過去我一直用 reference 同一張場景圖的方式，但總是會有一些無法控制的部分。

而在 NanoBanana 裡，它不只能做 reference，還能根據文字描述對參考圖做出合理的推算與延伸。這種處理方式非常值得學習。

這也是我一直在思考的：當你有了不同的場景、也產出了這些影片片段，那聲音呢？

要怎麼在不同片段中，維持同一個人的聲音特色？

這裡用到的是 ElevenLabs 的 Voice Convert。

只要你能複製自己（或別人）的聲音，把 AI 產生的語音傳入後，就能轉換成對應的目標聲音。

但在轉換之前，有一個關鍵步驟：人聲分離。

流程是這樣的：先把原始音訊中的人聲分離出來，接著用純人聲轉換成目標人聲，最後再把轉換後的人聲還原回原本的環境音中，合成一條新的音軌。

透過這個流程，你才能真正完成「人物一致 × 場景一致 × 聲音一致」的完整效果。

當然，這些東西都還需要更多實驗去驗證。

但我覺得這是一個非常關鍵的里程碑——如果你能打通這整條流程，以後拍片的時候就不用親自出面，而是讓你的「複製人」出來幫你引導。

到那時候，腳本的設計跟整個場景的營造，就是下一個需要花功夫的地方了。

我的目標是把成本壓在每分鐘 50 元以內，就能完成這整件事。

也歡迎跟我交流你是怎麼做到這個數位人的，我真的很想把這件事做出來。