Avatar V

終於有一款與您本人無法區分的 AI 虛擬人物

角色的一致性，是區分實用虛擬人物與噱頭的關鍵。Avatar V 在您建立的每一個拍攝角度、每一種表情、每一支影片中，都能維持高度一致。

建立您的虛擬人物

在 G2 上評選為最逼真的第 1 名虛擬人物
已在所有場景中驗證角色一致性
一次錄製，無限造型

什麼是 Avatar V

下一代的數位分身

Avatar V 是 HeyGen 迄今最先進的 AI 虛擬人物模型。早期的虛擬人物是從一張照片開始，讓臉部產生動畫。接著出現了以影片為基礎的訓練方式，更完整地捕捉您的動作與聲音。Avatar V 更進一步：它將您的身份與外表分離，學習您精準的動作、手勢與表情方式，讓這些動態可以套用到任何版本的您身上。

這代表您只需要錄製一次，無論當下穿著什麼、身在何處。之後，您都可以在任何場景、任何服裝、任何您能想像的造型中生成自己的形象。出現在您影片中的這個虛擬人物不只是「看起來像您」的東西，它的動作像您、聲音像您，並且能在您製作的每一支影片中，精準維持這個專屬於您的身份特徵。

您不再需要專業攝影棚、攝影團隊或大量拍攝素材。只要一段 15 秒的網路攝影機錄影，就能在任何規模下製作專業等級的影片。

15 秒來建立您的 Avatar

毫不誇張取決於影片長度與品質

無限制背景或場景

角色一致性

改變一切的關鍵因素

角色一致性是 Avatar V 最核心的能力。這代表您的數位分身在外貌、聲音和行為上都與您如出一轍，而且不只是在單一片段中，而是貫穿您所建立的每一個場景、每一個背景，以及每一支影片。

角色一致性

Avatar V 能在您建立的每一支影片中，維持單一且一致的身份。無論是 30 秒的短片，還是 10 分鐘的課程單元，都是同一張臉、同樣的微表情、同樣的存在感。不會漂移、不會產生瑕疵、不會讓人感到詭異不自然。

戴眼鏡男子從三個角度呈現，用來示範逼真的 AI 生成影片虛擬人物

多種角度

遠景、中景與特寫，全都一致，而且都來自同一段錄製。這些運鏡角度讓單一虛擬人物就能完美適用於各種格式。

同一位女性以多種服裝與不同角色出現，突顯適用於 AI 生成行銷影片的多元人物形象。

動態場景

流暢的上半身動作、自然的互動手勢，以及在場景切換間依然保持一致的動態表現。這就是只會「出鏡」的虛擬人物，與真正「上台演出」的差別。

特寫顯示一個人嘴部，帶有追蹤點，用來示意以 AI 驅動的對嘴功能進行影片生成

更精準的對嘴效果

在所有支援語言中都具備音素層級的精準度。無論任何語速，在超過 175 種語言與方言中，您聽到的聲音與看到的口型都能完美一致。

女子臉部在四個畫面中分別呈現開心、難過、驚訝和厭惡的表情，用於 AI 影片情緒控制。

臉部表情精準度

自然的眉毛動作、真實的眼神交流，以及會被視為真實存在的微表情。透過超過 1,000 萬筆資料訓練，這些細節讓畫面從違和變得可信。

關於虛擬人物模型

Avatar V 在虛擬人物生成模型處理身分的方式上帶來了根本性的改變。以往的系統只會依據單一參考畫面進行運算，而 Avatar V 則是在完整的影片情境視窗中運作，讓模型能夠選擇性地關注您錄製內容中最關鍵、最具資訊量的片刻。

選擇性注意機制會在多個畫面中擷取關鍵的身分特徵訊號，包括嘴唇幾何形狀、臉部輪廓結構以及表情轉換模式，同時自然抑制因姿勢、光線或遮擋而導致訊號品質下降的畫面。最終產生的是一個更豐富、具有時間脈絡基礎的身分嵌入，並在整個生成過程的情境中持續維持一致。

這種有針對性的跨畫面聚合機制，解決了「身份漂移」問題——也就是在僅依賴單一畫面作為條件時，參考身份與生成結果之間會逐步偏離，導致角色一致性受限。Avatar V 能在不同場景、鏡頭角度以及長時間影片中，持續維持穩定的身份表徵，而無需額外微調或新增參考素材。

三階段訓練

模型首先在同一場景中學習忠實複製臉部外觀，在引入任何跨場景的複雜度之前，先為身分保留建立穩固的基礎。

接著會訓練模型，讓它能夠彌合參考影片與目標場景之間的領域差異，即使背景、光線與姿勢分佈不同，也能實現穩健的跨場景適應。

在最後階段，我們透過以人為本的獎勵訊號進行任務導向的強化學習，最大化身分相似度，確保生成的虛擬人物與真實人物的外觀盡可能接近。

Avatar IV 與 Avatar V 比較

一次有意義的躍進

Avatar IV 已能產生可辨識的輸出。Avatar V 則能產生幾乎與真人無法區分的輸出。差異在於全新的參考架構：它不是只依據單一畫面，而是以您的整支影片作為條件，擷取更完整的身份特徵資料，並消除不同場景之間的偏移。

參考輸入

短影片剪輯（15 秒）

身分保留

強（影片情境模型）

跨場景生成

原生、單次處理

自然動作與手勢

從真實影片動作中學習而成

長篇內容的一致性

穩定支援超過 30 分鐘

錄製需求

15 秒網路攝影機片段

多角度 Studio 輸出

支援

功能

Avatar V

Avatar IV

參考輸入

短影片剪輯（15 秒）

單張照片

身分保留

強（影片情境模型）

部分支援（以照片為基礎）

跨場景生成

原生、單次處理

需要兩階段管線

自然動作與手勢

從真實影片動作中學習而成

由照片製作動畫

長篇內容的一致性

穩定支援超過 30 分鐘

品質會隨時間下降

錄製需求

15 秒網路攝影機片段

單張照片上傳

多角度 Studio 輸出

支援

不支援

運作方式

從網路攝影機到數位分身，只要四個步驟

不需要攝影棚、不需要攝影團隊、不需要複雜的設備設定，只要您和一台網路攝影機即可。

步驟 1

錄製 15 秒的自我影片

打開筆電的網路攝影機，錄製一小段自己自然說話的影片。不需要特別的燈光或設備。

Benefit 1 visual

步驟 2

Avatar V 訓練您的分身

模型會將您的影片作為完整的情境視窗來處理，學習您的外貌、表情、手勢以及動作模式。

Benefit 2 visual

步驟 3

選擇您的場景

任意選擇背景：專業 Studio、品牌辦公室、戶外場景或自訂環境。無論您身在何處，您的個人識別都能隨行呈現。

Benefit 3 visual

步驟 4

建立並分享

輸入您的腳本，就能生成任意長度的影片。畫面品質不會下降，虛擬人物在整支影片中都能保持一致。

Benefit 4 visual

專為……打造

在每一個需要您的情境中，大規模發揮影響力

從單一的新人訓練影片到完整的在地化內容庫，Avatar V 都能輕鬆應付大量製作需求。

培訓與新人訓練

培訓與新人訓練

一次建立完整的訓練教材庫，之後只需更新單一模組，無須重新錄製。您的團隊每次都能獲得一致且符合品牌形象的教學內容。

銷售成效提升

銷售成效提升

只需錄製一次開發客戶影片，就能大規模個人化。Avatar V 能在每一次外聯中維持您的專業形象與可信度。

在地化

在地化

先用英文建立一支影片。Avatar V 能以超過 175 種語言呈現，並具備精準的對嘴效果，讓您的訊息在全球各地都能以同樣的方式被接收。

思想領導力

思想領導力

持續發佈內容，免去頻繁錄製的麻煩。您的想法、您的臉孔、您的專業可信度，都能以您的形象呈現，並以受眾所期待的節奏準時送達。

創辦人與高階主管溝通

創辦人與高階主管溝通

隨時在組織中保持存在感，而不必整天待在錄音室裡。依照您的時程發布內部更新、產品公告與投資人訊息。

產品行銷

產品行銷

將書面內容轉換成以影片為主的溝通方式。產品示範導覽、新功能公告與客戶教育，全都能用您的臉來呈現。

開始使用 AI 製作影片

看看與您相似的企業如何運用最創新的 AI 影片擴大量產內容並推動成長。

CTA background

CTA background