Avatar V

終於有一個與您無法區分的 AI 虛擬人物

角色一致性是區分實用虛擬人物與噱頭的關鍵。Avatar V 能在您製作的每一個角度、每一種表情、每一條影片中，始終保持高度一致。

建立您的虛擬人物

在 G2 上評為最逼真的第 1 名虛擬人物
所有場景中的角色一致性已完成驗證
一次錄製，無限造型

什麼是 Avatar V

下一代的數碼分身

Avatar V 是 HeyGen 目前最先進的 AI 虛擬人物模型。早期的虛擬人物是從一張照片開始，為臉部加入動畫。之後出現了以影片為基礎的訓練方式，更完整地捕捉您的動作和聲線。Avatar V 更進一步：它將您的身份與外表分離，學習您獨特的動作、手勢和表情方式，讓這些動態可以套用到任何版本的您身上。

這代表您只需錄製一次，無論當時身在何處、穿著什麼。之後，您都可以在任何場景、任何服裝、任何您能想像的造型中生成自己的形象。出現在您影片中的虛擬人物不只是看起來像您而已；它的動作像您、聲音像您，並且在您創作的每一支影片中，都能精準維持這個專屬於您的身份特徵。

您不再需要專業 Studio、攝製團隊或大量拍攝素材。只需一段 15 秒的網絡攝影機錄影，就能在任何規模下製作專業級影片。

15 秒建立您的虛擬人物

絕不誇大取決於影片長度和質素

無限次背景或場景

角色一致性

改變一切的關鍵因素

角色一致性是 Avatar V 最核心的能力。這代表您的數碼分身在外貌、聲音和行為上都與您如出一轍，而且不只是在單一片段中，而是貫穿您生成的每一個場景、每一個背景、每一條影片。

角色一致性

Avatar V 在您製作的每一條影片中都保持單一且一致的身份。無論是 30 秒短片還是 10 分鐘課程單元，同一張臉孔、同樣的微表情、同樣的存在感。沒有偏移，沒有瑕疵，沒有令人不安的違和感。

戴眼鏡男子從三個角度展示，用以說明逼真的 AI 生成影片虛擬人物

多角度視角

遠景、中景到特寫，全程一致，只需一次錄製。這些鏡頭角度讓同一個虛擬人物適用於各種格式。

同一位女性以多種服飾和角色出現，突顯可用於 AI 生成行銷影片的多元人物形象。

動態場景

流暢的上半身動作、自然的互動手勢，以及在場景切換間依然保持一致的動態。這就是只會「出鏡」的虛擬人物，與真正「上台演出」的 Avatar 之間的差別。

特寫顯示一個人嘴部，配有追蹤點，用以示範 AI 驅動的口型同步以生成影片

更精準的口型同步

在所有支援語言中都達到音素級精準度。無論播放速度如何，在超過 175 種語言和方言中，您聽到的聲音與看到的畫面都能完美一致。

女子面部分成四個畫面，分別展示開心、傷心、驚訝和厭惡的表情，用於 AI 影片情緒控制。

面部表情精準度

自然的眉毛動作、真實的眼神交流，以及會被視為真實存在的微表情。基於超過 1,000 萬個數據點訓練而成，這些細節正是區分可信與違和感的關鍵。

關於虛擬人物模型

Avatar V 從根本上改變了 Avatar 生成模型處理身份的方式。以往的系統只會依賴單一參考畫面作為條件，而 Avatar V 則是在整段影片的完整上下文視窗中運作，讓模型可以有選擇地關注您錄製內容中最關鍵、最具資訊價值的片段。

選擇性注意機制會在多個畫面之間提取關鍵的身份特徵訊號，包括嘴唇幾何形狀、臉部輪廓結構以及表情變化模式，同時自然地抑制因姿勢、光線或遮擋而導致訊號品質下降的畫面。最終得到的是一個更豐富、具有時間基礎的身份嵌入，能在整個生成過程的上下文中持續保持一致。

這種有針對性的跨畫面聚合機制解決了「身份漂移」問題——即在單幀條件系統中，參考身份與生成結果之間隨時間逐步偏離，從而削弱角色一致性的現象。Avatar V 能在不同場景、鏡頭角度以及長時段影片中，持續維持穩定的身份表徵，而無需額外微調或新增參考輸入。

三個培訓階段

模型首先在同一場景內學習忠實複製面部外觀，為身份保真打下穩固基礎，然後再引入任何跨場景的複雜度。

然後對模型進行訓練，以縮窄參考影片與目標場景之間的領域差距；即使背景、光線和姿勢分佈各不相同，亦能在不同場景之間實現穩健的自適應。

在最後階段，我們透過以人為本的獎勵信號進行針對任務的強化學習，最大化身份相似度，確保生成的虛擬人物與真實人物的外貌和特徵盡可能接近。

Avatar IV 與 Avatar V 比較

邁向更具意義的新一步

Avatar IV 已能生成可辨認的輸出。Avatar V 則能生成幾乎無法與真人區分的輸出。關鍵差異在於全新的參考架構：它不是只依賴單一畫面，而是以您的整段影片作為條件，從中提取更豐富的身份特徵數據，並消除不同場景之間的偏移。

參考輸入

短影片剪輯（15 秒）

身份保留

強（影片語境模型）

跨場景生成

原生，單次處理

自然動作與手勢

從真實影片動作中學習而成

長篇內容一致性

穩定支援超過 30 分鐘

錄製需求

15 秒網絡攝像頭片段

多角度 Studio 輸出

支援

功能

Avatar V

Avatar IV

參考輸入

短影片剪輯（15 秒）

單張相片

身份保留

強（影片語境模型）

部分（基於照片）

跨場景生成

原生，單次處理

需要兩階段流程

自然動作與手勢

從真實影片動作中學習而成

由相片製作動畫效果

長篇內容一致性

穩定支援超過 30 分鐘

效果隨時間下降

錄製需求

15 秒網絡攝像頭片段

單張相片上載

多角度 Studio 輸出

支援

不支援

運作方式

由網絡攝影機到數碼分身，只需四個步驟

無需 Studio、無需攝影團隊、無需複雜設備設定，只要您和一部網絡攝影機。

步驟 1

錄製 15 秒自己的影片

打開您的手提電腦鏡頭，錄製一段自己自然說話的短片。無需特別燈光或額外設備。

Benefit 1 visual

步驟 2

Avatar V 訓練您的分身

模型會將您的影片作為完整的上下文視窗來處理，學習您的外貌、表情、手勢和動作模式。

Benefit 2 visual

步驟 3

選擇您的場景

任意選擇背景：專業 Studio、品牌辦公室、戶外場景，或自訂環境。無論身在何處，您的身份都與您同行。

Benefit 3 visual

步驟 4

生成並分享

輸入您的腳本，按需要生成任意長度的影片。畫質不會下降，而且您的虛擬人物在整段影片中都保持一致。

Benefit 4 visual

專為……而設

在任何需要您的場景中，大規模展現您的分身

無論是單一的新員工入職影片，還是一整個本地化內容庫，Avatar V 都能輕鬆應付龐大製作量。

培訓與入職

培訓與入職

一次建立完整的培訓資料庫，之後只需更新個別模組，無需重新錄製。您的團隊每次都能獲得一致且符合品牌形象的培訓指引。

銷售賦能

銷售賦能

只需錄製一次開發客戶影片，然後即可大規模個人化。Avatar V 能在每一次外展中維持您的專業形象與可信度。

本地化

本地化

先用英文製作影片，然後由 Avatar V 以超過 175 種語言配上精準口型同步，確保您的訊息在全球各地都能以同樣方式傳達。

思想領導力

思想領導力

持續發佈內容，無需承受頻繁錄製的麻煩。您的想法、您的面孔、您的專業可信度，都能以您的觀眾所期望的節奏準時送達。

創辦人及高層溝通

創辦人及高層溝通

無需長期待在錄音室，也能在您的公司中保持存在感。按照您的時間安排發佈內部更新、產品公告和投資者訊息。

產品營銷

產品營銷

將書面內容轉化為以影片為先的訊息傳遞。示範講解、功能發佈和客戶教育，全都可以由您的「本人出鏡」來呈現。

開始使用 AI 製作影片

了解與您相似的企業如何利用最創新的 AI 影片擴大內容製作規模並推動業務增長。

CTA background

CTA background