聲音複製技術

聲音複製 GPT-SoVITS 介面截圖

01. 功能概述 (Overview)

聲音複製 (GPT-SoVITS) 是一種強大的人工智慧語音生成技術。它只需要短短的 3 到 10 秒乾淨人聲,就能在瞬間模仿出該說話者的音色、語氣與腔調,並讓他講出任何您指定的文字。

本系統支援跨語系發音,您甚至可以用中文的參考聲音,讓 AI 講出流利的英文或日文!這項技術非常適合用來製作 YouTube 影片配音、電子書朗讀、或是建立個人專屬的 AI 語音助理。

02. 核心操作流程:五大區塊

1. API 連線設定

由於 GPT-SoVITS 是一個龐大的核心引擎,我們必須先啟動它才能開始工作:

2. 模型設定 (Custom Models / 選填)

如果您沒有特別需求,您可以完全留空,系統會自動使用預先訓練好的「預設官方模型」。如果您有在網路上下載或是自己訓練的模型,可以在此載入:

特別注意: 選好自訂的檔案後,您務必點擊右側的「載入選定模型」紫色按鈕,系統才真正會將模型切換進記憶體中。

🎙️ 深度觀念:為何要有「模型」與「參考音訊」?它們不是重複的嗎?

這是一個許多初學者會搞混的核心觀念。請想像 GPT-SoVITS 是一個歌手:

  1. 模型 (Model) = 歌手的天賦 (決定像不像誰):若您載入了周杰倫的自訂模型,代表這個歌手現在擁有完美模仿周杰倫的天賦。若「不載入」,系統就會用預設的素人聲音,絕對不會像周杰倫。這決定了聲音相似度的「天花板」。的確,如果您要複製特定名人的聲音,準備專屬的 GPT 與 SoVITS 模型是「必須的」
  2. 參考音訊 (Reference) = 給歌手的「起步提示」:即便歌手有了周杰倫的嗓子,每當他要開口唱新歌時,您還是得給他聽一段 3 秒的周杰倫原音。讓他知道:「喔!現在這句話要用這種語速、這個情緒、這個起步音高來念!」

👉 結論:如果您想讓周杰倫發聲,模型與參考音訊兩者缺一不可! 您必須載入周杰倫的 .ckpt 與 .pth,同時也要準備一段 3~10 秒的周杰倫乾淨人聲與其文字作為參考。

3. 參考音訊 (Reference / 必填)

這是啟動生成的鑰匙:

4. 目標生成 (Target / 必填)

這就是您希望 AI 講出的新內容。本系統提供兩種模式:

03. 技巧:如何讓 AI 講話更自然? (標點符號導引)

許多使用者剛開始會覺得 AI 講話很「死板」或「像機器人」,這通常是因為輸入的目標文字缺乏標點符號。GPT-SoVITS 非常依賴標點來決定節奏與情緒:

  • (逗號):產生短促的換氣停頓,可讓長句子聽起來不急躁。
  • (句號):語氣下降,產生一個完整的句子結尾停頓。
  • (驚嘆號):提高音調,增加激昂、強烈或強調的情緒。
  • (問號):句末語調上揚,產生疑問語氣。
  • ... (刪節號):產生較長的「深思熟慮」或「猶豫」的停頓,非常適合增加戲劇感。

💡 實戰範例對比

❌ 錯誤示範 (無標點):
這是一項驚人的技術他可以改變未來的配音產業我們拭目以待
→ 聽感:AI 會一口氣快速唸完,像在趕火車,毫無感情。

✅ 正確示範 (加入標點):
這是一項... 驚人的技術!他可以改變未來的配音產業,我們,拭目以待。
→ 聽感:AI 在「這是一項」後會停頓醞釀,在「技術!」提高音量,並在最後兩個逗號間放慢腳步,聽起來極具真人說服力。

04. 如何取得或訓練專屬模型 (Training & Sourcing Models)

雖然上方的「參考音訊」可以直接讓 AI 進行 Few-Shot (3秒短片模仿),但這通常只能學到 60% 的神韻,適用於快速的娛樂配音。如果要達到 100% 幾乎無損的相似度,您必須為該角色進行 Fine-Tuning (微調訓練),製作出專屬的 .ckpt.pth 模型。

目前「影音小工具」專注於提供最輕量、穩定的「語音生成 (Inference)」介面,我們並未將龐大的訓練介面內建於主程式中。以下是取得專屬模型的途徑:

途徑 A:自己動手訓練 (強烈推薦)

您可以直接利用附帶的 GPT-SoVITS 懶人包官方工具 來輕鬆訓練:

  1. 準備素材:使用我們工具站內的「錄音助手」或「影音下載」功能,準備大約 2~5 分鐘的高品質人聲。請務必使用「人聲分離」與「去噪」功能,確保素材是純淨無背景音的乾音。
  2. 開啟官方 WebUI:進入您電腦中的 GPT-SoVITS 資料夾,點擊 go-webui.bat (或對應的啟動檔)。
  3. 按照教學訓練:在彈出的官方網頁介面中,依序進行「音訊切割」、「文字辨識(ASR)」、「微調訓練」。建議在 YouTube 搜尋 "GPT-SoVITS 訓練教學",網路上有豐富的手把手影片。
  4. 收穫成果:訓練結束後,您會在 GPT_weightsSoVITS_weights 資料夾中,找到屬於該角色的 .ckpt.pth 檔案。

途徑 B:下載網友分享的模型

💡 最後一步: 無論您是自己訓練還是下載的,只要把那兩個檔案存放在本程式的 models\SoVITS 資料夾中,以後就能在介面的「模型設定」區塊中一鍵載入了!

04. 調整進階參數 (Hyperparameters)

介面底部的兩個滑桿,是控制 AI 發揮創意的魔法棒。請在遇到怪聲時才調整:

參數名稱 數值意義 推薦使用情境
標點切分 (Auto Split)
預設值: 開啟
自動將長句子依照標點符號切分成多段處理。 強烈建議保持開啟。這能解決長文本生成時容易截斷或產生電音幻覺的問題,支援 100 字以上的長篇文字。
情感變異 (Temp)
預設值: 0.8
控制輸出的「豐富度與不規則性」。
數值越高:聲音越有情感起伏、調皮,但也越容易出現吃字、雜音。
數值越低:聲音越平淡、像機器人,但發音最清晰準確。
0.8 是兼顧穩定與質感的最佳值。若生成結果太平淡,可向右微調 (1.00 ~ 1.10)。
若生成結果講話含糊不清、甚至產生怪聲,請向左調低 (0.60)。
穩定度 (Top_P)
預設值: 0.8
決定 AI 預測下個字的「保守程度」。
與 Temp 是好搭檔。數值越低越刻板;數值越高,越能讓模型盡情發揮。
建議與 Temp 同步調整。預設 0.8 可獲得極高的生成成功率。

05. 常見問題排解 (Troubleshooting)

Q: 為什麼附帶的 GPT-SoVITS 資料夾容量高達 13GB?這是正常的嗎?

A: 這是完全正常的! 這並不是系統產生了垃圾檔案,而是因為它內建了「完整的執行環境與 AI 大腦」:

總結來說,這 13GB 換取的是「穩定獨立的運行環境」「不依賴網路的強大離線 AI 運算能力」,您可以安心保留在硬碟中。

Q: 為什麼按了「🚀 啟動 API」卻一直顯示連線失敗?

解法:

  1. 防毒軟體可能阻擋了背景開啟 Python 伺服器的動作,請檢查防毒軟體隔離區。
  2. 可能上次舊的 API 當機且沒有徹底關閉。請開啟電腦的工作管理員,強制結束所有名為 python.exe 的處理程序後再試一次。

Q: 按下「開始推理」,跑完後得到的 WAV 檔案卻是空的(沒有聲音)?

原因與解法:

  1. 最常見原因:參考文本有錯字! AI 找不到文字對應的聲音特徵就會當機並輸出靜音。請仔細核對您的參考文本,把所有的英文全部改為小寫,並拿掉特殊的表情符號。
  2. 您載入的「自訂模型」與「官方預設模型」版本不相容。請確認您的自定模型是 GPT-SoVITS V2 版本的架構。

Q: 合成出來的聲音都會破音,或是在後面多出「啊~」之類的怪聲?

解法:這叫 AI 幻覺 (Hallucination)。通常是因為您的參考音訊背景不乾淨。請務必使用「錄音助手」的降噪功能,確保餵給 AI 的是非常純粹的人聲。此外,適度調低 Temp (情感變異) 也能有效減少結尾怪聲的發生。

Q: 看到黑視窗 (Console) 出現 400 Bad Request 是什麼意思?

A: 這是完全正常的現象,請放心! 這是主程式為了確認 API 伺服器是否已經啟動完成,所發送的「連線偵測」訊號。由於 API 根目錄沒有內容,所以會回報 400 錯誤。只要您的主程式介面上顯示「✅ 已連線」,就代表一切正常,不影響使用。

Q: 啟動時顯示「半精:False」,是在用 CPU 跑嗎?

A: 不是的,它依然在使用 GPU 跑! 為了相容最新一代顯卡 (如 RTX 40/50 系列),我們在程式中強制關閉了半精度運算 (FP16) 以避免指令集相容性導致的當機。雖然改用全精度運算,但依然是在您的顯示卡上執行,速度依然遠比 CPU 快得多。