Studio0808 :: 聲音複製 (GPT-SoVITS)

01. 功能概述 (Overview)

聲音複製 (GPT-SoVITS) 是一種強大的人工智慧語音生成技術。它只需要短短的 3 到 10 秒乾淨人聲，就能在瞬間模仿出該說話者的音色、語氣與腔調，並讓他講出任何您指定的文字。

本系統支援跨語系發音，您甚至可以用中文的參考聲音，讓 AI 講出流利的英文或日文！這項技術非常適合用來製作 YouTube 影片配音、電子書朗讀、或是建立個人專屬的 AI 語音助理。

02. 核心操作流程：五大區塊

1. API 連線設定

由於 GPT-SoVITS 是一個龐大的核心引擎，我們必須先啟動它才能開始工作：

🚀 啟動 API：點擊後，程式會在背景開啟一個黑色的命令字元視窗，載入深度學習模型 (大約需要 10-20 秒)。請等待「狀態」顯示為「✅ 已連線」方可繼續。
🛑 關閉 API：當您暫時不需要使用聲音複製功能時，強烈建議您點擊此按鈕。這樣能立刻關閉隱藏在背景的 AI 引擎，釋放您的顯示卡記憶體 (VRAM)，確保電腦可以順暢進行剪輯或玩遊戲。
(註：直接關閉整個主程式也會自動幫您關閉 API。)

2. 模型設定 (Custom Models / 選填)

如果您沒有特別需求，您可以完全留空，系統會自動使用預先訓練好的「預設官方模型」。如果您有在網路上下載或是自己訓練的模型，可以在此載入：

GPT 模型 (.ckpt)：主導「大腦、語氣節奏、斷句習慣」。
SoVITS 模型 (.pth)：主導「音色、喉嚨發聲特徵」。

特別注意： 選好自訂的檔案後，您務必點擊右側的「載入選定模型」紫色按鈕，系統才真正會將模型切換進記憶體中。

🎙️ 深度觀念：為何要有「模型」與「參考音訊」？它們不是重複的嗎？

這是一個許多初學者會搞混的核心觀念。請想像 GPT-SoVITS 是一個歌手：

模型 (Model) ＝歌手的天賦 (決定像不像誰)：若您載入了周杰倫的自訂模型，代表這個歌手現在擁有完美模仿周杰倫的天賦。若「不載入」，系統就會用預設的素人聲音，絕對不會像周杰倫。這決定了聲音相似度的「天花板」。的確，如果您要複製特定名人的聲音，準備專屬的 GPT 與 SoVITS 模型是「必須的」。
參考音訊 (Reference) ＝給歌手的「起步提示」：即便歌手有了周杰倫的嗓子，每當他要開口唱新歌時，您還是得給他聽一段 3 秒的周杰倫原音。讓他知道：「喔！現在這句話要用這種語速、這個情緒、這個起步音高來念！」

👉 結論：如果您想讓周杰倫發聲，模型與參考音訊兩者缺一不可！您必須載入周杰倫的 .ckpt 與 .pth，同時也要準備一段 3~10 秒的周杰倫乾淨人聲與其文字作為參考。

3. 參考音訊 (Reference / 必填)

這是啟動生成的鑰匙：

音訊檔案：請準備一段 3~10 秒的純淨人聲 (乾音)。裡面不可含有背景音樂、風聲、混響 (Reverb)。如果有雜音，AI 複製出來的聲音就會自帶雜音。
參考文本：請務必一字不漏打出參考音訊中人物講的話，包含標點符號。AI 會分析聲音與文字之間的對應關係。
參考語言：選擇那段音訊講話的語言。

4. 目標生成 (Target / 必填)

這就是您希望 AI 講出的新內容。本系統提供兩種模式：

📝 單句輸入模式：
- 目標語言：您想要輸出的語言 (例如中文參考音訊可以輸出流利日文)。
- 目標文本：輸入不超過 50 字的短句獲得最佳穩定度。適當使用「，！？」等標點符號，能引導 AI 產出情感波動更大的聲音。
🎬 SRT 批量配音模式強推：
- 如何運作：載入一份 .srt 字幕檔，系統會逐句把文字丟給 AI 生成語音，然後精準貼在字幕規定的時間軸上！最後幫您合併成一個完整的長音軌 (WAV)。
- 智慧避讓：如果上一句話 AI 唸比較慢，下一句話時間卻到了，系統會自動將下一段語音「往後延」，防止聲音重疊打架。
- 應用場景：非常適合用來做「全自動影片解說配音」或是將外語片自動配成「全中文配音」，因為時間軸已經幫您對好，您只需把生成的 WAV 檔案拿去和影片合併即可！

03. 技巧：如何讓 AI 講話更自然？ (標點符號導引)

許多使用者剛開始會覺得 AI 講話很「死板」或「像機器人」，這通常是因為輸入的目標文字缺乏標點符號。GPT-SoVITS 非常依賴標點來決定節奏與情緒：

， (逗號)：產生短促的換氣停頓，可讓長句子聽起來不急躁。
。 (句號)：語氣下降，產生一個完整的句子結尾停頓。
！ (驚嘆號)：提高音調，增加激昂、強烈或強調的情緒。
？ (問號)：句末語調上揚，產生疑問語氣。
... (刪節號)：產生較長的「深思熟慮」或「猶豫」的停頓，非常適合增加戲劇感。

💡 實戰範例對比

❌ 錯誤示範 (無標點)：
這是一項驚人的技術他可以改變未來的配音產業我們拭目以待
→ 聽感：AI 會一口氣快速唸完，像在趕火車，毫無感情。

✅ 正確示範 (加入標點)：
這是一項... 驚人的技術！他可以改變未來的配音產業，我們，拭目以待。
→ 聽感：AI 在「這是一項」後會停頓醞釀，在「技術！」提高音量，並在最後兩個逗號間放慢腳步，聽起來極具真人說服力。

04. 如何取得或訓練專屬模型 (Training & Sourcing Models)

雖然上方的「參考音訊」可以直接讓 AI 進行 Few-Shot (3秒短片模仿)，但這通常只能學到 60% 的神韻，適用於快速的娛樂配音。如果要達到 100% 幾乎無損的相似度，您必須為該角色進行 Fine-Tuning (微調訓練)，製作出專屬的 .ckpt 與 .pth 模型。

目前「影音小工具」專注於提供最輕量、穩定的「語音生成 (Inference)」介面，我們並未將龐大的訓練介面內建於主程式中。以下是取得專屬模型的途徑：

途徑 A：自己動手訓練 (強烈推薦)

您可以直接利用附帶的 GPT-SoVITS 懶人包官方工具 來輕鬆訓練：

準備素材：使用我們工具站內的「錄音助手」或「影音下載」功能，準備大約 2~5 分鐘的高品質人聲。請務必使用「人聲分離」與「去噪」功能，確保素材是純淨無背景音的乾音。
開啟官方 WebUI：進入您電腦中的 GPT-SoVITS 資料夾，點擊 go-webui.bat (或對應的啟動檔)。
按照教學訓練：在彈出的官方網頁介面中，依序進行「音訊切割」、「文字辨識(ASR)」、「微調訓練」。建議在 YouTube 搜尋 "GPT-SoVITS 訓練教學"，網路上有豐富的手把手影片。
收穫成果：訓練結束後，您會在 GPT_weights 與 SoVITS_weights 資料夾中，找到屬於該角色的 .ckpt 與 .pth 檔案。

途徑 B：下載網友分享的模型

您可以在一些 AI 模型交流社群 (如 Hugging Face 或 Discord 群組) 尋找網友分享的 YouTuber 或動漫角色模型。
下載下來通常會是一個壓縮檔，解開後就能得到成對的 .ckpt 與 .pth。

💡 最後一步： 無論您是自己訓練還是下載的，只要把那兩個檔案存放在本程式的 models\SoVITS 資料夾中，以後就能在介面的「模型設定」區塊中一鍵載入了！

04. 調整進階參數 (Hyperparameters)

介面底部的兩個滑桿，是控制 AI 發揮創意的魔法棒。請在遇到怪聲時才調整：

參數名稱	數值意義	推薦使用情境
標點切分 (Auto Split) 預設值: 開啟	自動將長句子依照標點符號切分成多段處理。	強烈建議保持開啟。這能解決長文本生成時容易截斷或產生電音幻覺的問題，支援 100 字以上的長篇文字。
情感變異 (Temp) 預設值: 0.8	控制輸出的「豐富度與不規則性」。數值越高：聲音越有情感起伏、調皮，但也越容易出現吃字、雜音。數值越低：聲音越平淡、像機器人，但發音最清晰準確。	0.8 是兼顧穩定與質感的最佳值。若生成結果太平淡，可向右微調 (1.00 ~ 1.10)。若生成結果講話含糊不清、甚至產生怪聲，請向左調低 (0.60)。
穩定度 (Top_P) 預設值: 0.8	決定 AI 預測下個字的「保守程度」。與 Temp 是好搭檔。數值越低越刻板；數值越高，越能讓模型盡情發揮。	建議與 Temp 同步調整。預設 0.8 可獲得極高的生成成功率。

05. 常見問題排解 (Troubleshooting)

Q: 為什麼附帶的 GPT-SoVITS 資料夾容量高達 13GB？這是正常的嗎？

A: 這是完全正常的！ 這並不是系統產生了垃圾檔案，而是因為它內建了「完整的執行環境與 AI 大腦」：

專屬 Python 執行環境 (約 6.6GB)：包含 PyTorch 等龐大的深度學習運算框架與 GPU 驅動，讓您免安裝「隨插即用」。
預訓練 AI 核心模型 (約 4.1GB)：這是 GPT-SoVITS 耗費數萬小時語音訓練出來的基礎模型大腦，是做到零樣本 (Zero-shot) 高品質模仿的關鍵。
周邊輔助 AI 工具 (約 1.9GB)：包含用來自動產生訓練字幕的 ASR 語音辨識模型，以及可以去除背景音樂雜音的 UVR5 人聲分離模型。
發音字典庫 (約 0.6GB)：涵蓋多國語言的發音規則，讓 AI 能準確朗讀中、英、日文。

總結來說，這 13GB 換取的是「穩定獨立的運行環境」與「不依賴網路的強大離線 AI 運算能力」，您可以安心保留在硬碟中。

Q: 為什麼按了「🚀 啟動 API」卻一直顯示連線失敗？

解法：

防毒軟體可能阻擋了背景開啟 Python 伺服器的動作，請檢查防毒軟體隔離區。
可能上次舊的 API 當機且沒有徹底關閉。請開啟電腦的工作管理員，強制結束所有名為 python.exe 的處理程序後再試一次。

Q: 按下「開始推理」，跑完後得到的 WAV 檔案卻是空的(沒有聲音)？

原因與解法：

最常見原因：參考文本有錯字！ AI 找不到文字對應的聲音特徵就會當機並輸出靜音。請仔細核對您的參考文本，把所有的英文全部改為小寫，並拿掉特殊的表情符號。
您載入的「自訂模型」與「官方預設模型」版本不相容。請確認您的自定模型是 GPT-SoVITS V2 版本的架構。

Q: 合成出來的聲音都會破音，或是在後面多出「啊～」之類的怪聲？

解法：這叫 AI 幻覺 (Hallucination)。通常是因為您的參考音訊背景不乾淨。請務必使用「錄音助手」的降噪功能，確保餵給 AI 的是非常純粹的人聲。此外，適度調低 Temp (情感變異) 也能有效減少結尾怪聲的發生。

Q: 看到黑視窗 (Console) 出現 400 Bad Request 是什麼意思？

A: 這是完全正常的現象，請放心！ 這是主程式為了確認 API 伺服器是否已經啟動完成，所發送的「連線偵測」訊號。由於 API 根目錄沒有內容，所以會回報 400 錯誤。只要您的主程式介面上顯示「✅ 已連線」，就代表一切正常，不影響使用。

Q: 啟動時顯示「半精：False」，是在用 CPU 跑嗎？

A: 不是的，它依然在使用 GPU 跑！ 為了相容最新一代顯卡 (如 RTX 40/50 系列)，我們在程式中強制關閉了半精度運算 (FP16) 以避免指令集相容性導致的當機。雖然改用全精度運算，但依然是在您的顯示卡上執行，速度依然遠比 CPU 快得多。