聲音複製 (GPT-SoVITS) 是一種強大的人工智慧語音生成技術。它只需要短短的 3 到 10 秒乾淨人聲,就能在瞬間模仿出該說話者的音色、語氣與腔調,並讓他講出任何您指定的文字。
本系統支援跨語系發音,您甚至可以用中文的參考聲音,讓 AI 講出流利的英文或日文!這項技術非常適合用來製作 YouTube 影片配音、電子書朗讀、或是建立個人專屬的 AI 語音助理。
由於 GPT-SoVITS 是一個龐大的核心引擎,我們必須先啟動它才能開始工作:
如果您沒有特別需求,您可以完全留空,系統會自動使用預先訓練好的「預設官方模型」。如果您有在網路上下載或是自己訓練的模型,可以在此載入:
這是一個許多初學者會搞混的核心觀念。請想像 GPT-SoVITS 是一個歌手:
👉 結論:如果您想讓周杰倫發聲,模型與參考音訊兩者缺一不可! 您必須載入周杰倫的 .ckpt 與 .pth,同時也要準備一段 3~10 秒的周杰倫乾淨人聲與其文字作為參考。
這是啟動生成的鑰匙:
這就是您希望 AI 講出的新內容。本系統提供兩種模式:
.srt 字幕檔,系統會逐句把文字丟給 AI 生成語音,然後精準貼在字幕規定的時間軸上!最後幫您合併成一個完整的長音軌 (WAV)。許多使用者剛開始會覺得 AI 講話很「死板」或「像機器人」,這通常是因為輸入的目標文字缺乏標點符號。GPT-SoVITS 非常依賴標點來決定節奏與情緒:
, (逗號):產生短促的換氣停頓,可讓長句子聽起來不急躁。。 (句號):語氣下降,產生一個完整的句子結尾停頓。! (驚嘆號):提高音調,增加激昂、強烈或強調的情緒。? (問號):句末語調上揚,產生疑問語氣。... (刪節號):產生較長的「深思熟慮」或「猶豫」的停頓,非常適合增加戲劇感。❌ 錯誤示範 (無標點):
這是一項驚人的技術他可以改變未來的配音產業我們拭目以待
→ 聽感:AI 會一口氣快速唸完,像在趕火車,毫無感情。
✅ 正確示範 (加入標點):
這是一項... 驚人的技術!他可以改變未來的配音產業,我們,拭目以待。
→ 聽感:AI 在「這是一項」後會停頓醞釀,在「技術!」提高音量,並在最後兩個逗號間放慢腳步,聽起來極具真人說服力。
雖然上方的「參考音訊」可以直接讓 AI 進行 Few-Shot (3秒短片模仿),但這通常只能學到 60% 的神韻,適用於快速的娛樂配音。如果要達到 100% 幾乎無損的相似度,您必須為該角色進行 Fine-Tuning (微調訓練),製作出專屬的 .ckpt 與 .pth 模型。
目前「影音小工具」專注於提供最輕量、穩定的「語音生成 (Inference)」介面,我們並未將龐大的訓練介面內建於主程式中。以下是取得專屬模型的途徑:
您可以直接利用附帶的 GPT-SoVITS 懶人包官方工具 來輕鬆訓練:
GPT-SoVITS 資料夾,點擊 go-webui.bat (或對應的啟動檔)。GPT_weights 與 SoVITS_weights 資料夾中,找到屬於該角色的
.ckpt 與 .pth 檔案。
.ckpt 與 .pth。models\SoVITS
資料夾中,以後就能在介面的「模型設定」區塊中一鍵載入了!
介面底部的兩個滑桿,是控制 AI 發揮創意的魔法棒。請在遇到怪聲時才調整:
| 參數名稱 | 數值意義 | 推薦使用情境 |
|---|---|---|
| 標點切分 (Auto Split) 預設值: 開啟 |
自動將長句子依照標點符號切分成多段處理。 | 強烈建議保持開啟。這能解決長文本生成時容易截斷或產生電音幻覺的問題,支援 100 字以上的長篇文字。 |
| 情感變異 (Temp) 預設值: 0.8 |
控制輸出的「豐富度與不規則性」。 數值越高:聲音越有情感起伏、調皮,但也越容易出現吃字、雜音。 數值越低:聲音越平淡、像機器人,但發音最清晰準確。 |
0.8 是兼顧穩定與質感的最佳值。若生成結果太平淡,可向右微調 (1.00 ~ 1.10)。 若生成結果講話含糊不清、甚至產生怪聲,請向左調低 (0.60)。 |
| 穩定度 (Top_P) 預設值: 0.8 |
決定 AI 預測下個字的「保守程度」。 與 Temp 是好搭檔。數值越低越刻板;數值越高,越能讓模型盡情發揮。 |
建議與 Temp 同步調整。預設 0.8 可獲得極高的生成成功率。 |
A: 這是完全正常的! 這並不是系統產生了垃圾檔案,而是因為它內建了「完整的執行環境與 AI 大腦」:
解法:
python.exe 的處理程序後再試一次。原因與解法:
解法:這叫 AI 幻覺
(Hallucination)。通常是因為您的參考音訊背景不乾淨。請務必使用「錄音助手」的降噪功能,確保餵給 AI 的是非常純粹的人聲。此外,適度調低
Temp (情感變異) 也能有效減少結尾怪聲的發生。
A: 這是完全正常的現象,請放心! 這是主程式為了確認 API 伺服器是否已經啟動完成,所發送的「連線偵測」訊號。由於 API 根目錄沒有內容,所以會回報 400 錯誤。只要您的主程式介面上顯示「✅ 已連線」,就代表一切正常,不影響使用。
A: 不是的,它依然在使用 GPU 跑! 為了相容最新一代顯卡 (如 RTX 40/50 系列),我們在程式中強制關閉了半精度運算 (FP16) 以避免指令集相容性導致的當機。雖然改用全精度運算,但依然是在您的顯示卡上執行,速度依然遠比 CPU 快得多。