RVC 模型訓練全攻略

前言:打造專屬 AI 聲音

本教學將引導您使用 Google Colab 的免費算力來訓練高品質的 RVC 變聲模型。為了獲得最佳效果,我們將流程標準化為三個階段:

  1. 資料準備:使用 本程式 與 UVR5 製作純淨乾聲。
  2. 雲端訓練:使用 Google Colab 強大 GPU 進行訓練。
  3. 模型匯入:將訓練好的模型放入 本程式 使用。

第一階段:資料準備 (最重要的步驟)

模型的好壞,90% 取決於資料集的品質。請務必確保您的訓練音訊是沒有背景音樂 (BGM) 且沒有混響 (Reverb/Echo) 的絕對乾聲。

1. 初步分離 (使用 本程式)

使用本軟體的「人聲分離」功能:
  1. 輸入您的音訊/影片來源。
  2. 勾選 另存乾淨人聲 (WAV)
  3. 執行並取得 vocals.wav

2. 去除混響與雜音 (使用 UVR5) 關鍵

本程式 分離出的人聲通常還帶有空間殘響,這會導致模型訓練失敗 (聲音糊糊的)。請務必使用 UVR5 (Ultimate Vocal Remover) 進行二次處理。

UVR5 推薦設定 (De-Reverb):
  • Process Method: VR Architecture
  • Window Size: 320 (預設) 或 512
  • Aggression Setting: 10
  • Model: 選擇 5_HP-Karaoke-UVR.pthVR - DeEcho-DeReverb.pth
  • 執行後,您會得到極度乾淨、貼耳的聲音,這才是合格的訓練素材!

3. 打包資料集 (詳細說明)

檔案準備原則:
  • 數量:請準備 多個 短音訊檔案 (推薦每段 10~15 秒),總長度約 10~30 分鐘。
  • 格式:必須是 WAV 格式 (PCM_16),取樣率 44100Hz 或 48000Hz,單聲道 (Mono) 佳。
  • 命名:檔名請使用英文或數字 (如 001.wav, 002.wav),避免特殊符號。
打包步驟:
  1. 建立一個資料夾,命名為 dataset
  2. 將所有準備好的 .wav 檔案放入該資料夾中。
  3. 對該資料夾按右鍵,選擇「加到壓縮檔」,製作成 files dataset.zip

結構範例:
dataset.zip
└── dataset/
    ├── 001.wav
    ├── 002.wav
    └── ...

第二階段:Google Colab 雲端訓練

我們推薦使用 Applio Colab (目前最強大的 RVC 改版)。

1. 前置設定

進入 Colab 頁面後:
  1. 上方選單 「執行階段」 -> 「變更執行階段類型」
  2. 硬體加速器選擇 T4 GPU
  3. 點擊右上角 「連線」

2. 開始執行與進入 WebUI

依序點擊每個區塊左邊的播放鍵 (▶):

3. 訓練參數建議

在 WebUI 的 Train 分頁:
  • Experiment Name: 取個英文名字 (如 my_voice)。
  • Sample Rate: 40k48k
  • Process Data: 上傳您的 dataset.zip
  • Extract Features: F0 Method 選 rmvpe (效果最好)。
  • Train Model:
    • Total Epochs: 100 ~ 300 (資料少則多練幾輪)。
    • Batch Size: T4 顯卡可開 8 ~ 12
點擊 Train Model 開始訓練!

第三階段:匯入 本程式

訓練完成後,請從 Colab 下載 .pth 模型檔與 .index 索引檔。

  1. 進入本軟體目錄 models/RVC/
  2. 建立新資料夾 (例如 My_AI_Voice)。
  3. 將下載的兩個檔案放入該資料夾。
  4. 開啟 本程式 -> 即時變聲 (Real-time VC)
  5. 在模型欄位載入您的新模型,即可開始變聲!