RVC 模型訓練全攻略

前言：打造專屬 AI 聲音

本教學將引導您使用 Google Colab 的免費算力來訓練高品質的 RVC 變聲模型。為了獲得最佳效果，我們將流程標準化為三個階段：

資料準備：使用本程式與 UVR5 製作純淨乾聲。
雲端訓練：使用 Google Colab 強大 GPU 進行訓練。
模型匯入：將訓練好的模型放入本程式使用。

第一階段：資料準備 (最重要的步驟)

模型的好壞，90% 取決於資料集的品質。請務必確保您的訓練音訊是沒有背景音樂 (BGM) 且沒有混響 (Reverb/Echo) 的絕對乾聲。

1. 初步分離 (使用本程式)

使用本軟體的「人聲分離」功能：

輸入您的音訊/影片來源。
勾選 另存乾淨人聲 (WAV)。
執行並取得 vocals.wav。

2. 去除混響與雜音 (使用 UVR5) 關鍵

本程式分離出的人聲通常還帶有空間殘響，這會導致模型訓練失敗 (聲音糊糊的)。請務必使用 UVR5 (Ultimate Vocal Remover) 進行二次處理。

UVR5 推薦設定 (De-Reverb):

Process Method: VR Architecture
Window Size: 320 (預設) 或 512
Aggression Setting: 10
Model: 選擇 5_HP-Karaoke-UVR.pth 或 VR - DeEcho-DeReverb.pth
執行後，您會得到極度乾淨、貼耳的聲音，這才是合格的訓練素材！

3. 打包資料集 (詳細說明)

檔案準備原則：

數量：請準備多個短音訊檔案 (推薦每段 10~15 秒)，總長度約 10~30 分鐘。
格式：必須是 WAV 格式 (PCM_16)，取樣率 44100Hz 或 48000Hz，單聲道 (Mono) 佳。
命名：檔名請使用英文或數字 (如 001.wav, 002.wav)，避免特殊符號。

打包步驟：

建立一個資料夾，命名為 dataset。
將所有準備好的 .wav 檔案放入該資料夾中。
對該資料夾按右鍵，選擇「加到壓縮檔」，製作成 files dataset.zip。

結構範例：
dataset.zip
└── dataset/
    ├── 001.wav
    ├── 002.wav
    └── ...

第二階段：Google Colab 雲端訓練

我們推薦使用 Applio Colab (目前最強大的 RVC 改版)。

1. 前置設定

進入 Colab 頁面後：

上方選單 「執行階段」 -> 「變更執行階段類型」。
硬體加速器選擇 T4 GPU。
點擊右上角 「連線」。

2. 開始執行與進入 WebUI

依序點擊每個區塊左邊的播放鍵 (▶)：

Install Dependencies：等待安裝完成。
Start Applio：執行後會出現公開網址 (如 gradio.live)，點擊進入圖形化介面。

3. 訓練參數建議

在 WebUI 的 Train 分頁：

Experiment Name: 取個英文名字 (如 my_voice)。
Sample Rate: 40k 或 48k。
Process Data: 上傳您的 dataset.zip。
Extract Features: F0 Method 選 rmvpe (效果最好)。
Train Model:
- Total Epochs: 100 ~ 300 (資料少則多練幾輪)。
- Batch Size: T4 顯卡可開 8 ~ 12。

點擊 Train Model 開始訓練！

第三階段：匯入本程式

訓練完成後，請從 Colab 下載 .pth 模型檔與 .index 索引檔。

進入本軟體目錄 models/RVC/。
建立新資料夾 (例如 My_AI_Voice)。
將下載的兩個檔案放入該資料夾。
開啟本程式 -> 即時變聲 (Real-time VC)。
在模型欄位載入您的新模型，即可開始變聲！