Studio0808 :: RVC 變聲 (Retrieval-based Voice Conversion)

01. 功能概述 (Overview)

RVC (Retrieval-based Voice Conversion) 是一種強大的 AI 語音轉換技術。與「聲音複製(輸入文字產出語音)」不同，RVC 的運作方式是「輸入一段原始聲音」，然後 AI 會保留原本講話或唱歌的語調、情緒、節奏，但把音色替換成您指定的模型對象。

這項技術最常被用來製作「AI 翻唱 (AI Cover)」，例如讓知名歌手唱別人的歌，或是隱藏自己真實聲音進行直播與影片配音。

02. 操作區塊解說

1 輸入音訊

這是您要轉換的原始聲音來源：

標準流程 (乾淨人聲)：最穩定的做法是，先用「人聲分離」功能，把歌曲的伴奏剝離，只把純粹的乾淨人聲餵給 RVC。轉換完成後，再自行將新歌聲與伴奏合併。
原音升降 Key (Source Shift)：【破音救星】如果您在使用模型轉換時發現聲音變得很假、高音唱不上去 (例如男生唱女生的歌)，您可以直接在這裡將「原始音檔」進行升降 Key (例如 -2 或 -4)。程式會在背景以無損音質將您的原音變調後，再送給 AI 處理，這樣轉換出來的聲音會大幅提升自然度！
自動分離與混音 (Auto-Mix)：如果您覺得自己處理太麻煩，可以直接輸入一首連帶伴奏的完整歌曲，並勾選「自動分離人聲與混音」。程式會在背景自動幫您先分離出人聲、把人聲丟進 RVC 變聲，最後再把變聲後的人聲與原本的伴奏自動合成在一起！一次搞定！
(註：此功能需消耗較多運算時間，請耐心等候)

2 模型選擇

在這裡載入您想要「變成」的那個人的聲音：

模型權重 (.pth)：變聲的靈魂，包含了該人物的音色特徵。請務必指定！
特徵索引 (.index / 選填)：模型訓練時順便產生的輔助檔。它可以幫助 AI 在轉換時，讓咬字和發音更貼近模型本人。如果有就選，沒有留空也能運作。

03. 轉換參數詳解 (核心必學)

RVC 最強大的地方在於它的參數極具彈性，調整得當可以拯救破音、漏音，或是讓不同性別的翻唱變得無違和感。

變調 (Pitch)	功能：改變輸入聲音的基頻 (音高) 前提，單位為「半音」。用法：如果原本是男聲，要用女聲模型轉換，建議將 Pitch 設為 `+12` (升一個八度)。反之，女聲轉男聲請設為 `-12`。同性別互轉保持 `0` 即可。如果是要改變歌曲本身的 Key 來符合模型音域，也可以微調 `+1` 或 `-2` 等。
F0 預測算法	功能：AI 抓取您原始咬字音高曲線的方法。選項： rmvpe (推薦)：目前最強、最穩定的算法。速度快、抗雜音能力強，吃顯卡資源適中。預設首選！ fcpe (推薦)：較新的強力算法。對於部分高低音落差大、撕裂音或特殊唱腔的抓取比 rmvpe 更準確，但耗時較長。遇到 rmvpe 處理不好的地方可以換這個試試。 `crepe`：老牌算法，準確度高但速度慢、很吃顯卡。 `pm`：速度最快，但音質最差，容易破音，適合電腦配備極低時使用。 `harvest`：低音抓取較準確，但高音容易破。
索引率 (Index Rate)	功能：控制聲音特徵「向模型靠攏」的程度 (範圍 0~1)。要有 `.index` 檔案才會生效。用法：數值越高：咬字與口吻會更像模型本人，但如果原本音訊音質很差，過高的索引率會導致各種怪異的「沙沙聲 (Artifacts)」。數值越低：會有更多您自己原本聲音的影子。推薦：預設 `0.75`，若出現怪聲，請調降至 `0.3 ~ 0.5`。
過濾半徑 (Filter Radius)	功能：當音高(F0)軌跡出現劇烈波動 (例如啞音、破音造成的預測失誤) 時，使用此數值進行中值濾波來平滑它。大於 3 才生效。用法：如果您發現變出來的聲音在某些段落會突然極度不自然的「走音或爆音」，可以把此項調高，以削弱這種突兀變化。推薦：預設 `3`，遇到啞音破音可往上調。
混音響度包絡 (RMS Mix Rate)	功能：決定「輸出聲音的音量大小變化」要多大程度參考「輸入原始聲音的音量」。用法：預設 `0.25` 代表輸出聲音的音量起伏，只有四分之一會照著您的輸入走，四分之三交由模型決定。如果您勾選此項 (或將值調高靠向 1)，AI 在大吼或低語的地方，音量變化會更還原您原本錄音時的大小。推薦：想要情緒起伏明顯(大聲小聲差異大)就勾選；想要每句話音量都很平均，請取消勾選 (設為 0)。

💡 魔法公式：男女轉換必勝訣竅
如果您用男生的聲音去唱女生的歌 (男轉女)，請先試著把 變調 (Pitch) 設為 +12。如果還是覺得怪，原因通常是男生根本唱不上去，此時強烈建議您**善用我們第一區塊的「原音升降 Key」功能**，把您的原音降個 -3 到 -6 個半音，並且 Pitch 依然維持 +12。用修飾過的低音域人聲餵給 RVC，效果會神乎其技的自然！

04. 常見問題排解 (Troubleshooting)

Q: 為什麼轉換過程中突然跳出「找不到模型檔」或「中斷」？

解法：請確保您的 .pth 或 .index 檔案名稱、以及它們所在的「資料夾名稱」中，絕對不能包含任何空格、中文字、日文或特殊符號！
RVC 底層的 Python 對於路徑解析非常嚴格，請將資料夾與模型名稱全部改為純英文＋數字。

Q: 我勾選了「自動分離人聲與混音」，為什麼轉出來只有伴奏沒有人聲，或是程式卡死不跑？

解法：這代表底層的 Demucs 人聲分離模組失敗了。
原因可能是您的顯示卡記憶體 (VRAM) 不足，無法同時負荷這兩個耗資源的 AI 程序。建議您先到「人聲分離」選單，手動切分出純人聲檔案，再拿這個檔案到這裡變聲，最後自己用剪輯軟體疊合伴奏。

Q: 變出來的聲音好像感冒了、或是像外星人在講話？

解法：這是因為 RVC 的算法抓錯了音域。最有效的解法是：更換 F0 預測算法！
原本如果用 rmvpe，請換成 fcpe 或 crepe 再跑一次，通常都能得到大幅改善。另外，請檢察您的 Pitch (變調) 是否設反了。