RVC 變聲技術

RVC 變聲推論 介面截圖

01. 功能概述 (Overview)

RVC (Retrieval-based Voice Conversion) 是一種強大的 AI 語音轉換技術。與「聲音複製(輸入文字產出語音)」不同,RVC 的運作方式是「輸入一段原始聲音」,然後 AI 會保留原本講話或唱歌的語調、情緒、節奏,但把音色替換成您指定的模型對象。

這項技術最常被用來製作「AI 翻唱 (AI Cover)」,例如讓知名歌手唱別人的歌,或是隱藏自己真實聲音進行直播與影片配音。

02. 操作區塊解說

1 輸入音訊

這是您要轉換的原始聲音來源:

2 模型選擇

在這裡載入您想要「變成」的那個人的聲音:

03. 轉換參數詳解 (核心必學)

RVC 最強大的地方在於它的參數極具彈性,調整得當可以拯救破音、漏音,或是讓不同性別的翻唱變得無違和感。

變調 (Pitch) 功能:改變輸入聲音的基頻 (音高) 前提,單位為「半音」。
用法:如果原本是男聲,要用女聲模型轉換,建議將 Pitch 設為 +12 (升一個八度)。反之,女聲轉男聲請設為 -12。同性別互轉保持 0 即可。如果是要改變歌曲本身的 Key 來符合模型音域,也可以微調 `+1` 或 `-2` 等。
F0 預測算法 功能:AI 抓取您原始咬字音高曲線的方法。
選項:
  • rmvpe (推薦):目前最強、最穩定的算法。速度快、抗雜音能力強,吃顯卡資源適中。預設首選!
  • fcpe (推薦):較新的強力算法。對於部分高低音落差大、撕裂音或特殊唱腔的抓取比 rmvpe 更準確,但耗時較長。遇到 rmvpe 處理不好的地方可以換這個試試。
  • crepe:老牌算法,準確度高但速度慢、很吃顯卡。
  • pm:速度最快,但音質最差,容易破音,適合電腦配備極低時使用。
  • harvest:低音抓取較準確,但高音容易破。
索引率
(Index Rate)
功能:控制聲音特徵「向模型靠攏」的程度 (範圍 0~1)。要有 .index 檔案才會生效。
用法:數值越高:咬字與口吻會更像模型本人,但如果原本音訊音質很差,過高的索引率會導致各種怪異的「沙沙聲 (Artifacts)」。數值越低:會有更多您自己原本聲音的影子。
推薦:預設 0.75,若出現怪聲,請調降至 0.3 ~ 0.5
過濾半徑
(Filter Radius)
功能:當音高(F0)軌跡出現劇烈波動 (例如啞音、破音造成的預測失誤) 時,使用此數值進行中值濾波來平滑它。大於 3 才生效。
用法:如果您發現變出來的聲音在某些段落會突然極度不自然的「走音或爆音」,可以把此項調高,以削弱這種突兀變化。
推薦:預設 3,遇到啞音破音可往上調。
混音響度包絡
(RMS Mix Rate)
功能:決定「輸出聲音的音量大小變化」要多大程度參考「輸入原始聲音的音量」。
用法:預設 0.25 代表輸出聲音的音量起伏,只有四分之一會照著您的輸入走,四分之三交由模型決定。如果您勾選此項 (或將值調高靠向 1),AI 在大吼或低語的地方,音量變化會更還原您原本錄音時的大小。
推薦:想要情緒起伏明顯(大聲小聲差異大)就勾選;想要每句話音量都很平均,請取消勾選 (設為 0)。
💡 魔法公式:男女轉換必勝訣竅
如果您用男生的聲音去唱女生的歌 (男轉女),請先試著把 變調 (Pitch) 設為 +12。如果還是覺得怪,原因通常是男生根本唱不上去,此時強烈建議您**善用我們第一區塊的「原音升降 Key」功能**,把您的原音降個 -3 到 -6 個半音,並且 Pitch 依然維持 +12。用修飾過的低音域人聲餵給 RVC,效果會神乎其技的自然!

04. 常見問題排解 (Troubleshooting)

Q: 為什麼轉換過程中突然跳出「找不到模型檔」或「中斷」?

解法: 請確保您的 .pth.index 檔案名稱、以及它們所在的「資料夾名稱」中,絕對不能包含任何空格、中文字、日文或特殊符號
RVC 底層的 Python 對於路徑解析非常嚴格,請將資料夾與模型名稱全部改為純英文+數字。

Q: 我勾選了「自動分離人聲與混音」,為什麼轉出來只有伴奏沒有人聲,或是程式卡死不跑?

解法: 這代表底層的 Demucs 人聲分離模組失敗了。
原因可能是您的顯示卡記憶體 (VRAM) 不足,無法同時負荷這兩個耗資源的 AI 程序。建議您先到「人聲分離」選單,手動切分出純人聲檔案,再拿這個檔案到這裡變聲,最後自己用剪輯軟體疊合伴奏。

Q: 變出來的聲音好像感冒了、或是像外星人在講話?

解法: 這是因為 RVC 的算法抓錯了音域。最有效的解法是:更換 F0 預測算法
原本如果用 rmvpe,請換成 fcpecrepe 再跑一次,通常都能得到大幅改善。另外,請檢察您的 Pitch (變調) 是否設反了。