Studio0808 VoxCPM 語音合成工作站
🚀 快速入門與下載
下載解壓後即可在 Windows 直接運行,免配置複雜 Python 環境。首次開啟程式後,請在「系統設定」分頁一鍵自動下載模型權重。
本工具是一個全離線的 AI 語音合成工作站。首次使用時,需要先下載模型權重檔案。我們已經在程式內置了極速的 ModelScope (大陸鏡像節點) 下載通道,您可以按照以下步驟快速上手:
設定下載伺服器與下載模型
切換至 「系統設定」 分頁,確認您的儲存路徑。本系統提供了三個下載來源:
- Hugging Face 官方 (推薦):最為推薦,台灣與海外地區下載極速(頻寬全開)。
- Hugging Face 鏡像:在大陸地區使用推薦。
- ModelScope:大陸地區極速備用管道。
選定下載源後點選 「開始下載 / 檢查模型」。系統已實作 **20秒連線超時與5次自動重試**,且支援 **斷點續傳 (Range)** 機制。如遇網路波動會自動在原位置續傳,不會像舊版那樣無回應卡死,也不會重複下載已完成的檔案。您也可以點選「停止下載」安全中止下載程序。
選擇合適的語音生成模式
本系統提供 語音設計(無需參考音)、聲音複製(需 3-10秒參考音) 以及 極限複製(需參考音及對應逐字稿) 三種模式,可視您的音源材料與需求進行切換。
開始推論與播放
輸入您要合成的文字,點選紅色的 「開始語音合成」 按鈕。首次運行需要 20-40 秒初始化模型(將模型讀入顯示卡記憶體),之後每次合成僅需數秒。生成完成後,點擊綠色的 「播放生成音訊」 即可立即試聽。
系統偵測到 NVIDIA GPU: GeForce ... 且已啟用 CUDA。這將提供高達數十倍的生成速度提升,達成秒級生成!
📦 程式打包體積與分發說明
當您手動執行打包後,會發現輸出的 dist/Studio0808_VoxCPM/_internal 資料夾體積高達約 5.2 GB,這並非程式碼本身臃腫,而是本機運作強大 AI 模型所必需的依賴庫。以下為您詳細拆解體積組成,並說明我們推薦的分享與分發做法。
這主要是因為具有 GPU 加速(CUDA)能力的 PyTorch 函式庫體積非常龐大。我們可以從分析數據中看到,最占空間的前幾名檔案全都是 PyTorch 與 NVIDIA CUDA 相關的動態連結庫(DLL):
torch_cuda.dll(821 MB) — PyTorch CUDA 核心cublasLt64_12.dll(674 MB) — 矩陣乘法加速庫cudnn_engines_precompiled64_9.dll(480 MB) — 神經網路預編譯引擎cusparse64_12.dll(379 MB) — 稀疏矩陣計算庫onnxruntime_providers_cuda.dll(312 MB) — ONNX 加速運算庫- 其他諸如
cufft(傅立葉轉換庫)、cusolver(矩陣求解器) 等等...
光是上面這幾十個 CUDA 相關的 DLL 檔案加起來就占了 4.5 GB 以上。這些是為了讓語音生成能利用 NVIDIA 顯示卡進行「秒級運算」的硬體加速必備組件。
如果您要將打包後的程式上傳至雲端硬碟(如 Google Drive)分享給他人使用,請務必按照以下步驟處理以節省傳輸頻寬與時間:
排除模型權重檔案
確保您打包與分享的資料夾中不包含 models/ 下的大型模型權重(模型權重已列在 .gitignore 中,大小約 4.3 GB)。這樣可以保持主程式打包檔的純淨。
將整個資料夾壓縮為 ZIP
請將打包輸出的 dist/Studio0808_VoxCPM 整體資料夾(包含 Studio0808_VoxCPM.exe 與整個 _internal 目錄)直接壓縮成一個 .zip 壓縮包。
體積大減至 2.0 ~ 2.5 GB
由於 NVIDIA CUDA DLL 庫中包含大量重複且高度可壓縮的二進位結構,經過壓縮後的 ZIP 檔體微會驟降至 2.0 ~ 2.5 GB 左右。如此一來,上傳與下載時間可減半!
使用者首次下載並一鍵部署模型
其他使用者下載您的 ZIP 檔並解壓縮後,點選執行 Studio0808_VoxCPM.exe,然後到「系統設定」點選一鍵下載模型,即可全自動下載 4.3 GB 的模型權重並正常運行。這是目前最乾淨、最高效的 AI 軟體分發工作流。
🍎 macOS 支援與待開發說明
說明:許多網友詢問是否能在 Mac(特別是 Apple M1/M2/M3 系列晶片)上運行。原生的 OpenBMB/VoxCPM 開源底層在技術上已具備 Mac 的執行支援,但目前本工作站軟體(Studio0808)為 Windows 專用的免安裝封裝版本。未來如有足夠需求,將規劃推出獨立的 macOS 版本。
- 硬體加速 (MPS) 支援:原生代碼支援 Apple Silicon 的
MPS(Metal Performance Shaders) 硬體加速,會自動調用 Mac 的 GPU。同時,為了防止 M 晶片在float16精度下產生音訊雜音,程式會自動將模型提升至float32精度載入。 - Mac 上運行的限制:Mac 上不支援
torch.compile優化(必須關閉);同時因改用float32載入模型,其主記憶體(統一記憶體)佔用會翻倍(約需 8.5 GB 以上)。因此強烈建議配備 16GB 以上記憶體 的 Mac 電腦運行,8GB 版本極易發生記憶體不足。 - 依賴安裝與環境要求:Mac 用戶若要在原生環境下透過原始碼運行,需要自行安裝 Python 環境,並使用 Homebrew 安裝音訊處理工具
brew install ffmpeg,最後透過指令python Studio0808_VoxCPM.py啟動。
.app 軟體格式。
🎤 即時錄音 (Live Recording Test)
適合場景:手邊沒有錄音檔,想當場錄製自己或現場的聲音,來立即測試語音合成克隆的效果。
即時錄音是 V20260619 版本全新加入的便利功能。整合了本機音訊輸入裝置選取、即時音量波形顯示與一鍵套用機制,讓測試變得更加流暢。
選擇錄音設備與讀稿準備
在下拉選單中選取您的麥克風輸入裝置。如果您剛接上新的麥克風,可以點擊「🔄 重新整理」按鈕重新掃描。中間的卡片會顯示我們為您設計的黃金長度讀稿文本(已為您精簡為適當的長度以避免自迴歸模型字數溢出崩潰)。
開始錄音與音波確認
點選紅色的 「🔴 開始錄音」 按鈕,並對著麥克風以正常的語速與音量朗讀文本。在錄音期間,按鈕右側的 **Canvas 波形區會即時浮現粉紅色的波浪震幅**,這能直觀確認您的麥克風有正常收音!
讀完後點選 「⏹ 停止錄音」。系統限制最長錄音為 15 秒(以防長度過長導致合成崩潰)。
試聽與一鍵套用測試
錄音成功後,您可以點擊 「▶ 播放錄音」 進行試聽。確認無誤後,即可點選下方套用按鈕:
- 👥 套用至 聲音複製:一鍵將此錄音檔載入為複製參考音訊,並自動跳轉分頁。
- 👑 套用至 極限複製:一鍵將此錄音檔載入為參考音訊,且自動將您的「錄音讀稿逐字稿」帶入至「參考語意逐字稿」中,並自動跳轉分頁。
✨ 語音設計 (Voice Design)
適合場景:不需要模仿特定人的聲音,只需憑空創造出符合某種特徵描述的精美聲線(例如廣播劇、小說朗讀、虛擬主播旁白)。
語音設計模式非常特別,它不需要您提供任何參考音檔。您只需要在您的輸入文字最前面,加上一個括號,並用英文寫下您想要的聲音特徵描述(如性別、年齡、情緒、環境音)。模型會自動解析這些描述,並無中生有地創造出對應的聲線。
批次合成模式 (有聲書利器)
當您需要合成整篇小說或長篇文章時,單次輸入整篇文字會因為上下文限制導致聲音崩潰或重複。此時,您可以使用 「批次合成 (逐行)」 按鈕:
在文字輸入框中將文章按段落或句子換行,每一行代表一句話。
每一行開頭都可以單獨加入括號描述特徵(例如第一行用男聲,第二行用女聲),藉此實現「多角色對話旁白」。
點擊黃色的 「批次合成 (逐行)」 按鈕,系統會依序在背景逐句合成為單獨的 WAV 音檔,並自動存放在您的輸出路徑中,絕不卡死介面。
👥 聲音複製 (Voice Clone)
適合場景:想要用您自己、家人或特定網紅的聲音來說出一段話,但您手中只有一段簡短的零散錄音。
在此模式下,您只需要提供一段 3 到 10 秒 的語音檔案(支援 WAV、MP3、FLAC、M4A 等多種音訊格式),並在文字框輸入想要合成的文字。VoxCPM2 會自動提取該音檔中的音色特徵、語調、呼吸聲甚至錄音環境,並以該音色來說出您指定的任何文字。
- 錄音長度並非越長越好:官方建議最佳長度為 3 ~ 10 秒(5 ~ 8 秒最理想)。如果錄音過長(例如超過 20-30 秒),會大幅占用模型的自注意力上下文視窗,導致後半段生成的音訊容易出現重複跳針、幻聽、胡言亂語或提早中斷等問題。因此,請使用短而清晰乾淨的錄音。
- 無噪音:背景不能有音樂(BGM)、風聲、噪聲或多人雜音。
- 單一發音人:音檔中只能有一個人說話,且沒有過度回音。
- 語音清晰:說話口齒清晰、發音自然。長度以 5~7 秒最佳。
👑 極限複製 (Ultimate Clone)
適合場景:追求完美的語氣接續、最高相似度、最逼真的說話腔調,特別是用於配音角色扮演、重要影片旁白等。
極限複製是聲音複製的「終極版」。除了提供 3~10 秒的參考音檔外,您必須在下方手動輸入該參考音檔中說出的完整逐字稿文字。模型會將參考音檔與它的逐字稿作為「提示(Prompt)」,並在時間線上百分之百無縫延續下去說出您指定的新文字。這可以保留說話者原本斷句、呼吸、重音甚至情緒張力,達成最極致真實的聲音模仿。
⚙️ 進階參數詳解
在推論進階參數設定區塊,您可以微調以下參數來控制聲音的品質與特性:
| 參數名稱 | 預設值 | 建議範圍 | 功能說明 |
|---|---|---|---|
| 引導係數 (CFG) | 2.0 | 2.0 ~ 3.0 | 數值越小,生成的語音音質和自然度越好;數值越大,生成的聲音與您的文字特徵描述(如 English, gentle 等)貼合度越強。建議維持在 2.0-3.0 之間。 |
| 去噪步數 (Steps) | 10 | 10 ~ 15 | 數值越大,聲音細節越豐富精細,但生成時間會線性增加。一般設定為 10-15 步即可兼顧品質與速度。高於 20 步可能導致生成時間過長。 |
| 語速設定 (Speed) | 1.0x | 0.8x ~ 1.2x | 調整生成語音的說話語速(範圍支援 0.5x 低速至 2.0x 快速)。如果想要情感表現更自然,建議設定在 0.9x ~ 1.1x 之間。 |
| 文字標準化 | 關閉 | 開啟 / 關閉 | 開啟後,會自動將文字中的阿拉伯數字和特殊符號轉譯為對應的文字(例如:100元 會被讀為 一百元)。若輸入文字包含大量數字,強烈建議開啟。 |
| 參考音訊自動降噪 | 關閉 | 開啟 / 關閉 | 若您上傳的參考語音含有輕微底噪、沙沙聲,開啟此功能會使用內置降噪算法先對參考音做預處理,能顯著改善克隆出來的語音純淨度。 |
| 隨機種子 (聲音 ID) | 隨機 (關閉固定) | 整數 (0 ~ 2^64-1) | 控制語音生成的起點隨機數。這是聲音的身份證! • 關閉固定時:每次生成都會使用隨機音色,並在日誌中印出隨機種子 ID。 • 開啟固定時:輸入指定的種子 ID(如 `42`),聲音音色、語氣、呼吸起伏將完全固定一致,不再「拆盲盒」。 |
🔒 隨機種子與固定音色(聲音 ID 使用指南與有聲書實務)
隨機種子控制著 AI 語音合成的「隨機噪音初始化狀態」,這相當於人聲特徵與語氣的「基因起點」。然而在不同的生成模式下,種子的表現有著本質上的物理差異:
由於「語音設計(Zero-shot 無中生有)」模式中沒有提供任何外部參考音檔,模型是純粹根據您的「文字長度」與「文字語意」來計算注意力權重並生成聲音。當您修改了輸入框的文字(例如將「哈囉」改成「測試」),即使固定了隨機種子,模型在生成時仍會因上下文變動而偏轉至不同的音色。因此,光靠固定種子是無法直接在語音設計分頁實現「同一個音色配音不同語句」的。
💡 有聲書與長篇文章配音:如何鎖定「同一個主播音色」?
如果您希望為小說或有聲書創造一個專屬主播,並讓他朗讀各種不同的句子,請務必遵循以下「黃金工作流」:
【語音設計】無中生有創造主播
首先在「語音設計」中輸入您滿意的聲音特徵描述(如 (A young woman, gentle and sweet voice)),使用隨機種子進行合成。當聽到一個您非常喜愛、極度適合做為主播的聲音時,將該次產生的 WAV 檔案保存下來(例如命名為 my_host.wav)。
【聲音複製】放入參考音檔錨定音色
切換至「聲音複製」或「極限複製」分頁,將剛才存好的 my_host.wav 放進「參考語音檔案」欄位。此時,該音檔的音色特徵(Speaker Embedding)將被強制鎖定為您的專屬主播。
輸入各種文字,開始有聲書配音
在目標合成文字中貼入有聲書的各種不同句子,模型便會強行使用同一位主播的聲音去配音,文字再怎麼改變,音色都不會再走樣!
❓ 不同模式下需要「固定隨機種子」嗎?分析與建議
平時「固定隨機種子」的核取方塊建議維持「不勾選」狀態。以下是不同分頁的使用指南:
| 功能分頁 | 不固定種子(推薦,不勾選) | 固定種子(勾選並輸入 ID) |
|---|---|---|
| 語音設計 | 每次生成都會是全新、隨機的不同聲線,就像拆盲盒一樣,適合用來發掘與挑選滿意的虛擬人聲。 | 主要用於「單句微調」。例如您對某句生成的語音很滿意,但想稍微修改其中一個字或句尾標點符號,此時固定種子能用最接近原配音員的感覺去唸修改後的句子。 |
| 聲音複製 與極限複製 |
每次生成都會用同一人的音色,但使用不同的語氣、停頓換氣與重音起伏(相當於同一個配音員重複錄製多個 Take)。若覺得第一版不夠生動,直接再按一次生成,挑選最完美的一版即可。 | 鎖定特定的「語氣起伏、呼吸與換氣間隔」。通常只有在「進行 CFG/Steps 等進階參數 A/B 測試」或「合成極長段落需要拼接(保持背景底噪一致)」時,才有固定種子的需要。 |
0 到 18446744073709551615 的所有正整數。這代表有近 2000 億億種不同的獨特人聲組合供您發掘!您也可以輸入幸運數字如 888888,這也是一種聲音。
💡 應用場景、文字上限與語音限制
1. 各功能單次合成之文字長度與字數限制
因為 VoxCPM2 採用了先進的自迴歸(Autoregressive)架構,模型內部具有有限的自注意力上下文視窗(Context Window),因此單次能處理與生成的文字具有物理上限:
- ✨ 語音設計 (Voice Design):單次建議在 100 至 150 字中文以內(約 15~20 秒的說話長度)。
- 👥 聲音複製 (Voice Clone):單次建議在 100 至 150 字中文以內。模型載入 3~10 秒參考音色後,剩餘的上下文視窗即可用來生成此長度的目標文字。
- 👑 極限複製 (Ultimate Clone):單次建議控制在 80 至 120 字中文以內。由於極限複製需同時輸入「參考音訊」與「參考逐字稿(Prompt Text)」,這些提示內容會預先占用模型部分的視窗空間,因此目標合成文字的可生成長度會被進一步縮短。
- 文字過長會怎樣?:如果單次合成字數超出上限,自迴歸生成在後半段會產生注意力渙散,導致語音出現胡言亂語(幻聽)、重寫跳針、聲音沙啞破裂、或突然靜音中斷等模型崩潰現象。
- 解決長篇生成的方案:請善用「語音設計」分頁中的 **「批次合成 (逐行)」** 功能。將長文章或小說依照標點符號分行輸入(一行一句),系統會在背景自動分段合成多個極為穩定的獨立 WAV 檔,不僅防跳針,也極度便利於後期的音效與配樂合成!
2. 應用場景最佳實踐
自媒體與配音
利用「語音設計」隨機創造優質好聽的男女聲,為解說影片、宣傳片提供旁白配音。比起千篇一律的傳統 TTS,VoxCPM2 具有媲美真人的感情起伏。
有聲書與 PodCast 製作
只需提供發音人(甚至您自己)的 6 秒語音範本,再將小說逐句貼入,即可在背景跑出整本用該音色朗讀的有聲書。低成本、高效率。
遊戲與虛擬角色配音
在「極限複製」模式下,配合情感充沛的提示音(例如憤怒、哭泣的音檔),接續生成角色台詞,能生成高度符合戲劇張力的聲音情感。
3. 💡 社群熱門:進階與創意應用玩法
得益於 VoxCPM2 強大的多語言大模型架構與 Tokenizer-Free(無離散 Token)設計,社群中延伸出了許多極富創意的進階玩法:
跨語言「無痛」配音
利用其強大跨語言能力,您可用 6 秒中文或台語錄音檔作參考音,再輸入英文或日文文字。AI 會用您本人的音色與細微口氣,說出流利的外語!適用於海外行銷與影片國際化。
中英台三語自然夾雜
傳統 TTS 遇到「中英夾雜」常會卡頓或發出彆扭的英文。但 VoxCPM2 適應性極佳,例如輸入:今仔日這個 meeting 非常重要,大家一定要 discuss 出結論。 AI 能以極自然的台灣口語將英文融入合成。
環境與特殊設備音效模擬
可在「語音設計」的括號中,輸入具有「空間或設備特徵」的提示字以直接生成特效音,例如:
• 電話濾波:(A voice speaking over an old telephone with heavy static noise)
• 無線對講機:(A soldier speaking through a walkie-talkie)
情感演技與非語言生理聲效
可以在文字中穿插英文語氣標籤(前後留空白),讓聲音流露出極為真實的情感,例如:
我真的... [sigh] 已經盡力了,[gasp] 怎麼會這樣?
支援 [sigh] (嘆氣)、[laughing] (笑聲)、[cough] (咳嗽)、[yawn] (哈欠)、[whispering] (悄悄話)。
多角色廣播劇 / Podcast 生成
在「語音設計」抽盲盒發掘出多種滿意的人聲,將其分別導出保存(如 role_A.wav, role_B.wav)。接著到「聲音複製」分頁,讓不同台詞搭配各自的角色參考音,即可輕鬆組合出多角色對話廣播劇。
類歌唱、吟唱與詩詞朗誦
利用擴散模型的節奏聯想特性,在漢字中間加上破折號 ——、逗號或句號,甚至在括號加上 chanting 描述,強迫模型延展音高:
(A chanting voice) 床前——明月光,[sigh] 疑是——地上霜。
❓ 常見問題 (FAQ)
這是 V20260614 版本全新加入的「防重複下載與逐檔檢查機制」。系統會比對您儲存路徑下的每一個檔案(例如 4.27GB 的主模型、359MB 的 VAE 權重等)。只有缺失或受損的檔案才會被列出並下載,其餘已經下載完成的檔案會直接跳過,確保不會浪費您的時間與網路流量。
這通常是由參考音檔(Reference Audio)品質不佳引起的。如果您的參考音檔包含有背景音樂(BGM)、嚴重的空間回音(如在浴室錄音)、或者是背景有沙沙雜音,AI 會連同這些雜訊與音樂的音色特徵一起複製,導致生成的聲音不純淨。請嘗試開啟「參考音訊自動降噪」功能,或者使用更加乾淨的人聲重試。
不行的。VoxCPM2 是一個語音合成(TTS)與說話聲音克隆模型,它無法調整音高與音樂節奏來唱出一首歌。如果您想玩 AI 歌手,需要使用專門的歌聲轉換技術(如 RVC - Retrieval-based Voice Conversion)。
AI 語音模型是根據字詞拼音進行推理,有時會對多音字(破音字,如「連假」唸成「連甲」)判斷錯誤,或對罕見字(如「飆」)拼讀失敗。最直接且有效的解決方案是使用「同音字替換」!
由於這個文字框輸入的內容只用來給 AI 生成語音,聽眾只會聽到聲音、看不到文字,因此您可以使用同音的常見字來代替:
- 將 「連假」 修改為 「連架」 或 「連價」(即可引導模型唸出正確的四聲 ㄐㄧㄚˋ)。
- 將 「狂飆」 修改為 「狂標」(即可唸出正確的 ㄅㄧㄠ 讀音)。
這在配音實務中是非常常見且實用的微調技巧,直接在文字框修改即可,無須安裝額外注音工具。
別擔心!您可以直接點選程式中的「停止下載」,或者在網路異常斷開時,重啟下載即可。由於我們實作了斷點檢查,再次啟動時程式會自動偵測本機下載進度,未下載完的檔案會先清除後重新下載,已下載完成的檔案則完全不受影響,非常安全。
這是為什麽 PyTorch 的 torch.compile 動態編譯器(Dynamo)在執行新參數的分支時,需要讀取原始的 .py 原始碼檔案。而 PyInstaller 打包時會移除原始碼(只保留 .pyc 二進位檔),進而導致崩潰。本工作站已全面修復此問題! 我們在打包後的 EXE 運作環境中會自動切換為高穩定性的 Eager 運算模式,完全避開了即時編譯錯誤,確保在各種硬體與參數切換下皆能完美運行。