版本 V20260619

Studio0808 VoxCPM 語音合成工作站

基於 OpenBMB VoxCPM2 最新開源語音合成模型,提供極致流暢、媲美真人的聲音複製與配音體驗。

🚀 快速入門與下載

📦 工作站主程式下載 (免安裝綠色版)

下載解壓後即可在 Windows 直接運行,免配置複雜 Python 環境。首次開啟程式後,請在「系統設定」分頁一鍵自動下載模型權重。

📥 點此前往雲端下載 (V20260619)

本工具是一個全離線的 AI 語音合成工作站。首次使用時,需要先下載模型權重檔案。我們已經在程式內置了極速的 ModelScope (大陸鏡像節點) 下載通道,您可以按照以下步驟快速上手:

1

設定下載伺服器與下載模型

切換至 「系統設定」 分頁,確認您的儲存路徑。本系統提供了三個下載來源:

  • Hugging Face 官方 (推薦):最為推薦,台灣與海外地區下載極速(頻寬全開)。
  • Hugging Face 鏡像:在大陸地區使用推薦。
  • ModelScope:大陸地區極速備用管道。

選定下載源後點選 「開始下載 / 檢查模型」。系統已實作 **20秒連線超時與5次自動重試**,且支援 **斷點續傳 (Range)** 機制。如遇網路波動會自動在原位置續傳,不會像舊版那樣無回應卡死,也不會重複下載已完成的檔案。您也可以點選「停止下載」安全中止下載程序。

2

選擇合適的語音生成模式

本系統提供 語音設計(無需參考音)聲音複製(需 3-10秒參考音) 以及 極限複製(需參考音及對應逐字稿) 三種模式,可視您的音源材料與需求進行切換。

3

開始推論與播放

輸入您要合成的文字,點選紅色的 「開始語音合成」 按鈕。首次運行需要 20-40 秒初始化模型(將模型讀入顯示卡記憶體),之後每次合成僅需數秒。生成完成後,點擊綠色的 「播放生成音訊」 即可立即試聽。

💡 硬體加速建議
如果您配備有 NVIDIA 顯示卡,請確認本程式底部日誌中顯示有 系統偵測到 NVIDIA GPU: GeForce ... 且已啟用 CUDA。這將提供高達數十倍的生成速度提升,達成秒級生成!

📦 程式打包體積與分發說明

當您手動執行打包後,會發現輸出的 dist/Studio0808_VoxCPM/_internal 資料夾體積高達約 5.2 GB,這並非程式碼本身臃腫,而是本機運作強大 AI 模型所必需的依賴庫。以下為您詳細拆解體積組成,並說明我們推薦的分享與分發做法

🔍 體積龐大的核心原因:GPU 加速 (CUDA) 依賴庫

這主要是因為具有 GPU 加速(CUDA)能力的 PyTorch 函式庫體積非常龐大。我們可以從分析數據中看到,最占空間的前幾名檔案全都是 PyTorch 與 NVIDIA CUDA 相關的動態連結庫(DLL):

  • torch_cuda.dll (821 MB) — PyTorch CUDA 核心
  • cublasLt64_12.dll (674 MB) — 矩陣乘法加速庫
  • cudnn_engines_precompiled64_9.dll (480 MB) — 神經網路預編譯引擎
  • cusparse64_12.dll (379 MB) — 稀疏矩陣計算庫
  • onnxruntime_providers_cuda.dll (312 MB) — ONNX 加速運算庫
  • 其他諸如 cufft (傅立葉轉換庫)、cusolver (矩陣求解器) 等等...

光是上面這幾十個 CUDA 相關的 DLL 檔案加起來就占了 4.5 GB 以上。這些是為了讓語音生成能利用 NVIDIA 顯示卡進行「秒級運算」的硬體加速必備組件。

💡 推薦的分享與分發最佳做法

如果您要將打包後的程式上傳至雲端硬碟(如 Google Drive)分享給他人使用,請務必按照以下步驟處理以節省傳輸頻寬與時間:

1

排除模型權重檔案

確保您打包與分享的資料夾中不包含 models/ 下的大型模型權重(模型權重已列在 .gitignore 中,大小約 4.3 GB)。這樣可以保持主程式打包檔的純淨。

2

將整個資料夾壓縮為 ZIP

請將打包輸出的 dist/Studio0808_VoxCPM 整體資料夾(包含 Studio0808_VoxCPM.exe 與整個 _internal 目錄)直接壓縮成一個 .zip 壓縮包

3

體積大減至 2.0 ~ 2.5 GB

由於 NVIDIA CUDA DLL 庫中包含大量重複且高度可壓縮的二進位結構,經過壓縮後的 ZIP 檔體微會驟降至 2.0 ~ 2.5 GB 左右。如此一來,上傳與下載時間可減半!

4

使用者首次下載並一鍵部署模型

其他使用者下載您的 ZIP 檔並解壓縮後,點選執行 Studio0808_VoxCPM.exe,然後到「系統設定」點選一鍵下載模型,即可全自動下載 4.3 GB 的模型權重並正常運行。這是目前最乾淨、最高效的 AI 軟體分發工作流。

🍎 macOS 支援與待開發說明

說明:許多網友詢問是否能在 Mac(特別是 Apple M1/M2/M3 系列晶片)上運行。原生的 OpenBMB/VoxCPM 開源底層在技術上已具備 Mac 的執行支援,但目前本工作站軟體(Studio0808)為 Windows 專用的免安裝封裝版本。未來如有足夠需求,將規劃推出獨立的 macOS 版本。

🔍 原生 VoxCPM2 的 Mac 支援細節
  • 硬體加速 (MPS) 支援:原生代碼支援 Apple Silicon 的 MPS (Metal Performance Shaders) 硬體加速,會自動調用 Mac 的 GPU。同時,為了防止 M 晶片在 float16 精度下產生音訊雜音,程式會自動將模型提升至 float32 精度載入。
  • Mac 上運行的限制:Mac 上不支援 torch.compile 優化(必須關閉);同時因改用 float32 載入模型,其主記憶體(統一記憶體)佔用會翻倍(約需 8.5 GB 以上)。因此強烈建議配備 16GB 以上記憶體 的 Mac 電腦運行,8GB 版本極易發生記憶體不足。
  • 依賴安裝與環境要求:Mac 用戶若要在原生環境下透過原始碼運行,需要自行安裝 Python 環境,並使用 Homebrew 安裝音訊處理工具 brew install ffmpeg,最後透過指令 python Studio0808_VoxCPM.py 啟動。
⚠️ macOS 版本待開發事項
目前的 Windows 一鍵封裝版(ZIP檔內的 .exe 與依賴庫)是無法直接在 macOS 下執行的。後續若開發 MAC 版本,預計需要重新配置 PyInstaller,排除 Windows 專用的 CUDA 加速 DLL 檔案,並在 Mac 本機環境上重新打包產生 macOS 專屬的 .app 軟體格式。

🎤 即時錄音 (Live Recording Test)

適合場景:手邊沒有錄音檔,想當場錄製自己或現場的聲音,來立即測試語音合成克隆的效果。

即時錄音是 V20260619 版本全新加入的便利功能。整合了本機音訊輸入裝置選取、即時音量波形顯示與一鍵套用機制,讓測試變得更加流暢。

1

選擇錄音設備與讀稿準備

在下拉選單中選取您的麥克風輸入裝置。如果您剛接上新的麥克風,可以點擊「🔄 重新整理」按鈕重新掃描。中間的卡片會顯示我們為您設計的黃金長度讀稿文本(已為您精簡為適當的長度以避免自迴歸模型字數溢出崩潰)。

2

開始錄音與音波確認

點選紅色的 「🔴 開始錄音」 按鈕,並對著麥克風以正常的語速與音量朗讀文本。在錄音期間,按鈕右側的 **Canvas 波形區會即時浮現粉紅色的波浪震幅**,這能直觀確認您的麥克風有正常收音!

讀完後點選 「⏹ 停止錄音」。系統限制最長錄音為 15 秒(以防長度過長導致合成崩潰)。

3

試聽與一鍵套用測試

錄音成功後,您可以點擊 「▶ 播放錄音」 進行試聽。確認無誤後,即可點選下方套用按鈕:

  • 👥 套用至 聲音複製:一鍵將此錄音檔載入為複製參考音訊,並自動跳轉分頁。
  • 👑 套用至 極限複製:一鍵將此錄音檔載入為參考音訊,且自動將您的「錄音讀稿逐字稿」帶入至「參考語意逐字稿」中,並自動跳轉分頁。

✨ 語音設計 (Voice Design)

適合場景:不需要模仿特定人的聲音,只需憑空創造出符合某種特徵描述的精美聲線(例如廣播劇、小說朗讀、虛擬主播旁白)。

語音設計模式非常特別,它不需要您提供任何參考音檔。您只需要在您的輸入文字最前面,加上一個括號,並用英文寫下您想要的聲音特徵描述(如性別、年齡、情緒、環境音)。模型會自動解析這些描述,並無中生有地創造出對應的聲線。

(A gentle young female voice, smiling) 哈囉!這是使用語音設計無中生有出來的聲音。聽起來很自然吧?

批次合成模式 (有聲書利器)

當您需要合成整篇小說或長篇文章時,單次輸入整篇文字會因為上下文限制導致聲音崩潰或重複。此時,您可以使用 「批次合成 (逐行)」 按鈕:

1

在文字輸入框中將文章按段落或句子換行,每一行代表一句話

2

每一行開頭都可以單獨加入括號描述特徵(例如第一行用男聲,第二行用女聲),藉此實現「多角色對話旁白」。

3

點擊黃色的 「批次合成 (逐行)」 按鈕,系統會依序在背景逐句合成為單獨的 WAV 音檔,並自動存放在您的輸出路徑中,絕不卡死介面。

👥 聲音複製 (Voice Clone)

適合場景:想要用您自己、家人或特定網紅的聲音來說出一段話,但您手中只有一段簡短的零散錄音。

在此模式下,您只需要提供一段 3 到 10 秒 的語音檔案(支援 WAV、MP3、FLAC、M4A 等多種音訊格式),並在文字框輸入想要合成的文字。VoxCPM2 會自動提取該音檔中的音色特徵、語調、呼吸聲甚至錄音環境,並以該音色來說出您指定的任何文字。

⚠️ 對於複製參考音訊的建議
為了獲得最佳的複製效果,請確保您上傳的 3-10 秒參考音檔滿足以下條件:
  • 錄音長度並非越長越好:官方建議最佳長度為 3 ~ 10 秒(5 ~ 8 秒最理想)。如果錄音過長(例如超過 20-30 秒),會大幅占用模型的自注意力上下文視窗,導致後半段生成的音訊容易出現重複跳針、幻聽、胡言亂語或提早中斷等問題。因此,請使用短而清晰乾淨的錄音。
  • 無噪音:背景不能有音樂(BGM)、風聲、噪聲或多人雜音。
  • 單一發音人:音檔中只能有一個人說話,且沒有過度回音。
  • 語音清晰:說話口齒清晰、發音自然。長度以 5~7 秒最佳。

👑 極限複製 (Ultimate Clone)

適合場景:追求完美的語氣接續、最高相似度、最逼真的說話腔調,特別是用於配音角色扮演、重要影片旁白等。

極限複製是聲音複製的「終極版」。除了提供 3~10 秒的參考音檔外,您必須在下方手動輸入該參考音檔中說出的完整逐字稿文字。模型會將參考音檔與它的逐字稿作為「提示(Prompt)」,並在時間線上百分之百無縫延續下去說出您指定的新文字。這可以保留說話者原本斷句、呼吸、重音甚至情緒張力,達成最極致真實的聲音模仿。

⚙️ 進階參數詳解

在推論進階參數設定區塊,您可以微調以下參數來控制聲音的品質與特性:

參數名稱 預設值 建議範圍 功能說明
引導係數 (CFG) 2.0 2.0 ~ 3.0 數值越小,生成的語音音質和自然度越好;數值越大,生成的聲音與您的文字特徵描述(如 English, gentle 等)貼合度越強。建議維持在 2.0-3.0 之間。
去噪步數 (Steps) 10 10 ~ 15 數值越大,聲音細節越豐富精細,但生成時間會線性增加。一般設定為 10-15 步即可兼顧品質與速度。高於 20 步可能導致生成時間過長。
語速設定 (Speed) 1.0x 0.8x ~ 1.2x 調整生成語音的說話語速(範圍支援 0.5x 低速至 2.0x 快速)。如果想要情感表現更自然,建議設定在 0.9x ~ 1.1x 之間。
文字標準化 關閉 開啟 / 關閉 開啟後,會自動將文字中的阿拉伯數字和特殊符號轉譯為對應的文字(例如:100元 會被讀為 一百元)。若輸入文字包含大量數字,強烈建議開啟。
參考音訊自動降噪 關閉 開啟 / 關閉 若您上傳的參考語音含有輕微底噪、沙沙聲,開啟此功能會使用內置降噪算法先對參考音做預處理,能顯著改善克隆出來的語音純淨度。
隨機種子 (聲音 ID) 隨機 (關閉固定) 整數 (0 ~ 2^64-1) 控制語音生成的起點隨機數。這是聲音的身份證!
關閉固定時:每次生成都會使用隨機音色,並在日誌中印出隨機種子 ID。
開啟固定時:輸入指定的種子 ID(如 `42`),聲音音色、語氣、呼吸起伏將完全固定一致,不再「拆盲盒」。

🔒 隨機種子與固定音色(聲音 ID 使用指南與有聲書實務)

隨機種子控制著 AI 語音合成的「隨機噪音初始化狀態」,這相當於人聲特徵與語氣的「基因起點」。然而在不同的生成模式下,種子的表現有著本質上的物理差異:

⚠️ 核心物理限制:在「語音設計」中,相同的種子 + 不同的文字 = 不同的音色

由於「語音設計(Zero-shot 無中生有)」模式中沒有提供任何外部參考音檔,模型是純粹根據您的「文字長度」與「文字語意」來計算注意力權重並生成聲音。當您修改了輸入框的文字(例如將「哈囉」改成「測試」),即使固定了隨機種子,模型在生成時仍會因上下文變動而偏轉至不同的音色。因此,光靠固定種子是無法直接在語音設計分頁實現「同一個音色配音不同語句」的。

💡 有聲書與長篇文章配音:如何鎖定「同一個主播音色」?

如果您希望為小說或有聲書創造一個專屬主播,並讓他朗讀各種不同的句子,請務必遵循以下「黃金工作流」

1

【語音設計】無中生有創造主播

首先在「語音設計」中輸入您滿意的聲音特徵描述(如 (A young woman, gentle and sweet voice)),使用隨機種子進行合成。當聽到一個您非常喜愛、極度適合做為主播的聲音時,將該次產生的 WAV 檔案保存下來(例如命名為 my_host.wav)。

2

【聲音複製】放入參考音檔錨定音色

切換至「聲音複製」或「極限複製」分頁,將剛才存好的 my_host.wav 放進「參考語音檔案」欄位。此時,該音檔的音色特徵(Speaker Embedding)將被強制鎖定為您的專屬主播。

3

輸入各種文字,開始有聲書配音

在目標合成文字中貼入有聲書的各種不同句子,模型便會強行使用同一位主播的聲音去配音,文字再怎麼改變,音色都不會再走樣!

❓ 不同模式下需要「固定隨機種子」嗎?分析與建議

平時「固定隨機種子」的核取方塊建議維持「不勾選」狀態。以下是不同分頁的使用指南:

功能分頁 不固定種子(推薦,不勾選) 固定種子(勾選並輸入 ID)
語音設計 每次生成都會是全新、隨機的不同聲線,就像拆盲盒一樣,適合用來發掘與挑選滿意的虛擬人聲 主要用於「單句微調」。例如您對某句生成的語音很滿意,但想稍微修改其中一個字或句尾標點符號,此時固定種子能用最接近原配音員的感覺去唸修改後的句子。
聲音複製
與極限複製
每次生成都會用同一人的音色,但使用不同的語氣、停頓換氣與重音起伏(相當於同一個配音員重複錄製多個 Take)。若覺得第一版不夠生動,直接再按一次生成,挑選最完美的一版即可。 鎖定特定的「語氣起伏、呼吸與換氣間隔」。通常只有在「進行 CFG/Steps 等進階參數 A/B 測試」「合成極長段落需要拼接(保持背景底噪一致)」時,才有固定種子的需要。
💡 聲音 ID 的宇宙
種子 ID 支援從 018446744073709551615 的所有正整數。這代表有近 2000 億億種不同的獨特人聲組合供您發掘!您也可以輸入幸運數字如 888888,這也是一種聲音。

💡 應用場景、文字上限與語音限制

1. 各功能單次合成之文字長度與字數限制

因為 VoxCPM2 採用了先進的自迴歸(Autoregressive)架構,模型內部具有有限的自注意力上下文視窗(Context Window),因此單次能處理與生成的文字具有物理上限:

2. 應用場景最佳實踐

🎙️

自媒體與配音

利用「語音設計」隨機創造優質好聽的男女聲,為解說影片、宣傳片提供旁白配音。比起千篇一律的傳統 TTS,VoxCPM2 具有媲美真人的感情起伏。

📖

有聲書與 PodCast 製作

只需提供發音人(甚至您自己)的 6 秒語音範本,再將小說逐句貼入,即可在背景跑出整本用該音色朗讀的有聲書。低成本、高效率。

🎮

遊戲與虛擬角色配音

在「極限複製」模式下,配合情感充沛的提示音(例如憤怒、哭泣的音檔),接續生成角色台詞,能生成高度符合戲劇張力的聲音情感。

3. 💡 社群熱門:進階與創意應用玩法

得益於 VoxCPM2 強大的多語言大模型架構與 Tokenizer-Free(無離散 Token)設計,社群中延伸出了許多極富創意的進階玩法:

🌍

跨語言「無痛」配音

利用其強大跨語言能力,您可用 6 秒中文或台語錄音檔作參考音,再輸入英文或日文文字。AI 會用您本人的音色與細微口氣,說出流利的外語!適用於海外行銷與影片國際化。

🗣️

中英台三語自然夾雜

傳統 TTS 遇到「中英夾雜」常會卡頓或發出彆扭的英文。但 VoxCPM2 適應性極佳,例如輸入:今仔日這個 meeting 非常重要,大家一定要 discuss 出結論。 AI 能以極自然的台灣口語將英文融入合成。

📞

環境與特殊設備音效模擬

可在「語音設計」的括號中,輸入具有「空間或設備特徵」的提示字以直接生成特效音,例如:
• 電話濾波:(A voice speaking over an old telephone with heavy static noise)
• 無線對講機:(A soldier speaking through a walkie-talkie)

🎭

情感演技與非語言生理聲效

可以在文字中穿插英文語氣標籤(前後留空白),讓聲音流露出極為真實的情感,例如:
我真的... [sigh] 已經盡力了,[gasp] 怎麼會這樣?
支援 [sigh] (嘆氣)、[laughing] (笑聲)、[cough] (咳嗽)、[yawn] (哈欠)、[whispering] (悄悄話)。

👥

多角色廣播劇 / Podcast 生成

在「語音設計」抽盲盒發掘出多種滿意的人聲,將其分別導出保存(如 role_A.wav, role_B.wav)。接著到「聲音複製」分頁,讓不同台詞搭配各自的角色參考音,即可輕鬆組合出多角色對話廣播劇。

🎵

類歌唱、吟唱與詩詞朗誦

利用擴散模型的節奏聯想特性,在漢字中間加上破折號 ——、逗號或句號,甚至在括號加上 chanting 描述,強迫模型延展音高:
(A chanting voice) 床前——明月光,[sigh] 疑是——地上霜。

❓ 常見問題 (FAQ)

Q1:為什麼按下「開始下載模型」後,有時候會提示本機已存在並跳過?

這是 V20260614 版本全新加入的「防重複下載與逐檔檢查機制」。系統會比對您儲存路徑下的每一個檔案(例如 4.27GB 的主模型、359MB 的 VAE 權重等)。只有缺失或受損的檔案才會被列出並下載,其餘已經下載完成的檔案會直接跳過,確保不會浪費您的時間與網路流量。

Q2:為什麼聲音複製出來不像,或者有很重的金屬電音?

這通常是由參考音檔(Reference Audio)品質不佳引起的。如果您的參考音檔包含有背景音樂(BGM)、嚴重的空間回音(如在浴室錄音)、或者是背景有沙沙雜音,AI 會連同這些雜訊與音樂的音色特徵一起複製,導致生成的聲音不純淨。請嘗試開啟「參考音訊自動降噪」功能,或者使用更加乾淨的人聲重試。

Q3:可以用我的聲音唱一首歌嗎?

不行的。VoxCPM2 是一個語音合成(TTS)與說話聲音克隆模型,它無法調整音高與音樂節奏來唱出一首歌。如果您想玩 AI 歌手,需要使用專門的歌聲轉換技術(如 RVC - Retrieval-based Voice Conversion)。

Q4:如果合成聲音時字唸錯了(例如多音破音字、生僻字唸錯)該如何處理?

AI 語音模型是根據字詞拼音進行推理,有時會對多音字(破音字,如「連假」唸成「連甲」)判斷錯誤,或對罕見字(如「飆」)拼讀失敗。最直接且有效的解決方案是使用「同音字替換」!

由於這個文字框輸入的內容只用來給 AI 生成語音,聽眾只會聽到聲音、看不到文字,因此您可以使用同音的常見字來代替:

  • 「連假」 修改為 「連架」「連價」(即可引導模型唸出正確的四聲 ㄐㄧㄚˋ)。
  • 「狂飆」 修改為 「狂標」(即可唸出正確的 ㄅㄧㄠ 讀音)。

這在配音實務中是非常常見且實用的微調技巧,直接在文字框修改即可,無須安裝額外注音工具。

Q5:在 Windows 上下載模型時,如果網路中斷該怎麼辦?

別擔心!您可以直接點選程式中的「停止下載」,或者在網路異常斷開時,重啟下載即可。由於我們實作了斷點檢查,再次啟動時程式會自動偵測本機下載進度,未下載完的檔案會先清除後重新下載,已下載完成的檔案則完全不受影響,非常安全。

Q6:為什麼在別的地方執行打包後的 EXE,切換參數會出現 `could not get source code` 錯誤?

這是為什麽 PyTorch 的 torch.compile 動態編譯器(Dynamo)在執行新參數的分支時,需要讀取原始的 .py 原始碼檔案。而 PyInstaller 打包時會移除原始碼(只保留 .pyc 二進位檔),進而導致崩潰。本工作站已全面修復此問題! 我們在打包後的 EXE 運作環境中會自動切換為高穩定性的 Eager 運算模式,完全避開了即時編譯錯誤,確保在各種硬體與參數切換下皆能完美運行。