版本 V20260619

Studio0808 VoxCPM 語音合成工作站

基於 OpenBMB VoxCPM2 最新開源語音合成模型，提供極致流暢、媲美真人的聲音複製與配音體驗。

🚀 快速入門與下載

📦 工作站主程式下載 (免安裝綠色版)

下載解壓後即可在 Windows 直接運行，免配置複雜 Python 環境。首次開啟程式後，請在「系統設定」分頁一鍵自動下載模型權重。

📥 點此前往雲端下載 (V20260619)

本工具是一個全離線的 AI 語音合成工作站。首次使用時，需要先下載模型權重檔案。我們已經在程式內置了極速的 ModelScope (大陸鏡像節點) 下載通道，您可以按照以下步驟快速上手：

設定下載伺服器與下載模型

切換至 「系統設定」 分頁，確認您的儲存路徑。本系統提供了三個下載來源：

Hugging Face 官方 (推薦)：最為推薦，台灣與海外地區下載極速（頻寬全開）。
Hugging Face 鏡像：在大陸地區使用推薦。
ModelScope：大陸地區極速備用管道。

選定下載源後點選 「開始下載 / 檢查模型」。系統已實作 **20秒連線超時與5次自動重試**，且支援 **斷點續傳 (Range)** 機制。如遇網路波動會自動在原位置續傳，不會像舊版那樣無回應卡死，也不會重複下載已完成的檔案。您也可以點選「停止下載」安全中止下載程序。

選擇合適的語音生成模式

本系統提供 語音設計（無需參考音）、聲音複製（需 3-10秒參考音） 以及 極限複製（需參考音及對應逐字稿） 三種模式，可視您的音源材料與需求進行切換。

開始推論與播放

輸入您要合成的文字，點選紅色的 「開始語音合成」 按鈕。首次運行需要 20-40 秒初始化模型（將模型讀入顯示卡記憶體），之後每次合成僅需數秒。生成完成後，點擊綠色的 「播放生成音訊」 即可立即試聽。

💡 硬體加速建議

如果您配備有 NVIDIA 顯示卡，請確認本程式底部日誌中顯示有 系統偵測到 NVIDIA GPU: GeForce ... 且已啟用 CUDA。這將提供高達數十倍的生成速度提升，達成秒級生成！

📦 程式打包體積與分發說明

當您手動執行打包後，會發現輸出的 dist/Studio0808_VoxCPM/_internal 資料夾體積高達約 5.2 GB，這並非程式碼本身臃腫，而是本機運作強大 AI 模型所必需的依賴庫。以下為您詳細拆解體積組成，並說明我們推薦的分享與分發做法。

🔍 體積龐大的核心原因：GPU 加速 (CUDA) 依賴庫

這主要是因為具有 GPU 加速（CUDA）能力的 PyTorch 函式庫體積非常龐大。我們可以從分析數據中看到，最占空間的前幾名檔案全都是 PyTorch 與 NVIDIA CUDA 相關的動態連結庫（DLL）：

torch_cuda.dll (821 MB) — PyTorch CUDA 核心
cublasLt64_12.dll (674 MB) — 矩陣乘法加速庫
cudnn_engines_precompiled64_9.dll (480 MB) — 神經網路預編譯引擎
cusparse64_12.dll (379 MB) — 稀疏矩陣計算庫
onnxruntime_providers_cuda.dll (312 MB) — ONNX 加速運算庫
其他諸如 cufft (傅立葉轉換庫)、cusolver (矩陣求解器) 等等...

光是上面這幾十個 CUDA 相關的 DLL 檔案加起來就占了 4.5 GB 以上。這些是為了讓語音生成能利用 NVIDIA 顯示卡進行「秒級運算」的硬體加速必備組件。

💡 推薦的分享與分發最佳做法

如果您要將打包後的程式上傳至雲端硬碟（如 Google Drive）分享給他人使用，請務必按照以下步驟處理以節省傳輸頻寬與時間：

排除模型權重檔案

確保您打包與分享的資料夾中不包含 models/ 下的大型模型權重（模型權重已列在 .gitignore 中，大小約 4.3 GB）。這樣可以保持主程式打包檔的純淨。

將整個資料夾壓縮為 ZIP

請將打包輸出的 dist/Studio0808_VoxCPM 整體資料夾（包含 Studio0808_VoxCPM.exe 與整個 _internal 目錄）直接壓縮成一個 .zip 壓縮包。

體積大減至 2.0 ~ 2.5 GB

由於 NVIDIA CUDA DLL 庫中包含大量重複且高度可壓縮的二進位結構，經過壓縮後的 ZIP 檔體微會驟降至 2.0 ~ 2.5 GB 左右。如此一來，上傳與下載時間可減半！

使用者首次下載並一鍵部署模型

其他使用者下載您的 ZIP 檔並解壓縮後，點選執行 Studio0808_VoxCPM.exe，然後到「系統設定」點選一鍵下載模型，即可全自動下載 4.3 GB 的模型權重並正常運行。這是目前最乾淨、最高效的 AI 軟體分發工作流。

🍎 macOS 支援與待開發說明

說明：許多網友詢問是否能在 Mac（特別是 Apple M1/M2/M3 系列晶片）上運行。原生的 OpenBMB/VoxCPM 開源底層在技術上已具備 Mac 的執行支援，但目前本工作站軟體（Studio0808）為 Windows 專用的免安裝封裝版本。未來如有足夠需求，將規劃推出獨立的 macOS 版本。

🔍 原生 VoxCPM2 的 Mac 支援細節

硬體加速 (MPS) 支援：原生代碼支援 Apple Silicon 的 MPS (Metal Performance Shaders) 硬體加速，會自動調用 Mac 的 GPU。同時，為了防止 M 晶片在 float16 精度下產生音訊雜音，程式會自動將模型提升至 float32 精度載入。
Mac 上運行的限制：Mac 上不支援 torch.compile 優化（必須關閉）；同時因改用 float32 載入模型，其主記憶體（統一記憶體）佔用會翻倍（約需 8.5 GB 以上）。因此強烈建議配備 16GB 以上記憶體 的 Mac 電腦運行，8GB 版本極易發生記憶體不足。
依賴安裝與環境要求：Mac 用戶若要在原生環境下透過原始碼運行，需要自行安裝 Python 環境，並使用 Homebrew 安裝音訊處理工具 brew install ffmpeg，最後透過指令 python Studio0808_VoxCPM.py 啟動。

⚠️ macOS 版本待開發事項

目前的 Windows 一鍵封裝版（ZIP檔內的 .exe 與依賴庫）是無法直接在 macOS 下執行的。後續若開發 MAC 版本，預計需要重新配置 PyInstaller，排除 Windows 專用的 CUDA 加速 DLL 檔案，並在 Mac 本機環境上重新打包產生 macOS 專屬的 .app 軟體格式。

🎤 即時錄音 (Live Recording Test)

適合場景：手邊沒有錄音檔，想當場錄製自己或現場的聲音，來立即測試語音合成克隆的效果。

即時錄音是 V20260619 版本全新加入的便利功能。整合了本機音訊輸入裝置選取、即時音量波形顯示與一鍵套用機制，讓測試變得更加流暢。

選擇錄音設備與讀稿準備

在下拉選單中選取您的麥克風輸入裝置。如果您剛接上新的麥克風，可以點擊「🔄 重新整理」按鈕重新掃描。中間的卡片會顯示我們為您設計的黃金長度讀稿文本（已為您精簡為適當的長度以避免自迴歸模型字數溢出崩潰）。

開始錄音與音波確認

點選紅色的 「🔴 開始錄音」 按鈕，並對著麥克風以正常的語速與音量朗讀文本。在錄音期間，按鈕右側的 **Canvas 波形區會即時浮現粉紅色的波浪震幅**，這能直觀確認您的麥克風有正常收音！

讀完後點選 「⏹ 停止錄音」。系統限制最長錄音為 15 秒（以防長度過長導致合成崩潰）。

試聽與一鍵套用測試

錄音成功後，您可以點擊 「▶ 播放錄音」 進行試聽。確認無誤後，即可點選下方套用按鈕：

👥 套用至聲音複製：一鍵將此錄音檔載入為複製參考音訊，並自動跳轉分頁。
👑 套用至極限複製：一鍵將此錄音檔載入為參考音訊，且自動將您的「錄音讀稿逐字稿」帶入至「參考語意逐字稿」中，並自動跳轉分頁。

✨ 語音設計 (Voice Design)

適合場景：不需要模仿特定人的聲音，只需憑空創造出符合某種特徵描述的精美聲線（例如廣播劇、小說朗讀、虛擬主播旁白）。

語音設計模式非常特別，它不需要您提供任何參考音檔。您只需要在您的輸入文字最前面，加上一個括號，並用英文寫下您想要的聲音特徵描述（如性別、年齡、情緒、環境音）。模型會自動解析這些描述，並無中生有地創造出對應的聲線。

(A gentle young female voice, smiling) 哈囉！這是使用語音設計無中生有出來的聲音。聽起來很自然吧？
            

批次合成模式 (有聲書利器)

當您需要合成整篇小說或長篇文章時，單次輸入整篇文字會因為上下文限制導致聲音崩潰或重複。此時，您可以使用 「批次合成 (逐行)」 按鈕：

在文字輸入框中將文章按段落或句子換行，每一行代表一句話。

每一行開頭都可以單獨加入括號描述特徵（例如第一行用男聲，第二行用女聲），藉此實現「多角色對話旁白」。

點擊黃色的 「批次合成 (逐行)」 按鈕，系統會依序在背景逐句合成為單獨的 WAV 音檔，並自動存放在您的輸出路徑中，絕不卡死介面。

👥 聲音複製 (Voice Clone)

適合場景：想要用您自己、家人或特定網紅的聲音來說出一段話，但您手中只有一段簡短的零散錄音。

在此模式下，您只需要提供一段 3 到 10 秒 的語音檔案（支援 WAV、MP3、FLAC、M4A 等多種音訊格式），並在文字框輸入想要合成的文字。VoxCPM2 會自動提取該音檔中的音色特徵、語調、呼吸聲甚至錄音環境，並以該音色來說出您指定的任何文字。

⚠️ 對於複製參考音訊的建議

為了獲得最佳的複製效果，請確保您上傳的 3-10 秒參考音檔滿足以下條件：

錄音長度並非越長越好：官方建議最佳長度為 3 ~ 10 秒（5 ~ 8 秒最理想）。如果錄音過長（例如超過 20-30 秒），會大幅占用模型的自注意力上下文視窗，導致後半段生成的音訊容易出現重複跳針、幻聽、胡言亂語或提早中斷等問題。因此，請使用短而清晰乾淨的錄音。
無噪音：背景不能有音樂（BGM）、風聲、噪聲或多人雜音。
單一發音人：音檔中只能有一個人說話，且沒有過度回音。
語音清晰：說話口齒清晰、發音自然。長度以 5~7 秒最佳。

👑 極限複製 (Ultimate Clone)

適合場景：追求完美的語氣接續、最高相似度、最逼真的說話腔調，特別是用於配音角色扮演、重要影片旁白等。

極限複製是聲音複製的「終極版」。除了提供 3~10 秒的參考音檔外，您必須在下方手動輸入該參考音檔中說出的完整逐字稿文字。模型會將參考音檔與它的逐字稿作為「提示（Prompt）」，並在時間線上百分之百無縫延續下去說出您指定的新文字。這可以保留說話者原本斷句、呼吸、重音甚至情緒張力，達成最極致真實的聲音模仿。

⚙️ 進階參數詳解

在推論進階參數設定區塊，您可以微調以下參數來控制聲音的品質與特性：

參數名稱	預設值	建議範圍	功能說明
引導係數 (CFG)	2.0	2.0 ~ 3.0	數值越小，生成的語音音質和自然度越好；數值越大，生成的聲音與您的文字特徵描述（如 English, gentle 等）貼合度越強。建議維持在 2.0-3.0 之間。
去噪步數 (Steps)	10	10 ~ 15	數值越大，聲音細節越豐富精細，但生成時間會線性增加。一般設定為 10-15 步即可兼顧品質與速度。高於 20 步可能導致生成時間過長。
語速設定 (Speed)	1.0x	0.8x ~ 1.2x	調整生成語音的說話語速（範圍支援 0.5x 低速至 2.0x 快速）。如果想要情感表現更自然，建議設定在 0.9x ~ 1.1x 之間。
文字標準化	關閉	開啟 / 關閉	開啟後，會自動將文字中的阿拉伯數字和特殊符號轉譯為對應的文字（例如：`100元` 會被讀為 `一百元`）。若輸入文字包含大量數字，強烈建議開啟。
參考音訊自動降噪	關閉	開啟 / 關閉	若您上傳的參考語音含有輕微底噪、沙沙聲，開啟此功能會使用內置降噪算法先對參考音做預處理，能顯著改善克隆出來的語音純淨度。
隨機種子 (聲音 ID)	隨機 (關閉固定)	整數 (0 ~ 2^64-1)	控制語音生成的起點隨機數。這是聲音的身份證！ • 關閉固定時：每次生成都會使用隨機音色，並在日誌中印出隨機種子 ID。 • 開啟固定時：輸入指定的種子 ID（如 `42`），聲音音色、語氣、呼吸起伏將完全固定一致，不再「拆盲盒」。

🔒 隨機種子與固定音色（聲音 ID 使用指南與有聲書實務）

隨機種子控制著 AI 語音合成的「隨機噪音初始化狀態」，這相當於人聲特徵與語氣的「基因起點」。然而在不同的生成模式下，種子的表現有著本質上的物理差異：

⚠️ 核心物理限制：在「語音設計」中，相同的種子 + 不同的文字 = 不同的音色

由於「語音設計（Zero-shot 無中生有）」模式中沒有提供任何外部參考音檔，模型是純粹根據您的「文字長度」與「文字語意」來計算注意力權重並生成聲音。當您修改了輸入框的文字（例如將「哈囉」改成「測試」），即使固定了隨機種子，模型在生成時仍會因上下文變動而偏轉至不同的音色。因此，光靠固定種子是無法直接在語音設計分頁實現「同一個音色配音不同語句」的。

💡 有聲書與長篇文章配音：如何鎖定「同一個主播音色」？

如果您希望為小說或有聲書創造一個專屬主播，並讓他朗讀各種不同的句子，請務必遵循以下「黃金工作流」：

【語音設計】無中生有創造主播

首先在「語音設計」中輸入您滿意的聲音特徵描述（如 (A young woman, gentle and sweet voice)），使用隨機種子進行合成。當聽到一個您非常喜愛、極度適合做為主播的聲音時，將該次產生的 WAV 檔案保存下來（例如命名為 my_host.wav）。

【聲音複製】放入參考音檔錨定音色

切換至「聲音複製」或「極限複製」分頁，將剛才存好的 my_host.wav 放進「參考語音檔案」欄位。此時，該音檔的音色特徵（Speaker Embedding）將被強制鎖定為您的專屬主播。

輸入各種文字，開始有聲書配音

在目標合成文字中貼入有聲書的各種不同句子，模型便會強行使用同一位主播的聲音去配音，文字再怎麼改變，音色都不會再走樣！

❓ 不同模式下需要「固定隨機種子」嗎？分析與建議

平時「固定隨機種子」的核取方塊建議維持「不勾選」狀態。以下是不同分頁的使用指南：

功能分頁	不固定種子（推薦，不勾選）	固定種子（勾選並輸入 ID）
語音設計	每次生成都會是全新、隨機的不同聲線，就像拆盲盒一樣，適合用來發掘與挑選滿意的虛擬人聲。	主要用於「單句微調」。例如您對某句生成的語音很滿意，但想稍微修改其中一個字或句尾標點符號，此時固定種子能用最接近原配音員的感覺去唸修改後的句子。
聲音複製與極限複製	每次生成都會用同一人的音色，但使用不同的語氣、停頓換氣與重音起伏（相當於同一個配音員重複錄製多個 Take）。若覺得第一版不夠生動，直接再按一次生成，挑選最完美的一版即可。	鎖定特定的「語氣起伏、呼吸與換氣間隔」。通常只有在「進行 CFG/Steps 等進階參數 A/B 測試」或「合成極長段落需要拼接（保持背景底噪一致）」時，才有固定種子的需要。

💡 聲音 ID 的宇宙

種子 ID 支援從 0 到 18446744073709551615 的所有正整數。這代表有近 2000 億億種不同的獨特人聲組合供您發掘！您也可以輸入幸運數字如 888888，這也是一種聲音。

💡 應用場景、文字上限與語音限制

1. 各功能單次合成之文字長度與字數限制

因為 VoxCPM2 採用了先進的自迴歸（Autoregressive）架構，模型內部具有有限的自注意力上下文視窗（Context Window），因此單次能處理與生成的文字具有物理上限：

✨ 語音設計 (Voice Design)：單次建議在 100 至 150 字中文以內（約 15~20 秒的說話長度）。
👥 聲音複製 (Voice Clone)：單次建議在 100 至 150 字中文以內。模型載入 3~10 秒參考音色後，剩餘的上下文視窗即可用來生成此長度的目標文字。
👑 極限複製 (Ultimate Clone)：單次建議控制在 80 至 120 字中文以內。由於極限複製需同時輸入「參考音訊」與「參考逐字稿（Prompt Text）」，這些提示內容會預先占用模型部分的視窗空間，因此目標合成文字的可生成長度會被進一步縮短。
文字過長會怎樣？：如果單次合成字數超出上限，自迴歸生成在後半段會產生注意力渙散，導致語音出現胡言亂語（幻聽）、重寫跳針、聲音沙啞破裂、或突然靜音中斷等模型崩潰現象。
解決長篇生成的方案：請善用「語音設計」分頁中的 **「批次合成 (逐行)」** 功能。將長文章或小說依照標點符號分行輸入（一行一句），系統會在背景自動分段合成多個極為穩定的獨立 WAV 檔，不僅防跳針，也極度便利於後期的音效與配樂合成！

2. 應用場景最佳實踐

🎙️

自媒體與配音

利用「語音設計」隨機創造優質好聽的男女聲，為解說影片、宣傳片提供旁白配音。比起千篇一律的傳統 TTS，VoxCPM2 具有媲美真人的感情起伏。

📖

有聲書與 PodCast 製作

只需提供發音人（甚至您自己）的 6 秒語音範本，再將小說逐句貼入，即可在背景跑出整本用該音色朗讀的有聲書。低成本、高效率。

🎮

遊戲與虛擬角色配音

在「極限複製」模式下，配合情感充沛的提示音（例如憤怒、哭泣的音檔），接續生成角色台詞，能生成高度符合戲劇張力的聲音情感。

3. 💡 社群熱門：進階與創意應用玩法

得益於 VoxCPM2 強大的多語言大模型架構與 Tokenizer-Free（無離散 Token）設計，社群中延伸出了許多極富創意的進階玩法：

🌍

跨語言「無痛」配音

利用其強大跨語言能力，您可用 6 秒中文或台語錄音檔作參考音，再輸入英文或日文文字。AI 會用您本人的音色與細微口氣，說出流利的外語！適用於海外行銷與影片國際化。

🗣️

中英台三語自然夾雜

傳統 TTS 遇到「中英夾雜」常會卡頓或發出彆扭的英文。但 VoxCPM2 適應性極佳，例如輸入：今仔日這個 meeting 非常重要，大家一定要 discuss 出結論。 AI 能以極自然的台灣口語將英文融入合成。

📞

環境與特殊設備音效模擬

可在「語音設計」的括號中，輸入具有「空間或設備特徵」的提示字以直接生成特效音，例如：
• 電話濾波：(A voice speaking over an old telephone with heavy static noise)
• 無線對講機：(A soldier speaking through a walkie-talkie)

🎭

情感演技與非語言生理聲效

可以在文字中穿插英文語氣標籤（前後留空白），讓聲音流露出極為真實的情感，例如：
我真的... [sigh] 已經盡力了，[gasp] 怎麼會這樣？
支援 [sigh] (嘆氣)、[laughing] (笑聲)、[cough] (咳嗽)、[yawn] (哈欠)、[whispering] (悄悄話)。

👥

多角色廣播劇 / Podcast 生成

在「語音設計」抽盲盒發掘出多種滿意的人聲，將其分別導出保存（如 role_A.wav, role_B.wav）。接著到「聲音複製」分頁，讓不同台詞搭配各自的角色參考音，即可輕鬆組合出多角色對話廣播劇。

🎵

類歌唱、吟唱與詩詞朗誦

利用擴散模型的節奏聯想特性，在漢字中間加上破折號 ——、逗號或句號，甚至在括號加上 chanting 描述，強迫模型延展音高：
(A chanting voice) 床前——明月光，[sigh] 疑是——地上霜。

❓ 常見問題 (FAQ)

Q1：為什麼按下「開始下載模型」後，有時候會提示本機已存在並跳過？

這是 V20260614 版本全新加入的「防重複下載與逐檔檢查機制」。系統會比對您儲存路徑下的每一個檔案（例如 4.27GB 的主模型、359MB 的 VAE 權重等）。只有缺失或受損的檔案才會被列出並下載，其餘已經下載完成的檔案會直接跳過，確保不會浪費您的時間與網路流量。

Q2：為什麼聲音複製出來不像，或者有很重的金屬電音？

這通常是由參考音檔（Reference Audio）品質不佳引起的。如果您的參考音檔包含有背景音樂（BGM）、嚴重的空間回音（如在浴室錄音）、或者是背景有沙沙雜音，AI 會連同這些雜訊與音樂的音色特徵一起複製，導致生成的聲音不純淨。請嘗試開啟「參考音訊自動降噪」功能，或者使用更加乾淨的人聲重試。

Q3：可以用我的聲音唱一首歌嗎？

不行的。VoxCPM2 是一個語音合成（TTS）與說話聲音克隆模型，它無法調整音高與音樂節奏來唱出一首歌。如果您想玩 AI 歌手，需要使用專門的歌聲轉換技術（如 RVC - Retrieval-based Voice Conversion）。

Q4：如果合成聲音時字唸錯了（例如多音破音字、生僻字唸錯）該如何處理？

AI 語音模型是根據字詞拼音進行推理，有時會對多音字（破音字，如「連假」唸成「連甲」）判斷錯誤，或對罕見字（如「飆」）拼讀失敗。最直接且有效的解決方案是使用「同音字替換」！

由於這個文字框輸入的內容只用來給 AI 生成語音，聽眾只會聽到聲音、看不到文字，因此您可以使用同音的常見字來代替：

將 「連假」 修改為 「連架」 或 「連價」（即可引導模型唸出正確的四聲ㄐㄧㄚˋ）。
將 「狂飆」 修改為 「狂標」（即可唸出正確的ㄅㄧㄠ讀音）。

這在配音實務中是非常常見且實用的微調技巧，直接在文字框修改即可，無須安裝額外注音工具。

Q5：在 Windows 上下載模型時，如果網路中斷該怎麼辦？

別擔心！您可以直接點選程式中的「停止下載」，或者在網路異常斷開時，重啟下載即可。由於我們實作了斷點檢查，再次啟動時程式會自動偵測本機下載進度，未下載完的檔案會先清除後重新下載，已下載完成的檔案則完全不受影響，非常安全。

Q6：為什麼在別的地方執行打包後的 EXE，切換參數會出現 `could not get source code` 錯誤？

這是為什麽 PyTorch 的 torch.compile 動態編譯器（Dynamo）在執行新參數的分支時，需要讀取原始的 .py 原始碼檔案。而 PyInstaller 打包時會移除原始碼（只保留 .pyc 二進位檔），進而導致崩潰。本工作站已全面修復此問題！ 我們在打包後的 EXE 運作環境中會自動切換為高穩定性的 Eager 運算模式，完全避開了即時編譯錯誤，確保在各種硬體與參數切換下皆能完美運行。