Studio0808 :: 軟體總覽與統一說明

01. 核心技術

本系統採用強大且靈活的 Python 語言架構。視覺與操作介面由 CustomTkinter 打造，提供現代化的深色主題流暢體驗。
- 深色/淺色主題切換：右上角設有一鍵切換按鈕，隨時根據環境光源切換介面配色。
- 快捷鍵導覽：支援使用鍵盤快捷鍵 (Ctrl + Tab 與 Ctrl + Shift + Tab) 快速切換左側功能頁籤。
核心運算深度整合 PyTorch 深度學習框架、FFmpeg 多媒體處理引擎、Pyannote 人聲辨識技術。
語音生成與轉換採用了頂尖的 GPT-SoVITS、Edge-TTS 及 RVC (Retrieval-based Voice Conversion)演算法。
人聲分離則導入 Demucs 高保真音訊分離模型，全面打造【非】專業級的影音工作站。

02. 硬體建議：關於顯卡 (GPU) 與 AMD 的支援度

💡 硬體建議結論：
• 本系統內建模型龐大，強烈建議具備 NVIDIA 獨立顯示卡 (RTX 系列佳) 以獲得最完美的秒殺級處理速度。
• 若為 AMD 顯卡、Intel 內顯或 Mac 系統，程式將自動轉由 CPU (中央處理器) 進行運算，需耗費較長時間，敬請見諒。

本軟體內建許多先進的開源語音 AI 模型 (例如 Demucs, RVC, GPT-SoVITS, Whisper)，這些模型都需要強大的運算能力。

❓ 為什麼只支援 NVIDIA？

目前全世界 90% 的主流開源 AI 專案底層都是仰賴一套叫做 PyTorch 的框架，並搭配 NVIDIA 專屬的運算語言 「CUDA」。因為其他品牌的顯卡 (如 AMD) 硬體內沒有 CUDA 核心，所以程式啟動時會判定「找不到合適的 AI 加速器」，進而自動將任務轉交給 CPU 處理 (也就是我們畫面上的紅字：使用 CPU mode)。

❓ 使用 CPU 模式有什麼影響？

批次轉檔 (人聲分離、RVC等)：使用 NVIDIA 顯卡 (如 RTX 3060) 可能只要 20~30 秒的任務，用 CPU 跑可能需要 3 到 10 分鐘以上。
即時變聲 (麥克風)：影響最大。因為是即時性的，若 CPU 算不夠快，會導致說話後延遲 3~5 秒甚至斷斷續續，較不建議在 CPU 模式下使用即時變聲功能。

03. 軟體版本差異：完整版 vs 中量版

考量到完整的 AI 模型體積龐大，您所下載的軟體可能會有「完整版」與「中量版」的差異。這兩者的**核心功能機制完全相同**，唯一的差別在於是否搭載了龐大的 GPT-SoVITS (聲音複製) 資料夾：

完整版 (約 38GB)：內含 GPT-SoVITS 完整訓練與推論環境。左側選單會顯示「聲音複製」功能，您可以直接使用所有工具。
中量版 (約 25GB)：移除了十幾 GB 的語音複製環境包。為了保持介面清爽，左側選單會**自動隱藏**「聲音複製」按鈕。除此之外的所有功能 (下載、變聲、字幕、分離) 皆正常運作。

💡 提示：未來程式更新與手動減肥
1. 程式更新： 未來若主程式有更新，您只需要下載最新的 Studio0808.exe 主程式檔案，並覆蓋掉原本資料夾裡的舊檔即可，**完全不需要重新下載這些龐大的核心模組與模型資料夾**！
2. 手動減肥： 如果您下載的是完整版，但發現自己暫時用不到聲音複製功能，或是硬碟空間吃緊，您只需要**直接刪除程式根目錄下的 GPT-SoVITS 資料夾**，程式在下次啟動時就會自動變成「中量版」並釋放龐大的空間！

04. 系統效能與多工作業 (Multi-Tasking)

❓ 程式允許多工作業嗎？可以一邊下載一邊轉檔嗎？

是的，本系統完全支援多工處理！

程式在設計時，已為每個耗時任務 (包含格式轉換、影音下載、人聲分離等) 開闢了獨立的背景執行緒或子程序。只要您的電腦硬體效能 (CPU、記憶體、顯卡 VRAM) 足夠，您絕對可以：

在「影音下載」抓檔的同時，切換到「格式轉換」進行批次轉檔。
甚至同時再開啟「人聲分離」讓顯示卡運算。

任務之間互不干擾，主畫面也不會卡死。唯一的瓶頸僅為您電腦的硬體極限 (如：同時開啟太多 AI 模型導致 VRAM 不足，或硬碟讀取達到上限)。

05. 免責聲明 (Disclaimer)

本軟體及內建之所有整合開源工具 (包含影音下載、語音模型、翻譯器等)，僅供個人學習、研究與學術交流使用。

版權與授權：使用者須自行確保所下載或處理的影音素材未侵犯他人之著作權。嚴禁將本工具用於擷取商業付費內容或進行未經授權的再散佈。
AI 合成規範：使用「聲音複製」與「RVC變聲」技術時，請勿用來偽造他人聲音進行詐騙、散佈假消息或從事任何侵權與非法行為。
免責宣告：使用者應自行承擔使用本軟體所產生的風險與責任。軟體開發者不保證功能的絕對穩定性，亦不對任何資料遺失、封號及法律紛爭負責。

06. 系統檔案結構與輸出位置

為了保持您的電腦乾淨，本軟體的輸出檔案與依賴模型都有統一的路徑規劃：

📂 Outputs\ (所有作品輸出區)
- Downloads\：影音下載的原始檔案位置
- Vocals\：人聲分離後的乾淨音軌及伴奏
- RVC\：RVC 變聲後的作品
- Cloned\：GPT-SoVITS 複製合成的語音
📂 models\ (各功能專屬 AI 模組)
- 如果您在網路上下載了他人的 .pth、.ckpt 或是 .index 等人物聲音檔案，請依據功能放進對應的資料夾中 (models\RVC 或 models\SoVITS)。

07. 關於即時變聲的額外擴充軟體

如果您想將「即時變聲」的聲音傳到 Discord、Line 或遊戲語音 中被別人聽到，您必須另外在電腦上安裝免費的「虛擬音源線」軟體，例如 VB-Audio Cable。

這就像是拉了一條虛擬的電線，把我們程式發出的變聲軌，直接督進 Discord 的麥克風插孔裡。詳細設定方式請參考「即時變聲」介面上的【設置說明】按鈕。

08. 核心引擎與套件版本清單

本軟體整合了以下強大的開源引擎與技術底層，為確保最佳相容性，已針對最新硬體 (含 RTX 50 系列) 進行優化：

PyTorch v2.6.0+cu124 (核心 AI 運算引擎，支援最新 Blackwell sm_120 架構與 CUDA 12.4)
FFmpeg (底層影音編碼與解碼引擎)
htdemucs (Meta 開源之高音質音樂人聲分離模型)
Torchcrepe (RVC 變聲使用之精準音高分析演算法)
faster-whisper (高效能 AI 語音轉寫與字幕生成引擎)
Edge-TTS (微軟雲端語音合成 API)
yt-dlp (開源影音串流下載工具)

09. 社群交流與問題回報

如果您在使用過程中遇到任何問題、Bug，或是想要許願新功能，歡迎加入我們的 Discord 社群與其他使用者及開發者交流！

💬 加入 Discord 社群