Studio0808 :: 生成字幕 (Subtitle Generation)

01. 功能概述 (Overview)

生成字幕模組 採用了 OpenAI 開源的 Whisper Series (Fast-Whisper 實作) 作為辨識核心。它能將任何主流影片或錄音檔 (如 MP4, MKV, MP3, M4A, WAV, FLAC, AAC, OGG 等)，自動轉錄為精確的時間軸字幕 (SRT/VTT)。

本系統不僅支援單純的字幕生成，更整合了自動翻譯、雙語字幕排版，以及一鍵自動壓制 (Burn-in) 功能，讓您無需開啟其他剪輯軟體，即可產出帶有字幕的成品影片。

02. AI 核心參數詳解

🧠 AI 模型選擇 (Model Selection)

我們提供了四種不同等級的模型，您可以根據電腦效能與精確度需求進行選擇：

medium (中)：速度快 VRAM: ~2GB
適合一般對話清晰的影片，速度最快，但對專有名詞或快速語速的辨識度稍弱。
large-v2 (佳)：平衡型 VRAM: ~4GB
目前最穩定的版本，在辨識率與速度之間取得很好的平衡，適合大多數 YouTube 影片。
large-v3-turbo (優)：新技術 VRAM: ~6GB
針對速度優化的 V3 版本，保留了 V3 的高辨識特性但運算更快。
large-v3 (最優)：最高品質 VRAM: ~10GB+
OpenAI 最新最強大的模型，對多語言混雜、口音、背景噪音的抗性最強，但需要強大的顯卡與記憶體。

🗣️ 影片語言 (Video Language)

指定影片中講話的語言。雖然設為 Auto (自動偵測) 通常準確，但若影片對白很少或背景音樂很大，手動指定語言 (如 Chinese (中文)) 可以大幅提高準確率。

⚙️ 處理模式 (Processing Mode)

Auto-Translate (自動轉繁中)：無論影片是英文、日文還是韓文，系統會自動翻譯並輸出為「繁體中文」字幕。
Original (原文字幕)：影片講什麼語言，就輸出該語言的字幕 (例如日文影片輸出日文字幕)。

🛡️ VAD 濾除雜音 (Voice Activity Detection)

這是一個非常重要的功能。勾選後，AI 會在辨識前先分析「哪裡有人聲」。
用途：防止 AI 在純音樂片段或無聲片段產生「幻覺字幕」(如無意義的符號或重複字詞)。
建議：視情況手動開啟。最新版本預設為關閉，以避免誤刪輕聲細語的對白。

👥 分辨說話者 (Speaker Diarization)

使用 Pyannote AI 進行音軌分離，自動辨識影片中有幾個人在說話，並將對應的發言人標籤 (例如 [SPEAKER_00]:, [SPEAKER_01]:) 標註在字幕開頭。

⏳ 效能提示與時間評估： 開啟此功能後，轉錄時間會 顯著增加 (可能達原先的 2~3 倍時間)。這是因為系統除了必須執行 Whisper 的文字辨識外，還要額外執行 Pyannote 的深度聲紋特徵抽取，最後再將「文字」與「誰說的」兩份資料進行時間軸的三方交叉比對與合併。若影片較長，請您耐心等候，系統的處理進度百分比會持續更新。

🔑 首次使用與授權確認：系統會彈出視窗要求輸入 Hugging Face Access Token (需以 hf_ 開頭)。這是一項免費服務。如果您遇到授權相關錯誤，請按照以下步驟確認：

前往 pyannote/speaker-diarization-3.1 與 pyannote/segmentation-3.0 這兩個模型頁面。
確保您已登入 Hugging Face 帳號。
如果您尚未同意授權，頁面上會出現一段協議和表單，請填寫並按下 "Agree and access repository"。
如果您點進去直接看到模型介紹和檔案列表 (Files and versions)，就代表您已經成功授權了！

03. 字幕輸出與外觀 (Output & Style)

📄 輸出格式

SRT：最通用的字幕格式，包含時間軸與文字。
VTT (WebVTT)：網頁專用的字幕格式，支援簡單樣式。
TXT：純文字檔，不含時間軸，適合用來整理逐字稿。
自動壓制影片 (Auto Burn-in)：將字幕「烙印」在影片畫面上，生成一個新的 MP4 檔。

🎨 獨立外觀設定 (全台首創無損 ASS 雙引擎)

我們的字幕生成核心採用了強大的 雙層疊加動態計算引擎，不僅保證與所有影片解析度的相容，還能讓「主字幕」與「副字幕 (原文)」擁有完全獨立的外觀設計，互不干擾！

在介面右側，我們提供了直覺的 分頁標籤 (Tabview)：

主字幕外觀： 控制翻譯後的主要語言 (通常為中文)。
副字幕外觀 (原文)： 控制底下的第二語言 (只有在勾選「雙語字幕」時才會顯示)。

在每個分頁中，您可以獨立設定以下參數，且設定會即時連動上方的 字幕預覽 (Preview)：

字型 (Font) 與粗體 (Bold)：點擊按鈕可選擇系統內安裝的所有字型 (如微軟正黑體)。
顏色 (Color) 與大小 (Size)：隨意調配您的文字色彩。
字元間距 (Spacing)：自訂字幕字與字之間的距離 (支援 0~30 的設定值)，讓排版更具彈性。
邊框 (Outline)：單獨加粗文字外圍的描邊，防眩光。
底框 (Background Box)：在文字後方加上半透明的自定義底色 (極致的 Netflix 觀影體驗)。透過底層的 PrimaryStyle / SecondaryStyle 運算技術，即使兩行開啟不同顏色的底框疊加也絕不會破版！

04. 常見問題 (Troubleshooting)

Q: 出現 "VRAM OOM" 或 "System RAM OOM" 錯誤？

原因：電腦的記憶體不足以載入大型模型。
解法：請將模型降級為 medium (中) 或 large-v2 (佳)。效果差異通常不大，但能讓程式順利執行。

Q: 壓制出來的影片沒有聲音？

解法：此問題已在最新版本修復。系統現在會強制抓取原始音軌並轉碼為 AAC 格式，確保聲音完整保留。

Q: 雙語字幕 (Bilingual) 是什麼？

A: 這是學習外語的神器！勾選後，系統會同時顯示「翻譯後的中文」與「原文」，並自動排版 (中文在上，原文在下)。