生成字幕技術

AI 生成字幕 介面截圖

01. 功能概述 (Overview)

生成字幕模組 採用了 OpenAI 開源的 Whisper Series (Fast-Whisper 實作) 作為辨識核心。它能將任何主流影片或錄音檔 (如 MP4, MKV, MP3, M4A, WAV, FLAC, AAC, OGG 等),自動轉錄為精確的時間軸字幕 (SRT/VTT)。

本系統不僅支援單純的字幕生成,更整合了 自動翻譯雙語字幕 排版,以及一鍵 自動壓制 (Burn-in) 功能,讓您無需開啟其他剪輯軟體,即可產出帶有字幕的成品影片。

02. AI 核心參數詳解

🧠 AI 模型選擇 (Model Selection)

我們提供了四種不同等級的模型,您可以根據電腦效能與精確度需求進行選擇:

🗣️ 影片語言 (Video Language)

指定影片中講話的語言。雖然設為 Auto (自動偵測) 通常準確,但若影片對白很少或背景音樂很大,手動指定語言 (如 Chinese (中文)) 可以大幅提高準確率。

⚙️ 處理模式 (Processing Mode)

🛡️ VAD 濾除雜音 (Voice Activity Detection)

這是一個非常重要的功能。勾選後,AI 會在辨識前先分析「哪裡有人聲」。
用途:防止 AI 在純音樂片段或無聲片段產生「幻覺字幕」(如無意義的符號或重複字詞)。
建議:視情況手動開啟。最新版本預設為關閉,以避免誤刪輕聲細語的對白。

👥 分辨說話者 (Speaker Diarization)

使用 Pyannote AI 進行音軌分離,自動辨識影片中有幾個人在說話,並將對應的發言人標籤 (例如 [SPEAKER_00]:, [SPEAKER_01]:) 標註在字幕開頭。

⏳ 效能提示與時間評估: 開啟此功能後,轉錄時間會 顯著增加 (可能達原先的 2~3 倍時間)。這是因為系統除了必須執行 Whisper 的文字辨識外,還要額外執行 Pyannote 的深度聲紋特徵抽取,最後再將「文字」與「誰說的」兩份資料進行時間軸的三方交叉比對與合併。若影片較長,請您耐心等候,系統的處理進度百分比會持續更新。

🔑 首次使用與授權確認: 系統會彈出視窗要求輸入 Hugging Face Access Token (需以 hf_ 開頭)。這是一項免費服務。如果您遇到授權相關錯誤,請按照以下步驟確認:

  1. 前往 pyannote/speaker-diarization-3.1pyannote/segmentation-3.0 這兩個模型頁面。
  2. 確保您已登入 Hugging Face 帳號。
  3. 如果您尚未同意授權,頁面上會出現一段協議和表單,請填寫並按下 "Agree and access repository"
  4. 如果您點進去直接看到模型介紹和檔案列表 (Files and versions),就代表您已經成功授權了!

03. 字幕輸出與外觀 (Output & Style)

📄 輸出格式

🎨 獨立外觀設定 (全台首創無損 ASS 雙引擎)

我們的字幕生成核心採用了強大的 雙層疊加動態計算引擎,不僅保證與所有影片解析度的相容,還能讓「主字幕」與「副字幕 (原文)」擁有完全獨立的外觀設計,互不干擾!

在介面右側,我們提供了直覺的 分頁標籤 (Tabview)

在每個分頁中,您可以 獨立設定 以下參數,且設定會即時連動上方的 字幕預覽 (Preview)

04. 常見問題 (Troubleshooting)

Q: 出現 "VRAM OOM" 或 "System RAM OOM" 錯誤?

原因:電腦的記憶體不足以載入大型模型。
解法:請將模型降級為 medium (中)large-v2 (佳)。效果差異通常不大,但能讓程式順利執行。

Q: 壓制出來的影片沒有聲音?

解法:此問題已在最新版本修復。系統現在會強制抓取原始音軌並轉碼為 AAC 格式,確保聲音完整保留。

Q: 雙語字幕 (Bilingual) 是什麼?

A: 這是學習外語的神器!勾選後,系統會同時顯示「翻譯後的中文」與「原文」,並自動排版 (中文在上,原文在下)。