即時字幕-Studio0808

快速安裝與啟動步驟

只需三步，即可在瀏覽器中開啟即時翻譯字幕

啟動後端伺服器 (Backend Server)

後端伺服器負責接收 Chrome 傳來的音訊、透過 VAD 斷句、SenseVoice 模型辨識與 LLM 翻譯。

若下載的是整合發布包，請進入【LiveCaptionServer】資料夾雙擊執行：
點我啟動後端服務.bat。
程式啟動時會檢測模型是否存在，若為首次使用，將會自動連線下載語音辨識模型。
啟動成功後，終端機將會顯示：
INFO: Uvicorn running on http://127.0.0.1:8000，請保持該視窗開啟。

載入 Chrome 瀏覽器外掛 (Extension)

外掛負責擷取當前分頁的音訊，並將即時字幕繪製在網頁畫面上。

在 Chrome 瀏覽器網址列輸入並前往 chrome://extensions/
在右上角開啟 「開發者模式」 (Developer Mode) 開關。
點擊左上角的 「載入已解壓縮擴充功能」 (Load unpacked) 按鈕。
選擇專案資料夾底下的 extension 資料夾載入。
確認 Chrome 工具列已出現 Studio0808 LiveCaption 的圖示。

開啟影片，開始擷取與翻譯

一切就緒，開啟您想觀看的任何影片分頁。

前往 YouTube 或任何影片網站播放影片。
點擊擴充功能圖示開啟設定面板，點擊 「啟動即時字幕」按鈕。
點擊後，網頁底部將會彈出毛玻璃風格的字幕懸浮框，顯示：
語音系統已連線，準備辨識中...
只要影片中有說話聲音，字幕將會即時辨識並流暢顯示於畫面上！

常見問題與障礙排除

使用過程中遇到異常？這裡有快速修復指南

問題 1：後端啟動失敗，提示「找不到 VAD 模型 ...」？

後端引擎在進行語音切分時需要 Silero VAD 模型（silero_vad.onnx）。
解決方法：請先在後端程式碼根目錄（即 backend/ 資料夾）中，在安裝好環境後執行 python download_models.py 進行自動下載，確保模型檔案下載完整。

問題 2：外掛顯示「語音系統已連線」，但是播放影片時完全沒有出字幕？

有幾種可能性需要排除：
1. 影片是否靜音：系統擷取的是分頁播放的音訊，如果影片靜音或聲音太小，VAD 無法偵測到人聲，就不會產生字幕。
2. 模型正在載入：首次辨識時，後端需要讀取載入 SenseVoice 辨識模型，可能會花費 3-5 秒，可以等待一下再測試。
3. 後端沒有開啟：請確保啟動後端服務的命令提示字元 (CMD) 視窗一直保持開啟，且沒有拋出 Error。

問題 3：彈出 Cannot capture a tab with an active stream 錯誤，或是啟動失敗？

這是因為 Chrome 判定該影片分頁已經有音訊擷取行程正在執行。這通常是因為外掛背景腳本自動休眠重啟、狀態不同步導致。
解決方法：
1. 重新整理影片網頁：直接按下 F5 重新整理播放影片的網頁，這會強制釋放該分頁被佔用的所有音軌。
2. 重載擴充功能：在 chrome://extensions/ 中點選 Studio0808 LiveCaption 的「重新整理」圖示，徹底重啟背景程式即可。

問題 4：如何申請與配置 DeepSeek 雲端翻譯金鑰 (API Key)？

使用 DeepSeek 雲端翻譯可以極低成本取得極精準的雙語對照。請依以下步驟申請：

註冊/登入開發者平台：造訪 DeepSeek 開放平台。您可以透過手機註冊或 Google 帳號快速登入。
帳戶充值 (Top Up)：進入後台後，點擊左側選單的 "Top up"。其 Token 價格極低，充值最低金額（如 1~5 美元）即可供日常影片翻譯使用極長時間。
建立金鑰 (Create API Key)：點擊左側選單的 "API Keys"，然後點擊 "Create new API key"。輸入金鑰名稱並點擊確定。
複製金鑰：複製系統產生的以 sk- 開頭的金鑰。基於安全限制，該金鑰只會顯示一次，請務必當下複製保存。
配置到外掛：點擊 Chrome 的 LiveCaption 外掛圖示，在「DeepSeek API 金鑰」欄位貼上剛才複製的金鑰，即可自動啟用雲端翻譯。

問題 5：Mac 電腦也可以使用嗎？

可以！Mac 電腦完全可以使用，但啟動方式與 Windows 略有不同：

瀏覽器外掛 (Chrome Extension)：100% 支援。外掛的安裝與使用方式在 Mac Chrome 瀏覽器上與 Windows 完全相同。
後端伺服器 (Python Backend)：發布包中的 .exe 與 .bat 為 Windows 專用。Mac 使用者若要使用，需先安裝 Python 環境，並於終端機執行 pip install -r requirements.txt 安裝依賴，再執行 python main.py 啟動。
處理器晶片相容性：辨識核心對 Mac 的 Intel 晶片與 Apple Silicon (M1/M2/M3) 晶片皆有原生高效能優化，可流暢執行。

備忘與未來規劃：開發方案 B「桌面獨立程式」版本？

目前我們採用「Chrome 外掛 (擷取與顯示) + 本機 Python (AI 大腦)」的雙軌架構。若未來您希望脫離 Chrome 瀏覽器、為 PotPlayer 等本機軟體或 Teams/Zoom 視訊程式提供即時字幕，可以規畫另外開發為獨立桌面程式：

系統音訊錄製 (WASAPI Loopback)：捨棄瀏覽器專用 API，改在 Python 中使用 Windows WASAPI 環回機制錄音，這樣便能直接擷取電腦喇叭播放的所有聲音。
獨立桌面懸浮視窗 (PyQt6 / PySide6)：在 Python 建立半透明、無邊框、永遠置頂 (Always on Top) 的桌面 UI 字幕視窗。
特性評估：此方案將可支援全電腦所有音軌，但需要防範其他系統通知雜音（例如通訊軟體叮咚聲）對辨識的干擾。本項目將作爲未來獨立產品另外開發。

問題 7：在擴充功能管理頁面點擊「錯誤」按鈕，出現 ScriptProcessorNode 警告或 Cannot capture a tab 錯誤？

這是開發者偵錯介面中顯示的狀態，具體原因如下：
1. ScriptProcessorNode is deprecated 警告 (黃色)：這是 Chrome 瀏覽器的標準開發者提示，告知該音訊處理介面未來將被新標準取代。由於目前此設計在擴充功能後台（Offscreen Document）相容性與穩定性最佳，因此程式繼續採用，此警告完全不影響字幕正常運作，請放心忽略。
2. Cannot capture a tab with an active stream 錯誤 (紅色)：這通常發生在**播放影片時重新載入（Reload）擴充功能**。因為 Chrome 尚未釋放前一次的擷取連線，導致新連線衝突。解決方法：請按下 F5 重新整理播放影片的網頁以強制釋放音訊，並在錯誤頁面點選右上角的「全部清除」即可恢復正常。

問題 8：辨識中文影片時，為何每句的第一個字或發音較輕的起句字常常沒有跑出來？

這是由語音切分（VAD）的偵測反應時間所致，您可以透過調整 VAD 參數獲得顯著改善：
1. **調整「斷句靜音時間」**：建議調高至 0.8 秒。若設太短（如 0.5s），講話過程的微小換氣停頓會被判定為斷句，導致新句子開頭字容易因 VAD 重新偵測而被切掉。
2. **調整「單句最長上限」**：建議調高至 8.0 秒以上。若設太短，系統會頻繁強制截斷長句，容易切碎邊界字。
3. **後端內建優化**：最新版後端已將說話判定門檻（threshold）調降至 0.4，並將最小語音長度由 0.25s 縮短至 0.15s，極大提高了開頭輕發音字的保留率。

問題 9：除了 Google Chrome 之外，Microsoft Edge / Brave / Opera / Vivaldi 等瀏覽器也可以使用嗎？

可以！本系統外掛基於 Chromium 標準開發，所有採用 Chromium 核心的瀏覽器皆能完美相容。安裝步驟與 Chrome 類似：

Microsoft Edge：前往 edge://extensions/，開啟左下角「開發人員模式」，點擊「載入解壓縮的項目」，選取 extension 資料夾。
Brave 瀏覽器：前往 brave://extensions/，開啟右上角「開發者模式」，點擊「載入已解壓縮擴充功能」，選取 extension 資料夾。
Opera 瀏覽器：前往 opera://extensions/，開啟右上角「Developer mode」，點擊「Load unpacked」，選取 extension 資料夾。
Vivaldi 瀏覽器：前往 vivaldi://extensions/，開啟右上角「開發者模式」，點擊「載入已解壓縮擴充功能」，選取 extension 資料夾。

※ 提示：在上述瀏覽器的網址列輸入 chrome://extensions/ 也會自動跳轉至對應的擴充功能設定頁面。

問題 10：Firefox 瀏覽器可以使用嗎？

很遺憾，Firefox 目前無法直接使用本系統的外掛。原因說明如下：

引擎架構不同：Firefox 使用 Mozilla 自家的 Gecko 引擎，而非 Chromium 核心。本系統外掛依賴 Chrome 專屬的擴充功能 API（例如 chrome.tabCapture、chrome.offscreen 等），這些 API 在 Firefox 中完全不存在，也沒有對應的替代方案。
Manifest 格式差異：本外掛採用 Chrome Manifest V3 規範，Firefox 雖然也開始支援 MV3，但在權限模型與背景腳本（Service Worker vs. Background Page）的實作上仍有顯著差異，導致無法直接移植。
建議替代方案：若您習慣使用 Firefox，建議在需要即時字幕功能時，暫時改用 Google Chrome、Microsoft Edge 或其他 Chromium 核心瀏覽器（詳見問題 9）。

精準、即時的網頁影音雙語字幕

多元應用場景

線上課程與學術講座

聽障輔助與無障礙學習

外語聽力與口說練習

全球即時影音與直播

網頁視訊會議逐字稿

影音創作者快速逐字稿

功能與設計特色

極低延遲分頁音訊擷取

本機離線 AI 語音辨識

自由切換翻譯引擎

高顏值字幕懸浮視窗

多行歷史字幕滾動

100% 離線隱私安全