即時字幕 - Studio0808 LiveCaption(全球語系版本)

快速安裝與啟動步驟

只需四步，即可在瀏覽器中開啟即時翻譯字幕

第一步：安裝與設定 Ollama 本地翻譯服務

本系統預設採用 Ollama 進行 100% 離線 AI 意譯。首次使用請先安裝並啟動 Llama 服務。

前往 Ollama 官方網站下載並安裝。安裝後，工作列右下角將出現小羊駝 🦙 圖示，並常駐後台開機啟動（預設埠為 11434）。
開啟 CMD 或 PowerShell 終端機，執行指令 ollama run qwen2.5:3b-instruct（推薦，速度極快且顯存佔用低）或 ollama run qwen2.5:7b-instruct（翻譯品質最優），自動下載模型並常駐本機，無需在特定目錄下載。

第二步：啟動後端伺服器 (Backend Server)

後端伺服器內建了 Whisper 多國語言高精度引擎與 SenseVoice 極速引擎，負責接收音訊、斷句與模型辨識。

若您尚未下載，請先點此下載離線整合包。解壓縮後，進入【LiveCaptionServer】資料夾雙擊執行：
點我啟動【即時字幕】後端服務.bat。
程式啟動時會檢測模型，若是首次辨識，後端會自動下載並加載 VAD 斷句與語音辨識模型（如 SenseVoice-Small / Whisper 核心）。
啟動成功後，終端機將顯示：
INFO: Uvicorn running on http://127.0.0.1:8000，請保持該視窗開啟。

第三步：載入 Chrome 瀏覽器外掛 (Extension)

外掛負責擷取當前分頁的音訊，並將即時字幕渲染在網頁畫面上。

在 Chrome 瀏覽器網址列輸入並前往 chrome://extensions/
在右上角開啟 「開發者模式」 (Developer Mode) 開關。
點擊左上角的 「載入已解壓縮擴充功能」 (Load unpacked) 按鈕，並選取專案底下的 extension 資料夾。
確認 Chrome 工具列已出現 Studio0808 LiveCaption(全球語系版本) 的圖示。

第四步：開啟影片，開始擷取與翻譯

一切就緒，開啟您想觀看的任何影片或直播分頁。

前往 YouTube、Twitch 或任何影音網站播放影片。
點擊擴充功能圖示開啟設定面板，翻譯服務選擇 Ollama，並於下拉選單中選擇您下載的模型（如 qwen2.5:3b-instruct）。
點擊 「啟動即時字幕」按鈕。只要影片中有說話聲音，字幕將會以 Whisper/SenseVoice 即時辨識，並經由 Ollama 翻譯流暢顯示於畫面上！

常見問題與障礙排除

使用過程中遇到異常？這裡有快速修復指南

問題 1：後端啟動失敗，提示「找不到 VAD 模型 ...」？

後端引擎在進行語音切分時需要 Silero VAD 模型（silero_vad.onnx）。
解決方法：請先在後端程式碼根目錄（即 backend/ 資料夾）中，在安裝好環境後執行 python download_models.py 進行自動下載，確保模型檔案下載完整。

問題 2：外掛顯示「語音系統已連線」，但是播放影片時完全沒有出字幕？

有幾種可能性需要排除：
1. 影片是否靜音：系統擷取的是分頁播放的音訊，如果影片靜音或聲音太小，VAD 無法偵測到人聲，就不會產生字幕。
2. 模型正在載入：首次辨識時，後端需要讀取載入 SenseVoice 辨識模型，可能會花費 3-5 秒，可以等待一下再測試。
3. 後端沒有開啟：請確保啟動後端服務的命令提示字元 (CMD) 視窗一直保持開啟，且沒有拋出 Error。

問題 3：彈出 Cannot capture a tab with an active stream 錯誤，或是啟動失敗？

這是因為 Chrome 判定該影片分頁已經有音訊擷取行程正在執行。這通常是因為外掛背景腳本自動休眠重啟、狀態不同步導致。
解決方法：
1. 重新整理影片網頁：直接按下 F5 重新整理播放影片的網頁，這會強制釋放該分頁被佔用的所有音軌。
2. 重載擴充功能：在 chrome://extensions/ 中點選 Studio0808 LiveCaption(全球語系版本) 的「重新整理」圖示，徹底重啟背景程式即可。

問題 4：如何申請與配置 DeepSeek 雲端翻譯金鑰 (API Key)？

使用 DeepSeek 雲端翻譯可以極低成本取得極精準的雙語對照。請依以下步驟申請：

註冊/登入開發者平台：造訪 DeepSeek 開放平台。您可以透過手機註冊或 Google 帳號快速登入。
帳戶充值 (Top Up)：進入後台後，點擊左側選單的 "Top up"。其 Token 價格極低，充值最低金額（如 1~5 美元）即可供日常影片翻譯使用極長時間。
建立金鑰 (Create API Key)：點擊左側選單的 "API Keys"，然後點擊 "Create new API key"。輸入金鑰名稱並點擊確定。
複製金鑰：複製系統產生的以 sk- 開頭的金鑰。基於安全限制，該金鑰只會顯示一次，請務必當下複製保存。
配置到外掛：點擊 Chrome 的 LiveCaption 外掛圖示，在「DeepSeek API 金鑰」欄位貼上剛才複製的金鑰，即可自動啟用雲端翻譯。

問題 5：Mac 電腦也可以使用嗎？

可以！Mac 電腦完全可以使用，但啟動方式與 Windows 略有不同：

瀏覽器外掛 (Chrome Extension)：100% 支援。外掛的安裝與使用方式在 Mac Chrome 瀏覽器上與 Windows 完全相同。
後端伺服器 (Python Backend)：發布包中的 .exe 與 .bat 為 Windows 專用。Mac 使用者若要使用，需先安裝 Python 環境，並於終端機執行 pip install -r requirements.txt 安裝依賴，再執行 python main.py 啟動。
處理器晶片相容性：辨識核心對 Mac 的 Intel 晶片與 Apple Silicon (M1/M2/M3) 晶片皆有原生高效能優化，可流暢執行。

備忘與未來規劃：開發方案 B「桌面獨立程式」版本？

目前我們採用「Chrome 外掛 (擷取與顯示) + 本機 Python (AI 大腦)」的雙軌架構。若未來您希望脫離 Chrome 瀏覽器、為 PotPlayer 等本機軟體或 Teams/Zoom 視訊程式提供即時字幕，可以規畫另外開發為獨立桌面程式：

系統音訊錄製 (WASAPI Loopback)：捨棄瀏覽器專用 API，改在 Python 中使用 Windows WASAPI 環回機制錄音，這樣便能直接擷取電腦喇叭播放的所有聲音。
獨立桌面懸浮視窗 (PyQt6 / PySide6)：在 Python 建立半透明、無邊框、永遠置頂 (Always on Top) 的桌面 UI 字幕視窗。
特性評估：此方案將可支援全電腦所有音軌，但需要防範其他系統通知雜音（例如通訊軟體叮咚聲）對辨識的干擾。本項目將作爲未來獨立產品另外開發。

問題 7：在擴充功能管理頁面點擊「錯誤」按鈕，出現 ScriptProcessorNode 警告或 Cannot capture a tab 錯誤？

這是開發者偵錯介面中顯示的狀態，具體原因如下：
1. ScriptProcessorNode is deprecated 警告 (黃色)：這是 Chrome 瀏覽器的標準開發者提示，告知該音訊處理介面未來將被新標準取代。由於目前此設計在擴充功能後台（Offscreen Document）相容性與穩定性最佳，因此程式繼續採用，此警告完全不影響字幕正常運作，請放心忽略。
2. Cannot capture a tab with an active stream 錯誤 (紅色)：這通常發生在**播放影片時重新載入（Reload）擴充功能**。因為 Chrome 尚未釋放前一次的擷取連線，導致新連線衝突。解決方法：請按下 F5 重新整理播放影片的網頁以強制釋放音訊，並在錯誤頁面點選右上角的「全部清除」即可恢復正常。

問題 8：辨識中文影片時，為何每句的第一個字或發音較輕的起句字常常沒有跑出來？

這是由語音切分（VAD）的偵測反應時間所致，您可以透過調整 VAD 參數獲得顯著改善：
1. **調整「斷句靜音時間」**：建議調高至 0.8 秒。若設太短（如 0.5s），講話過程的微小換氣停頓會被判定為斷句，導致新句子開頭字容易因 VAD 重新偵測而被切掉。
2. **調整「單句最長上限」**：建議調高至 8.0 秒以上。若設太短，系統會頻繁強制截斷長句，容易切碎邊界字。
3. **後端內建優化**：最新版後端已將說話判定門檻（threshold）調降至 0.4，並將最小語音長度由 0.25s 縮短至 0.15s，極大提高了開頭輕發音字的保留率。

問題 9：除了 Google Chrome 之外，Microsoft Edge / Brave / Opera / Vivaldi 等瀏覽器也可以使用嗎？

可以！本系統外掛基於 Chromium 標準開發，所有採用 Chromium 核心的瀏覽器皆能完美相容。安裝步驟與 Chrome 類似：

Microsoft Edge：前往 edge://extensions/，開啟左下角「開發人員模式」，點擊「載入解壓縮的項目」，選取 extension 資料夾。
Brave 瀏覽器：前往 brave://extensions/，開啟右上角「開發者模式」，點擊「載入已解壓縮擴充功能」，選取 extension 資料夾。
Opera 瀏覽器：前往 opera://extensions/，開啟右上角「Developer mode」，點擊「Load unpacked」，選取 extension 資料夾。
Vivaldi 瀏覽器：前往 vivaldi://extensions/，開啟右上角「開發者模式」，點擊「載入已解壓縮擴充功能」，選取 extension 資料夾。

※ 提示：在上述瀏覽器的網址列輸入 chrome://extensions/ 也會自動跳轉至對應的擴充功能設定頁面。

問題 10：Firefox 瀏覽器可以使用嗎？

很遺憾，Firefox 目前無法直接使用本系統的外掛。原因說明如下：

引擎架構不同：Firefox 使用 Mozilla 自家的 Gecko 引擎，而非 Chromium 核心。本系統外掛依賴 Chrome 專屬的擴充功能 API（例如 chrome.tabCapture、chrome.offscreen 等），這些 API 在 Firefox 中完全不存在，也沒有對應的替代方案。
Manifest 格式差異：本外掛採用 Chrome Manifest V3 規範，Firefox 雖然也開始支援 MV3，但在權限模型與背景腳本（Service Worker vs. Background Page）的實作上仍有顯著差異，導致無法直接移植。
建議替代方案：若您習慣使用 Firefox，建議在需要即時字幕功能時，暫時改用 Google Chrome、Microsoft Edge 或其他 Chromium 核心瀏覽器（詳見問題 9）。

問題 11：如何安裝與設定 Ollama 本機離線翻譯？不同模型的效能與翻譯品質有何差異？

本系統支援 Ollama 離線翻譯框架，實現 100% 本地運行的隱私字幕翻譯。請參考以下指引進行安裝與模型選擇：

下載與安裝：造訪 Ollama 官方網站下載並安裝。安裝後，Windows 工作列右下角會出現小羊駝圖示 🦙，並會隨開機自動啟動待命（預設服務網址為 http://127.0.0.1:11434）。
下載模型：開啟 CMD 終端機，執行 ollama run qwen2.5:7b-instruct 或 ollama run qwen2.5:3b-instruct 即可自動下載模型，下載完成後隨即常駐本機，無需在特定目錄執行。
外掛設定與下拉選用：開啟 Chrome 外掛設定面板，翻譯服務選用 Ollama，並可在「翻譯模型名稱」下拉選單中直接點選已下載的模型。
模型效能與品質差異比較：
- qwen2.5:7b-instruct (7B)：約 4.7 GB。需要 5~6 GB 以上的顯卡記憶體。優點是翻譯品質極佳，繁中意譯語法非常流暢，100% 不會出現中英夾雜或語系溢出；缺點是生成時間稍長，在即時字幕中會感覺到 1~2 秒的些微延遲。
- qwen2.5:3b-instruct (3B)：約 2.2 GB。僅需 2.5 GB 左右的顯卡記憶體。優點是翻譯反應極快（速度比 7B 快 2 倍以上），延遲幾乎難以察覺；缺點是受限於參數量，偶爾在日常會話中會夾雜少數英文單字（如將「散步」翻成 "stroll"，或「做家事」翻成 "cleaning 倉庫"），長句時偶爾會直接輸出英文。
- gemma2:2b-instruct (2B)：約 1.6 GB。只需 1.8 GB 的顯卡記憶體。速度極快，繁中生成效果優異，適合入門款顯卡或追求極速即時對應的使用者。

問題 12：後端內建的 SenseVoice 與 Whisper 語音辨識引擎有何不同？各支援哪些國家的語言？

系統後端提供了兩款強大的離線 AI 語音辨識引擎，各有其優勢及語言相容範圍，您可以根據播放的影片內容隨時切換：

SenseVoice-Small (亞太語系極速引擎)：
- 支援語言：中文（普通話/簡體/繁體）、英文、日文、韓文、粵語 (廣東話)。
- 引擎優點：解碼辨識速度快得驚人（百毫秒級別），佔用系統資源與顯存極低。具備語音事件偵測（如自動偵測笑聲、掌聲、BGM 等），並且會自動在辨識結果中加上高準確度的標點符號。
- 推薦場景：觀看中、英、日、韓、粵語影片，或是對即時性要求極高（例如視訊會議直播）時的首選。
Whisper (多國語言高精度引擎)：
- 支援語言：支援全球近百種語言的識別（包含法文、德文、西班牙文、義大利文、俄文、葡萄牙文、越南文、泰文等幾乎所有主要語系）。
- 引擎優點：在歐美語系及非亞太語系的辨識精度極佳，能完美處理發音中的背景雜音，並產出非常高質量的外語逐字稿。
- 推薦場景：觀看非亞太語系影片（例如法文教學、德文演講、西班牙影集）時的備用引擎。注意：Whisper 模型結構較大，建議使用 GPU (CUDA) 加速運行以確保即時性。

問題 13：即時翻譯要選 Ollama 還是 Google 翻譯？速度與穩定度差在哪？

兩種翻譯引擎在速度特性上有明顯差異。實測同一支影片（目標繁體中文）的單句翻譯耗時：

Ollama 本機翻譯（推薦，需 GPU）：速度非常穩定，每句約 0.6 ~ 0.8 秒。因為完全在本機 GPU 運算、沒有網路變數，字幕節奏平順、不會突然卡頓，同時兼具離線隱私與繁體一致的優勢。
Google 翻譯（免設定備援）：平均速度也很快（多數約 0.5 秒），但取決於您的網路品質；網路尖峰時單句可能跳到 1.5 ~ 2.4 秒，造成字幕偶發卡頓。一般而言有線網路 (Ethernet) 會比無線 Wi-Fi 更穩定。

結論：即時字幕最在意的是「穩定不卡頓」而非單句最快。若您有 NVIDIA GPU，建議優先使用 Ollama（穩定 + 離線 + 高品質）；若無 GPU 或不想安裝 Ollama，Google 翻譯是免設定的好用備援（建議搭配有線網路以提升穩定度）。

精準、即時的網頁影音雙語字幕

多元應用場景

線上課程與學術講座

聽障輔助與無障礙學習

外語聽力與口說練習

全球即時影音與直播

網頁視訊會議逐字稿

影音創作者快速逐字稿

功能與設計特色

極低延遲分頁音訊擷取

本機離線 AI 語音辨識

自由切換翻譯引擎

高顏值字幕懸浮視窗

多行歷史字幕滾動

100% 離線隱私安全