OFFLINE-FIRST REAL-TIME TRANSLATION

精準、即時的網頁影音雙語字幕

Studio0808 LiveCaption 是一套專為瀏覽器影片設計的即時語音識別與雙語字幕翻譯系統。完全在您的本機電腦執行,擁有 100% 的隱私保護與極低延遲的速度。

多元應用場景

完美融入您的工作、學習與娛樂生活

線上課程與學術講座

觀看 Coursera、Udemy、YouTube 上的無字幕國外教學影片時,提供即時繁中翻譯,幫助快速掌握關鍵字與專業內容。

聽障輔助與無障礙學習

幫助聽障或聽力不便的學生,在觀看無字幕的線上教學影片、參與視訊課程時,將即時語音轉化為雙語文字,消弭學習阻礙。

外語聽力與口說練習

切換為「僅顯示原文」模式,只顯示純英文/日文字幕進行聽力盲聽訓練,遇到聽不懂的段落隨時切換回雙語對照,效果加倍。

全球即時影音與直播

支援無字幕的國外最新串流影音(如現場直播、海外新聞及即時節目等),提供本機極速語音識別與翻譯,讓您即時掌握第一手國外資訊。

網頁視訊會議逐字稿

在瀏覽器進行 Google Meet、Teams 跨國會議時,即時把發言渲染成雙語字幕,並自動在背景存檔為完整的 Markdown 會議紀錄。

影音創作者快速逐字稿

創作者在整理國外參考影片、產出腳本或進行訪談記錄時,可利用後端自動存檔功能直接匯出整份 Markdown 對話紀錄,大幅節省時間。

功能與設計特色

專為流暢體驗而生的現代化影音輔助工具

極低延遲分頁音訊擷取

藉由 Chrome Extension 獨創的分頁音訊 Loopback 機制,精準擷取分頁播放的音軌(不影響電腦其他音訊與錄音設備),提供給後端進行極低延遲的語音辨識。

本機離線 AI 語音辨識

後端搭載 Sherpa-ONNX 架構與阿里巴巴開源的 SenseVoice-Small 語音大模型,支援中、英、日、韓、粵語等語音,離線解碼速度極快,準確度極高。

自由切換翻譯引擎

支援強大的本機 Ollama 推理框架(推薦使用 Qwen 2.5 3B 模型)進行全離線智能意譯;同時支援線上 DeepSeek 雲端 API,以極低的成本取得接近人工翻譯的語意品質。

高顏值字幕懸浮視窗

精心設計的毛玻璃 (Glassmorphism) 半透明質感底框,支援字體大小自訂,具備完美的滑鼠穿透(不影響影片操作)。支援手勢拖拽定位與雙擊位置重置。

多行歷史字幕滾動

可選擇保留「最新 + 前 1 句」或「最新 + 前 2 句」的歷史字幕,舊字幕會以半透明、縮小解碼在上方滾動,避免字幕跳過快而漏看。

100% 離線隱私安全

若使用本機辨識與 Ollama 本地翻譯模型,所有音訊擷取、語音辨識、模型翻譯與字幕繪製皆在本機完成,無須連網,資料絕對不外洩。

快速安裝與啟動步驟

只需三步,即可在瀏覽器中開啟即時翻譯字幕

1

啟動後端伺服器 (Backend Server)

後端伺服器負責接收 Chrome 傳來的音訊、透過 VAD 斷句、SenseVoice 模型辨識與 LLM 翻譯。

  • 若下載的是整合發布包,請進入【LiveCaptionServer】資料夾雙擊執行:
    點我啟動後端服務.bat
  • 程式啟動時會檢測模型是否存在,若為首次使用,將會自動連線下載語音辨識模型。
  • 啟動成功後,終端機將會顯示:
    INFO: Uvicorn running on http://127.0.0.1:8000,請保持該視窗開啟。
2

載入 Chrome 瀏覽器外掛 (Extension)

外掛負責擷取當前分頁的音訊,並將即時字幕繪製在網頁畫面上。

  • 在 Chrome 瀏覽器網址列輸入並前往 chrome://extensions/
  • 在右上角開啟 「開發者模式」 (Developer Mode) 開關。
  • 點擊左上角的 「載入已解壓縮擴充功能」 (Load unpacked) 按鈕。
  • 選擇專案資料夾底下的 extension 資料夾載入。
  • 確認 Chrome 工具列已出現 Studio0808 LiveCaption 的圖示。
3

開啟影片,開始擷取與翻譯

一切就緒,開啟您想觀看的任何影片分頁。

  • 前往 YouTube 或任何影片網站播放影片。
  • 點擊擴充功能圖示開啟設定面板,點擊 「啟動即時字幕」按鈕。
  • 點擊後,網頁底部將會彈出毛玻璃風格的字幕懸浮框,顯示:
    語音系統已連線,準備辨識中...
  • 只要影片中有說話聲音,字幕將會即時辨識並流暢顯示於畫面上!

功能設定說明

透過設定面板,隨心調整您的專屬字幕樣式與翻譯選項

字幕外觀設定 (Appearance Settings)

我們提供了極具彈性的外觀控制項目,讓您可以完美搭配不同影片背景,確保字幕的高可讀性:

自訂底框與文字顏色

可以選擇適合的背景顏色與文字顏色,底框會自動加上約 80% 的毛玻璃透明度。

字幕文字大小調整

支援「小」、「中」、「大」、「特大」四種字體尺寸,適用於不同螢幕解析度。

歷史字幕保留行數 (0 - 2 行)

切換為 1 行或 2 行時,舊字幕會被淡化並略微縮小往上推,避免跳太快來不及看。

字幕翻譯語言與雙語對照模式

1. 字幕翻譯語言:支援切換至繁中、簡中、英文、日文、韓文等多國翻譯語系,預設不選即為「僅顯示原文」模式,直接跳過後端翻譯接口以節省額外負擔並提升 300% 以上之解碼效能。
2. 雙語對照模式:當選取了某種翻譯語言時,勾選雙語對照會同時呈現「原文 + 翻譯文」;取消勾選則只會呈現「翻譯文」。如果翻譯語言選擇「僅顯示原文」,則無論是否勾選皆僅顯示原文。

You can adjust the font size dynamically using this panel.
您可以透過這個面板動態調整字體大小。
互動預覽:字體大小切換
互動預覽:歷史行數切換
互動預覽:字幕翻譯與雙語切換

常見問題與障礙排除

使用過程中遇到異常?這裡有快速修復指南

問題 1:後端啟動失敗,提示「找不到 VAD 模型 ...」?

後端引擎在進行語音切分時需要 Silero VAD 模型(silero_vad.onnx)。
解決方法:請先在後端程式碼根目錄(即 backend/ 資料夾)中,在安裝好環境後執行 python download_models.py 進行自動下載,確保模型檔案下載完整。

問題 2:外掛顯示「語音系統已連線」,但是播放影片時完全沒有出字幕?

有幾種可能性需要排除:
1. 影片是否靜音:系統擷取的是分頁播放的音訊,如果影片靜音或聲音太小,VAD 無法偵測到人聲,就不會產生字幕。
2. 模型正在載入:首次辨識時,後端需要讀取載入 SenseVoice 辨識模型,可能會花費 3-5 秒,可以等待一下再測試。
3. 後端沒有開啟:請確保啟動後端服務的命令提示字元 (CMD) 視窗一直保持開啟,且沒有拋出 Error。

問題 3:彈出 Cannot capture a tab with an active stream 錯誤,或是啟動失敗?

這是因為 Chrome 判定該影片分頁已經有音訊擷取行程正在執行。這通常是因為外掛背景腳本自動休眠重啟、狀態不同步導致。
解決方法:
1. 重新整理影片網頁:直接按下 F5 重新整理播放影片的網頁,這會強制釋放該分頁被佔用的所有音軌。
2. 重載擴充功能:chrome://extensions/ 中點選 Studio0808 LiveCaption 的「重新整理」圖示,徹底重啟背景程式即可。

問題 4:如何申請與配置 DeepSeek 雲端翻譯金鑰 (API Key)?

使用 DeepSeek 雲端翻譯可以極低成本取得極精準的雙語對照。請依以下步驟申請:
  1. 註冊/登入開發者平台:造訪 DeepSeek 開放平台。您可以透過手機註冊或 Google 帳號快速登入。
  2. 帳戶充值 (Top Up):進入後台後,點擊左側選單的 "Top up"。其 Token 價格極低,充值最低金額(如 1~5 美元)即可供日常影片翻譯使用極長時間。
  3. 建立金鑰 (Create API Key):點擊左側選單的 "API Keys",然後點擊 "Create new API key"。輸入金鑰名稱並點擊確定。
  4. 複製金鑰:複製系統產生的以 sk- 開頭的金鑰。基於安全限制,該金鑰只會顯示一次,請務必當下複製保存。
  5. 配置到外掛:點擊 Chrome 的 LiveCaption 外掛圖示,在「DeepSeek API 金鑰」欄位貼上剛才複製的金鑰,即可自動啟用雲端翻譯。

問題 5:Mac 電腦也可以使用嗎?

可以!Mac 電腦完全可以使用,但啟動方式與 Windows 略有不同:
  1. 瀏覽器外掛 (Chrome Extension):100% 支援。外掛的安裝與使用方式在 Mac Chrome 瀏覽器上與 Windows 完全相同。
  2. 後端伺服器 (Python Backend):發布包中的 .exe.bat 為 Windows 專用。Mac 使用者若要使用,需先安裝 Python 環境,並於終端機執行 pip install -r requirements.txt 安裝依賴,再執行 python main.py 啟動。
  3. 處理器晶片相容性:辨識核心對 Mac 的 Intel 晶片與 Apple Silicon (M1/M2/M3) 晶片皆有原生高效能優化,可流暢執行。

備忘與未來規劃:開發方案 B「桌面獨立程式」版本?

目前我們採用「Chrome 外掛 (擷取與顯示) + 本機 Python (AI 大腦)」的雙軌架構。若未來您希望脫離 Chrome 瀏覽器、為 PotPlayer 等本機軟體或 Teams/Zoom 視訊程式提供即時字幕,可以規畫另外開發為獨立桌面程式:
  1. 系統音訊錄製 (WASAPI Loopback):捨棄瀏覽器專用 API,改在 Python 中使用 Windows WASAPI 環回機制錄音,這樣便能直接擷取電腦喇叭播放的所有聲音。
  2. 獨立桌面懸浮視窗 (PyQt6 / PySide6):在 Python 建立半透明、無邊框、永遠置頂 (Always on Top) 的桌面 UI 字幕視窗。
  3. 特性評估:此方案將可支援全電腦所有音軌,但需要防範其他系統通知雜音(例如通訊軟體叮咚聲)對辨識的干擾。本項目將作爲未來獨立產品另外開發。

問題 7:在擴充功能管理頁面點擊「錯誤」按鈕,出現 ScriptProcessorNode 警告或 Cannot capture a tab 錯誤?

這是開發者偵錯介面中顯示的狀態,具體原因如下:
1. ScriptProcessorNode is deprecated 警告 (黃色):這是 Chrome 瀏覽器的標準開發者提示,告知該音訊處理介面未來將被新標準取代。由於目前此設計在擴充功能後台(Offscreen Document)相容性與穩定性最佳,因此程式繼續採用,此警告完全不影響字幕正常運作,請放心忽略。
2. Cannot capture a tab with an active stream 錯誤 (紅色):這通常發生在**播放影片時重新載入(Reload)擴充功能**。因為 Chrome 尚未釋放前一次的擷取連線,導致新連線衝突。解決方法:請按下 F5 重新整理播放影片的網頁以強制釋放音訊,並在錯誤頁面點選右上角的「全部清除」即可恢復正常。

問題 8:辨識中文影片時,為何每句的第一個字或發音較輕的起句字常常沒有跑出來?

這是由語音切分(VAD)的偵測反應時間所致,您可以透過調整 VAD 參數獲得顯著改善:
1. **調整「斷句靜音時間」**:建議調高至 0.8。若設太短(如 0.5s),講話過程的微小換氣停頓會被判定為斷句,導致新句子開頭字容易因 VAD 重新偵測而被切掉。
2. **調整「單句最長上限」**:建議調高至 8.0 秒以上。若設太短,系統會頻繁強制截斷長句,容易切碎邊界字。
3. **後端內建優化**:最新版後端已將說話判定門檻(threshold)調降至 0.4,並將最小語音長度由 0.25s 縮短至 0.15s,極大提高了開頭輕發音字的保留率。

問題 9:除了 Google Chrome 之外,Microsoft Edge / Brave / Opera / Vivaldi 等瀏覽器也可以使用嗎?

可以!本系統外掛基於 Chromium 標準開發,所有採用 Chromium 核心的瀏覽器皆能完美相容。安裝步驟與 Chrome 類似:
  • Microsoft Edge:前往 edge://extensions/,開啟左下角「開發人員模式」,點擊「載入解壓縮的項目」,選取 extension 資料夾。
  • Brave 瀏覽器:前往 brave://extensions/,開啟右上角「開發者模式」,點擊「載入已解壓縮擴充功能」,選取 extension 資料夾。
  • Opera 瀏覽器:前往 opera://extensions/,開啟右上角「Developer mode」,點擊「Load unpacked」,選取 extension 資料夾。
  • Vivaldi 瀏覽器:前往 vivaldi://extensions/,開啟右上角「開發者模式」,點擊「載入已解壓縮擴充功能」,選取 extension 資料夾。
※ 提示:在上述瀏覽器的網址列輸入 chrome://extensions/ 也會自動跳轉至對應的擴充功能設定頁面。

問題 10:Firefox 瀏覽器可以使用嗎?

很遺憾,Firefox 目前無法直接使用本系統的外掛。原因說明如下:
  • 引擎架構不同:Firefox 使用 Mozilla 自家的 Gecko 引擎,而非 Chromium 核心。本系統外掛依賴 Chrome 專屬的擴充功能 API(例如 chrome.tabCapturechrome.offscreen 等),這些 API 在 Firefox 中完全不存在,也沒有對應的替代方案。
  • Manifest 格式差異:本外掛採用 Chrome Manifest V3 規範,Firefox 雖然也開始支援 MV3,但在權限模型與背景腳本(Service Worker vs. Background Page)的實作上仍有顯著差異,導致無法直接移植。
  • 建議替代方案:若您習慣使用 Firefox,建議在需要即時字幕功能時,暫時改用 Google Chrome、Microsoft Edge 或其他 Chromium 核心瀏覽器(詳見問題 9)。