OFFLINE-FIRST REAL-TIME TRANSLATION
V20260626

精準、即時的網頁影音雙語字幕

Studio0808 LiveCaption(全球語系版本) 是一套專為瀏覽器影片設計的即時語音識別與雙語字幕翻譯系統。完全在您的本機電腦執行,擁有 100% 的隱私保護與極低延遲的速度。

多元應用場景

完美融入您的工作、學習與娛樂生活

線上課程與學術講座

觀看 Coursera、Udemy、YouTube 上的無字幕國外教學影片時,提供即時繁中翻譯,幫助快速掌握關鍵字與專業內容。

聽障輔助與無障礙學習

幫助聽障或聽力不便的學生,在觀看無字幕的線上教學影片、參與視訊課程時,將即時語音轉化為雙語文字,消弭學習阻礙。

外語聽力與口說練習

切換為「僅顯示原文」模式,只顯示純英文/日文字幕進行聽力盲聽訓練,遇到聽不懂的段落隨時切換回雙語對照,效果加倍。

全球即時影音與直播

支援無字幕的國外最新串流影音(如現場直播、海外新聞及即時節目等),提供本機極速語音識別與翻譯,讓您即時掌握第一手國外資訊。

網頁視訊會議逐字稿

在瀏覽器進行 Google Meet、Teams 跨國會議時,即時把發言渲染成雙語字幕,並自動在背景存檔為完整的 Markdown 會議紀錄。

影音創作者快速逐字稿

創作者在整理國外參考影片、產出腳本或進行訪談記錄時,可利用後端自動存檔功能直接匯出整份 Markdown 對話紀錄,大幅節省時間。

功能與設計特色

專為流暢體驗而生的現代化影音輔助工具

極低延遲分頁音訊擷取

藉由 Chrome Extension 獨創的分頁音訊 Loopback 機制,精準擷取分頁播放的音軌(不影響電腦其他音訊與錄音設備),提供給後端進行極低延遲的語音辨識。

本機離線 AI 語音辨識

後端搭載 Sherpa-ONNX 架構與阿里巴巴開源的 SenseVoice-Small 語音大模型,支援中、英、日、韓、粵語等語音,離線解碼速度極快,準確度極高。

自由切換翻譯引擎

支援強大的本機 Ollama 推理框架(推薦使用 Qwen 2.5 3B 模型)進行全離線智能意譯;同時支援線上 DeepSeek 雲端 API,以極低的成本取得接近人工翻譯的語意品質。

高顏值字幕懸浮視窗

精心設計的毛玻璃 (Glassmorphism) 半透明質感底框,支援字體大小自訂,具備完美的滑鼠穿透(不影響影片操作)。支援手勢拖拽定位與雙擊位置重置。

多行歷史字幕滾動

可選擇保留「最新 + 前 1 句」或「最新 + 前 2 句」的歷史字幕,舊字幕會以半透明、縮小解碼在上方滾動,避免字幕跳過快而漏看。

100% 離線隱私安全

若使用本機辨識與 Ollama 本地翻譯模型,所有音訊擷取、語音辨識、模型翻譯與字幕繪製皆在本機完成,無須連網,資料絕對不外洩。

快速安裝與啟動步驟

只需四步,即可在瀏覽器中開啟即時翻譯字幕

1

第一步:安裝與設定 Ollama 本地翻譯服務

本系統預設採用 Ollama 進行 100% 離線 AI 意譯。首次使用請先安裝並啟動 Llama 服務。

  • 前往 Ollama 官方網站 下載並安裝。安裝後,工作列右下角將出現小羊駝 🦙 圖示,並常駐後台開機啟動(預設埠為 11434)。
  • 開啟 CMD 或 PowerShell 終端機,執行指令 ollama run qwen2.5:3b-instruct(推薦,速度極快且顯存佔用低)或 ollama run qwen2.5:7b-instruct(翻譯品質最優),自動下載模型並常駐本機,無需在特定目錄下載。
2

第二步:啟動後端伺服器 (Backend Server)

後端伺服器內建了 Whisper 多國語言高精度引擎與 SenseVoice 極速引擎,負責接收音訊、斷句與模型辨識。

  • 若您尚未下載,請先 點此下載離線整合包。解壓縮後,進入【LiveCaptionServer】資料夾雙擊執行:
    點我啟動【即時字幕】後端服務.bat
  • 程式啟動時會檢測模型,若是首次辨識,後端會自動下載並加載 VAD 斷句與語音辨識模型(如 SenseVoice-Small / Whisper 核心)。
  • 啟動成功後,終端機將顯示:
    INFO: Uvicorn running on http://127.0.0.1:8000,請保持該視窗開啟。
3

第三步:載入 Chrome 瀏覽器外掛 (Extension)

外掛負責擷取當前分頁的音訊,並將即時字幕渲染在網頁畫面上。

  • 在 Chrome 瀏覽器網址列輸入並前往 chrome://extensions/
  • 在右上角開啟 「開發者模式」 (Developer Mode) 開關。
  • 點擊左上角的 「載入已解壓縮擴充功能」 (Load unpacked) 按鈕,並選取專案底下的 extension 資料夾。
  • 確認 Chrome 工具列已出現 Studio0808 LiveCaption(全球語系版本) 的圖示。
4

第四步:開啟影片,開始擷取與翻譯

一切就緒,開啟您想觀看的任何影片或直播分頁。

  • 前往 YouTube、Twitch 或任何影音網站播放影片。
  • 點擊擴充功能圖示開啟設定面板,翻譯服務選擇 Ollama,並於下拉選單中選擇您下載的模型(如 qwen2.5:3b-instruct)。
  • 點擊 「啟動即時字幕」按鈕。只要影片中有說話聲音,字幕將會以 Whisper/SenseVoice 即時辨識,並經由 Ollama 翻譯流暢顯示於畫面上!

功能設定說明

透過設定面板,隨心調整您的專屬字幕樣式與翻譯選項

字幕外觀設定 (Appearance Settings)

我們提供了極具彈性的外觀控制項目,讓您可以完美搭配不同影片背景,確保字幕的高可讀性:

自訂底框與文字顏色

可以選擇適合的背景顏色與文字顏色,底框會自動加上約 80% 的毛玻璃透明度。

字幕文字大小調整

支援「小」、「中」、「大」、「特大」四種字體尺寸,適用於不同螢幕解析度。

歷史字幕保留行數 (0 - 2 行)

切換為 1 行或 2 行時,舊字幕會被淡化並略微縮小往上推,避免跳太快來不及看。

字幕翻譯語言與雙語對照模式

1. 字幕翻譯語言:支援切換至繁中、簡中、英文、日文、韓文等多國翻譯語系,預設不選即為「僅顯示原文」模式,直接跳過後端翻譯接口以節省額外負擔並提升 300% 以上之解碼效能。
2. 雙語對照模式:當選取了某種翻譯語言時,勾選雙語對照會同時呈現「原文 + 翻譯文」;取消勾選則只會呈現「翻譯文」。如果翻譯語言選擇「僅顯示原文」,則無論是否勾選皆僅顯示原文。

You can adjust the font size dynamically using this panel.
您可以透過這個面板動態調整字體大小。
互動預覽:字體大小切換
互動預覽:歷史行數切換
互動預覽:字幕翻譯與雙語切換

常見問題與障礙排除

使用過程中遇到異常?這裡有快速修復指南

問題 1:後端啟動失敗,提示「找不到 VAD 模型 ...」?

後端引擎在進行語音切分時需要 Silero VAD 模型(silero_vad.onnx)。
解決方法:請先在後端程式碼根目錄(即 backend/ 資料夾)中,在安裝好環境後執行 python download_models.py 進行自動下載,確保模型檔案下載完整。

問題 2:外掛顯示「語音系統已連線」,但是播放影片時完全沒有出字幕?

有幾種可能性需要排除:
1. 影片是否靜音:系統擷取的是分頁播放的音訊,如果影片靜音或聲音太小,VAD 無法偵測到人聲,就不會產生字幕。
2. 模型正在載入:首次辨識時,後端需要讀取載入 SenseVoice 辨識模型,可能會花費 3-5 秒,可以等待一下再測試。
3. 後端沒有開啟:請確保啟動後端服務的命令提示字元 (CMD) 視窗一直保持開啟,且沒有拋出 Error。

問題 3:彈出 Cannot capture a tab with an active stream 錯誤,或是啟動失敗?

這是因為 Chrome 判定該影片分頁已經有音訊擷取行程正在執行。這通常是因為外掛背景腳本自動休眠重啟、狀態不同步導致。
解決方法:
1. 重新整理影片網頁:直接按下 F5 重新整理播放影片的網頁,這會強制釋放該分頁被佔用的所有音軌。
2. 重載擴充功能:chrome://extensions/ 中點選 Studio0808 LiveCaption(全球語系版本) 的「重新整理」圖示,徹底重啟背景程式即可。

問題 4:如何申請與配置 DeepSeek 雲端翻譯金鑰 (API Key)?

使用 DeepSeek 雲端翻譯可以極低成本取得極精準的雙語對照。請依以下步驟申請:
  1. 註冊/登入開發者平台:造訪 DeepSeek 開放平台。您可以透過手機註冊或 Google 帳號快速登入。
  2. 帳戶充值 (Top Up):進入後台後,點擊左側選單的 "Top up"。其 Token 價格極低,充值最低金額(如 1~5 美元)即可供日常影片翻譯使用極長時間。
  3. 建立金鑰 (Create API Key):點擊左側選單的 "API Keys",然後點擊 "Create new API key"。輸入金鑰名稱並點擊確定。
  4. 複製金鑰:複製系統產生的以 sk- 開頭的金鑰。基於安全限制,該金鑰只會顯示一次,請務必當下複製保存。
  5. 配置到外掛:點擊 Chrome 的 LiveCaption 外掛圖示,在「DeepSeek API 金鑰」欄位貼上剛才複製的金鑰,即可自動啟用雲端翻譯。

問題 5:Mac 電腦也可以使用嗎?

可以!Mac 電腦完全可以使用,但啟動方式與 Windows 略有不同:
  1. 瀏覽器外掛 (Chrome Extension):100% 支援。外掛的安裝與使用方式在 Mac Chrome 瀏覽器上與 Windows 完全相同。
  2. 後端伺服器 (Python Backend):發布包中的 .exe.bat 為 Windows 專用。Mac 使用者若要使用,需先安裝 Python 環境,並於終端機執行 pip install -r requirements.txt 安裝依賴,再執行 python main.py 啟動。
  3. 處理器晶片相容性:辨識核心對 Mac 的 Intel 晶片與 Apple Silicon (M1/M2/M3) 晶片皆有原生高效能優化,可流暢執行。

備忘與未來規劃:開發方案 B「桌面獨立程式」版本?

目前我們採用「Chrome 外掛 (擷取與顯示) + 本機 Python (AI 大腦)」的雙軌架構。若未來您希望脫離 Chrome 瀏覽器、為 PotPlayer 等本機軟體或 Teams/Zoom 視訊程式提供即時字幕,可以規畫另外開發為獨立桌面程式:
  1. 系統音訊錄製 (WASAPI Loopback):捨棄瀏覽器專用 API,改在 Python 中使用 Windows WASAPI 環回機制錄音,這樣便能直接擷取電腦喇叭播放的所有聲音。
  2. 獨立桌面懸浮視窗 (PyQt6 / PySide6):在 Python 建立半透明、無邊框、永遠置頂 (Always on Top) 的桌面 UI 字幕視窗。
  3. 特性評估:此方案將可支援全電腦所有音軌,但需要防範其他系統通知雜音(例如通訊軟體叮咚聲)對辨識的干擾。本項目將作爲未來獨立產品另外開發。

問題 7:在擴充功能管理頁面點擊「錯誤」按鈕,出現 ScriptProcessorNode 警告或 Cannot capture a tab 錯誤?

這是開發者偵錯介面中顯示的狀態,具體原因如下:
1. ScriptProcessorNode is deprecated 警告 (黃色):這是 Chrome 瀏覽器的標準開發者提示,告知該音訊處理介面未來將被新標準取代。由於目前此設計在擴充功能後台(Offscreen Document)相容性與穩定性最佳,因此程式繼續採用,此警告完全不影響字幕正常運作,請放心忽略。
2. Cannot capture a tab with an active stream 錯誤 (紅色):這通常發生在**播放影片時重新載入(Reload)擴充功能**。因為 Chrome 尚未釋放前一次的擷取連線,導致新連線衝突。解決方法:請按下 F5 重新整理播放影片的網頁以強制釋放音訊,並在錯誤頁面點選右上角的「全部清除」即可恢復正常。

問題 8:辨識中文影片時,為何每句的第一個字或發音較輕的起句字常常沒有跑出來?

這是由語音切分(VAD)的偵測反應時間所致,您可以透過調整 VAD 參數獲得顯著改善:
1. **調整「斷句靜音時間」**:建議調高至 0.8。若設太短(如 0.5s),講話過程的微小換氣停頓會被判定為斷句,導致新句子開頭字容易因 VAD 重新偵測而被切掉。
2. **調整「單句最長上限」**:建議調高至 8.0 秒以上。若設太短,系統會頻繁強制截斷長句,容易切碎邊界字。
3. **後端內建優化**:最新版後端已將說話判定門檻(threshold)調降至 0.4,並將最小語音長度由 0.25s 縮短至 0.15s,極大提高了開頭輕發音字的保留率。

問題 9:除了 Google Chrome 之外,Microsoft Edge / Brave / Opera / Vivaldi 等瀏覽器也可以使用嗎?

可以!本系統外掛基於 Chromium 標準開發,所有採用 Chromium 核心的瀏覽器皆能完美相容。安裝步驟與 Chrome 類似:
  • Microsoft Edge:前往 edge://extensions/,開啟左下角「開發人員模式」,點擊「載入解壓縮的項目」,選取 extension 資料夾。
  • Brave 瀏覽器:前往 brave://extensions/,開啟右上角「開發者模式」,點擊「載入已解壓縮擴充功能」,選取 extension 資料夾。
  • Opera 瀏覽器:前往 opera://extensions/,開啟右上角「Developer mode」,點擊「Load unpacked」,選取 extension 資料夾。
  • Vivaldi 瀏覽器:前往 vivaldi://extensions/,開啟右上角「開發者模式」,點擊「載入已解壓縮擴充功能」,選取 extension 資料夾。
※ 提示:在上述瀏覽器的網址列輸入 chrome://extensions/ 也會自動跳轉至對應的擴充功能設定頁面。

問題 10:Firefox 瀏覽器可以使用嗎?

很遺憾,Firefox 目前無法直接使用本系統的外掛。原因說明如下:
  • 引擎架構不同:Firefox 使用 Mozilla 自家的 Gecko 引擎,而非 Chromium 核心。本系統外掛依賴 Chrome 專屬的擴充功能 API(例如 chrome.tabCapturechrome.offscreen 等),這些 API 在 Firefox 中完全不存在,也沒有對應的替代方案。
  • Manifest 格式差異:本外掛採用 Chrome Manifest V3 規範,Firefox 雖然也開始支援 MV3,但在權限模型與背景腳本(Service Worker vs. Background Page)的實作上仍有顯著差異,導致無法直接移植。
  • 建議替代方案:若您習慣使用 Firefox,建議在需要即時字幕功能時,暫時改用 Google Chrome、Microsoft Edge 或其他 Chromium 核心瀏覽器(詳見問題 9)。

問題 11:如何安裝與設定 Ollama 本機離線翻譯?不同模型的效能與翻譯品質有何差異?

本系統支援 Ollama 離線翻譯框架,實現 100% 本地運行的隱私字幕翻譯。請參考以下指引進行安裝與模型選擇:
  1. 下載與安裝:造訪 Ollama 官方網站 下載並安裝。安裝後,Windows 工作列右下角會出現小羊駝圖示 🦙,並會隨開機自動啟動待命(預設服務網址為 http://127.0.0.1:11434)。
  2. 下載模型:開啟 CMD 終端機,執行 ollama run qwen2.5:7b-instructollama run qwen2.5:3b-instruct 即可自動下載模型,下載完成後隨即常駐本機,無需在特定目錄執行。
  3. 外掛設定與下拉選用:開啟 Chrome 外掛設定面板,翻譯服務選用 Ollama,並可在「翻譯模型名稱」下拉選單中直接點選已下載的模型。
  4. 模型效能與品質差異比較
    • qwen2.5:7b-instruct (7B):約 4.7 GB。需要 5~6 GB 以上的顯卡記憶體。優點是翻譯品質極佳,繁中意譯語法非常流暢,100% 不會出現中英夾雜或語系溢出;缺點是生成時間稍長,在即時字幕中會感覺到 1~2 秒的些微延遲。
    • qwen2.5:3b-instruct (3B):約 2.2 GB。僅需 2.5 GB 左右的顯卡記憶體。優點是翻譯反應極快(速度比 7B 快 2 倍以上),延遲幾乎難以察覺;缺點是受限於參數量,偶爾在日常會話中會夾雜少數英文單字(如將「散步」翻成 "stroll",或「做家事」翻成 "cleaning 倉庫"),長句時偶爾會直接輸出英文。
    • gemma2:2b-instruct (2B):約 1.6 GB。只需 1.8 GB 的顯卡記憶體。速度極快,繁中生成效果優異,適合入門款顯卡或追求極速即時對應的使用者。

問題 12:後端內建的 SenseVoice 與 Whisper 語音辨識引擎有何不同?各支援哪些國家的語言?

系統後端提供了兩款強大的離線 AI 語音辨識引擎,各有其優勢及語言相容範圍,您可以根據播放的影片內容隨時切換:
  • SenseVoice-Small (亞太語系極速引擎)
    • 支援語言中文(普通話/簡體/繁體)、英文、日文、韓文、粵語 (廣東話)
    • 引擎優點:解碼辨識速度快得驚人(百毫秒級別),佔用系統資源與顯存極低。具備語音事件偵測(如自動偵測笑聲、掌聲、BGM 等),並且會自動在辨識結果中加上高準確度的標點符號。
    • 推薦場景:觀看中、英、日、韓、粵語影片,或是對即時性要求極高(例如視訊會議直播)時的首選。
  • Whisper (多國語言高精度引擎)
    • 支援語言支援全球近百種語言的識別(包含法文、德文、西班牙文、義大利文、俄文、葡萄牙文、越南文、泰文等幾乎所有主要語系)。
    • 引擎優點:在歐美語系及非亞太語系的辨識精度極佳,能完美處理發音中的背景雜音,並產出非常高質量的外語逐字稿。
    • 推薦場景:觀看非亞太語系影片(例如法文教學、德文演講、西班牙影集)時的備用引擎。注意:Whisper 模型結構較大,建議使用 GPU (CUDA) 加速運行以確保即時性。

問題 13:即時翻譯要選 Ollama 還是 Google 翻譯?速度與穩定度差在哪?

兩種翻譯引擎在速度特性上有明顯差異。實測同一支影片(目標繁體中文)的單句翻譯耗時:
  • Ollama 本機翻譯(推薦,需 GPU):速度非常穩定,每句約 0.6 ~ 0.8 秒。因為完全在本機 GPU 運算、沒有網路變數,字幕節奏平順、不會突然卡頓,同時兼具離線隱私與繁體一致的優勢。
  • Google 翻譯(免設定備援):平均速度也很快(多數約 0.5 秒),但取決於您的網路品質;網路尖峰時單句可能跳到 1.5 ~ 2.4 秒,造成字幕偶發卡頓。一般而言有線網路 (Ethernet) 會比無線 Wi-Fi 更穩定
結論:即時字幕最在意的是「穩定不卡頓」而非單句最快。若您有 NVIDIA GPU,建議優先使用 Ollama(穩定 + 離線 + 高品質);若無 GPU 或不想安裝 Ollama,Google 翻譯是免設定的好用備援(建議搭配有線網路以提升穩定度)。

版本控制與更新紀錄

版本更新日期:V20260626