Studio0808 LiveCaption 是一套專為瀏覽器影片設計的即時語音識別與雙語字幕翻譯系統。完全在您的本機電腦執行,擁有 100% 的隱私保護與極低延遲的速度。
完美融入您的工作、學習與娛樂生活
觀看 Coursera、Udemy、YouTube 上的無字幕國外教學影片時,提供即時繁中翻譯,幫助快速掌握關鍵字與專業內容。
幫助聽障或聽力不便的學生,在觀看無字幕的線上教學影片、參與視訊課程時,將即時語音轉化為雙語文字,消弭學習阻礙。
切換為「僅顯示原文」模式,只顯示純英文/日文字幕進行聽力盲聽訓練,遇到聽不懂的段落隨時切換回雙語對照,效果加倍。
支援無字幕的國外最新串流影音(如現場直播、海外新聞及即時節目等),提供本機極速語音識別與翻譯,讓您即時掌握第一手國外資訊。
在瀏覽器進行 Google Meet、Teams 跨國會議時,即時把發言渲染成雙語字幕,並自動在背景存檔為完整的 Markdown 會議紀錄。
創作者在整理國外參考影片、產出腳本或進行訪談記錄時,可利用後端自動存檔功能直接匯出整份 Markdown 對話紀錄,大幅節省時間。
專為流暢體驗而生的現代化影音輔助工具
藉由 Chrome Extension 獨創的分頁音訊 Loopback 機制,精準擷取分頁播放的音軌(不影響電腦其他音訊與錄音設備),提供給後端進行極低延遲的語音辨識。
後端搭載 Sherpa-ONNX 架構與阿里巴巴開源的 SenseVoice-Small 語音大模型,支援中、英、日、韓、粵語等語音,離線解碼速度極快,準確度極高。
支援強大的本機 Ollama 推理框架(推薦使用 Qwen 2.5 3B 模型)進行全離線智能意譯;同時支援線上 DeepSeek 雲端 API,以極低的成本取得接近人工翻譯的語意品質。
精心設計的毛玻璃 (Glassmorphism) 半透明質感底框,支援字體大小自訂,具備完美的滑鼠穿透(不影響影片操作)。支援手勢拖拽定位與雙擊位置重置。
可選擇保留「最新 + 前 1 句」或「最新 + 前 2 句」的歷史字幕,舊字幕會以半透明、縮小解碼在上方滾動,避免字幕跳過快而漏看。
若使用本機辨識與 Ollama 本地翻譯模型,所有音訊擷取、語音辨識、模型翻譯與字幕繪製皆在本機完成,無須連網,資料絕對不外洩。
只需三步,即可在瀏覽器中開啟即時翻譯字幕
後端伺服器負責接收 Chrome 傳來的音訊、透過 VAD 斷句、SenseVoice 模型辨識與 LLM 翻譯。
點我啟動後端服務.bat。INFO: Uvicorn running on http://127.0.0.1:8000,請保持該視窗開啟。外掛負責擷取當前分頁的音訊,並將即時字幕繪製在網頁畫面上。
chrome://extensions/extension 資料夾載入。一切就緒,開啟您想觀看的任何影片分頁。
語音系統已連線,準備辨識中...透過設定面板,隨心調整您的專屬字幕樣式與翻譯選項
我們提供了極具彈性的外觀控制項目,讓您可以完美搭配不同影片背景,確保字幕的高可讀性:
可以選擇適合的背景顏色與文字顏色,底框會自動加上約 80% 的毛玻璃透明度。
支援「小」、「中」、「大」、「特大」四種字體尺寸,適用於不同螢幕解析度。
切換為 1 行或 2 行時,舊字幕會被淡化並略微縮小往上推,避免跳太快來不及看。
1. 字幕翻譯語言:支援切換至繁中、簡中、英文、日文、韓文等多國翻譯語系,預設不選即為「僅顯示原文」模式,直接跳過後端翻譯接口以節省額外負擔並提升 300% 以上之解碼效能。
2. 雙語對照模式:當選取了某種翻譯語言時,勾選雙語對照會同時呈現「原文 + 翻譯文」;取消勾選則只會呈現「翻譯文」。如果翻譯語言選擇「僅顯示原文」,則無論是否勾選皆僅顯示原文。
使用過程中遇到異常?這裡有快速修復指南
後端引擎在進行語音切分時需要 Silero VAD 模型(silero_vad.onnx)。
解決方法:請先在後端程式碼根目錄(即 backend/ 資料夾)中,在安裝好環境後執行 python download_models.py 進行自動下載,確保模型檔案下載完整。
有幾種可能性需要排除:
1. 影片是否靜音:系統擷取的是分頁播放的音訊,如果影片靜音或聲音太小,VAD 無法偵測到人聲,就不會產生字幕。
2. 模型正在載入:首次辨識時,後端需要讀取載入 SenseVoice 辨識模型,可能會花費 3-5 秒,可以等待一下再測試。
3. 後端沒有開啟:請確保啟動後端服務的命令提示字元 (CMD) 視窗一直保持開啟,且沒有拋出 Error。
這是因為 Chrome 判定該影片分頁已經有音訊擷取行程正在執行。這通常是因為外掛背景腳本自動休眠重啟、狀態不同步導致。
解決方法:
1. 重新整理影片網頁:直接按下 F5 重新整理播放影片的網頁,這會強制釋放該分頁被佔用的所有音軌。
2. 重載擴充功能:在 chrome://extensions/ 中點選 Studio0808 LiveCaption 的「重新整理」圖示,徹底重啟背景程式即可。
sk- 開頭的金鑰。基於安全限制,該金鑰只會顯示一次,請務必當下複製保存。.exe 與 .bat 為 Windows 專用。Mac 使用者若要使用,需先安裝 Python 環境,並於終端機執行 pip install -r requirements.txt 安裝依賴,再執行 python main.py 啟動。
這是開發者偵錯介面中顯示的狀態,具體原因如下:
1. ScriptProcessorNode is deprecated 警告 (黃色):這是 Chrome 瀏覽器的標準開發者提示,告知該音訊處理介面未來將被新標準取代。由於目前此設計在擴充功能後台(Offscreen Document)相容性與穩定性最佳,因此程式繼續採用,此警告完全不影響字幕正常運作,請放心忽略。
2. Cannot capture a tab with an active stream 錯誤 (紅色):這通常發生在**播放影片時重新載入(Reload)擴充功能**。因為 Chrome 尚未釋放前一次的擷取連線,導致新連線衝突。解決方法:請按下 F5 重新整理播放影片的網頁以強制釋放音訊,並在錯誤頁面點選右上角的「全部清除」即可恢復正常。
這是由語音切分(VAD)的偵測反應時間所致,您可以透過調整 VAD 參數獲得顯著改善:
1. **調整「斷句靜音時間」**:建議調高至 0.8 秒。若設太短(如 0.5s),講話過程的微小換氣停頓會被判定為斷句,導致新句子開頭字容易因 VAD 重新偵測而被切掉。
2. **調整「單句最長上限」**:建議調高至 8.0 秒以上。若設太短,系統會頻繁強制截斷長句,容易切碎邊界字。
3. **後端內建優化**:最新版後端已將說話判定門檻(threshold)調降至 0.4,並將最小語音長度由 0.25s 縮短至 0.15s,極大提高了開頭輕發音字的保留率。
edge://extensions/,開啟左下角「開發人員模式」,點擊「載入解壓縮的項目」,選取 extension 資料夾。brave://extensions/,開啟右上角「開發者模式」,點擊「載入已解壓縮擴充功能」,選取 extension 資料夾。opera://extensions/,開啟右上角「Developer mode」,點擊「Load unpacked」,選取 extension 資料夾。vivaldi://extensions/,開啟右上角「開發者模式」,點擊「載入已解壓縮擴充功能」,選取 extension 資料夾。chrome://extensions/ 也會自動跳轉至對應的擴充功能設定頁面。
chrome.tabCapture、chrome.offscreen 等),這些 API 在 Firefox 中完全不存在,也沒有對應的替代方案。