AI 轉錄

把 YouTube 影片文字抓下來的 5 種方法

從隱藏的字幕按鈕到整個頻道批次匯出——五種方法比較速度、成本和語言覆蓋,哪一種適合你。

YouTube 比網路上任何其他檔案庫都收錄了更多的人聲錄音——每月活躍使用者 27 億、每分鐘新上傳超過 500 小時影片——但平台內建的字幕工具藏得太深,多數觀眾根本不知道自己正在看的影片其實就有現成的逐字稿。學生整理上課筆記、研究者擷取引用、內容創作者重複利用長影片、無障礙團隊製作在地化字幕,把 YouTube 影片轉成乾淨逐字稿早已不是偶爾的任務,而是每天的工作流。

本文涵蓋從一個 YouTube 連結到一份可用逐字稿的 5 條路徑,包括在乾淨音訊上達到 98.7% 準確率、涵蓋 90+ 種語言的 AI 語音轉文字方案。同時也涵蓋 YouTube 特有的邊界情境——年齡限制影片、地區鎖影片、音樂密集型內容、關閉字幕的頻道——這些情境如果沒事先規劃,能默默吃掉好幾個小時。

YouTube 內建提供哪些字幕能力

在動用任何第三方工具之前,先搞清楚 YouTube 本身能給你什麼。大約 70% 的公開 YouTube 影片帶有 Google 語音辨識自動產生的字幕,但其中只有約 30% 經過上傳者人工校對。

  • 自動字幕 — 13 種支援語言下大多數影片都會自動產生,包括英文、西班牙文、日文、韓文、葡萄牙文、法文、德文、義大利文、荷蘭文、俄文、越南文、印尼文、土耳其文。日常英文對話準確率通常在 60% 到 85% 之間,遇到口音、專業術語、多人搶話時會大幅下降。
  • 人工字幕 — 由創作者上傳。一旦存在,就是從 YouTube 取逐字稿最乾淨的來源,並且可能含多語言版本。
  • 逐字稿面板 — 桌面影片頁右側的側邊欄,顯示帶時間戳記、可捲動的逐字稿。多數「YouTube 逐字稿」流程其實暗中都依賴這個面板。
  • 章節 — 創作者自訂的時間戳記,把影片分段。不是逐字稿,但只要某一段文字時很有用。

方法 1:使用 YouTube 內建的逐字稿面板

從公開 YouTube 影片取文字最快、最合規的方法,就是平台自家的逐字稿面板。任何帶字幕的影片——自動或人工——都能用,30 秒就搞定。

  1. 在桌面版 YouTube 網站打開影片(行動 App 不行,逐字稿面板沒有暴露在那裡)。
  2. 點影片下方的更多動作(三點選單)→ 顯示文字記錄
  3. 逐字稿展開在右側欄。最下方有切換按鈕,可在含時間戳記和連續文本檢視之間切換。
  4. 如果影片有多語言字幕軌,點語言下拉選單切換。
  5. 選取文字、複製、貼到文件裡。

99% 以上帶字幕的公開影片都能這麼做。兩種失效情境:一是上傳者主動關閉了字幕(少數情況——通常是音樂影片與直播),二是自動字幕工作還在排隊中(新上傳後頭幾小時常見)。

唯一的問題是準確率。YouTube 自動字幕在技術內容上大約每 5 個字就錯 1 個,專有名詞錯得更多。如果只是當原始筆記,沒問題。但要發布——引用研究者說的話、做在地化字幕、整理課程逐字稿——就需要一次真正的語音轉文字。

方法 2:用 Atter AI 直接從 YouTube 連結轉錄

當自動字幕不夠準、或乾脆沒有時,最乾淨的流程是把 YouTube 連結餵給 AI 語音轉文字服務,它會下載音訊、跑專業語音辨識,並回傳帶說話者標籤、標點與段落結構的逐字稿。

  1. 從網址列或分享按鈕複製 YouTube 影片連結。
  2. 在 Atter AI 中開啟新建轉錄頁面,把連結貼進從連結轉錄輸入框。
  3. 選擇來源語言(或保留自動偵測;引擎能辨識 90+ 種語言)。
  4. 開始轉錄

Atter AI 抓取音訊軌道,跑一個針對 YouTube 真實音訊環境(背景配樂、搶話、口音、專業術語)調校過的語音轉文字引擎,30 分鐘影片通常在 2 到 4 分鐘內就能在你的 dashboard 上看到 98.7% 準確率的逐字稿。上傳沒有時長限制,4 小時的 Podcast 或 12 小時的會議直播跑的是同一條管線,5 分鐘的 Shorts 也是。

價格在這裡很關鍵,因為大部分免費的 YouTube 逐字稿工具都把單支影片時長卡在 10 分鐘、每月總額度卡在 30 分鐘。Atter AI 免費 3 天試用沒有時長限制,付費檔位(詳見下方對比表)裡有一次性買斷的終身方案,對任何「過一年後每月還會轉 2 支以上 YouTube 影片」的人來說最划算。

如果想在挑方案前比較多個 AI 工具的底層引擎,可看最佳語音轉文字工具盤點,裡面有針對 YouTube 風格音訊的準確率基準。

方法 3:先下載,再做語音轉文字

需要離線工作流時——網路不穩、做存檔專案、想讓逐字稿能在 YouTube 未來下架後依然保留——先下載音訊再上傳給轉錄工具是最穩妥的路徑。這也是 YouTube 連結流程被阻斷時的唯一選擇(年齡限制內容、你已獲權限的會員專屬影片、透過合法手段存取的地區受限上傳)。

常見的開源工作流是 yt-dlp(支援包括 YouTube 在內的 1000+ 站點)抓取純音訊串流:

yt-dlp -x --audio-format m4a "https://www.youtube.com/watch?v=VIDEO_ID"

得到的 .m4a 檔案大小大約只有原影片的十分之一。上傳到 Atter AI,選語言,得到的就是和方法 2 一樣的高準確率逐字稿。對於現成音訊檔的語音轉文字,音訊轉文字完整指南詳列所有支援格式。

不想用命令列的話,也有同款引擎的桌面 GUI 應用——但批次任務上命令列更快,因為可以一條命令處理整個播放清單。

方法 4:批次轉錄整個頻道或播放清單

研究者建語料庫、內容行銷分析競品頻道、課程創作者重新利用多集系列影片,一個一個手動轉完全不可行。最乾淨的方式是把 yt-dlp 的播放清單能力和 Atter AI 的批次上傳結合起來。

  1. 拿到播放清單或頻道連結。
  2. yt-dlp -x --audio-format m4a "PLAYLIST_OR_CHANNEL_URL",把每支影片的音訊都拉到同一個資料夾。
  3. 在 Atter AI 把整個資料夾拖到上傳區。付費方案單批最多接受 100 個檔案。
  4. dashboard 平行處理,每支影片給出獨立逐字稿,並提供一鍵合併成單一文件的選項。

50 支影片的頻道、平均時長 12 分鐘(YouTube 非 Shorts 影片的平台平均值),在 Atter AI 標準處理檔位下大約 90 分鐘就能跑完。每份逐字稿以影片標題與影片 ID 索引,可反查原始連結。

方法 5:瀏覽器擴充功能與書籤腳本

許多瀏覽器擴充功能宣稱一鍵 YouTube 逐字稿。它們幾乎都是透過抓 YouTube 字幕面板實現的——也意味著它們繼承了 YouTube 自動字幕 60% 到 85% 的準確率天花板,並不是真正的語音轉文字管線。日常瀏覽看個大概可以,但任何要發布、引用、交付的場合都不該當主力。

例外是那些把連結轉交給真實轉錄服務的擴充功能。如果你用這類擴充功能,驗證一下背後做了什麼:一支 30 分鐘影片 5 秒內就出結果的擴充功能,必然在讀自動字幕,而不是在跑語音轉文字。

YouTube 逐字稿常見地雷

這些是 YouTube 特有、不事先防範就會默默吃掉時間的陷阱。

年齡限制與會員專屬影片需要身份驗證。YouTube 字幕面板在登入狀態下能處理;基於連結的 AI 工具一般不行,因為它們沒有你的 YouTube cookie;遇到時登入後用方法 3 下載音訊,再手動上傳。

**音樂密集型內容會摧毀大多數語音辨識。**自動字幕直接跳過歌曲。Atter AI 這種真正的語音轉文字引擎在口播段依然能保持同樣的準確率,但不會轉寫歌詞——既因為歌詞不是語音,也因為版權考量。

直播與首映結束後還需要等 YouTube 後製完畢才會有逐字稿——通常在直播結束後 30 分鐘到幾小時。在那之前唯一的選擇是即時字幕,但即時字幕無法匯出。

地區鎖影片基於連結的轉錄服務在另一個地區無法存取。如果影片只對你所在的國家解鎖,用方法 3(自己在該地區下載音訊,再上傳檔案)。

短於 60 秒的 Shorts會產生字幕,但 Shorts 播放器隱藏了逐字稿面板。繞道是用 youtube.com/watch?v=VIDEO_ID 長片播放器開同一支影片——長片播放器有完整的逐字稿控制項。

**「顯示文字記錄」按鈕不見了。**通常是:創作者關閉了字幕、影片太新(非英語音訊的自動字幕可能要等幾小時)、或你在行動 App 上(行動 App 從不顯示逐字稿面板)。

YouTube 自動字幕 vs Atter AI

能力 YouTube 自動字幕 Atter AI
乾淨音訊準確率60–85%98.7%
語言涵蓋13 種90+ 種
說話者分離
匯出格式SBV、SRT(僅上傳者)PDF、DOCX、TXT、SRT、VTT、JSON
AI 摘要 & 章節有限內建
跨影片搜尋
價格免費3 天免費試用,之後 $6.99/週 / $49.99/年 / $129.99 終身

要橫向比較適合內容創作者的轉錄工具,參見最佳 AI 轉錄工具盤點

YouTube 逐字稿常見問題

轉錄別人的 YouTube 影片合法嗎?

轉錄別人的 YouTube 影片給自己用——做筆記、研究、無障礙——在多數法域屬於合理使用。把逐字稿當成自己的原創發表是版權問題。安全規則是:自用與研究自由轉錄,引用時清楚標註來源,發布完整逐字稿前先向創作者申請許可。

YouTube 自動字幕到底準不準?

YouTube 官方文件承認在支援語言的日常對話上準確率大約 60% 到 85%,遇到口音、專業內容、含背景音樂的音訊會更低。Atter AI 在 90+ 種語言的乾淨音訊上都能保持最高一檔的準確率,YouTube 自動字幕崩得最嚴重的口音和多語言場景,差距最明顯。

能轉錄私人 YouTube 影片嗎?

如果你有存取權限,可以。用方法 3(在有權限的帳號登入狀態下自己下載音訊,再上傳檔案),因為基於連結的工具一般無法登入認證。無論來源,Atter AI 處理上傳檔案的方式都一樣。

能轉錄最長多長的 YouTube 影片?

YouTube 平台單次上傳上限是 12 小時。Atter AI 上傳無時長限制,所以一支 12 小時的直播錄影可一次轉錄——依音訊長度,處理時間約 25 到 50 分鐘。

為什麼有些影片沒有「顯示文字記錄」按鈕?

三種原因:創作者關閉了字幕、自動字幕還沒跑完(非英語音訊的新上傳可能要等幾小時)、或你在行動 App 上(行動 App 從不顯示逐字稿面板)。換桌面再試一次。

能轉錄 YouTube Shorts 嗎?

可以,但 Shorts 播放器隱藏了逐字稿面板。用 youtube.com/watch?v=VIDEO_ID 長片播放器開同一支影片,使用標準逐字稿面板;或把連結交給 Atter AI 取得更高準確率。

Atter AI 會下載 YouTube 影片嗎?

Atter AI 只抓取產生逐字稿所需的音訊軌道,處理完即丟棄來源。dashboard 保留的是逐字稿與原始連結的引用,而不是影片本身的副本。

轉錄一支 1 小時的 YouTube 影片要多久?

Atter AI 標準檔位下,60 分鐘影片通常 3 到 6 分鐘完成。多數時間是從 YouTube 下載音訊;轉錄本身比即時還快。

手機能轉錄 YouTube 影片嗎?

可以。YouTube 行動 App 隱藏了逐字稿面板,但 Atter AI 行動端流程支援貼上 YouTube 連結,結果會出現在和桌面端同一個 dashboard 裡。