AI 轉錄

B站影片逐字稿全攻略:知識區、學中文與跨境研究通用流程

B站官方 CC 字幕覆蓋率不到一成,每天 1400 萬條新投稿大多沒字幕。抽出音訊用 AI 做逐字稿,準確率 98.7%,支援 90+ 種語言。

B站影片逐字稿全攻略:知識區、學中文與跨境研究通用流程

哔哩哔哩(B站)是中國僅次於騰訊影音的第二大長影片平台,2025 年月活躍用戶突破 3.26 億,單日上傳量約 1400 萬條。但 B 站在「把影片變成文字」這件事上是出了名的不友善:官方 CC 字幕只開放給簽約 UP 主和正版引進內容,覆蓋率不到一成。剩下九成的影片如果你想拿到逐字稿——做筆記、引用、翻譯、二創——只能自己動手。

本文整理 2026 年 B 站影片逐字稿的三條現實路徑:平台自帶的 AI 字幕、給進階使用者的音訊抽取流程,以及一步搞定的 AI 語音轉文字方案(特別擅長知識區影片裡那種中英混講)。最快的方法:把 BV 號或下好的音訊檔丟進 Atter AI 的線上音訊轉錄,幾分鐘出可搜尋、可匯出的逐字稿,準確率 98.7%,支援 90+ 種語言

B站官方給了什麼,沒給什麼

平台過去兩年陸續推過三種字幕功能,但覆蓋率參差不齊:

功能出現位置限制
UP 主手動上傳 CC播放器「CC 字幕」按鈕可選;只有約 8% 投稿有
B站 AI 字幕(內測)部分知識區/公開課影片僅普通話;不能下載
引進版權字幕番劇、影視、官方引進鎖在播放器內;無法匯出

B 站沒有公開字幕匯出 API,沒有 SRT 下載按鈕,彈幕更不能轉成乾淨的逐字稿。一節長影片課、一段訪談,最後能拿到文字的唯一可靠來源就是音訊軌。

好消息是 B 站的音訊品質很扎實。標清投稿 128 kbps AAC,1080P+ 升到 192 kbps,大會員高清源能到 320 kbps——三個檔位都遠在現代語音辨識能輕鬆處理的水準之上,瓶頸在轉錄引擎不在來源檔。

方法一:先看影片本身有沒有 AI 字幕

打開影片,點齒輪圖示,看「字幕」選單裡有沒有「AI 字幕」或「CC」選項。有的話直接打開就能看。羅翔說刑法、李永樂老師、老蔣巨靠譜這類簽約 UP 主基本每條影片都帶字幕。

但限制很明顯:

  • 無法下載字幕檔:只能在播放器裡看或手動複製,長影片根本不切實際。
  • AI 字幕只支援普通話:遇到專業術語、方言(粵語、閩南話)、或長一點的英文就會丟詞。
  • 沒有說話人區分、沒有時間戳匯出、沒有 AI 摘要

如果你只是想隨便看一遍某條影片,這條路夠用。如果是做研究、寫筆記、轉成 Anki 卡片,往下看。

方法二:用 BBDown / yt-dlp 抽取音訊(進階使用者)

對沒有 CC 字幕的影片,最乾淨的路徑是只下載音訊流再轉錄。B 站用的是 M4S 容器——影片和音訊分開存,播放器端合併。兩個開源工具都能穩定下載:

  • BBDown(Windows/macOS/Linux):社群標準工具,支援 BV 號、AV 號、番劇連結,加 --audio-only 參數只下音訊。
  • yt-dlp:跨平台,2023 年起原生支援 B 站,用 -f ba 抓最佳音質。

下載後得到 .m4s 或 .m4a 檔,30 分鐘的課程影片大約 50–200 MB,可以直接餵給轉錄工具。Atter AI 原生支援 M4A,不用再轉成 MP3 除非你要更小的檔。完整音訊轉文字流程參考線上音訊轉錄指南,同一套流程通吃 MP3、WAV、FLAC、OGG、M4A。

版權提醒:個人學習、研究用途的音訊下載在大多數國家/地區屬合理使用。但要公開發布音訊或逐字稿、做商業用途、或處理引進版權內容(番劇、MV),需要原作者和版權方授權。

方法三:一步搞定,直接用 Atter AI

對大多數人來說最快的方案是跳過手動步驟:

  1. 用 BBDown 或 yt-dlp 抽音訊(一條指令,5–20 秒)。
  2. 瀏覽器開 Atter AI,不用裝客戶端、不用外掛、不用 Chrome 擴充功能。
  3. 把 .m4a 拖進上傳區。無單檔時長限制,幾小時的長影片也能傳。
  4. 選語言:純中文選「普通話」,知識區中英混講選「普通話 + 英文」,或讓系統自動辨識。
  5. 等。30 分鐘影片大約 90 秒出稿。
  6. 匯出 TXT / SRT / VTT / DOCX。要把影片帶字幕重新發布選 SRT 或 VTT。

定價:週 $6.99 / 年 $49.99 / 終身 $129.99,含 3 天免費試用,涵蓋轉錄、說話人區分、摘要、AI 問答。無單檔時長限制,無月配額分鐘數——一節 4 小時課程或 20 條 12 分鐘短片,同一個方案都跑得動。

B站逐字稿的主流場景

觀察 2026 年大家為什麼要把 B 站影片轉文字,主要四類:

1. 知識區/學習區做筆記。學生、自學者下載公開課和考研課程的音訊,轉成文字後做閃卡、心智圖或 Anki。同樣的工作流詳見 AI 總結會議錄音的方法

2. 學中文。海外的中文學習者把 B 站當聽力素材,需要對照逐字稿查成語、網路梗、口語表達。轉完再自動翻譯一遍,就有了一份個人客製的中英對照學習材料。

3. 跨境研究。海外學者研究中國消費行為、遊戲文化、政治論述,把 B 站影片當一手資料。高準確率基準(在乾淨音訊上量得)讓逐字稿可以直接進引文。

4. UP 主二創。把老直播、長影片拆成抖音切片、公眾號文章、小紅書圖文——一份乾淨的逐字稿是所有二創的源頭。

不同分區的品質預期

B 站不同分區的音訊特性差很多,轉錄前要心裡有數:

  • 知識區 / 科技區:單人講述、有腳本、室內乾淨音。能接近本工具的準確率上限。AI 轉錄最理想場景。
  • 生活區 / 美食區:戶外或廚房雜音,一兩個說話人。預期 95–97%。雙人 vlog 用說話人區分。
  • 遊戲區:遊戲背景音大、語速快、遊戲黑話多。預期 90–94%。建議先手動校正前 30 秒鎖定術語。
  • 音樂區 / 舞蹈區:別試。音訊以音樂為主,轉出來沒用。
  • 影視區 / 動畫區:版權內容。播放器自帶引進字幕,不要重複轉錄。

長影片(45 分鐘以上)Atter AI 會自動按 5–10 分鐘切章節,方便跳回某個具體話題不用拖進度條。

FAQ

Q1. B站有官方逐字稿/字幕下載按鈕嗎?

沒有。即使播放器裡能看到 CC 或 AI 字幕,也沒有任何「匯出」入口。要麼螢幕抓字(不可靠),要麼自己轉錄音訊。

Q2. 能即時轉錄 B 站直播嗎?

Atter AI 是非同步轉錄——處理已錄好的檔案不是即時串流。直播請用 OBS 或 B 站自帶的「錄製」功能存成 WAV/MP3,直播結束後再上傳。

Q3. Atter AI 處理中英混講效果如何?

很好。模型在雙語資料上訓練過,特別優化了中國科技、財經類頻道那種「這個 PR 我等下 merge 一下」的混講模式。語言選「普通話 + 英文」或讓系統自動辨識。

Q4. 粵語 B 站影片能轉嗎?

能。Atter AI 的 90+ 語言列表把粵語作為獨立語言支援。香港或廣東 UP 主在粵語和普通話之間切換時,主語言選粵語,模型仍能捕捉穿插的普通話片段。

Q5. 1 小時 B 站影片轉文字大約多久?

上傳後大約 3 分鐘處理時間。實際牆上時間主要花在音訊抽取(BBDown 10–60 秒)和上傳本身(看網速)。

Q6. 國際版 bilibili.tv 影片能轉嗎?

能。bilibili 國際版面向海外使用者,番劇、國創帶官方英語/西班牙語/印尼語字幕,那種直接用現成字幕就好。使用者自製內容沒字幕的就用本文流程。

Q7. 轉錄 B 站影片合法嗎?

個人學習、研究、無障礙用途在中國、美國、歐盟基本都算合理使用。公開發表逐字稿、商業化、或拿去訓練競爭模型需要 UP 主授權,引進版權內容還需要版權方授權。

Q8. 不能直接用 B 站的 AI 字幕內測嗎?

三個原因:只支援普通話;只對一小部分知識區影片開放;最關鍵的是不能匯出。要做可重複的工作流——課程筆記、研究、內容生產——外部轉錄管道返回真實檔案更可靠。