Bilibili(ビリビリ)動画の文字起こし:中国語学習者・研究者・クリエイター向けガイド
Bilibili(B站)は中国で騰訊視頻に次ぐ第2位の長尺動画プラットフォームで、2025年の月間アクティブユーザーは3.26億人、1日あたりの投稿数はおよそ1400万本に達しています。一方で「動画を文字にする」という観点では弱点が際立つプラットフォームでもあります。公式CC字幕は提携クリエイターと正規ライセンス輸入コンテンツに限定されており、全体の10%未満しかカバーしていません。残り90%の動画でテキストが欲しい場合——学習、引用、翻訳、二次創作のいずれにせよ——自分で文字起こしするしかありません。
本記事では2026年時点のB站動画を文字起こしする現実的な3つの方法を紹介します:プラットフォーム純正のAI字幕、上級者向けの音声抽出ワークフロー、そして知識区動画によくある中英コードスイッチを得意とするAI文字起こし。最短ルートはBV-IDまたはダウンロード済み音声ファイルをAtter AIの音声文字起こしに放り込むだけ。98.7%の精度で90+言語に対応した検索可能な文字起こしが数分で手に入ります。
B站が用意しているもの、用意していないもの
過去2年間でB站は3種類の字幕機能を順次リリースしてきましたが、カバー範囲はバラバラです:
| 機能 | 表示場所 | 制限 |
|---|---|---|
| クリエイター手動アップロードCC | プレーヤーの「CC 字幕」ボタン | 任意;約8%の投稿のみ |
| B站 AI字幕(ベータ) | 一部の知識区/公開講座 | 普通話のみ;ダウンロード不可 |
| 輸入字幕トラック | アニメ・ドンファ・公式配信 | プレーヤー内固定;エクスポート不可 |
字幕エクスポートの公開APIはなく、SRTダウンロードボタンもなく、弾幕(ダンマク/コメント弾幕)を綺麗な文字起こしに変換する方法もありません。長尺講義や対談動画では、テキストを得る唯一の確実な経路は音声トラックそのものです。
良いニュースとして、B站の音声品質は十分高いです。標準画質投稿は128kbps AAC、1080P+は192kbpsまで上がり、大会員向け高品質ソースは320kbpsに達します。3段階すべて現代の音声認識が楽に処理できる水準を大幅に上回っており、ボトルネックは文字起こしエンジン側で、ソース側ではありません。
方法1:動画に元々AI字幕がついているか確認する
動画を開き、歯車アイコンをクリックし、「字幕」メニューに「AI字幕」または「CC」が表示されるか確認します。表示されていればそのままONにできます。羅翔説刑法、李永楽老師、老蔣巨靠譜などの提携クリエイターはほぼ全動画に字幕がついています。
ただし制限は明確です:
- 字幕ファイルはダウンロードできない。プレーヤー内で見るかコピペするしかなく、長尺動画では実用的ではありません。
- AI字幕は普通話のみ。専門用語、方言(広東語、福建語)、長めの英語フレーズが入ると単語が抜けます。
- 話者ラベル、エクスポート可能なタイムスタンプ、AI要約はいずれも非対応。
カジュアルに1本観るだけならこれで足ります。研究データの抽出、学習ノート作成、チュートリアル動画からのフラッシュカード生成が目的なら次へ。
方法2:BBDownまたはyt-dlpで音声を抽出する(上級ルート)
CC字幕がない動画の場合、もっとも綺麗な経路は音声ストリームだけをダウンロードして文字起こしすることです。B站はM4Sコンテナを採用しており、動画と音声を別ファイルで配信し、プレーヤー側でマージします。安定して動作するオープンソースツールが2つあります:
- BBDown(Windows/macOS/Linux):コミュニティ標準ツール。BV-ID、AV-ID、番組(アニメ)URLに対応。音声のみは
--audio-onlyフラグ。 - yt-dlp:クロスプラットフォーム。2023年からBilibili対応。
-f baで最高音質を取得。
ダウンロードすると.m4sまたは.m4aファイルが得られ、30分の講義動画でおよそ50–200MBになります。Atter AIはM4Aをネイティブサポートしているため、容量を圧縮したい場合を除きMP3への変換は不要です。完全な音声→テキストフローはオンライン音声ファイル文字起こしガイドに記載しており、同じワークフローでMP3、WAV、FLAC、OGG、M4Aを同じように扱えます。
法的注意:個人の学習・研究目的での音声ダウンロードは、ほとんどの国・地域でフェアユース/私的複製の範囲に収まります。音声、文字起こし、収益化されるあらゆる派生物を再配布する場合は、クリエイターの許可と、ライセンスコンテンツ(アニメ、MV)の場合は権利者の許可が必要です。
方法3:Atter AIで一発文字起こし
ほとんどのユーザーにとって最速のワークフローは手動操作を省略するものです:
- BBDownまたはyt-dlpで音声を抽出(コマンド1本、5–20秒)。
- ブラウザでAtter AIを開く。インストール、プラグイン、Chrome拡張機能のいずれも不要。
- .m4aをアップロードエリアにドラッグ。数時間規模のファイルにも対応、ファイル単位の時間上限なし。
- 言語を選択:純中国語コンテンツなら「普通話」、知識区の中英混在なら「普通話 + 英語」、または自動検出。
- 待つ。30分動画でおよそ90秒。
- TXT、SRT、VTT、DOCXでエクスポート。動画に字幕付きで再アップロードする場合はSRT/VTTを選択。
価格は週$6.99 / 年$49.99 / 永久$129.99で、文字起こし、話者ラベリング、要約、AIチャットを含む3日間無料トライアル付き。ファイル単位の時間上限なし、月間分数クォータなし——4時間の長尺講義1本でも、12分動画20本でも、同じプランで処理できます。
Bilibili文字起こしの主な用途
2026年にB站動画を文字起こしする理由を観察すると、4つのパターンが目立ちます:
1. 知識区/学習区の学習ノート。大学生や独学者がMIT公開講座中国語版や独立した考研講師のチャンネルから講義音声を引っ張り、文字起こしからフラッシュカード、マインドマップ、Ankiデッキを作成。同じワークフローは会議録音をマインドマップにするガイドで詳しく扱っています。
2. 中国語学習。中国国外の中国語学習者がB站をリスニング教材として使い、成語やスラングを調べるために対訳文字起こしを必要としています。文字起こし後に英語に自動翻訳すれば、カスタムバイリンガル学習シートが完成します。
3. 国際的な学術研究。中国の消費者行動、ゲーミング文化、政治言説を研究する西側の研究者がB站の文字起こしを一次資料として活用。高い精度ベンチマーク(クリーン音声で測定)が、引用に耐える品質を担保します。
4. クリエイターのリパーパス。BilibiliのUP主は古いライブ配信を長尺Bilibili動画、Douyinクリップ、公衆号記事として再活用します。綺麗な文字起こしが3つすべてのフォーマットへ供給される真実のソースとなります。
分区別の品質目安
B站の分区(カテゴリ)によって音声特性が大きく異なります:
- 知識区 / 科技区:単一話者、台本あり、静かな室内収録。エンジンの精度上限に迫ります。AI文字起こしのベストケース。
- 生活区 / 美食区:屋外またはキッチンの背景音、話者1–2名。95–97%程度。2人ホストのvlogではAtter AIの話者ラベリングを活用。
- 遊戯区:背景にゲーム音量大、高速発話、ゲーマースラング多数。90–94%程度。最初の30秒を手動修正してボキャブラリをロックすると効果的。
- 音楽区 / 舞踊区:避けましょう。音声の大半が音楽で、文字起こしは役に立ちません。
- 影視区 / 動画区:ライセンスコンテンツ。輸入字幕がプレーヤー内に既に存在するため、再文字起こしは不要。
長尺講義(45分以上)にはAtter AIの自動チャプター検出が機能し、文字起こしを5–10分の論理的セクションに分割します——音声をスクラブせず特定トピックに戻りたいコース教材で有用です。
FAQ
Q1. Bilibiliには文字起こしダウンロードボタンが組み込まれていますか?
ありません。プレーヤー内にCCやAI字幕が表示されていても、エクスポートアクションは存在しません。字幕レイヤーを画面スクレイピングするか(不安定)、自分で音声を文字起こしするしかありません。
Q2. Bilibiliライブをリアルタイムで文字起こしできますか?
Atter AIの文字起こしは非同期です——保存済み録画を文字起こしする方式で、ライブストリームではありません。ライブの場合はOBSまたはB站の「録制」機能で音声を録音し、配信終了後にWAV/MP3をアップロードしてください。
Q3. Atter AIは中英コードスイッチを上手く処理できますか?
はい。モデルはバイリンガルコンテンツでトレーニングされており、中国のテック・金融系チャンネルでよく聞く「この PR を merge する」式の半中・半英スピーチに対応しています。言語を「普通話 + 英語」に設定するか、自動検出を使ってください。
Q4. 広東語のBilibili動画は処理できますか?
はい。Atter AIは90+言語リストの中で広東語を独立した言語としてサポートしています。香港や広東のクリエイターが広東語と普通話を行き来する場合、主言語を広東語に設定すれば、間に挟まる普通話もモデルが拾います。
Q5. 1時間のBilibili動画の文字起こしにはどれくらい時間がかかりますか?
アップロード後、処理時間はおよそ3分です。実時間のほとんどは音声抽出ステップ(BBDownで10–60秒)とアップロード自体(回線速度依存)に費やされます。
Q6. Bilibili国際版(bilibili.tv)の動画も文字起こしできますか?
はい。Bilibili国際版は海外ユーザー向けにアニメ・ドンファを公式の英語/スペイン語/インドネシア語字幕付きで配信しています。それらは既存の字幕ファイルを使ってください。字幕がないユーザー投稿コンテンツには同じ音声抽出ワークフローが適用されます。
Q7. Bilibili動画を文字起こしすることは合法ですか?
個人の学習、研究、アクセシビリティ目的での文字起こしは、中国、米国、EUを含むほとんどの司法管轄区でフェアユース/私的複製の範囲です。文字起こしの公開、収益化、または競合モデルの訓練への使用には、クリエイターの許可、ライセンスコンテンツの場合は権利者の許可が必要です。
Q8. BilibiliのAI字幕ベータをそのまま使えばいいのでは?
理由は3つ:普通話のみ対応、知識区動画のごく一部にしか展開されていない、テキストをエクスポートできない。授業ノート、研究、コンテンツ制作のような反復可能なワークフローでは、実ファイルを返す外部パイプラインのほうが信頼できます。