Bilibili (B站) Video-Transkription: Anleitung für Chinesisch-Lernende, Forscher und Creator
Bilibili (B站) ist die zweitgrößte Langform-Videoplattform in China nach Tencent Video, mit über 326 Millionen monatlich aktiven Nutzern und rund 14 Millionen täglichen Uploads in 2025. Sie ist gleichzeitig eine der am schlechtesten bedienten Plattformen, was Untertitel betrifft: Bilibili reserviert sein CC-System (Closed-Caption) für Partner-Creator und offizielle Importe, die zusammen weniger als 10% des Katalogs abdecken. Für die übrigen 90% — wenn Sie Text wollen zum Lernen, Zitieren, Übersetzen oder Wiederverwenden — müssen Sie ihn selbst erstellen.
Dieser Leitfaden zeigt drei realistische Wege, wie Sie 2026 eine Transkription aus einem B站-Video herausbekommen: die plattformeigenen Auto-Untertitel, eine Audio-Extraktionsroute für Power-User und einen Ein-Schritt-KI-Workflow, der das Mandarin/Englisch-Code-Switching meistert, das in 知识区 und 科技区 üblich ist. Die Abkürzung: Fügen Sie eine BV-ID in den Audio-Transkriptionsfluss von Atter AI ein und erhalten Sie eine durchsuchbare Transkription mit Sprecher-Labels, 98,7% Genauigkeit in 90+ Sprachen, einschließlich zweisprachiger Mandarin-Englisch-Videos.
Was Bilibili out-of-the-box bietet (und was nicht)
Die Plattform hat in den letzten zwei Jahren drei Text-Features ausgerollt, aber die Abdeckung ist ungleichmäßig:
| Feature | Wo es erscheint | Einschränkung |
|---|---|---|
| Creator-hochgeladene CC | „CC 字幕”-Button im Player | Optional; nur ca. 8% der Uploads |
| Bilibili KI-Untertitel (Beta) | Ausgewählte 知识区- / Open-Course-Videos | Nur Mandarin; kein Download |
| Importierte Untertitelspuren | Anime, Donghua, offizielle Importe | An den Player gebunden; nicht exportierbar |
Es gibt keine öffentliche API zum Abrufen von Untertiteln, keinen SRT-Download-Button und keine Möglichkeit, 弹幕 (Danmaku, die fliegenden Kommentare) in eine saubere Transkription zu verwandeln. Bei einer langen Vorlesung oder einem Interview ist die Audiospur die einzige zuverlässige Textquelle.
Die gute Nachricht: Bilibilis Audio ist hochwertig. Standard-Uploads sind 128 kbps AAC, 1080P+ Uploads steigen auf 192 kbps, und Bilibili Premium 大会员 Quellen erreichen 320 kbps. Alle drei liegen weit über der Schwelle, ab der moderne Spracherkennung Probleme bekommt — was bedeutet, dass der Flaschenhals die Transkriptionsengine ist, nicht die Quelle.
Methode 1: Verwenden Sie die eingebauten KI-Untertitel, falls vorhanden
Öffnen Sie das Video, klicken Sie auf das Zahnrad-Symbol und schauen Sie unter 字幕 (Untertitel). Wenn „AI 字幕” oder „CC” im Menü erscheint, können Sie sie einschalten. Das ist der Weg des geringsten Widerstands für populäre 知识区-Videos von Partner-Creatorn — Kanäle wie 老蒋巨靠谱, 罗翔说刑法 und 李永乐老师 liefern saubere Untertitel bei fast jedem Upload.
Die Nachteile sind real:
- Sie können die Untertiteldatei nicht herunterladen. Sie schauen sie inline oder kopieren aus dem Player, was bei langen Videos fragil ist.
- Auto-generierte Untertitel sind nur Mandarin und versagen bei technischem Jargon, regionalen Akzenten (粤语, 闽南话) oder jedem englischen Begriff länger als ein paar Silben.
- Kein Sprecher-Labeling, keine exportierbaren Zeitstempel und keine KI-Zusammenfassung.
Wenn Ihr Ziel ist, ein Video gemütlich zu lesen, funktioniert das. Wenn Sie Forschungsdaten extrahieren, Lernnotizen schreiben oder Karteikarten aus einem Tutorial bauen, gehen Sie weiter.
Methode 2: Audio extrahieren mit BBDown oder yt-dlp (Power-User-Route)
Für Videos ohne CC-Untertitel ist der sauberste Weg, nur den Audiostream herunterzuladen und zu transkribieren. Bilibili verwendet den M4S-Container — separate Video- und Audiodateien, die der Player clientseitig zusammenführt. Zwei Open-Source-Tools erledigen das zuverlässig:
- BBDown (Windows/macOS/Linux): das Community-Standardtool, unterstützt BV-ID, AV-ID und Bangumi (Anime)-URLs. Audio-only-Modus mit dem Flag
--audio-only. - yt-dlp: plattformübergreifend; unterstützt Bilibili seit 2023. Verwenden Sie
-f bafür die beste Audioqualität.
Sobald Sie die .m4s- oder .m4a-Datei haben, haben Sie eine 50–200 MB große Audiodatei (für eine typische 30-Minuten-Vorlesung) bereit für die Transkription. Atter AI akzeptiert M4A nativ, also keine Notwendigkeit, in MP3 umzuwandeln, es sei denn, Sie wollen eine kleinere Datei. Der vollständige Audio-zu-Text-Pfad ist in unserer Audiodatei-Transkriptionsanleitung dokumentiert, und derselbe Ablauf handhabt MP3, WAV, FLAC, OGG und M4A austauschbar.
Rechtlicher Hinweis: Audio für persönliches Studium oder Forschung herunterzuladen, fällt in den meisten Rechtsordnungen unter Fair Use bzw. Zitatrecht. Das Audio, die Transkription oder jedes monetarisierte Derivat weiterzuverbreiten erfordert die Erlaubnis des Creators und, für lizenzierte Inhalte (Anime, Musikvideos), des Rechteinhabers.
Methode 3: Ein-Schritt-KI-Transkription mit Atter AI
Der schnellste Workflow für die meisten User überspringt den Download komplett:
- Audio mit BBDown oder yt-dlp extrahieren (ein Befehl, 5–20 Sekunden).
- Atter AI im Browser öffnen. Keine Installation, kein Plug-in, keine Chrome-Erweiterung.
- Die .m4a-Datei in den Upload-Bereich ziehen. Dateien bis zu mehreren Stunden werden unterstützt; keine Zeitbegrenzung pro Datei.
- Sprache auswählen. Wählen Sie Mandarin für reinen chinesischen Inhalt, Mandarin + Englisch für code-geswitchte 知识区-Vorlesungen, oder Auto-Erkennung.
- Warten. Ein 30-Minuten-Video wird in etwa 90 Sekunden transkribiert.
- Export als TXT, SRT, VTT oder DOCX. Verwenden Sie SRT/VTT, wenn Sie das Video mit Untertiteln auf Ihrem eigenen Kanal wieder hochladen.
Der Preis beträgt 6,99 $/Woche, 49,99 $/Jahr oder 129,99 $ lebenslang, mit einer 3-tägigen kostenlosen Testversion, die Transkription, Sprecher-Labeling, Zusammenfassungen und KI-Chat abdeckt. Es gibt keine Zeitbegrenzung pro Datei und keine monatliche Minutenquote — Sie können eine einzige 4-Stunden-Vorlesung oder zwanzig 12-Minuten-Videos im selben Plan transkribieren.
Beste Anwendungsfälle für Bilibili-Transkription
Wenn man schaut, warum Leute 2026 B站-Videos transkribieren, dominieren vier Muster:
1. 知识区 / 学习区 Lernnotizen. Studenten und Selbstlerner ziehen Vorlesungsaudio von Kanälen wie MIT 公开课中文翻译版 oder unabhängigen 考研-Dozenten ab und konvertieren Transkriptionen dann in Karteikarten, Mindmaps oder Anki-Decks. Derselbe Workflow ist in unserem Leitfaden zu Meeting-Aufnahmen zu Mindmap behandelt.
2. Chinesisch-Lernen. Mandarin-Lernende außerhalb Chinas nutzen B站 als Hörverständnis-Übung und brauchen parallele Transkriptionen, um unbekannte 成语 und Slang nachzuschlagen. Übersetzen Sie die Transkription anschließend automatisch ins Englische oder Deutsche, und Sie haben ein maßgeschneidertes zweisprachiges Lernblatt.
3. Grenzüberschreitende Forschung. Westliche Forscher, die chinesisches Verbraucherverhalten, Gaming-Kultur oder politischen Diskurs studieren, verwenden B站-Transkriptionen als Primärquellenmaterial. Der hohe Genauigkeits-Benchmark — gemessen an sauberem Audio — macht die Transkriptionen zitierfähig.
4. Creator-Wiederverwendung. Bilibili UP主 verwenden alte Livestreams als lange Bilibili-Videos, Douyin-Clips und 公众号-Artikel wieder. Eine saubere Transkription ist die Wahrheitsquelle, die alle drei Formate speist.
Qualitätstipps nach Sektion (分区)
Verschiedene 分区 auf Bilibili haben unterschiedliche Audio-Eigenschaften. Hier ist, was zu erwarten ist:
- 知识区 / 科技区: einzelner Sprecher, mit Skript, sauberes Raumaudio. Erwarten Sie Transkriptionen nahe der Genauigkeitsgrenze der Engine. Bester Fall für KI-Transkription.
- 生活区 / 美食区: Outdoor- oder Küchen-Hintergrundgeräusche; ein oder zwei Sprecher. Erwarten Sie 95–97% Genauigkeit. Verwenden Sie Atter AIs Sprecher-Labeling für Vlogs mit zwei Hosts.
- 游戏区: starkes Spielaudio im Hintergrund, schnelle Sprache, Gamer-Slang. Erwarten Sie 90–94%. Es lohnt sich, die ersten 30 Sekunden manuell zu korrigieren, um Vokabular festzulegen.
- 音乐区 / 舞蹈区: meiden. Das Audio ist hauptsächlich Musik; Transkription wird nichts Brauchbares produzieren.
- 影视区 / 动画区: lizenzierter Inhalt. Importierte Untertitel existieren bereits im Player; nicht erneut transkribieren.
Für lange Vorlesungen (45+ Minuten) gruppiert Atter AIs automatische Kapitelerkennung die Transkription in 5–10-minütige logische Abschnitte — nützlich bei Kursinhalten, wo Sie zu einem bestimmten Thema zurückspringen wollen, ohne das Audio zu scrubben.
FAQ
Q1. Hat Bilibili einen eingebauten Transkriptions-Download-Button?
Nein. Selbst wenn CC- oder KI-Untertitel im Player erscheinen, gibt es keine Export-Aktion. Sie müssen entweder die Untertitelschicht per Screen-Scraping erfassen (fragil) oder das Audio selbst transkribieren.
Q2. Kann ich einen Bilibili-Livestream in Echtzeit transkribieren?
Atter AIs Transkription ist asynchron — Sie transkribieren eine gespeicherte Aufnahme, keinen Live-Stream. Für einen Livestream nehmen Sie das Audio mit OBS oder Bilibilis eigener Aufnahme-Funktion auf und laden dann die WAV/MP3 hoch, sobald der Stream beendet ist.
Q3. Geht Atter AI gut mit Mandarin-Englisch-Code-Switching um?
Ja. Das Modell ist auf zweisprachigem Inhalt trainiert, einschließlich der halb-Mandarin / halb-Englisch-Sprache, die in chinesischen Tech- und Finanzkanälen üblich ist. Stellen Sie die Sprache auf „Mandarin + Englisch” oder verwenden Sie Auto-Erkennung.
Q4. Was ist mit Kantonesisch (粤语) Bilibili-Videos?
Atter AI unterstützt Kantonesisch als separate Sprache in seiner 90+ Sprachenliste. Für Hongkonger oder 广东 Creator, die zwischen 粤语 und 普通话 wechseln, wählen Sie Kantonesisch als primär und das Modell wird trotzdem das eingestreute Mandarin erfassen.
Q5. Wie lange dauert die Transkription eines 1-stündigen Bilibili-Videos?
Etwa 3 Minuten Verarbeitungszeit nach dem Upload. Der Großteil der tatsächlichen Zeit geht in den Audio-Extraktionsschritt (10–60 Sekunden mit BBDown) und den Upload selbst (abhängig von Ihrer Verbindung).
Q6. Kann ich Videos von Bilibili International (bilibili.tv) transkribieren?
Ja. Bilibili International serviert Anime und Donghua für ausländische Nutzer mit offiziellen Englisch/Spanisch/Indonesisch-Untertiteln bereits angehängt. Für diese verwenden Sie die existierende Untertiteldatei. Für nutzergenerierte Inhalte ohne Untertitel gilt derselbe Audio-Extraktions-Workflow.
Q7. Ist es legal, Bilibili-Videos zu transkribieren?
Transkription für persönliches Studium, Forschung oder Barrierefreiheit ist Fair Use in den meisten Rechtsordnungen, einschließlich China, USA und EU. Die Transkription öffentlich zu veröffentlichen, zu monetarisieren oder zum Training eines Konkurrenzmodells zu verwenden, erfordert die Erlaubnis des Creators und, für lizenzierte Inhalte, des Rechteinhabers.
Q8. Warum nicht einfach auf Bilibilis KI-Untertitel-Beta verlassen?
Drei Gründe: Sie ist nur Mandarin, der Rollout ist auf einen Bruchteil der 知识区-Videos begrenzt, und Sie können den Text nicht exportieren. Für wiederholbare Workflows — Unterrichtsnotizen, Forschung, Content-Produktion — ist eine externe Pipeline, die eine echte Datei zurückgibt, zuverlässiger.