Transcription des vidéos Bilibili (B站) : guide pour apprenants du chinois, chercheurs et créateurs
Bilibili (B站) est la deuxième plus grande plateforme vidéo long format en Chine après Tencent Video, avec plus de 326 millions d’utilisateurs actifs mensuels et environ 14 millions de mises en ligne par jour en 2025. C’est aussi l’une des plateformes les moins bien servies en matière de sous-titres : Bilibili réserve son système CC (sous-titres codés) aux créateurs partenaires et aux importations officielles, qui couvrent ensemble moins de 10 % du catalogue. Pour les 90 % restants, si vous voulez du texte —pour étudier, citer, traduire ou réutiliser— vous devez le créer vous-même.
Ce guide passe en revue trois façons réalistes d’obtenir une transcription d’une vidéo B站 en 2026 : les sous-titres automatiques de la plateforme, une voie d’extraction audio pour utilisateurs avancés et un flux IA en une étape qui gère l’alternance codique mandarin/anglais courante dans le contenu du 知识区 (section connaissance) et 科技区 (section tech). Le raccourci : collez un BV-ID dans le flux de transcription audio d’Atter AI et obtenez une transcription consultable avec étiquettes de locuteur, 98,7 % de précision sur 90+ langues, y compris des vidéos bilingues mandarin-anglais.
Ce que Bilibili offre par défaut (et ce qu’il n’offre pas)
La plateforme a déployé trois fonctionnalités texte ces deux dernières années, mais la couverture est inégale :
| Fonctionnalité | Où ça apparaît | Limitation |
|---|---|---|
| CC ajouté par le créateur | Bouton “CC 字幕” du lecteur | Optionnel ; seulement ~8 % des mises en ligne en ont |
| Sous-titres IA Bilibili (bêta) | Vidéos sélectionnées du 知识区 / cours ouverts | Mandarin uniquement ; pas de téléchargement |
| Pistes de sous-titres importées | Anime, donghua, importations officielles | Verrouillées dans le lecteur ; pas d’export |
Il n’y a pas d’API publique pour extraire les sous-titres, pas de bouton de téléchargement SRT, et aucun moyen de convertir les 弹幕 (danmaku, les commentaires flottants) en transcription propre. Pour un long cours ou une interview, la piste audio est la seule source fiable de texte.
La bonne nouvelle : l’audio de Bilibili est de bonne qualité. Les mises en ligne standard sont en AAC 128 kbps, les 1080P+ passent à 192 kbps, et les sources premium 大会员 atteignent 320 kbps. Les trois sont bien au-dessus du seuil où la reconnaissance vocale moderne peine —ce qui signifie que le goulot d’étranglement est le moteur de transcription, pas la source.
Méthode 1 : utilisez les sous-titres IA intégrés quand ils existent
Ouvrez la vidéo, cliquez sur l’icône d’engrenage et cherchez sous 字幕 (Sous-titres). Si “AI 字幕” ou “CC” apparaît dans le menu, vous pouvez les activer. C’est la voie de moindre résistance pour les vidéos populaires du 知识区 de créateurs partenaires —des chaînes comme 老蒋巨靠谱, 罗翔说刑法 et 李永乐老师 livrent des sous-titres propres sur presque toutes leurs mises en ligne.
Les inconvénients sont réels :
- Vous ne pouvez pas télécharger le fichier de sous-titres. Vous le regardez en direct ou copiez depuis le lecteur, ce qui est fragile pour les longues vidéos.
- Les sous-titres autogénérés sont uniquement en mandarin et cessent de fonctionner avec le jargon technique, les accents régionaux (粤语, 闽南话) ou tout terme anglais de plus de quelques syllabes.
- Pas d’étiquetage de locuteur, pas d’horodatages exportables, et pas de résumé IA.
Si votre but est de lire une vidéo de façon décontractée, ça marche. Si vous extrayez des données de recherche, prenez des notes d’étude ou construisez des flashcards depuis un tutoriel, passez à la suite.
Méthode 2 : extraire l’audio avec BBDown ou yt-dlp (voie avancée)
Pour les vidéos sans sous-titres CC, le chemin le plus propre est de télécharger uniquement le flux audio et de le transcrire. Bilibili utilise le conteneur M4S —fichiers vidéo et audio séparés que le lecteur fusionne côté client. Deux outils open source font ça de manière fiable :
- BBDown (Windows/macOS/Linux) : l’outil standard communautaire, supporte les URL BV-ID, AV-ID et bangumi (anime). Le mode audio-seulement s’active avec
--audio-only. - yt-dlp : multiplateforme ; supporte Bilibili depuis 2023. Utilisez
-f bapour récupérer le meilleur audio.
Une fois que vous avez le fichier .m4s ou .m4a, vous avez un fichier audio de 50–200 Mo (pour un cours typique de 30 minutes) prêt pour la transcription. Atter AI accepte M4A nativement, donc pas besoin de transcoder en MP3 sauf si vous voulez un fichier plus petit. Le chemin audio-vers-texte complet est documenté dans notre guide de transcription des fichiers audio, et le même flux gère MP3, WAV, FLAC, OGG et M4A indifféremment.
Note légale : télécharger de l’audio pour étude personnelle ou recherche relève de l’usage équitable dans la plupart des juridictions. Redistribuer l’audio, la transcription ou tout dérivé monétisé nécessite la permission du créateur et, pour le contenu sous licence (anime, clips musicaux), du titulaire des droits.
Méthode 3 : transcription IA en une étape avec Atter AI
Le flux le plus rapide pour la plupart des utilisateurs saute entièrement le téléchargement :
- Extrayez l’audio avec BBDown ou yt-dlp (une commande, 5–20 secondes).
- Ouvrez Atter AI dans votre navigateur. Pas d’installation, pas de plug-in, pas d’extension Chrome.
- Glissez le fichier .m4a dans la zone d’upload. Les fichiers de plusieurs heures sont supportés ; pas de limite de durée par fichier.
- Sélectionnez la langue. Choisissez Mandarin pour du contenu pur chinois, Mandarin + Anglais pour des cours du 知识区 avec alternance codique, ou détection automatique.
- Attendez. Une vidéo de 30 minutes se transcrit en environ 90 secondes.
- Exportez en TXT, SRT, VTT ou DOCX. Utilisez SRT/VTT si vous remettez en ligne la vidéo avec sous-titres sur votre propre chaîne.
Le tarif est de 6,99 $/semaine, 49,99 $/an ou 129,99 $ à vie, avec un essai gratuit de 3 jours qui couvre transcription, étiquetage de locuteur, résumés et chat IA. Pas de limite de durée par fichier ni de quota mensuel de minutes —vous pouvez transcrire un seul cours de 4 heures ou vingt vidéos de 12 minutes sur le même forfait.
Meilleurs cas d’usage pour la transcription Bilibili
En regardant pourquoi les gens transcrivent des vidéos B站 en 2026, quatre schémas dominent :
1. Notes d’étude du 知识区 / 学习区. Les étudiants universitaires et autodidactes extraient l’audio de cours de chaînes comme MIT 公开课中文翻译版 ou d’instructeurs indépendants de 考研, puis convertissent les transcriptions en flashcards, cartes mentales ou paquets Anki. Le même flux est couvert dans notre guide d’enregistrements de réunion vers carte mentale.
2. Apprentissage du chinois. Les apprenants de mandarin hors de Chine utilisent B站 comme exercice de compréhension orale et ont besoin de transcriptions parallèles pour chercher les 成语 et l’argot inconnus. Traduisez la transcription en français ou anglais ensuite et vous avez une fiche d’étude bilingue personnalisée.
3. Recherche transfrontalière. Les chercheurs occidentaux étudiant le comportement consommateur chinois, la culture gaming ou le discours politique utilisent les transcriptions B站 comme matériel source primaire. La référence de précision haute —mesurée sur de l’audio propre— rend les transcriptions citables.
4. Réutilisation par les créateurs. Les UP主 de Bilibili réutilisent leurs anciens livestreams en vidéos longues Bilibili, clips Douyin et articles 公众号. Une transcription propre est la source de vérité qui alimente les trois formats.
Conseils qualité par section (分区)
Les différentes 分区 sur Bilibili ont des caractéristiques audio différentes. Voici à quoi s’attendre :
- 知识区 / 科技区 : un seul intervenant, scripté, audio propre de pièce. Attendez-vous à des transcriptions proches du plafond de précision du moteur. Meilleur cas pour la transcription IA.
- 生活区 / 美食区 : bruit de fond extérieur ou cuisine ; un ou deux intervenants. Attendez-vous à 95–97 % de précision. Utilisez l’étiquetage de locuteurs d’Atter AI pour les vlogs à deux animateurs.
- 游戏区 : beaucoup d’audio de jeu en fond, parole rapide, argot gamer. Attendez-vous à 90–94 %. Ça vaut le coup de corriger manuellement les 30 premières secondes pour verrouiller le vocabulaire.
- 音乐区 / 舞蹈区 : à éviter. L’audio est majoritairement de la musique ; la transcription ne produira rien d’utile.
- 影视区 / 动画区 : contenu sous licence. Les sous-titres importés existent déjà dans le lecteur ; ne retranscrivez pas.
Pour les longs cours (45+ minutes), la détection automatique de chapitres d’Atter AI regroupe la transcription en sections logiques de 5–10 minutes —utile pour le contenu de cours où vous voulez sauter à un sujet spécifique sans faire défiler l’audio.
Foire aux questions
Q1. Bilibili a-t-il un bouton intégré de téléchargement de transcription ?
Non. Même quand les sous-titres CC ou IA apparaissent dans le lecteur, il n’y a pas d’action d’export. Vous devez soit faire du scraping d’écran sur la couche sous-titres (fragile), soit transcrire l’audio vous-même.
Q2. Puis-je transcrire un livestream Bilibili en temps réel ?
La transcription d’Atter AI est asynchrone —vous transcrivez un enregistrement sauvegardé, pas un flux en direct. Pour un livestream, enregistrez l’audio avec OBS ou la fonction d’enregistrement propre de Bilibili, puis téléchargez le WAV/MP3 une fois le stream terminé.
Q3. Atter AI gère-t-elle bien l’alternance codique mandarin–anglais ?
Oui. Le modèle est entraîné sur du contenu bilingue, incluant la parole mi-mandarin / mi-anglais courante dans les chaînes chinoises tech et finance. Réglez la langue sur “Mandarin + Anglais” ou utilisez la détection automatique.
Q4. Et les vidéos Bilibili en cantonais (粤语) ?
Atter AI prend en charge le cantonais comme langue séparée dans sa liste de 90+ langues. Pour les créateurs de Hong Kong ou 广东 qui basculent entre 粤语 et 普通话, sélectionnez cantonais comme principal et le modèle attrapera quand même le mandarin intercalé.
Q5. Combien de temps prend la transcription d’une vidéo Bilibili d’1 heure ?
Environ 3 minutes de temps de traitement après upload. La majeure partie du temps réel est dépensée à l’étape d’extraction audio (10–60 secondes avec BBDown) et à l’upload lui-même (selon votre connexion).
Q6. Puis-je transcrire des vidéos de Bilibili International (bilibili.tv) ?
Oui. Bilibili International sert anime et donghua aux utilisateurs étrangers avec des sous-titres officiels anglais/espagnol/indonésien déjà attachés. Pour ceux-là, utilisez le fichier de sous-titres existant. Pour le contenu uploadé par les utilisateurs qui manque de sous-titres, le même flux d’extraction audio s’applique.
Q7. Est-il légal de transcrire des vidéos Bilibili ?
Transcrire pour étude personnelle, recherche ou accessibilité relève de l’usage équitable dans la plupart des juridictions, dont la Chine, les États-Unis et l’UE. Publier la transcription publiquement, la monétiser ou l’utiliser pour entraîner un modèle concurrent nécessite la permission du créateur et, pour le contenu sous licence, du titulaire des droits.
Q8. Pourquoi ne pas simplement compter sur la bêta des sous-titres IA de Bilibili ?
Trois raisons : c’est uniquement en mandarin, le déploiement est limité à une fraction des vidéos du 知识区, et vous ne pouvez pas exporter le texte. Pour des flux répétables —notes de classe, recherche, production de contenu— une pipeline externe qui rend un vrai fichier est plus fiable.