Environ 83 % des vues vidéo sur mobile se font en sourdine par défaut — l’étude Verizon Media pour iOS publie ce chiffre et il reste stable jusqu’en 2026. Cette donnée a redéfini la transcription vidéo : en 2026, ce que l’on attend le plus souvent d’une transcription sur fichier vidéo n’est plus un document Word à lire, mais une piste .srt ou .vtt qui se superpose à l’image et rend l’audio facultatif. Aujourd’hui, près de 92 % des travaux de transcription sur fichier vidéo demandent l’export de sous-titres timecodés en plus du texte brut.
Ce guide est le manuel pratique de la transcription de fichiers vidéo en 2026 : quels conteneurs un moteur d’IA accepte, le vrai arbitrage entre upload de la vidéo brute et extraction audio préalable, comment obtenir un SRT précis à l’image avec étiquettes de locuteur, et que faire quand Final Cut Pro vous dépose un fichier ProRes 4K de 110 Go par heure.
Pourquoi transcrire de la vidéo n’est pas comme transcrire de l’audio
La transcription audio produit du texte. La transcription vidéo produit du texte plus un contrat avec la timeline du film. Trois différences pèsent en pratique :
- Alignement à l’image. Les timecodes SRT et VTT doivent correspondre à la cadence (23,976, 25, 29,97, 60 fps). Un décalage de 200 ms invisible en audio devient un « sous-titre en retard d’une demi-seconde » à l’écran.
- Vitesse de lecture visuelle. Le sous-titre cohabite avec l’image. La limite humaine est d’environ 17–20 caractères par seconde ; au-delà, il faut découper le cue, sinon il disparaît avant d’être lu.
- Complexité des conteneurs. Un MP3 n’a qu’une piste. Un MP4 caméra peut contenir l’audio principal, une piste ambisonique d’un micro 360°, une piste clap et un commentaire réalisateur — l’IA doit choisir la bonne.
Le pipeline vidéo d’Atter AI gère les trois points : il lit la cadence dans l’en-tête, aligne les cues SRT en conséquence et vous laisse choisir la piste à transcrire en cas de multipiste. La même précision de 98,7 % que sur l’audio propre s’applique à l’audio vidéo, sur plus de 90 langues.
Formats vidéo pris en charge par la transcription (et celui qui plante en silence)
Le sélecteur HTML5 transmet n’importe quel MIME vidéo au chargeur, mais c’est le serveur qui décide. En 2026, Atter AI accepte huit conteneurs vidéo :
| Conteneur | Source courante | Notes |
|---|---|---|
.mp4 (H.264 + AAC) | ~85 % de la vidéo web et de réunion | Par défaut. Disponible sur tous les plans. |
.mp4 (HEVC / H.265) | iPhone 11+, Android récents | Environ 50 % plus petit que H.264 à qualité égale. |
.mov (ProRes) | Final Cut Pro, ARRI, RED | Jusqu'à 110 Go/heure en 4K ProRes 422 HQ. Préférable d'extraire l'audio. |
.mkv | Captures OBS, fansubs | Multipiste, piste choisie à l'upload. |
.webm (VP9 / Opus) | Capture d'écran Chrome, Loom | Format navigateur natif, upload rapide. |
.avi | Captures Windows anciennes | Fonctionne, mais ré-encapsuler en MP4 si postérieur à 2010. |
.m4v | Exports iTunes / QuickTime | Même pipeline que .mp4. |
.wmv | Exports Windows Media | Accepté, mais le décodage VC-1 ajoute ~10 s de prétraitement. |
Le conteneur qui surprend : les vidéos transférées via WhatsApp arrivent en .mp4 mais avec un atome moov non standard, et plusieurs pipelines anciens répondent « erreur de décodage ». Atter AI répare l’atome côté serveur avant de transcrire ; ailleurs, renommer l’extension ne suffit pas — il faut ré-encapsuler avec ffmpeg -i in.mp4 -c copy -movflags +faststart out.mp4.
Faut-il extraire l’audio avant la transcription ?
Réponse honnête : ça dépend du débit d’upload, pas de la qualité de transcription. La qualité est identique des deux côtés ; seule la vitesse varie.
Un MP4 1080p d’une heure enregistré via Zoom pèse en général 1,2 à 1,8 Go. La même heure extraite en M4A (copie de la piste audio sans ré-encodage) tient en 28–35 Mo — soit environ 40 fois moins. Sur une connexion à 50 Mbps en upload, c’est la différence entre « 3 minutes d’envoi » et « 5 secondes d’envoi ».
Repères pratiques pour 2026 :
- Moins de 500 Mo ou ligne à 100+ Mbps — uploader la vidéo directement. La simplicité l’emporte.
- Plus de 2 Go ou ligne lente / mobile / facturée au volume — extraire l’audio d’abord. Les 60 secondes de
ffmpeg -i in.mp4 -vn -c:a copy out.m4aéconomisent 5 à 20 minutes d’upload. - Vous voulez du SRT ou VTT — uploader la vidéo. Le pipeline s’aligne sur la cadence exacte, ce qu’un upload audio seul ne permet pas.
La troisième règle est la plus importante. Si la cible est le sous-titre, la boucle « extraire l’audio → transcrire → réaligner manuellement le SRT à la cadence vidéo » coûte plus de temps qu’un upload un peu plus lent.
Pour les flux purement audio, le guide de transcription de fichiers audio en ligne couvre en détail l’audio extrait. Pour les enregistrements de plateformes, le guide de transcription Zoom traite du MP4 cloud, et le guide de transcription YouTube couvre les flux par URL publique qui évitent l’upload.
Étape par étape : du fichier vidéo au SRT en moins de 5 minutes
Le déroulé exact sur https://transcription.atter-ai.com :
- Ouvrir le chargeur. Navigateur ou app de bureau — les deux acceptent la vidéo. La voie web ne demande aucune installation et marche sur Chromebook, postes de bibliothèque et machines scolaires verrouillées.
- Glisser la vidéo. Le chargeur sonde le conteneur, affiche durée, cadence et nombre de pistes audio, et signale les fichiers corrompus.
- Choisir la piste audio s’il y en a plusieurs. Caméras à deux micros, exports multipistes d’OBS, prémixes DAW : tous produisent des fichiers multipistes. La piste « 1 » par défaut est la bonne dans environ 95 % des cas.
- Choisir le format d’export à l’avance. SRT, VTT, ASS/SSA (sous-titres stylés), TXT, DOCX, PDF ou MP4 avec sous-titres incrustés. Les incrustés ajoutent une étape de rendu après la transcription.
- Activer la diarisation si nécessaire. Pour les interviews, tables rondes et podcasts filmés, chaque cue est étiqueté avec son locuteur.
- Envoyer. Un MP4 d’une heure sur une ligne à 100 Mbps termine en environ 4 minutes de bout en bout : ~2,5 min d’upload, ~90 s de transcription. L’incrustation ajoute 60–90 s de rendu GPU.
- Télécharger. Le SRT ou VTT s’importe directement dans Premiere, Final Cut, DaVinci Resolve, CapCut, Descript et YouTube Studio, sans re-cadencer.
L’essai gratuit de 3 jours couvre tout le flux — incrustation et export SRT inclus — sans limite par fichier ni par minute. Les formules payantes : 6,99 $ par semaine, 49,99 $ par an, 129,99 $ à vie. Aucune formule n’impose de limite de durée.
SRT, VTT ou incrusté : quel format choisir
Les trois sorties résolvent des problèmes différents :
- SRT est le format d’échange universel. Né en 2001, texte brut avec timecodes. Compatible avec Premiere, Final Cut, DaVinci, VLC, MX Player, YouTube, Vimeo — environ 99 % des lecteurs jamais commercialisés. À privilégier si vous pourriez retoucher les sous-titres plus tard ou les passer à un monteur.
- VTT est SRT plus style (position, couleur, ruby pour le furigana japonais). Obligatoire avec HTML5
<track>pour les sous-titres en navigateur. À privilégier pour les lecteurs web, surtout multilingues ou avec écriture verticale. - Incrusté (open captions) rend les sous-titres dans les pixels du film. Le spectateur ne peut pas les couper. À utiliser pour les réseaux (TikTok, Instagram Reels, X vidéo) qui éliminent les pistes sidecar, et pour les 83 % de visionnages mobiles en sourdine.
L’erreur la plus fréquente : pousser des sous-titres incrustés sur YouTube, qui aurait volontiers ingéré le SRT, l’aurait traduit automatiquement en plus de 100 langues et l’aurait rendu interrogeable. N’incrustez que si le lecteur cible enlève les pistes sidecar.
Utiliser la transcription pour monter plus vite
Après les sous-titres, le second usage majeur de la transcription vidéo en 2026 est le montage par texte. Méthode :
- Transcrire les rushes vers un SRT timecodé.
- Lire le texte au lieu de scroller dans la vidéo.
- Supprimer les phrases du texte ; l’éditeur (Descript, Édition basée sur le texte de Premiere, Cut by Words de DaVinci Resolve) supprime la vidéo correspondante.
Un entretien d’une heure dont le prémontage classique prend ~6 heures se ramène à environ 45 minutes de montage par texte — une étude Adobe de 2025 sur 412 monteurs a mesuré un facteur 7×. Cela n’est possible que si les timecodes SRT sont exacts à l’image, raison pour laquelle on uploade la vidéo (et pas seulement l’audio extrait) quand l’objectif est le montage.
Gros fichiers : 4K, ProRes et rushes caméra
Les plus gros fichiers vidéo des flux 2026 ne viennent pas de la caméra, mais des codecs intermédiaires :
- 4K H.264 à 45 Mbps fait environ 20 Go/heure. Le chargeur web d’Atter AI accepte jusqu’à 10 Go par fichier sur le plan standard ; un 4K de 30 minutes passe directement.
- 4K ProRes 422 HQ atteint ~110 Go/heure. Extraire l’audio d’abord : aucun intérêt à uploader 110 Go quand 30 Mo portent la même parole.
- RED R3D et ARRI ARRIRAW ne sont pas directement pris en charge. Exporter un proxy MP4 ou extraire l’audio en WAV.
Au-delà de 10 Go, découper sur frontière de chapitre ou de scène avec ffmpeg -ss 00:00:00 -t 01:00:00 -c copy out.mp4 garde chaque morceau sous la limite et conserve le codec d’origine sans ré-encodage.
Confidentialité : fichiers vidéo, visages, fenêtre de 24 heures
Les vidéos contiennent des visages. Le modèle de confidentialité doit en tenir compte :
- En transit : TLS 1.3 avec HSTS preload.
- Au repos : chiffrement AES-256 côté serveur, stockage rattaché à une région (US, UE ou APAC).
- Rétention : la vidéo uploadée est supprimée du stockage de traitement temporaire dans les 24 heures suivant la livraison de la transcription et des sous-titres. Les versions avec sous-titres incrustés sont supprimées après téléchargement.
- Entraînement : les fichiers vidéo, les audios extraits et les transcriptions ne servent jamais à entraîner les modèles. C’est un engagement contractuel, pas un opt-out activé par défaut.
Pour les flux relevant de HIPAA, du RGPD article 9 ou du Code de la santé publique français pour les données médicales, le bouton « Supprimer maintenant » du tableau de bord effectue une suppression dure et non un tombstone logique. Dans la minute qui suit le clic, la vidéo source est irrécupérable.
FAQ — transcription de fichiers vidéo
Dois-je extraire l’audio avant l’upload ?
Uniquement si la bande passante est le goulot, ou si vous n’avez pas besoin de sous-titres timecodés. La qualité est identique ; seule la vitesse change. À 100+ Mbps d’upload, charger la vidéo est plus simple et le SRT/VTT s’aligne sur la cadence d’origine.
Quelle est la taille maximale d’un fichier vidéo ?
Atter AI accepte jusqu’à 10 Go par fichier sur le plan standard. Cela représente environ 30 minutes de 4K H.264, 5 à 6 heures de Zoom 1080p ou environ 5 minutes de 4K ProRes. Pour les fichiers plus gros, découpez par chapitre avec ffmpeg -ss.
Puis-je obtenir une vidéo avec sous-titres incrustés plutôt qu’un SRT à part ?
Oui. Le chargeur a un interrupteur « incruster les sous-titres dans la vidéo » qui les rend dans les pixels du MP4 côté serveur. Cela ajoute 60–90 s de GPU par heure de vidéo. Le spectateur ne peut pas les désactiver — idéal pour TikTok, Reels et Shorts qui enlèvent les pistes sidecar.
La transcription marche-t-elle avec les captures d’écran vidéo ?
Oui. Loom, OBS, QuickTime, Windows Game Bar et ShareX produisent du MP4 ou WebM standard et sont transcrits avec la même précision de 98,7 % que n’importe quel autre enregistrement. Le contenu visuel n’a aucune incidence ; seule la piste audio compte.
La musique de fond ou les bruitages dégradent-ils la transcription ?
Les pipelines modernes intègrent une étape de « suppression de musique » qui filtre la musique instrumentale à environ 92 % d’efficacité. La transcription de voix sur musique perd typiquement 2 à 4 points par rapport à la voix propre. Pour un tutoriel avec une nappe sonore discrète, l’effet est invisible ; pour un clip avec voix chantée, la qualité chute fortement — ce n’est pas le cas d’usage visé.
Combien de temps prend une vidéo d’une heure de bout en bout ?
À 100 Mbps en upload : ~2,5 min pour un MP4 1080p de 1,5 Go, ~90 s de transcription IA et 60–90 s optionnels pour l’incrustation. Total : 4 à 5 minutes pour 60 minutes de vidéo.
Et les vidéos 4K, HDR ou 60 fps ?
La résolution, la plage dynamique et la cadence n’ont aucun effet sur la précision — seule la piste audio est lue. En revanche, elles allongent linéairement l’upload : 4K pèse ~4× plus que 1080p. Les timecodes SRT sont écrits dans la cadence d’origine, donc les sous-titres 60 fps tombent sur la bonne image.
Peut-on monter la vidéo à partir de la transcription ?
Oui — c’est l’un des flux les plus courants en 2026. Exportez le SRT, importez-le dans Descript, dans l’Édition basée sur le texte de Premiere ou dans Cut by Words de DaVinci Resolve, et montez la vidéo en éditant le texte. Un prémontage d’entretien d’une heure descend d’environ 6 heures de scrub à environ 45 minutes d’édition textuelle.