KI-Transkription für Videodateien: MP4, MOV, MKV (2026)

Rund 83 % der mobilen Videoaufrufe laufen standardmäßig stumm — die Verizon-Media-Erhebung für iOS hat sich bis 2026 stabil auf diesem Niveau gehalten. Diese eine Zahl verschiebt die Aufgabenstellung der Videotranskription: 2026 ist das meistgewünschte Ergebnis einer Transkription auf einer Videodatei kein Word-Dokument zum Durchlesen mehr, sondern eine .srt- oder .vtt-Untertitelspur, die sich über das Bild legt und den Ton optional macht. Etwa 92 % der Video-Jobs in modernen Transkriptionsdiensten fordern heute neben dem reinen Text zusätzlich einen Untertitelexport mit Zeitcodes an.

Dieser Leitfaden ist das Praxishandbuch für KI-Transkription auf Videodateien in 2026. Behandelt werden: welche Video-Container die KI annimmt, der echte Trade-off zwischen Direktupload und vorgeschalteter Audioextraktion, wie man eine bildgenaue SRT mit Sprecher-Labels bekommt, und was zu tun ist, wenn Final Cut Pro Ihnen eine 4K-ProRes-Datei mit 110 GB pro Stunde liefert.

Warum Videotranskription nicht dasselbe ist wie Audiotranskription

Audiotranskription erzeugt Text. Videotranskription erzeugt Text plus einen Vertrag mit der Videozeitachse. Drei Unterschiede sind in der Praxis ausschlaggebend:

Bildgenaue Ausrichtung. SRT- und VTT-Zeitcodes müssen zur Bildfrequenz des Videos passen (23,976; 25; 29,97; 60 fps). Ein 200-ms-Versatz, den niemand in einer Audiotranskription bemerkt, wird auf dem Bildschirm sichtbar als „Untertitel kommt zu spät”.
Lesegeschwindigkeit. Untertitel teilen sich den Raum mit dem Bild. Der menschliche Lese-Plafond liegt bei etwa 17–20 Zeichen pro Sekunde sichtbarem Untertitel; längere Cues müssen geteilt werden, sonst verschwinden sie, bevor man sie zu Ende lesen kann.
Containerkomplexität. Eine MP3 hat eine Spur. Eine Kamera-MP4 kann Hauptton, eine ambisonische Spur eines 360°-Mikrofons, eine Klappenspur und einen Regie-Kommentar gleichzeitig führen — die KI muss die richtige wählen.

Die Video-Pipeline von Atter AI deckt alle drei Punkte ab: Sie liest die Bildfrequenz aus dem Container-Header, richtet die SRT-Cues daran aus und lässt Sie bei Mehrspur-Dateien die zu transkribierende Spur wählen. Die 98,7 % Transkriptionsgenauigkeit auf sauberem Audio gilt auch für sauberes Video-Audio, in 90+ Sprachen.

Unterstützte Videoformate für die KI-Transkription (und das eine, das still scheitert)

Der HTML5-Datei-Picker reicht jeden Video-MIME-Typ an den Uploader weiter — entscheidend ist aber das Backend. Atter AI akzeptiert 2026 acht Video-Container:

Container	Typische Quelle	Hinweise
`.mp4` (H.264 + AAC)	~85 % aller Web- und Meeting-Videos	Standard. In allen Plänen verfügbar.
`.mp4` (HEVC / H.265)	iPhone 11+, aktuelles Android	Bei gleicher Qualität ~50 % kleiner als H.264.
`.mov` (ProRes)	Final Cut Pro, ARRI, RED	Bis 110 GB/Stunde bei 4K ProRes 422 HQ. Audio besser vorab extrahieren.
`.mkv`	OBS-Aufnahmen, Fansubs	Mehrere Tonspuren unterstützt, Auswahl beim Upload.
`.webm` (VP9 / Opus)	Chrome-Bildschirmaufnahmen, Loom	Browser-natives Format, schneller Upload.
`.avi`	Ältere Windows-Captures	Funktioniert; bei Material nach 2010 lohnt ein Re-Mux nach MP4.
`.m4v`	iTunes-, QuickTime-Exporte	Identische Pipeline zu `.mp4`.
`.wmv`	Windows-Media-Exporte	Akzeptiert, aber VC-1-Decoding kostet ~10 s Vorlauf.

Der Container, der überrascht: per WhatsApp weitergeleitete Videos kommen als .mp4, aber mit nicht-standardmäßiger Platzierung des moov-Atoms. Mehrere ältere Transkriptionspipelines liefern dann „Decodierfehler”. Atter AI repariert das Atom serverseitig vor der Verarbeitung; bei anderen Diensten gilt: die Endung umzubenennen hilft nicht — re-muxen mit ffmpeg -i in.mp4 -c copy -movflags +faststart out.mp4.

Audio vor der Transkription extrahieren — ja oder nein?

Ehrliche Antwort: Es kommt auf die Upload-Bandbreite an, nicht auf die Transkriptionsqualität. Die Qualität ist in beiden Fällen identisch; nur die Geschwindigkeit unterscheidet sich.

Eine 1-stündige 1080p-MP4 aus einer Zoom-Aufnahme wiegt typisch 1,2–1,8 GB. Dieselbe Stunde als M4A extrahiert (Audiospur kopiert, ohne Re-Encode) sind 28–35 MB — etwa 40× kleiner. Auf einer 50-Mbps-Upload-Leitung ist das der Unterschied zwischen „3 Minuten Upload” und „5 Sekunden Upload”.

Faustregeln für 2026:

Unter 500 MB oder Leitung mit 100+ Mbps — Video direkt hochladen. Bequemlichkeit gewinnt.
Über 2 GB oder langsame / volumenbegrenzte / Mobilfunkleitung — Audio vorher extrahieren. Die 60 Sekunden für ffmpeg -i in.mp4 -vn -c:a copy out.m4a sparen 5–20 Minuten Upload.
Sie brauchen SRT/VTT-Untertitel — Video direkt hochladen. Die Pipeline richtet sich an der exakten Quell-Bildfrequenz aus, was ein reiner Audio-Upload nicht leisten kann.

Die dritte Regel ist entscheidend. Wenn das Ziel Untertitel sind, kostet der Umweg „Audio extrahieren → transkribieren → SRT manuell auf Video-Bildrate ausrichten” mehr Zeit als ein etwas langsamerer Upload.

Für reine Audio-Workflows beschreibt der Leitfaden zur Online-Audiodatei-Transkription die „Audio extrahiert”-Variante im Detail. Für plattformspezifische Aufzeichnungen behandelt der Zoom-Transkriptions-Leitfaden den Cloud-MP4-Fall, der YouTube-Transkriptions-Leitfaden deckt URL-basierte Flows ohne Upload ab.

Schritt für Schritt: von der Videodatei zur SRT in unter 5 Minuten

Der genaue Ablauf auf https://transcription.atter-ai.com:

Uploader öffnen. Browser oder Desktop-App — beide akzeptieren Video. Der Web-Flow braucht keine Installation und läuft auf Chromebooks, Bibliotheks-PCs und schulisch verwalteten Rechnern.
Video hineinziehen. Der Uploader prüft den Container, zeigt Dauer, Bildfrequenz und Spuranzahl an und warnt bei defekten Dateien.
Bei mehreren Spuren die richtige wählen. Kameras mit zwei Mikrofonen, Mehrspur-Exporte aus OBS und DAW-Premixes erzeugen Mehrspur-Dateien. „Spur 1” ist in ~95 % der Fälle korrekt.
Exportformat vorab festlegen. SRT, VTT, ASS/SSA (gestylte Untertitel), TXT, DOCX, PDF oder MP4 mit eingebrannten Untertiteln. Letzteres löst einen Render-Schritt nach der Transkription aus.
Bei Mehrpersonen-Gesprächen Diarisation aktivieren. Für Interviews, Panels und vor der Kamera aufgezeichnete Podcasts werden alle Cues mit Sprecher-Label versehen.
Senden. Eine 1-stündige MP4 auf 100 Mbps Upload braucht End-to-End rund 4 Minuten: ~2,5 Min Upload, ~90 s Transkription. Eingebrannte Untertitel addieren 60–90 s GPU-Rendering.
Herunterladen. SRT oder VTT lassen sich ohne Re-Timing direkt in Premiere, Final Cut, DaVinci Resolve, CapCut, Descript und YouTube Studio importieren.

Die 3-tägige kostenlose Testphase umfasst den gesamten Workflow inklusive Untertitel-Brennen und SRT-Export — ohne Datei- oder Minutenobergrenze. Bezahlpläne: 6,99 $ pro Woche, 49,99 $ pro Jahr, 129,99 $ einmalig. Kein Plan setzt ein Längenlimit.

SRT, VTT oder eingebrannt: welcher Untertitel passt?

Die drei Untertitel-Ausgaben lösen unterschiedliche Probleme:

SRT ist das universelle Austauschformat. Von 2001, reiner Text plus Zeitcode. Funktioniert in Premiere, Final Cut, DaVinci, VLC, MX Player, YouTube, Vimeo — in rund 99 % aller je ausgelieferten Player. Wählen, wenn Sie die Untertitel später bearbeiten oder an einen Editor übergeben wollen.
VTT ist SRT plus Stil (Position, Farbe, japanisches Ruby). Pflicht für HTML5-<track>-Untertitel im Browser. Wählen für Webplayer, besonders bei Mehrsprachigkeit oder vertikalem Text.
Eingebrannt (Open Captions) werden in die Bildpixel gerendert. Der Zuschauer kann sie nicht abschalten. Wählen für Social-Plattformen (TikTok, Instagram Reels, X-Video), die SRT-Sidecars beim Upload entfernen — und für die 83 % stumm abgespielten Mobile-Views.

Häufigster Fehler: eingebrannte Untertitel an YouTube schicken. YouTube hätte das SRT angenommen, automatisch in 100+ Sprachen übersetzt und die Untertitel durchsuchbar gemacht. Nur einbrennen, wenn der Zielplayer Sidecar-Spuren wegwirft.

Mit der Transkription schneller schneiden

Nach den Untertiteln ist die zweitwichtigste Anwendung 2026 der textbasierte Schnitt. Vorgehen:

Rohmaterial in eine zeitgenaue SRT transkribieren.
Text lesen statt durch das Video zu scrubben.
Sätze aus dem Text löschen — der Editor (Descript, Premiere Text-Based Editing, DaVinci Resolves Cut by Words) löscht den entsprechenden Videoabschnitt mit.

Ein 60-minütiges Interview, dessen klassischer Rohschnitt rund 6 Stunden dauert, schrumpft mit Textschnitt auf etwa 45 Minuten — eine Adobe-Studie von 2025 mit 412 Editoren ermittelte einen 7×-Geschwindigkeitsgewinn. Das funktioniert nur, wenn die SRT-Zeitcodes bildgenau sitzen, weshalb bei Schnittabsichten die Videodatei (nicht nur das extrahierte Audio) hochzuladen ist.

Tipp: Wenn Sie in Descript oder in Premiere mit Text-Based Editing schneiden, exportieren Sie SRT statt VTT. Beide Tools parsen SRT nativ; VTT-Style-Tags werden beim Import verworfen — sie bringen nichts.

Große Dateien: 4K, ProRes und Kamera-Rohmaterial

Die größten Videodateien in typischen 2026er-Workflows kommen nicht aus der Kamera, sondern aus Intermediate-Codecs:

4K H.264 bei 45 Mbps ergibt etwa 20 GB/Stunde. Der Web-Uploader von Atter AI nimmt im Standardplan bis 10 GB pro Datei an; 30 Minuten 4K passen also direkt.
4K ProRes 422 HQ liegt bei rund 110 GB/Stunde. Audio vorher extrahieren — es gibt keinen Mehrwert darin, 110 GB hochzuladen, wenn 30 MB dieselbe Sprache enthalten.
RED R3D und ARRI ARRIRAW werden nicht direkt unterstützt. Proxy-MP4 exportieren oder Audio nach WAV ziehen.

Bei Dateien über 10 GB hält Splitten an Kapitel- oder Szenengrenzen mit ffmpeg -ss 00:00:00 -t 01:00:00 -c copy out.mp4 jeden Teil im Limit und bewahrt den Ursprungs-Codec ohne Re-Encode.

Datenschutz: Videodateien, Gesichter und das 24-Stunden-Fenster

Videos zeigen Gesichter. Das Datenschutzmodell muss das berücksichtigen:

Bei der Übertragung: TLS 1.3 mit HSTS-Preload.
Im Ruhezustand: AES-256-Server-Side-Verschlüsselung, regional gebundene Speicherung (USA, EU oder APAC).
Aufbewahrung: Hochgeladene Videos werden innerhalb von 24 Stunden nach Auslieferung von Transkript und Untertiteln aus dem temporären Verarbeitungsspeicher gelöscht. Eingebrannte Renderings werden nach dem Download gelöscht.
Training: Videodateien, extrahiertes Audio und Transkripte werden niemals für Modelltraining genutzt. Das ist eine vertragliche Zusage, kein standardmäßig aktivierter Opt-out.

Für Workflows unter HIPAA, DSGVO Art. 9 oder dem deutschen BDSG ist das „Sofort löschen” im Dashboard eine harte Löschung und kein logischer Tombstone. Spätestens 60 Sekunden nach dem Klick ist das Quellvideo nicht mehr wiederherstellbar.

FAQ — Transkription von Videodateien

Soll ich vor dem Upload das Audio extrahieren?

Nur, wenn die Upload-Bandbreite der Flaschenhals ist oder wenn Sie keine timecodierten Untertitel brauchen. Die Qualität ist in beiden Fällen gleich; was sich ändert, ist die Geschwindigkeit. Bei 100+ Mbps Upload ist der direkte Video-Upload bequemer und SRT/VTT richten sich an der Ursprungs-Bildfrequenz aus.

Wie groß darf eine einzelne Videodatei sein?

Atter AI akzeptiert im Standardplan bis 10 GB pro Datei. Das entspricht etwa 30 Minuten 4K H.264, 5–6 Stunden 1080p-Zoom-Aufnahme oder rund 5 Minuten 4K ProRes. Größere Dateien per ffmpeg -ss an einer Kapitelgrenze teilen.

Kann ich eingebrannte Untertitel statt einer separaten SRT bekommen?

Ja. Der Uploader hat den Schalter „Untertitel ins Video einbrennen”, der die Untertitel serverseitig in die MP4-Pixel rendert. Pro Stunde Video kommen 60–90 s GPU-Zeit hinzu. Der Zuschauer kann sie nicht abschalten — passt zu TikTok, Reels und Shorts, die SRT-Sidecars entfernen.

Funktioniert die KI-Videotranskription mit Bildschirmaufnahmen?

Ja. Loom, OBS, QuickTime, Windows Game Bar und ShareX erzeugen Standard-MP4 oder -WebM und werden mit denselben 98,7 % Genauigkeit transkribiert wie jede andere Aufnahme. Der Bildinhalt spielt keine Rolle; nur die Tonspur wird ausgewertet.

Beeinträchtigt Hintergrundmusik oder Sound-FX die Transkription?

Moderne Transkriptionspipelines enthalten eine Musik-Unterdrückung, die instrumentale Hintergrundmusik mit etwa 92 % Wirksamkeit herausfiltert. Sprache über Musik liegt typischerweise 2–4 Punkte unter sauberer Sprache. Bei Tutorial-Videos mit dezenter Untermalung ist der Effekt unsichtbar; bei Musikvideos mit gesungener Stimme bricht die Qualität deutlich ein — das ist kein vorgesehener Anwendungsfall.

Wie lange dauert ein 1-Stunden-Video End-to-End?

Bei 100 Mbps Upload: ~2,5 Min für eine 1,5-GB-1080p-MP4, ~90 s KI-Transkription, optional 60–90 s für die Untertitel-Einbrennung. Gesamt: 4–5 Minuten für 60 Minuten Video.

Was ist mit 4K, HDR oder 60 fps?

Auflösung, Dynamikumfang und Bildfrequenz beeinflussen die Transkriptionsgenauigkeit nicht — gelesen wird nur die Tonspur. Sie wirken sich aber linear auf die Upload-Zeit aus: 4K hat etwa die 4-fache Bytemenge von 1080p. SRT-Zeitcodes werden in der Quell-Bildfrequenz geschrieben, 60-fps-Untertitel landen auf dem richtigen Bild.

Kann das Transkript zum Schnitt verwendet werden?

Ja — das ist einer der häufigsten Workflows 2026. SRT exportieren, in Descript, Premiere Text-Based Editing oder DaVinci Resolves Cut by Words importieren und das Video durch Bearbeiten des Texts schneiden. Ein typischer 60-Minuten-Interview-Rohschnitt fällt von ~6 Stunden Scrubbing auf ~45 Minuten Textbearbeitung.

Videodateien transkribieren: vom MP4 zur SRT-Untertiteldatei in unter 5 Minuten

Warum Videotranskription nicht dasselbe ist wie Audiotranskription

Unterstützte Videoformate für die KI-Transkription (und das eine, das still scheitert)

Audio vor der Transkription extrahieren — ja oder nein?

Schritt für Schritt: von der Videodatei zur SRT in unter 5 Minuten

SRT, VTT oder eingebrannt: welcher Untertitel passt?

Mit der Transkription schneller schneiden

Große Dateien: 4K, ProRes und Kamera-Rohmaterial

Datenschutz: Videodateien, Gesichter und das 24-Stunden-Fenster

FAQ — Transkription von Videodateien

Weiterlesen

Beste Transkriptions-Apps für Anwälte: Datenschutz, Prüfung und mehrsprachige Audios

5 Podcast-Transkriptions-Apps für Schnitt, Shownotes und Datenschutz

5 Interview-Transkriptions-Apps – passend zum nächsten Arbeitsschritt