Transcripción de vídeo con IA: MP4, MOV, MKV (2026)

Aproximadamente el 83% del vídeo móvil se reproduce silenciado por defecto —el dato de Verizon Media para iOS se mantiene estable año tras año y sigue siendo válido en 2026. Esa sola cifra ha cambiado el sentido de transcribir vídeo: el resultado más solicitado de una transcripción sobre archivo de vídeo ya no es un Word para leer, sino una pista .srt o .vtt que se superpone a la imagen y vuelve opcional el audio. Cerca del 92% de los trabajos de transcripción sobre vídeo en los servicios actuales piden, además del texto plano, la exportación de subtítulos con códigos de tiempo.

Esta guía es el manual práctico de transcripción para archivos de vídeo en 2026: qué contenedores acepta el motor de IA, cuál es el verdadero compromiso entre subir el vídeo crudo o extraer primero el audio, cómo obtener un SRT exacto al fotograma con etiquetas de hablante y qué hacer cuando Final Cut Pro te deja un archivo ProRes 4K de 110 GB por hora.

Por qué transcribir vídeo no es lo mismo que transcribir audio

La transcripción de audio produce texto. La transcripción de vídeo produce texto más un contrato con la línea de tiempo del vídeo. Tres diferencias se notan en la práctica:

Alineación al fotograma. Los códigos de tiempo SRT y VTT deben alinearse a la cadencia del vídeo (23.976, 25, 29.97, 60 fps). Un desfase de 200 ms invisible en audio se ve como “subtítulo medio segundo tarde” en pantalla.
Velocidad de lectura visual. Los subtítulos conviven con la imagen. El límite visual de lectura humana ronda los 17–20 caracteres por segundo; cada cue más largo debe partirse o no dará tiempo a leerlo.
Complejidad de contenedor. Un MP3 tiene una pista. Un MP4 de cámara puede llevar el audio principal, una pista ambisónica del micro 360º, otra de claqueta y la del comentario del director —y la IA tiene que elegir bien.

El pipeline de vídeo de Atter AI cubre las tres: lee la cadencia desde la cabecera del contenedor, alinea los cues SRT en consecuencia y te permite elegir qué pista transcribir cuando hay más de una. La misma precisión de transcripción del 98.7% que se aplica al audio limpio se aplica al audio del vídeo, en más de 90 idiomas.

Formatos de vídeo que admite la transcripción (y el que falla en silencio)

El selector de archivos HTML5 acepta cualquier MIME de vídeo, pero lo que importa es lo que ocurre en el servidor. En 2026, Atter AI admite ocho contenedores de vídeo:

Contenedor	Origen habitual	Notas
`.mp4` (H.264 + AAC)	~85% del vídeo web y de reuniones	Por defecto. Disponible en todos los planes.
`.mp4` (HEVC / H.265)	iPhone 11+ y Android recientes	Hasta un 50% más pequeño que H.264 a igual calidad.
`.mov` (ProRes)	Final Cut Pro, ARRI, RED	Hasta 110 GB/hora en 4K ProRes 422 HQ. Mejor extraer audio primero.
`.mkv`	Grabaciones OBS, fansubs	Multipista; pista seleccionable al subir.
`.webm` (VP9 / Opus)	Captura de pantalla Chrome, Loom	Formato nativo del navegador, subida rápida.
`.avi`	Capturas antiguas de Windows	Funciona, pero conviene reenvasarlo a MP4 si es posterior a 2010.
`.m4v`	Exportaciones iTunes / QuickTime	Mismo pipeline que `.mp4`.
`.wmv`	Exportaciones Windows Media	Aceptado, pero la decodificación VC-1 añade ~10 s de preproceso.

El contenedor que sorprende: los vídeos reenviados por WhatsApp llegan como .mp4 pero con el átomo moov en una posición no estándar, y varios pipelines antiguos devuelven “error de decodificación”. Atter AI repara el átomo en el servidor antes de transcribir; si te ocurre con otro servicio, renombrar la extensión no soluciona nada: hay que reenvasarlo con ffmpeg -i in.mp4 -c copy -movflags +faststart out.mp4.

¿Conviene extraer el audio antes de la transcripción?

Respuesta honesta: depende de tu velocidad de subida, no de la calidad de la transcripción. La calidad es idéntica de las dos formas; lo que cambia es la velocidad.

Un MP4 1080p de 1 hora grabado en Zoom suele pesar 1,2–1,8 GB. Esa misma hora extraída a M4A (copia de la pista de audio, sin recodificar) ocupa 28–35 MB —unas 40 veces menos. En una conexión con 50 Mbps de subida, la diferencia es “3 minutos subiendo” frente a “5 segundos subiendo”.

Reglas prácticas para 2026:

Menos de 500 MB o conexión de 100+ Mbps — sube el vídeo directamente. La comodidad gana.
Más de 2 GB o conexión lenta / con cuota / móvil — extrae el audio primero. Los 60 segundos de ffmpeg -i in.mp4 -vn -c:a copy out.m4a te ahorran 5–20 minutos de subida.
Necesitas subtítulos SRT o VTT — sube el vídeo. El pipeline se alinea a la cadencia exacta del vídeo, algo que no puede hacer una subida solo de audio.

La tercera regla es la decisiva. Si el destino son subtítulos, el bucle “extraer audio → transcribir → realinear manualmente el SRT a la cadencia del vídeo” cuesta más tiempo que una subida algo más lenta.

Para flujos solo de audio, la guía de transcripción de archivos de audio en línea cubre el flujo “audio extraído” con detalle. Para grabaciones específicas, la guía de transcripción de Zoom trata el caso del MP4 de la nube, y la guía de transcripción de YouTube cubre los flujos por URL pública que se ahorran la subida.

Paso a paso: del vídeo al SRT en menos de 5 minutos

El flujo exacto en https://transcription.atter-ai.com:

Abre el cargador. Navegador o app de escritorio: ambos aceptan vídeo. El flujo web no requiere instalación y funciona en Chromebook, ordenadores de biblioteca y equipos escolares con restricciones.
Arrastra el vídeo. El cargador inspecciona el contenedor, muestra duración, cadencia y número de pistas de audio, y avisa si el archivo está dañado.
Elige la pista de audio si hay varias. Cámaras con dos micrófonos, exportaciones multipista de OBS y premezclas de DAW generan archivos multipista. La opción por defecto “Pista 1” acierta en ~95% de los casos.
Selecciona el formato de salida. SRT, VTT, ASS/SSA (subtítulos con estilo), TXT, DOCX, PDF o MP4 con subtítulos incrustados. Elegir incrustados activa un paso de renderizado tras la transcripción.
Activa la diarización si hace falta. Para entrevistas, mesas redondas y pódcasts grabados en vídeo, cada cue queda etiquetado con el hablante.
Envía. Un MP4 de 1 hora sobre una conexión de 100 Mbps tarda unos 4 minutos extremo a extremo: ~2,5 min de subida, ~90 s de transcripción. Los subtítulos incrustados añaden 60–90 s de renderizado en GPU.
Descarga. El SRT o VTT se importa directamente en Premiere, Final Cut, DaVinci Resolve, CapCut, Descript y YouTube Studio sin retiempos.

La prueba gratuita de 3 días cubre todo el flujo, incluida la incrustación de subtítulos y la exportación SRT, sin tope por archivo ni por minuto. Los planes de pago son $6.99 a la semana, $49.99 al año o $129.99 vitalicio; ningún plan tiene límite de duración.

SRT, VTT o incrustado: qué salida elegir

Las tres salidas de subtítulos resuelven problemas distintos:

SRT es el formato universal de intercambio. Nacido en 2001, texto plano con códigos de tiempo. Funciona en Premiere, Final Cut, DaVinci, VLC, MX Player, YouTube, Vimeo —alrededor del 99% de los reproductores que existen. Elígelo si vas a editar los subtítulos después o se los pasarás a un editor de vídeo.
VTT es SRT con estilos (posición, color, ruby para furigana japonés). Obligatorio en HTML5 <track> para subtítulos del navegador. Elígelo para reproductores web, sobre todo si son multilingües o llevan texto vertical.
Incrustado (open captions) se renderiza en los píxeles del vídeo. El espectador no puede desactivarlo. Elígelo para redes (TikTok, Instagram Reels, X vídeo) que eliminan los SRT sidecar al subir —y para ese 83% de visualizaciones móviles silenciadas.

El error más común es subir subtítulos incrustados a YouTube, que aceptaría sin más el SRT, lo traduciría automáticamente a más de 100 idiomas y haría los subtítulos buscables. Incrusta solo cuando el reproductor de destino elimina las pistas sidecar.

Usar la transcripción para editar más rápido

Tras los subtítulos, el segundo gran uso de la transcripción de vídeo en 2026 es la edición basada en texto. Flujo:

Transcribe el material crudo a un SRT con códigos de tiempo.
Lee el texto en vez de hacer scrub al vídeo.
Borra frases del texto y el editor (Descript, Edición Basada en Texto de Premiere, Cut by Words de DaVinci Resolve) borra el vídeo correspondiente.

Una entrevista de 60 minutos cuya pre-edición convencional ocupa unas 6 horas se reduce a unos 45 minutos con edición por texto —un estudio de Adobe de 2025 con 412 editores midió un factor 7× de aceleración. Solo funciona si los códigos de tiempo del SRT son exactos al fotograma, así que si vas a editar, sube el vídeo (no el audio extraído).

Consejo: si vas a editar en Descript o en Premiere con Edición Basada en Texto, exporta SRT en vez de VTT. Ambos parsean SRT de forma nativa; las etiquetas de estilo de VTT se descartan al importar y no aportan nada.

Archivos grandes: 4K, ProRes y material crudo de cámara

Los archivos más pesados en flujos típicos de 2026 no salen de la cámara directamente, sino de los códecs intermedios:

4K H.264 a 45 Mbps ronda los 20 GB/hora. El cargador web de Atter AI admite hasta 10 GB por archivo en el plan estándar, así que un 4K de 30 minutos sube directo.
4K ProRes 422 HQ ronda los 110 GB/hora. Extrae el audio primero: subir 110 GB no aporta nada cuando 30 MB contienen el mismo habla.
RED R3D y ARRI ARRIRAW no están soportados directamente. Exporta un proxy MP4 o extrae el audio a WAV.

Para archivos por encima de 10 GB, dividir por capítulo o escena con ffmpeg -ss 00:00:00 -t 01:00:00 -c copy out.mp4 mantiene cada fragmento dentro del límite y conserva el códec original sin recodificar.

Privacidad: vídeos, rostros y la ventana de 24 horas

Los vídeos contienen rostros. El modelo de privacidad tiene que reflejarlo:

En tránsito: TLS 1.3 con HSTS preload.
En reposo: cifrado AES-256 en servidor, almacenamiento fijado por región (EE. UU., UE o APAC).
Retención: el vídeo subido se elimina del almacenamiento de procesamiento temporal en menos de 24 horas tras la entrega de la transcripción y los subtítulos. Las versiones con subtítulos incrustados se eliminan tras la descarga.
Entrenamiento: los archivos de vídeo, los audios extraídos y las transcripciones no se usan para entrenar modelos. Es un compromiso contractual, no un opt-out activado por defecto.

Para flujos sujetos a HIPAA, GDPR (art. 9) o leyes equivalentes en España y Latinoamérica, el botón “Eliminar ya” del panel hace un borrado duro, no un tombstone lógico. A los 60 segundos del clic, el vídeo original es irrecuperable.

FAQ sobre transcripción de archivos de vídeo

¿Tengo que extraer el audio antes de subir?

Solo si la subida es el cuello de botella o no necesitas subtítulos con códigos de tiempo. La calidad es idéntica; cambia la velocidad. Con 100+ Mbps de subida es más cómodo subir el vídeo y el SRT/VTT se alinea a la cadencia original.

¿Cuál es el tamaño máximo de archivo de vídeo?

Atter AI acepta hasta 10 GB por archivo en el plan estándar. Eso son unos 30 minutos de 4K H.264, 5–6 horas de grabación 1080p de Zoom o unos 5 minutos de 4K ProRes. Para archivos mayores, divide por capítulo con ffmpeg -ss.

¿Puedo obtener subtítulos incrustados en vez de un SRT aparte?

Sí. El cargador tiene un interruptor “Incrustar subtítulos en el vídeo” que renderiza el texto en los píxeles del MP4. Añade 60–90 s de GPU por hora de vídeo. El espectador no puede desactivarlos, por eso son ideales para TikTok, Reels y Shorts.

¿Funciona la transcripción con grabaciones de pantalla?

Sí. Loom, OBS, QuickTime, Windows Game Bar y ShareX producen MP4 o WebM estándar y se transcriben con la misma precisión del 98.7% que cualquier otra grabación. El contenido visual no influye; solo cuenta la pista de audio.

¿La música o los efectos de fondo degradan la transcripción?

Los pipelines actuales tienen una etapa de “supresión de música” que filtra música instrumental de fondo con una eficacia del 92% aproximadamente. La transcripción de voz sobre música suele estar 2–4 puntos por debajo de la voz limpia. En tutoriales con música tenue, el efecto es imperceptible; en vídeos musicales con voz cantada la calidad cae bruscamente y no es el caso de uso previsto.

¿Cuánto tarda un vídeo de 1 hora de principio a fin?

Con 100 Mbps de subida: ~2,5 min para un MP4 1080p de 1,5 GB, ~90 s de transcripción IA y 60–90 s opcionales para incrustar subtítulos. Total: 4–5 minutos para 60 minutos de vídeo.

¿Y los vídeos 4K, HDR o a 60 fps?

La resolución, el rango dinámico y la cadencia no afectan a la precisión de la transcripción —solo se lee la pista de audio. Sí afectan al tiempo de subida de forma lineal: 4K son unos 4× los bytes de 1080p. Los códigos de tiempo del SRT se escriben en la cadencia original, así que los subtítulos a 60 fps caen en el fotograma correcto.

¿Se puede editar el vídeo con la transcripción?

Sí, es uno de los flujos más comunes de 2026. Exporta SRT, impórtalo en Descript, en la Edición Basada en Texto de Premiere o en Cut by Words de DaVinci Resolve y edita el vídeo editando el texto. Una pre-edición típica de entrevista de 60 minutos baja de unas 6 horas de scrub a unos 45 minutos de texto.

Transcripción de archivos de vídeo: de MP4 a subtítulos SRT en menos de 5 minutos

Por qué transcribir vídeo no es lo mismo que transcribir audio

Formatos de vídeo que admite la transcripción (y el que falla en silencio)

¿Conviene extraer el audio antes de la transcripción?

Paso a paso: del vídeo al SRT en menos de 5 minutos

SRT, VTT o incrustado: qué salida elegir

Usar la transcripción para editar más rápido

Archivos grandes: 4K, ProRes y material crudo de cámara

Privacidad: vídeos, rostros y la ventana de 24 horas

FAQ sobre transcripción de archivos de vídeo

Sigue leyendo

5 apps para transcribir entrevistas, según lo que harás después

Quién dijo qué: identifica hablantes en tu transcripción automáticamente

Rastrear decisiones en llamadas grabadas: un registro de transcripción que aguante