Transcrição de vídeo com IA: MP4, MOV, MKV (2026)

Cerca de 83% das visualizações de vídeo no celular acontecem com o som mudo por padrão — o estudo da Verizon Media para iOS aponta esse patamar e o número se manteve estável até 2026. Esse dado isolado redefiniu a transcrição de vídeo: em 2026, o resultado mais pedido para um arquivo de vídeo deixou de ser um Word para ler e passou a ser uma trilha .srt ou .vtt que se sobrepõe à imagem e torna o áudio opcional. Hoje, cerca de 92% dos trabalhos de transcrição sobre arquivos de vídeo também solicitam a exportação de legendas com código de tempo, além do texto corrido.

Este guia é o manual prático de transcrição de arquivos de vídeo em 2026: quais contêineres a IA aceita, a verdadeira escolha entre subir o vídeo bruto ou extrair o áudio antes, como obter um SRT preciso no quadro com rótulos de falante e o que fazer quando o Final Cut Pro te entrega um ProRes 4K de 110 GB por hora.

Por que transcrição de vídeo não é igual à de áudio

A transcrição de áudio produz texto. A transcrição de vídeo produz texto mais um contrato com a linha do tempo do vídeo. Três diferenças decidem o resultado na prática:

Alinhamento ao quadro. Os códigos de tempo de SRT e VTT precisam casar com a taxa de quadros do vídeo (23,976, 25, 29,97, 60 fps). Um deslocamento de 200 ms imperceptível em áudio vira “legenda meio segundo atrasada” na tela.
Velocidade de leitura visual. A legenda divide espaço com a imagem. O limite humano de leitura fica em torno de 17–20 caracteres por segundo; cues mais longos precisam ser quebrados ou desaparecem antes de serem lidos.
Complexidade do contêiner. Um MP3 tem uma trilha. Um MP4 de câmera pode trazer áudio principal, faixa ambisônica de microfone 360º, trilha de claquete e comentário do diretor — a IA precisa escolher a certa.

O pipeline de vídeo da Atter AI cuida das três coisas: lê a taxa de quadros do cabeçalho do contêiner, alinha as legendas SRT a ela e permite escolher qual trilha de áudio transcrever quando há mais de uma. A mesma precisão de transcrição de 98,7% que vale para áudio limpo vale para o áudio do vídeo, em mais de 90 idiomas.

Formatos de vídeo suportados pela transcrição (e um que falha calado)

O seletor de arquivos HTML5 aceita qualquer MIME de vídeo, mas o que conta é o backend. Em 2026 a Atter AI aceita oito contêineres de vídeo:

Contêiner	Origem comum	Observações
`.mp4` (H.264 + AAC)	~85% do vídeo de web e reuniões	Padrão. Disponível em todos os planos.
`.mp4` (HEVC / H.265)	iPhone 11+, Android recentes	Cerca de 50% menor que H.264 na mesma qualidade.
`.mov` (ProRes)	Final Cut Pro, ARRI, RED	Até 110 GB/hora em 4K ProRes 422 HQ. Melhor extrair áudio antes.
`.mkv`	Gravações OBS, fansubs	Multipista, escolha a trilha no upload.
`.webm` (VP9 / Opus)	Gravação de tela do Chrome, Loom	Formato nativo do navegador, upload rápido.
`.avi`	Capturas antigas do Windows	Funciona, mas reenvasar em MP4 ajuda se for posterior a 2010.
`.m4v`	iTunes e QuickTime	Mesmo pipeline do `.mp4`.
`.wmv`	Exportações Windows Media	Aceito, mas a decodificação VC-1 adiciona ~10 s de pré-processamento.

O contêiner que pega gente de surpresa: vídeos encaminhados pelo WhatsApp chegam como .mp4 mas com o átomo moov em posição não padrão, e vários pipelines antigos respondem “erro de decodificação”. A Atter AI corrige o átomo no servidor antes de transcrever; se acontecer em outro serviço, renomear a extensão não resolve: precisa de ffmpeg -i in.mp4 -c copy -movflags +faststart out.mp4.

Vale a pena extrair o áudio antes da transcrição?

Resposta honesta: depende da sua banda de upload, não da qualidade da transcrição. A qualidade é idêntica nos dois caminhos; o que muda é a velocidade.

Um MP4 1080p de 1 hora gravado no Zoom costuma ter 1,2–1,8 GB. A mesma hora extraída para M4A (cópia da trilha de áudio, sem reencode) fica em 28–35 MB — cerca de 40× menor. Numa conexão de 50 Mbps de upload, isso é a diferença entre “3 minutos enviando” e “5 segundos enviando”.

Regras práticas para 2026:

Menos de 500 MB ou banda de 100+ Mbps — suba o vídeo direto. A conveniência ganha.
Mais de 2 GB ou conexão lenta / com franquia / móvel — extraia o áudio primeiro. Os 60 segundos de ffmpeg -i in.mp4 -vn -c:a copy out.m4a economizam 5–20 minutos de upload.
Você precisa de SRT ou VTT — suba o vídeo. O pipeline se alinha à taxa de quadros exata, algo que um upload só de áudio não consegue replicar.

A terceira regra é a decisiva. Se o objetivo é legenda, o ciclo “extrair áudio → transcrever → realinhar o SRT manualmente à taxa de quadros do vídeo” custa mais tempo do que um upload um pouco mais demorado.

Para fluxos só com áudio, a guia de transcrição de arquivos de áudio online detalha o fluxo “áudio extraído”. Para gravações de plataformas, a guia de transcrição do Zoom trata do MP4 da nuvem e a guia de transcrição do YouTube cobre fluxos por URL pública que pulam o upload.

Passo a passo: do vídeo ao SRT em menos de 5 minutos

Fluxo em https://transcription.atter-ai.com:

Abra o uploader. Navegador ou aplicativo desktop — os dois aceitam vídeo. O fluxo web não exige instalação e funciona em Chromebooks, PCs de biblioteca e máquinas escolares com restrições.
Arraste o vídeo. O uploader inspeciona o contêiner, mostra duração, taxa de quadros e número de trilhas de áudio, e avisa se o arquivo está corrompido.
Escolha a trilha de áudio se houver mais de uma. Câmeras com dois microfones, exportações multipista do OBS e pré-mixagens de DAW geram arquivos multipista. A “Trilha 1” padrão acerta em ~95% dos casos.
Defina o formato de saída antes. SRT, VTT, ASS/SSA (legendas estilizadas), TXT, DOCX, PDF ou MP4 com legenda queimada. Escolher legenda queimada dispara uma etapa de renderização após a transcrição.
Ative a diarização se precisar. Para entrevistas, mesas-redondas e podcasts filmados, cada cue ganha o rótulo do falante.
Envie. Um MP4 de 1 hora numa conexão de 100 Mbps leva cerca de 4 minutos ponta a ponta: ~2,5 min de upload e ~90 s de transcrição. Legenda queimada acrescenta 60–90 s de GPU.
Baixe. O SRT ou VTT entra direto em Premiere, Final Cut, DaVinci Resolve, CapCut, Descript e YouTube Studio sem reajuste de tempo.

O período gratuito de 3 dias cobre o fluxo todo — incluindo legenda queimada e exportação SRT — sem limite por arquivo nem por minuto. Planos pagos: $6,99 por semana, $49,99 por ano ou $129,99 vitalício. Nenhum plano tem limite de duração.

SRT, VTT ou queimada: qual saída escolher

As três saídas resolvem problemas diferentes:

SRT é o formato universal de troca. Surgiu em 2001, texto puro com códigos de tempo. Funciona em Premiere, Final Cut, DaVinci, VLC, MX Player, YouTube e Vimeo — cerca de 99% dos players já feitos. Escolha se há chance de editar as legendas depois ou se for entregar a um editor.
VTT é SRT com estilos (posição, cor, ruby para furigana). Obrigatório em HTML5 <track> para legendas no navegador. Ideal para players web, sobretudo multilíngues ou com texto vertical.
Queimada (open captions) renderiza a legenda nos pixels do vídeo. O espectador não pode desligá-la. Use para redes (TikTok, Instagram Reels, X vídeo) que removem o SRT sidecar no upload — e para aquela faixa de 83% de visualizações móveis no mudo.

O erro mais comum é mandar legendas queimadas para o YouTube, que aceitaria o SRT sem problemas, traduziria para 100+ idiomas automaticamente e tornaria a legenda pesquisável. Queime apenas quando o player de destino remove pistas sidecar.

Usar a transcrição para editar vídeo mais rápido

Atrás das legendas, o segundo maior uso de transcrição de vídeo em 2026 é a edição baseada em texto. Fluxo:

Transcreva o bruto para um SRT com códigos de tempo.
Leia o texto em vez de ficar fazendo scrub no vídeo.
Apague frases do texto; o editor (Descript, Edição Baseada em Texto do Premiere ou Cut by Words do DaVinci Resolve) apaga o trecho de vídeo correspondente.

Uma entrevista de 60 minutos cuja pré-edição tradicional leva ~6 horas cabe em cerca de 45 minutos de edição por texto — um estudo da Adobe em 2025 com 412 editores mediu aceleração de 7×. Só funciona com códigos de tempo precisos ao quadro, então se o objetivo é edição, suba o vídeo (e não o áudio extraído).

Dica: se for editar no Descript ou na Edição Baseada em Texto do Premiere, exporte SRT em vez de VTT. Os dois interpretam SRT nativamente; as tags de estilo do VTT são descartadas na importação e não acrescentam nada.

Arquivos grandes: 4K, ProRes e material bruto de câmera

Os maiores vídeos em fluxos típicos de 2026 não vêm da câmera direto, mas dos codecs intermediários:

4K H.264 a 45 Mbps dá cerca de 20 GB/hora. O uploader web da Atter AI aceita até 10 GB por arquivo no plano padrão, então 30 minutos em 4K sobem direto.
4K ProRes 422 HQ chega perto de 110 GB/hora. Extraia o áudio antes — não há vantagem em subir 110 GB quando 30 MB carregam a mesma voz.
RED R3D e ARRI ARRIRAW não são suportados diretamente. Exporte um proxy MP4 ou extraia o áudio em WAV.

Para arquivos acima de 10 GB, dividir por capítulo ou cena com ffmpeg -ss 00:00:00 -t 01:00:00 -c copy out.mp4 mantém cada parte dentro do limite e preserva o codec original sem reencode.

Privacidade: vídeos, rostos e a janela de 24 horas

Vídeos têm rostos. O modelo de privacidade precisa refletir isso:

Em trânsito: TLS 1.3 com HSTS preload.
Em repouso: criptografia AES-256 no servidor, armazenamento fixado por região (EUA, UE ou APAC).
Retenção: o vídeo enviado é apagado do armazenamento temporário em até 24 horas após a entrega da transcrição e das legendas. Versões com legenda queimada são apagadas após o download.
Treinamento: arquivos de vídeo, áudios extraídos e transcrições não são usados para treinar modelos. É compromisso contratual, não opt-out ligado por padrão.

Para fluxos sob HIPAA, GDPR art. 9 ou a LGPD brasileira, o botão “Apagar agora” do painel é deleção dura, não tombstone lógico. Em até 60 segundos após o clique, o vídeo original é irrecuperável.

FAQ — transcrição de arquivos de vídeo

Preciso extrair o áudio antes de enviar?

Só se a banda de upload for o gargalo ou se você não precisar de legendas com tempo. A qualidade é igual; o que muda é a velocidade. Com 100+ Mbps de upload, subir o vídeo é mais cômodo e o SRT/VTT já sai alinhado à taxa de quadros original.

Qual é o tamanho máximo do arquivo de vídeo?

A Atter AI aceita até 10 GB por arquivo no plano padrão. Cobre cerca de 30 minutos de 4K H.264, 5–6 horas de Zoom em 1080p ou uns 5 minutos de 4K ProRes. Para arquivos maiores, divida por capítulo com ffmpeg -ss.

Dá para receber o vídeo já com legenda queimada em vez de SRT sidecar?

Sim. O uploader tem o botão “Queimar legendas no vídeo” que renderiza nos pixels do MP4 no servidor. Adiciona 60–90 s de GPU por hora de vídeo. O espectador não pode desligar, por isso é ideal para TikTok, Reels e Shorts.

A transcrição funciona com gravações de tela?

Funciona. Loom, OBS, QuickTime, Windows Game Bar e ShareX geram MP4 ou WebM padrão e são transcritos com os mesmos 98,7% de precisão de qualquer outra gravação. O conteúdo visual não interfere; só conta a trilha de áudio.

Música de fundo ou efeitos prejudicam a precisão?

Os pipelines modernos têm uma etapa de “supressão musical” que filtra música instrumental de fundo com cerca de 92% de eficácia. A transcrição de voz sobre música costuma ficar 2–4 pontos abaixo da voz limpa. Em tutoriais com BGM discreta, a diferença é imperceptível; em videoclipes com voz cantada a qualidade cai bastante — não é o caso de uso pretendido.

Quanto tempo leva um vídeo de 1 hora ponta a ponta?

Com 100 Mbps de upload: ~2,5 min para um MP4 1080p de 1,5 GB, ~90 s de transcrição IA e 60–90 s opcionais para queimar legendas. Total: 4–5 minutos para 60 minutos de vídeo.

E vídeos em 4K, HDR ou 60 fps?

Resolução, faixa dinâmica e taxa de quadros não afetam a precisão da transcrição — só a trilha de áudio é lida. Mas afetam o tempo de upload de forma linear: 4K tem ~4× os bytes do 1080p. Os códigos de tempo do SRT são gravados na taxa original, então legendas a 60 fps caem no quadro certo.

Dá para editar o vídeo a partir da transcrição?

Dá — é um dos fluxos mais comuns em 2026. Exporte o SRT, importe no Descript, na Edição Baseada em Texto do Premiere ou em Cut by Words do DaVinci Resolve, e edite o vídeo editando o texto. Uma pré-edição típica de entrevista de 60 minutos cai de ~6 horas de scrub para ~45 minutos de edição de texto.

Transcrição de arquivos de vídeo: de MP4 a legenda SRT em menos de 5 minutos

Por que transcrição de vídeo não é igual à de áudio

Formatos de vídeo suportados pela transcrição (e um que falha calado)

Vale a pena extrair o áudio antes da transcrição?

Passo a passo: do vídeo ao SRT em menos de 5 minutos

SRT, VTT ou queimada: qual saída escolher

Usar a transcrição para editar vídeo mais rápido

Arquivos grandes: 4K, ProRes e material bruto de câmera

Privacidade: vídeos, rostos e a janela de 24 horas

FAQ — transcrição de arquivos de vídeo

Continue lendo

Melhores apps de transcrição para advogados: privacidade, revisão e áudio multilíngue

Atter AI vs MacWhisper: praticidade na nuvem ou controle local no Mac?

Atter AI vs Tactiq: gravação móvel ou transcrição ao vivo?