Cerca de 83% das visualizações de vídeo no celular acontecem com o som mudo por padrão — o estudo da Verizon Media para iOS aponta esse patamar e o número se manteve estável até 2026. Esse dado isolado redefiniu a transcrição de vídeo: em 2026, o resultado mais pedido para um arquivo de vídeo deixou de ser um Word para ler e passou a ser uma trilha .srt ou .vtt que se sobrepõe à imagem e torna o áudio opcional. Hoje, cerca de 92% dos trabalhos de transcrição sobre arquivos de vídeo também solicitam a exportação de legendas com código de tempo, além do texto corrido.
Este guia é o manual prático de transcrição de arquivos de vídeo em 2026: quais contêineres a IA aceita, a verdadeira escolha entre subir o vídeo bruto ou extrair o áudio antes, como obter um SRT preciso no quadro com rótulos de falante e o que fazer quando o Final Cut Pro te entrega um ProRes 4K de 110 GB por hora.
Por que transcrição de vídeo não é igual à de áudio
A transcrição de áudio produz texto. A transcrição de vídeo produz texto mais um contrato com a linha do tempo do vídeo. Três diferenças decidem o resultado na prática:
- Alinhamento ao quadro. Os códigos de tempo de SRT e VTT precisam casar com a taxa de quadros do vídeo (23,976, 25, 29,97, 60 fps). Um deslocamento de 200 ms imperceptível em áudio vira “legenda meio segundo atrasada” na tela.
- Velocidade de leitura visual. A legenda divide espaço com a imagem. O limite humano de leitura fica em torno de 17–20 caracteres por segundo; cues mais longos precisam ser quebrados ou desaparecem antes de serem lidos.
- Complexidade do contêiner. Um MP3 tem uma trilha. Um MP4 de câmera pode trazer áudio principal, faixa ambisônica de microfone 360º, trilha de claquete e comentário do diretor — a IA precisa escolher a certa.
O pipeline de vídeo da Atter AI cuida das três coisas: lê a taxa de quadros do cabeçalho do contêiner, alinha as legendas SRT a ela e permite escolher qual trilha de áudio transcrever quando há mais de uma. A mesma precisão de transcrição de 98,7% que vale para áudio limpo vale para o áudio do vídeo, em mais de 90 idiomas.
Formatos de vídeo suportados pela transcrição (e um que falha calado)
O seletor de arquivos HTML5 aceita qualquer MIME de vídeo, mas o que conta é o backend. Em 2026 a Atter AI aceita oito contêineres de vídeo:
| Contêiner | Origem comum | Observações |
|---|---|---|
.mp4 (H.264 + AAC) | ~85% do vídeo de web e reuniões | Padrão. Disponível em todos os planos. |
.mp4 (HEVC / H.265) | iPhone 11+, Android recentes | Cerca de 50% menor que H.264 na mesma qualidade. |
.mov (ProRes) | Final Cut Pro, ARRI, RED | Até 110 GB/hora em 4K ProRes 422 HQ. Melhor extrair áudio antes. |
.mkv | Gravações OBS, fansubs | Multipista, escolha a trilha no upload. |
.webm (VP9 / Opus) | Gravação de tela do Chrome, Loom | Formato nativo do navegador, upload rápido. |
.avi | Capturas antigas do Windows | Funciona, mas reenvasar em MP4 ajuda se for posterior a 2010. |
.m4v | iTunes e QuickTime | Mesmo pipeline do .mp4. |
.wmv | Exportações Windows Media | Aceito, mas a decodificação VC-1 adiciona ~10 s de pré-processamento. |
O contêiner que pega gente de surpresa: vídeos encaminhados pelo WhatsApp chegam como .mp4 mas com o átomo moov em posição não padrão, e vários pipelines antigos respondem “erro de decodificação”. A Atter AI corrige o átomo no servidor antes de transcrever; se acontecer em outro serviço, renomear a extensão não resolve: precisa de ffmpeg -i in.mp4 -c copy -movflags +faststart out.mp4.
Vale a pena extrair o áudio antes da transcrição?
Resposta honesta: depende da sua banda de upload, não da qualidade da transcrição. A qualidade é idêntica nos dois caminhos; o que muda é a velocidade.
Um MP4 1080p de 1 hora gravado no Zoom costuma ter 1,2–1,8 GB. A mesma hora extraída para M4A (cópia da trilha de áudio, sem reencode) fica em 28–35 MB — cerca de 40× menor. Numa conexão de 50 Mbps de upload, isso é a diferença entre “3 minutos enviando” e “5 segundos enviando”.
Regras práticas para 2026:
- Menos de 500 MB ou banda de 100+ Mbps — suba o vídeo direto. A conveniência ganha.
- Mais de 2 GB ou conexão lenta / com franquia / móvel — extraia o áudio primeiro. Os 60 segundos de
ffmpeg -i in.mp4 -vn -c:a copy out.m4aeconomizam 5–20 minutos de upload. - Você precisa de SRT ou VTT — suba o vídeo. O pipeline se alinha à taxa de quadros exata, algo que um upload só de áudio não consegue replicar.
A terceira regra é a decisiva. Se o objetivo é legenda, o ciclo “extrair áudio → transcrever → realinhar o SRT manualmente à taxa de quadros do vídeo” custa mais tempo do que um upload um pouco mais demorado.
Para fluxos só com áudio, a guia de transcrição de arquivos de áudio online detalha o fluxo “áudio extraído”. Para gravações de plataformas, a guia de transcrição do Zoom trata do MP4 da nuvem e a guia de transcrição do YouTube cobre fluxos por URL pública que pulam o upload.
Passo a passo: do vídeo ao SRT em menos de 5 minutos
Fluxo em https://transcription.atter-ai.com:
- Abra o uploader. Navegador ou aplicativo desktop — os dois aceitam vídeo. O fluxo web não exige instalação e funciona em Chromebooks, PCs de biblioteca e máquinas escolares com restrições.
- Arraste o vídeo. O uploader inspeciona o contêiner, mostra duração, taxa de quadros e número de trilhas de áudio, e avisa se o arquivo está corrompido.
- Escolha a trilha de áudio se houver mais de uma. Câmeras com dois microfones, exportações multipista do OBS e pré-mixagens de DAW geram arquivos multipista. A “Trilha 1” padrão acerta em ~95% dos casos.
- Defina o formato de saída antes. SRT, VTT, ASS/SSA (legendas estilizadas), TXT, DOCX, PDF ou MP4 com legenda queimada. Escolher legenda queimada dispara uma etapa de renderização após a transcrição.
- Ative a diarização se precisar. Para entrevistas, mesas-redondas e podcasts filmados, cada cue ganha o rótulo do falante.
- Envie. Um MP4 de 1 hora numa conexão de 100 Mbps leva cerca de 4 minutos ponta a ponta: ~2,5 min de upload e ~90 s de transcrição. Legenda queimada acrescenta 60–90 s de GPU.
- Baixe. O SRT ou VTT entra direto em Premiere, Final Cut, DaVinci Resolve, CapCut, Descript e YouTube Studio sem reajuste de tempo.
O período gratuito de 3 dias cobre o fluxo todo — incluindo legenda queimada e exportação SRT — sem limite por arquivo nem por minuto. Planos pagos: $6,99 por semana, $49,99 por ano ou $129,99 vitalício. Nenhum plano tem limite de duração.
SRT, VTT ou queimada: qual saída escolher
As três saídas resolvem problemas diferentes:
- SRT é o formato universal de troca. Surgiu em 2001, texto puro com códigos de tempo. Funciona em Premiere, Final Cut, DaVinci, VLC, MX Player, YouTube e Vimeo — cerca de 99% dos players já feitos. Escolha se há chance de editar as legendas depois ou se for entregar a um editor.
- VTT é SRT com estilos (posição, cor, ruby para furigana). Obrigatório em HTML5
<track>para legendas no navegador. Ideal para players web, sobretudo multilíngues ou com texto vertical. - Queimada (open captions) renderiza a legenda nos pixels do vídeo. O espectador não pode desligá-la. Use para redes (TikTok, Instagram Reels, X vídeo) que removem o SRT sidecar no upload — e para aquela faixa de 83% de visualizações móveis no mudo.
O erro mais comum é mandar legendas queimadas para o YouTube, que aceitaria o SRT sem problemas, traduziria para 100+ idiomas automaticamente e tornaria a legenda pesquisável. Queime apenas quando o player de destino remove pistas sidecar.
Usar a transcrição para editar vídeo mais rápido
Atrás das legendas, o segundo maior uso de transcrição de vídeo em 2026 é a edição baseada em texto. Fluxo:
- Transcreva o bruto para um SRT com códigos de tempo.
- Leia o texto em vez de ficar fazendo scrub no vídeo.
- Apague frases do texto; o editor (Descript, Edição Baseada em Texto do Premiere ou Cut by Words do DaVinci Resolve) apaga o trecho de vídeo correspondente.
Uma entrevista de 60 minutos cuja pré-edição tradicional leva ~6 horas cabe em cerca de 45 minutos de edição por texto — um estudo da Adobe em 2025 com 412 editores mediu aceleração de 7×. Só funciona com códigos de tempo precisos ao quadro, então se o objetivo é edição, suba o vídeo (e não o áudio extraído).
Arquivos grandes: 4K, ProRes e material bruto de câmera
Os maiores vídeos em fluxos típicos de 2026 não vêm da câmera direto, mas dos codecs intermediários:
- 4K H.264 a 45 Mbps dá cerca de 20 GB/hora. O uploader web da Atter AI aceita até 10 GB por arquivo no plano padrão, então 30 minutos em 4K sobem direto.
- 4K ProRes 422 HQ chega perto de 110 GB/hora. Extraia o áudio antes — não há vantagem em subir 110 GB quando 30 MB carregam a mesma voz.
- RED R3D e ARRI ARRIRAW não são suportados diretamente. Exporte um proxy MP4 ou extraia o áudio em WAV.
Para arquivos acima de 10 GB, dividir por capítulo ou cena com ffmpeg -ss 00:00:00 -t 01:00:00 -c copy out.mp4 mantém cada parte dentro do limite e preserva o codec original sem reencode.
Privacidade: vídeos, rostos e a janela de 24 horas
Vídeos têm rostos. O modelo de privacidade precisa refletir isso:
- Em trânsito: TLS 1.3 com HSTS preload.
- Em repouso: criptografia AES-256 no servidor, armazenamento fixado por região (EUA, UE ou APAC).
- Retenção: o vídeo enviado é apagado do armazenamento temporário em até 24 horas após a entrega da transcrição e das legendas. Versões com legenda queimada são apagadas após o download.
- Treinamento: arquivos de vídeo, áudios extraídos e transcrições não são usados para treinar modelos. É compromisso contratual, não opt-out ligado por padrão.
Para fluxos sob HIPAA, GDPR art. 9 ou a LGPD brasileira, o botão “Apagar agora” do painel é deleção dura, não tombstone lógico. Em até 60 segundos após o clique, o vídeo original é irrecuperável.
FAQ — transcrição de arquivos de vídeo
Preciso extrair o áudio antes de enviar?
Só se a banda de upload for o gargalo ou se você não precisar de legendas com tempo. A qualidade é igual; o que muda é a velocidade. Com 100+ Mbps de upload, subir o vídeo é mais cômodo e o SRT/VTT já sai alinhado à taxa de quadros original.
Qual é o tamanho máximo do arquivo de vídeo?
A Atter AI aceita até 10 GB por arquivo no plano padrão. Cobre cerca de 30 minutos de 4K H.264, 5–6 horas de Zoom em 1080p ou uns 5 minutos de 4K ProRes. Para arquivos maiores, divida por capítulo com ffmpeg -ss.
Dá para receber o vídeo já com legenda queimada em vez de SRT sidecar?
Sim. O uploader tem o botão “Queimar legendas no vídeo” que renderiza nos pixels do MP4 no servidor. Adiciona 60–90 s de GPU por hora de vídeo. O espectador não pode desligar, por isso é ideal para TikTok, Reels e Shorts.
A transcrição funciona com gravações de tela?
Funciona. Loom, OBS, QuickTime, Windows Game Bar e ShareX geram MP4 ou WebM padrão e são transcritos com os mesmos 98,7% de precisão de qualquer outra gravação. O conteúdo visual não interfere; só conta a trilha de áudio.
Música de fundo ou efeitos prejudicam a precisão?
Os pipelines modernos têm uma etapa de “supressão musical” que filtra música instrumental de fundo com cerca de 92% de eficácia. A transcrição de voz sobre música costuma ficar 2–4 pontos abaixo da voz limpa. Em tutoriais com BGM discreta, a diferença é imperceptível; em videoclipes com voz cantada a qualidade cai bastante — não é o caso de uso pretendido.
Quanto tempo leva um vídeo de 1 hora ponta a ponta?
Com 100 Mbps de upload: ~2,5 min para um MP4 1080p de 1,5 GB, ~90 s de transcrição IA e 60–90 s opcionais para queimar legendas. Total: 4–5 minutos para 60 minutos de vídeo.
E vídeos em 4K, HDR ou 60 fps?
Resolução, faixa dinâmica e taxa de quadros não afetam a precisão da transcrição — só a trilha de áudio é lida. Mas afetam o tempo de upload de forma linear: 4K tem ~4× os bytes do 1080p. Os códigos de tempo do SRT são gravados na taxa original, então legendas a 60 fps caem no quadro certo.
Dá para editar o vídeo a partir da transcrição?
Dá — é um dos fluxos mais comuns em 2026. Exporte o SRT, importe no Descript, na Edição Baseada em Texto do Premiere ou em Cut by Words do DaVinci Resolve, e edite o vídeo editando o texto. Uma pré-edição típica de entrevista de 60 minutos cai de ~6 horas de scrub para ~45 minutos de edição de texto.