Transcrição com IA

Transcrição de arquivos de vídeo: de MP4 a legenda SRT em menos de 5 minutos

Transforme arquivos MP4, MOV, MKV ou WebM em legendas SRT/VTT e cortes editáveis por texto — com 98,7% de precisão de transcrição em 90+ idiomas.

Cerca de 83% das visualizações de vídeo no celular acontecem com o som mudo por padrão — o estudo da Verizon Media para iOS aponta esse patamar e o número se manteve estável até 2026. Esse dado isolado redefiniu a transcrição de vídeo: em 2026, o resultado mais pedido para um arquivo de vídeo deixou de ser um Word para ler e passou a ser uma trilha .srt ou .vtt que se sobrepõe à imagem e torna o áudio opcional. Hoje, cerca de 92% dos trabalhos de transcrição sobre arquivos de vídeo também solicitam a exportação de legendas com código de tempo, além do texto corrido.

Este guia é o manual prático de transcrição de arquivos de vídeo em 2026: quais contêineres a IA aceita, a verdadeira escolha entre subir o vídeo bruto ou extrair o áudio antes, como obter um SRT preciso no quadro com rótulos de falante e o que fazer quando o Final Cut Pro te entrega um ProRes 4K de 110 GB por hora.

Por que transcrição de vídeo não é igual à de áudio

A transcrição de áudio produz texto. A transcrição de vídeo produz texto mais um contrato com a linha do tempo do vídeo. Três diferenças decidem o resultado na prática:

  • Alinhamento ao quadro. Os códigos de tempo de SRT e VTT precisam casar com a taxa de quadros do vídeo (23,976, 25, 29,97, 60 fps). Um deslocamento de 200 ms imperceptível em áudio vira “legenda meio segundo atrasada” na tela.
  • Velocidade de leitura visual. A legenda divide espaço com a imagem. O limite humano de leitura fica em torno de 17–20 caracteres por segundo; cues mais longos precisam ser quebrados ou desaparecem antes de serem lidos.
  • Complexidade do contêiner. Um MP3 tem uma trilha. Um MP4 de câmera pode trazer áudio principal, faixa ambisônica de microfone 360º, trilha de claquete e comentário do diretor — a IA precisa escolher a certa.

O pipeline de vídeo da Atter AI cuida das três coisas: lê a taxa de quadros do cabeçalho do contêiner, alinha as legendas SRT a ela e permite escolher qual trilha de áudio transcrever quando há mais de uma. A mesma precisão de transcrição de 98,7% que vale para áudio limpo vale para o áudio do vídeo, em mais de 90 idiomas.

Formatos de vídeo suportados pela transcrição (e um que falha calado)

O seletor de arquivos HTML5 aceita qualquer MIME de vídeo, mas o que conta é o backend. Em 2026 a Atter AI aceita oito contêineres de vídeo:

Contêiner Origem comum Observações
.mp4 (H.264 + AAC)~85% do vídeo de web e reuniõesPadrão. Disponível em todos os planos.
.mp4 (HEVC / H.265)iPhone 11+, Android recentesCerca de 50% menor que H.264 na mesma qualidade.
.mov (ProRes)Final Cut Pro, ARRI, REDAté 110 GB/hora em 4K ProRes 422 HQ. Melhor extrair áudio antes.
.mkvGravações OBS, fansubsMultipista, escolha a trilha no upload.
.webm (VP9 / Opus)Gravação de tela do Chrome, LoomFormato nativo do navegador, upload rápido.
.aviCapturas antigas do WindowsFunciona, mas reenvasar em MP4 ajuda se for posterior a 2010.
.m4viTunes e QuickTimeMesmo pipeline do .mp4.
.wmvExportações Windows MediaAceito, mas a decodificação VC-1 adiciona ~10 s de pré-processamento.

O contêiner que pega gente de surpresa: vídeos encaminhados pelo WhatsApp chegam como .mp4 mas com o átomo moov em posição não padrão, e vários pipelines antigos respondem “erro de decodificação”. A Atter AI corrige o átomo no servidor antes de transcrever; se acontecer em outro serviço, renomear a extensão não resolve: precisa de ffmpeg -i in.mp4 -c copy -movflags +faststart out.mp4.

Vale a pena extrair o áudio antes da transcrição?

Resposta honesta: depende da sua banda de upload, não da qualidade da transcrição. A qualidade é idêntica nos dois caminhos; o que muda é a velocidade.

Um MP4 1080p de 1 hora gravado no Zoom costuma ter 1,2–1,8 GB. A mesma hora extraída para M4A (cópia da trilha de áudio, sem reencode) fica em 28–35 MB — cerca de 40× menor. Numa conexão de 50 Mbps de upload, isso é a diferença entre “3 minutos enviando” e “5 segundos enviando”.

Regras práticas para 2026:

  • Menos de 500 MB ou banda de 100+ Mbps — suba o vídeo direto. A conveniência ganha.
  • Mais de 2 GB ou conexão lenta / com franquia / móvel — extraia o áudio primeiro. Os 60 segundos de ffmpeg -i in.mp4 -vn -c:a copy out.m4a economizam 5–20 minutos de upload.
  • Você precisa de SRT ou VTT — suba o vídeo. O pipeline se alinha à taxa de quadros exata, algo que um upload só de áudio não consegue replicar.

A terceira regra é a decisiva. Se o objetivo é legenda, o ciclo “extrair áudio → transcrever → realinhar o SRT manualmente à taxa de quadros do vídeo” custa mais tempo do que um upload um pouco mais demorado.

Para fluxos só com áudio, a guia de transcrição de arquivos de áudio online detalha o fluxo “áudio extraído”. Para gravações de plataformas, a guia de transcrição do Zoom trata do MP4 da nuvem e a guia de transcrição do YouTube cobre fluxos por URL pública que pulam o upload.

Passo a passo: do vídeo ao SRT em menos de 5 minutos

Fluxo em https://transcription.atter-ai.com:

  1. Abra o uploader. Navegador ou aplicativo desktop — os dois aceitam vídeo. O fluxo web não exige instalação e funciona em Chromebooks, PCs de biblioteca e máquinas escolares com restrições.
  2. Arraste o vídeo. O uploader inspeciona o contêiner, mostra duração, taxa de quadros e número de trilhas de áudio, e avisa se o arquivo está corrompido.
  3. Escolha a trilha de áudio se houver mais de uma. Câmeras com dois microfones, exportações multipista do OBS e pré-mixagens de DAW geram arquivos multipista. A “Trilha 1” padrão acerta em ~95% dos casos.
  4. Defina o formato de saída antes. SRT, VTT, ASS/SSA (legendas estilizadas), TXT, DOCX, PDF ou MP4 com legenda queimada. Escolher legenda queimada dispara uma etapa de renderização após a transcrição.
  5. Ative a diarização se precisar. Para entrevistas, mesas-redondas e podcasts filmados, cada cue ganha o rótulo do falante.
  6. Envie. Um MP4 de 1 hora numa conexão de 100 Mbps leva cerca de 4 minutos ponta a ponta: ~2,5 min de upload e ~90 s de transcrição. Legenda queimada acrescenta 60–90 s de GPU.
  7. Baixe. O SRT ou VTT entra direto em Premiere, Final Cut, DaVinci Resolve, CapCut, Descript e YouTube Studio sem reajuste de tempo.

O período gratuito de 3 dias cobre o fluxo todo — incluindo legenda queimada e exportação SRT — sem limite por arquivo nem por minuto. Planos pagos: $6,99 por semana, $49,99 por ano ou $129,99 vitalício. Nenhum plano tem limite de duração.

SRT, VTT ou queimada: qual saída escolher

As três saídas resolvem problemas diferentes:

  • SRT é o formato universal de troca. Surgiu em 2001, texto puro com códigos de tempo. Funciona em Premiere, Final Cut, DaVinci, VLC, MX Player, YouTube e Vimeo — cerca de 99% dos players já feitos. Escolha se há chance de editar as legendas depois ou se for entregar a um editor.
  • VTT é SRT com estilos (posição, cor, ruby para furigana). Obrigatório em HTML5 <track> para legendas no navegador. Ideal para players web, sobretudo multilíngues ou com texto vertical.
  • Queimada (open captions) renderiza a legenda nos pixels do vídeo. O espectador não pode desligá-la. Use para redes (TikTok, Instagram Reels, X vídeo) que removem o SRT sidecar no upload — e para aquela faixa de 83% de visualizações móveis no mudo.

O erro mais comum é mandar legendas queimadas para o YouTube, que aceitaria o SRT sem problemas, traduziria para 100+ idiomas automaticamente e tornaria a legenda pesquisável. Queime apenas quando o player de destino remove pistas sidecar.

Usar a transcrição para editar vídeo mais rápido

Atrás das legendas, o segundo maior uso de transcrição de vídeo em 2026 é a edição baseada em texto. Fluxo:

  1. Transcreva o bruto para um SRT com códigos de tempo.
  2. Leia o texto em vez de ficar fazendo scrub no vídeo.
  3. Apague frases do texto; o editor (Descript, Edição Baseada em Texto do Premiere ou Cut by Words do DaVinci Resolve) apaga o trecho de vídeo correspondente.

Uma entrevista de 60 minutos cuja pré-edição tradicional leva ~6 horas cabe em cerca de 45 minutos de edição por texto — um estudo da Adobe em 2025 com 412 editores mediu aceleração de 7×. Só funciona com códigos de tempo precisos ao quadro, então se o objetivo é edição, suba o vídeo (e não o áudio extraído).

Dica: se for editar no Descript ou na Edição Baseada em Texto do Premiere, exporte SRT em vez de VTT. Os dois interpretam SRT nativamente; as tags de estilo do VTT são descartadas na importação e não acrescentam nada.

Arquivos grandes: 4K, ProRes e material bruto de câmera

Os maiores vídeos em fluxos típicos de 2026 não vêm da câmera direto, mas dos codecs intermediários:

  • 4K H.264 a 45 Mbps dá cerca de 20 GB/hora. O uploader web da Atter AI aceita até 10 GB por arquivo no plano padrão, então 30 minutos em 4K sobem direto.
  • 4K ProRes 422 HQ chega perto de 110 GB/hora. Extraia o áudio antes — não há vantagem em subir 110 GB quando 30 MB carregam a mesma voz.
  • RED R3D e ARRI ARRIRAW não são suportados diretamente. Exporte um proxy MP4 ou extraia o áudio em WAV.

Para arquivos acima de 10 GB, dividir por capítulo ou cena com ffmpeg -ss 00:00:00 -t 01:00:00 -c copy out.mp4 mantém cada parte dentro do limite e preserva o codec original sem reencode.

Privacidade: vídeos, rostos e a janela de 24 horas

Vídeos têm rostos. O modelo de privacidade precisa refletir isso:

  • Em trânsito: TLS 1.3 com HSTS preload.
  • Em repouso: criptografia AES-256 no servidor, armazenamento fixado por região (EUA, UE ou APAC).
  • Retenção: o vídeo enviado é apagado do armazenamento temporário em até 24 horas após a entrega da transcrição e das legendas. Versões com legenda queimada são apagadas após o download.
  • Treinamento: arquivos de vídeo, áudios extraídos e transcrições não são usados para treinar modelos. É compromisso contratual, não opt-out ligado por padrão.

Para fluxos sob HIPAA, GDPR art. 9 ou a LGPD brasileira, o botão “Apagar agora” do painel é deleção dura, não tombstone lógico. Em até 60 segundos após o clique, o vídeo original é irrecuperável.

FAQ — transcrição de arquivos de vídeo

Preciso extrair o áudio antes de enviar?

Só se a banda de upload for o gargalo ou se você não precisar de legendas com tempo. A qualidade é igual; o que muda é a velocidade. Com 100+ Mbps de upload, subir o vídeo é mais cômodo e o SRT/VTT já sai alinhado à taxa de quadros original.

Qual é o tamanho máximo do arquivo de vídeo?

A Atter AI aceita até 10 GB por arquivo no plano padrão. Cobre cerca de 30 minutos de 4K H.264, 5–6 horas de Zoom em 1080p ou uns 5 minutos de 4K ProRes. Para arquivos maiores, divida por capítulo com ffmpeg -ss.

Dá para receber o vídeo já com legenda queimada em vez de SRT sidecar?

Sim. O uploader tem o botão “Queimar legendas no vídeo” que renderiza nos pixels do MP4 no servidor. Adiciona 60–90 s de GPU por hora de vídeo. O espectador não pode desligar, por isso é ideal para TikTok, Reels e Shorts.

A transcrição funciona com gravações de tela?

Funciona. Loom, OBS, QuickTime, Windows Game Bar e ShareX geram MP4 ou WebM padrão e são transcritos com os mesmos 98,7% de precisão de qualquer outra gravação. O conteúdo visual não interfere; só conta a trilha de áudio.

Música de fundo ou efeitos prejudicam a precisão?

Os pipelines modernos têm uma etapa de “supressão musical” que filtra música instrumental de fundo com cerca de 92% de eficácia. A transcrição de voz sobre música costuma ficar 2–4 pontos abaixo da voz limpa. Em tutoriais com BGM discreta, a diferença é imperceptível; em videoclipes com voz cantada a qualidade cai bastante — não é o caso de uso pretendido.

Quanto tempo leva um vídeo de 1 hora ponta a ponta?

Com 100 Mbps de upload: ~2,5 min para um MP4 1080p de 1,5 GB, ~90 s de transcrição IA e 60–90 s opcionais para queimar legendas. Total: 4–5 minutos para 60 minutos de vídeo.

E vídeos em 4K, HDR ou 60 fps?

Resolução, faixa dinâmica e taxa de quadros não afetam a precisão da transcrição — só a trilha de áudio é lida. Mas afetam o tempo de upload de forma linear: 4K tem ~4× os bytes do 1080p. Os códigos de tempo do SRT são gravados na taxa original, então legendas a 60 fps caem no quadro certo.

Dá para editar o vídeo a partir da transcrição?

Dá — é um dos fluxos mais comuns em 2026. Exporte o SRT, importe no Descript, na Edição Baseada em Texto do Premiere ou em Cut by Words do DaVinci Resolve, e edite o vídeo editando o texto. Uma pré-edição típica de entrevista de 60 minutos cai de ~6 horas de scrub para ~45 minutos de edição de texto.