Transcrição com IA

Transcrição de ligação telefônica: a parte legal vem antes da técnica

iOS 18.1 adicionou gravação nativa de chamadas em outubro de 2024. Combine com Pixel ou exports VoIP e use Atter AI para transcrição a 98,7%.

A maioria dos guias sobre transcrição de ligações telefônicas pula direto para “passo 1: abra este aplicativo”. Essa ordem está errada. Gravar uma chamada é primeiro uma questão de consentimento jurídico e só depois uma questão de fluxo técnico, e qual passo realmente importa muda dependendo de onde você está e onde está a outra parte. No Brasil, a Lei Geral de Proteção de Dados (LGPD, Lei 13.709/2018, em vigor desde agosto de 2020) exige base legal para tratar dados pessoais, e gravações de voz são dados pessoais. Para fins comerciais (atendimento, telemarketing), a base legal usual é o “legítimo interesse” combinado com aviso prévio na própria ligação. Em Portugal, o RGPD e a Lei n.º 58/2019 aplicam regime similar. Os EUA operam por padrão com consentimento unilateral (18 U.S.C. § 2511), mas 12 estados — Califórnia, Flórida, Illinois, Maryland, Massachusetts, Montana, Nevada, New Hampshire, Pensilvânia, Washington, mais Connecticut e Delaware em contextos específicos — exigem consentimento de todas as partes. Em chamadas internacionais, costuma valer a lei mais rigorosa entre as duas jurisdições.

Uma vez resolvida a parte de consentimento, o fluxo técnico ficou dramaticamente mais simples nos últimos 18 meses. O iOS 18.1, lançado em 28 de outubro de 2024, adicionou gravação nativa de chamadas a todo iPhone compatível — a primeira vez que a Apple permite isso sem app de terceiros desde o lançamento da plataforma em 2007. O Recorder do Google Pixel tem gravação de chamadas desde 2019. A maioria das plataformas VoIP sempre ofereceu. A parte difícil já não é capturar o áudio; é transformar a gravação resultante, frequentemente em banda estreita e baixa taxa de bits, em uma transcrição realmente útil. É disso que trata este guia, com a Atter AI cuidando da camada de reconhecimento de fala a 98,7% de precisão em mais de 90 idiomas.

O piso de qualidade de áudio: 8 kHz vs 16 kHz

O áudio telefônico historicamente vive em 8 kHz / 64 kbps com o codec G.711 — um padrão congelado nas centrais PSTN nos anos 1970 e ainda operacional na maioria das linhas fixas e redes celulares tradicionais. O HD Voice moderno (VoLTE pela Vivo no Brasil em 2014, TIM e Claro em 2015–2016; em Portugal, MEO, NOS e Vodafone Portugal entre 2015 e 2017) eleva isso a 16 kHz usando AMR-WB ou Opus. A diferença é audível: 8 kHz corta tudo acima de 4 kHz, o que remove a maior parte do brilho da voz humana e é o motivo pelo qual chamadas tradicionais soam “abafadas” comparadas a uma reunião do Zoom no mesmo volume.

Isso importa para a transcrição porque sistemas de reconhecimento de fala costumam ser treinados em áudio de banda larga (16 kHz+). Um modelo que vê apenas 8 kHz em inferência perde vários pontos percentuais de precisão em relação ao desempenho em banda larga, especialmente em nomes próprios, jargão técnico e qualquer falante com sotaque. A Atter AI roda modelos acústicos separados para banda estreita e banda larga e roteia o áudio automaticamente com base na taxa de amostragem — subir uma ligação antiga em 8 kHz ainda produz bons resultados porque o modelo foi ajustado para esse sinal, mas o resultado em uma chamada VoLTE ou VoIP moderna é claramente superior.

Quando você grava no iPhone ou Pixel, o arquivo salvo já está tipicamente em 16 kHz porque o sistema operacional captura a mixagem de downlink e uplink antes da redução de amostragem do lado PSTN. Quando você baixa uma gravação do arquivo de uma plataforma VoIP (Zenvia, Tactium, 3CX, RingCentral, Dialpad, Zoom Phone), verifique as configurações de exportação — a maioria padroniza para .mp3 ou .wav a 16 kHz, mas alguns inquilinos legados ainda estão em 8 kHz.

Método 1: Gravação nativa de chamadas no iPhone (iOS 18.1+)

A capacidade nativa do iPhone chegou com o iOS 18.1 em 28 de outubro de 2024 e está habilitada em todo iPhone rodando 18.1 ou posterior, incluindo iPhone XS e hardware mais novo. A mecânica:

  1. Durante uma chamada ativa, toque no botão de gravar no canto superior esquerdo da tela da ligação.
  2. A outra parte ouve um anúncio verbal: “Esta chamada será gravada.” Em estados americanos que exigem consentimento de todas as partes, esse anúncio satisfaz o requisito de notificação, mas a parte chamada ainda precisa permanecer na linha voluntariamente, o que é tratado como consentimento implícito na jurisprudência.
  3. Quando a chamada termina, a gravação é salva no aplicativo Notas (não no Gravador) como um anexo com transcrição autogerada e resumo de IA.
  4. O arquivo de áudio em si pode ser exportado pressionando longamente o anexo no Notas → Compartilhar → salvar em Arquivos, AirDrop para um Mac ou enviar para qualquer app.

Para qualidade de transcrição superior à passagem integrada da Apple, exporte o áudio para a Atter AI. A transcrição em dispositivo da Apple é centrada em inglês e usa um modelo menor do que serviços de transcrição em nuvem; se a chamada envolver conteúdo em português com sotaques regionais (carioca, mineiro, gaúcho, nordestino, lisboeta, açoriano), terminologia técnica ou code-switching português-inglês, a diferença de precisão é significativa. Cobrimos o fluxo de áudio do iPhone de forma mais ampla no guia de Memos de Voz do iPhone.

Método 2: Pixel e outros Android

O aplicativo Recorder do Google suporta gravação de chamadas em telefones Pixel desde o lançamento do Pixel 4 em 2019, tornando-o o primeiro grande fabricante a implementar essa capacidade de forma nativa — cinco anos antes do iPhone se atualizar. A mecânica:

  • Durante uma chamada ativa, o atalho do Recorder aparece no painel de Configurações rápidas ou diretamente na UI da chamada.
  • Um anúncio de áudio toca para a outra parte: “Olá, esta chamada está sendo gravada.”
  • As gravações salvas aparecem no app Recorder com uma transcrição em dispositivo ao vivo que você pode pesquisar.
  • Toque em qualquer gravação → Compartilhar → escolha um app ou salve no Drive.

A transcrição em dispositivo do Pixel é apenas em inglês e usa o modelo de fala em dispositivo da era Soli do Google, suficiente para busca em memória mas não para transcrições de produção. Para chamadas multilíngues, entrevistas com clientes ou qualquer gravação que você pretenda compartilhar como documento, exporte o arquivo .m4a e processe pela Atter AI.

Outros fabricantes Android lançaram gravação de chamadas em vários momentos: a Samsung adicionou no One UI 5 em mercados selecionados (Brasil mantém, EUA desabilita por razões legais), a Xiaomi tem bloqueio regional, e a OnePlus removeu após o OxygenOS 12. Fora da linha Pixel, apps de terceiros ainda são a norma no Android.

Método 3: Exportações de plataformas VoIP

Se a chamada aconteceu na Zenvia, Tactium, 3CX, RingCentral, Dialpad, Zoom Phone, Microsoft Teams Phone, Google Voice (camada Workspace paga) ou qualquer VoIP empresarial moderno, a plataforma quase certamente gravou a chamada automaticamente com base na política do inquilino. As gravações vivem no histórico de chamadas da plataforma e podem ser exportadas como .mp3 ou .wav.

Fluxo de exportação padrão (varia levemente por plataforma):

  1. Abra o portal de administração da plataforma ou sua visualização pessoal do histórico de chamadas.
  2. Filtre por data, ramal ou participante.
  3. Selecione a chamada → Baixar gravação (ou Exportar para operações em lote).
  4. Abra a Atter AI → Carregar → solte o arquivo baixado.

Para centrais de atendimento de alto volume e equipes de vendas, várias plataformas VoIP expõem webhooks ou endpoints de API que enviam as gravações de chamadas concluídas para um URL de destino. Apontar esses webhooks para o endpoint de entrada de um workspace da Atter AI é a forma mais limpa de manter todas as chamadas transcritas sem exportação manual. Um inquilino empresarial típico da Zenvia gera entre 500 e 2.000 gravações por agente por mês; fazer isso manualmente não escala.

Método 4: Aplicativos de gravação de terceiros

Quando nenhum dos lados da chamada usa um telefone com capacidade de gravação nativa, apps dedicados preenchem a lacuna. Os principais jogadores em 2026:

  • TapeACall (iOS, Android) — mais de 5 milhões de downloads, US$ 9,99/mês ou US$ 59,99/ano. Mecânica de chamada a três: roteia a chamada através de uma ponte de gravação que captura ambas as pernas. Arquivos salvos em .mp3 a 16 kHz.
  • Rev Call Recorder (iOS) — gravação gratuita, cobra US$ 0,25/minuto pela transcrição. Mesmo mecanismo de chamada a três que o TapeACall.
  • Cube ACR (Android) — funciona em um subconjunto de dispositivos Android via integração VoIP; a gravação de chamadas celulares nativa está praticamente quebrada no Android 11+ devido às restrições do Google na API de Acessibilidade.
  • WhatsApp e Telegram — ambas as plataformas usam criptografia ponta a ponta; não dá para gravar chamadas da outra parte sem hack no dispositivo. Você só pode gravar via captura do microfone local quando a chamada está no viva-voz.

O truque de “colocar a chamada no viva-voz e gravar com Memo de Voz num segundo dispositivo” ainda funciona em 2026 e produz áudio surpreendentemente utilizável para necessidades pontuais. O áudio do alto-falante distante perde cerca de 6 dB de nível comparado à captura direta de linha, mas a diarização da Atter AI ainda separa as duas vozes porque suas assinaturas acústicas (microfone próximo do falante local vs. alto-falante reproduzindo o falante remoto) são bem diferentes.

Método 5: Pontes de conferência e gravações antigas

Para pontes de conferência por discagem (Free Conference Call, áudio do GoToMeeting, áudio do Zoom Phone, serviços de teleconferência tradicionais), gravações tipicamente vêm como um .mp3 ou .wav mono com todos os participantes em uma única trilha. A diarização é o desafio maior aqui do que a transcrição: uma chamada sem configuração com 6 participantes em um único canal de ponte produz 6 vozes que a Atter AI deve separar apenas a partir do sinal de áudio, já que nenhum metadado indica quem falou quando.

A diarização da Atter AI lida com até 10 falantes distintos em um canal mono de forma confiável, com a precisão degradando depois disso. Para pontes com mais de 12 participantes (chamadas de conselho, prefeituras grandes), a saída mais útil é a transcrição literal com marcadores Speaker 1Speaker N que você renomeia em lote com base na lista de presença depois.

Arquivos antigos de gravações de chamadas — típicos de arquivos de compliance de centrais de atendimento que rodam há anos — geralmente chegam como arquivos .au, .gsm ou .wav de 8 bits. A Atter AI aceita os três, transcodificando-os para um intermediário amigável para transcrição antes de executar o reconhecimento de fala. O piso de precisão em .gsm 8 kHz (usado por centrais de atendimento com pontes móveis mais antigas) é significativamente menor que em banda larga, mas ainda na faixa de 92–95% para gravações limpas.

Consentimento e a realidade da LGPD

A parte legal é o que a maioria dos guias pula. No Brasil:

  • A LGPD (Lei 13.709/2018, em vigor desde agosto de 2020) exige base legal para tratar dados pessoais; gravações de voz são dados pessoais. Para chamadas comerciais (SAC, telemarketing, cobrança), a base legal usual é o “legítimo interesse” combinado com aviso prévio dentro da própria ligação.
  • Para chamadas entre particulares: o STF (RE 583937, julgado em 2009) reconheceu que uma gravação feita por um dos interlocutores não é prova ilícita por si só, mas divulgar conversa sem consentimento da outra parte pode violar direitos de personalidade (Art. 5º, X CF).
  • Bancos e instituições financeiras: obrigação de gravação por regulação do Bacen (Circular 3.978/2020 para PLD-FT) — não é apenas legal, é mandatório.
  • Chamadas internacionais: se a outra parte está na UE/Reino Unido, vale o RGPD e é necessário consentimento explícito; em estados americanos de consentimento bilateral, vale aquela lei estadual.
  • WhatsApp e Telegram: termos proíbem gravação por terceiros, criptografia ponta a ponta bloqueia tecnicamente.

Em Portugal, o RGPD e a Lei n.º 58/2019 aplicam regime análogo, com a Comissão Nacional de Proteção de Dados (CNPD) supervisionando. O Código Civil português também protege o direito à reserva da intimidade da vida privada.

Nada disso é parecer jurídico — confirme com um advogado em sua jurisdição antes de gravar em escala, especialmente para uso comercial ou judicial.

Transcrição nativa vs Atter AI

CapacidadeiPhone integrado (iOS 18.1)Pixel RecorderAtter AI
Gravação nativa de chamadaSim (iOS 18.1+)Sim (Pixel 4+)N/A (camada de transcrição)
Idiomas de transcriçãoCentrado em inglêsApenas inglês90+ idiomas
Precisão em áudio limpo~92-94%~92-94%98,7%
DiarizaçãoDois falantes, básicaDois falantes, básicaAté 10 falantes
Busca entre chamadasNenhumaApenas por gravaçãoBusca de texto completo em todo o arquivo
Formatos de exportaçãoApenas TXTApenas TXTPDF, DOCX, TXT, SRT, VTT, JSON
Limite de duraçãoSem limite fixoSem limite fixoSem limite
CustoIncluído com iPhoneIncluído com PixelUS$ 129,99 vitalício / US$ 49,99/ano / US$ 6,99/semana + 3 dias grátis

Para comparação com outras fontes de áudio, veja como o mesmo fluxo lida com arquivos de áudio online e as características de sinal ligeiramente diferentes em chamadas do Zoom.

Perguntas frequentes sobre transcrição de ligações

É legal eu gravar e transcrever minhas próprias ligações?

Depende da sua jurisdição. No Brasil, o STF reconheceu que gravação feita por um interlocutor não é, por si só, prova ilícita; mas divulgar sem consentimento pode violar direitos de personalidade. Para uso comercial, a LGPD exige base legal e aviso prévio. Em Portugal, o RGPD se aplica e exige base legal explícita. Nos EUA federal, basta consentimento unilateral, mas 12 estados exigem todas as partes. O anúncio verbal que o iPhone (iOS 18.1+) e o Pixel tocam automaticamente é desenhado para cumprir requisitos de notificação. Confirme com advogado em casos sensíveis.

Qual a precisão da Atter AI em áudio telefônico tradicional 8 kHz?

O modelo acústico ajustado para banda estreita da Atter AI atinge 92–95% de precisão em áudio 8 kHz limpo, dependendo do sotaque do falante e do tema. Em áudio moderno de banda larga 16 kHz (VoLTE, VoIP, gravado no iPhone ou Pixel), a precisão chega a 98,7% — o mesmo nível de gravações do Zoom ou reuniões presenciais.

Posso transcrever uma gravação de uma ponte de conferência com 8 participantes?

Sim. A diarização da Atter AI lida com até 10 falantes distintos em um canal mono. Para chamadas maiores, a diarização degrada e você pode preferir confiar na transcrição literal com etiquetas de falante marcador que você renomeia conforme a lista de presença.

A Atter AI funciona com TapeACall, Rev Call Recorder e gravadores similares?

Sim. Todos os principais apps de gravação de chamadas exportam para formatos padrão (.mp3, .m4a, .wav). Carregue diretamente na Atter AI — não é necessária conversão manual. A Atter AI aceita todos os formatos de áudio comuns e re-codifica internamente conforme necessário.

A transcrição integrada da Apple funciona para chamadas em português?

A transcrição em dispositivo da Apple no iOS 18.1+ é centrada em inglês com suporte limitado para alguns idiomas principais. Para chamadas realmente em português — com sotaques regionais (carioca, mineiro, nordestino, lisboeta), terminologia técnica, ou code-switching português-inglês — exporte o arquivo de áudio para a Atter AI, que suporta mais de 90 idiomas com diarização completa.

Posso transcrever uma chamada que gravei anos atrás em formato .wav 8 bits?

Sim. A Atter AI aceita .au, .gsm, .wav 8 bits e outros formatos legados comuns em arquivos antigos de centrais de atendimento. O sistema transcodifica para um intermediário amigável à transcrição antes de executar reconhecimento de fala. A precisão é menor do que em gravações em banda larga, mas ainda na faixa dos 90% altos em áudio limpo.

É legal gravar uma chamada via viva-voz com Memo de Voz em estados de consentimento bilateral?

O mecanismo de gravação não muda o requisito legal — se o estado exige consentimento de todas as partes, você precisa obtê-lo antes de iniciar a gravação, independentemente de usar um recurso integrado, um app de terceiros ou o Memo de Voz de um segundo dispositivo. A UX de consentimento por anúncio verbal que o iPhone e o Pixel reproduzem está fazendo um trabalho que uma captura por Memo de Voz não faz automaticamente.

Como faço para transcrever em massa um ano de gravações de central de atendimento?

Use o upload em massa por pasta ou API da Atter AI. A maioria das plataformas (Zenvia, Tactium, 3CX, RingCentral, Dialpad) expõe exportação em massa ou entrega por webhook, ambas compatíveis com a ingestão de workspace da Atter AI. Uma central de atendimento empresarial típica processando mais de 1.000 horas de gravações por mês por agente se beneficia da integração via API em vez de upload manual.