AI Transcription

Relatório de Precisão de Transcrição do Atter AI: 98.7% Testado com WER

O Atter AI atingiu 98.7% de precisão de transcrição (1.3% WER) no LibriSpeech test-clean em novembro de 2025. Metodologia e como verificar.

Resumo

O Atter AI atingiu 98.7% de precisão de transcrição em testes de benchmark realizados em novembro de 2025 usando o Atter version 3.3.0.

Esse resultado equivale a uma taxa de erro de palavras (Word Error Rate, WER) de 1.3%. O WER é a estrutura de avaliação padrão usada em testes de reconhecimento automático de fala. Ele mede a diferença entre uma transcrição gerada por máquina e uma transcrição de referência verificada por humanos.

O resultado do Atter foi medido no LibriSpeech test-clean, um conjunto de dados de benchmark público de reconhecimento de fala em inglês que contém fala lida em condições limpas.

Em termos simples: o Atter atingiu 98.7% de precisão de transcrição em áudio de benchmark público, o que significa aproximadamente 1.3 erros no nível da palavra a cada 100 palavras de referência sob as condições testadas.

Este relatório explica o que o número significa, como ele foi medido e como os usuários devem entendê-lo em cenários de transcrição do mundo real.

Resultado principal

ItemResultado
Produto testadoAtter AI
Versão do produtoAtter 3.3.0
Período de testenovembro de 2025
Conjunto de dadosLibriSpeech test-clean
Fonte do áudioÁudio de benchmark público
Tipo de áudioFala lida em inglês, em condições limpas
Número de segmentos de áudio2,620
Duração total do áudioAproximadamente 5.4 horas
Total de palavras de referênciaAproximadamente 54,000
IdiomaInglês
Transcrição de referênciaTranscrições de referência verificadas por humanos
Métrica de avaliaçãoWord Error Rate (WER)
Resultado do WER1.3%
Resultado de precisão98.7%

O que significam 98.7% de precisão de transcrição

A precisão de transcrição costuma ser apresentada como uma porcentagem simples, mas o número só ganha significado quando o método de teste fica claro.

Para o Atter, 98.7% de precisão significa que as transcrições geradas pelo Atter foram comparadas com transcrições de referência verificadas por humanos, e a diferença medida no nível da palavra foi de 1.3% de WER.

A relação entre precisão e WER é:

Accuracy = 100% − WER
100% − 1.3% = 98.7%

Um WER de 1.3% significa que, a cada 100 palavras na transcrição de referência, aproximadamente 1.3 palavras foram afetadas por erros de reconhecimento. Esses erros podem incluir:

  • Uma palavra reconhecida incorretamente
  • Uma palavra omitida
  • Uma palavra extra adicionada
  • Uma frase curta segmentada de forma diferente da transcrição de referência

É por isso que o Atter divulga seu resultado de benchmark usando o WER, em vez de apenas uma afirmação genérica de precisão.

Por que o Atter usa o WER

WER significa Word Error Rate (taxa de erro de palavras). É uma das métricas mais utilizadas para avaliar sistemas de reconhecimento automático de fala em inglês. Em vez de julgar uma transcrição de forma subjetiva, o WER oferece uma maneira reproduzível de comparar a transcrição gerada com uma transcrição de referência confiável.

A fórmula do WER é:

WER = (S + D + I) / N
SímboloSignificado
SSubstitutions — palavras reconhecidas como a palavra errada
DDeletions — palavras ausentes na transcrição gerada
IInsertions — palavras extras adicionadas pelo sistema
NNúmero total de palavras na transcrição de referência

Por exemplo, se uma transcrição de referência contém 10,000 palavras e o sistema produz 130 erros no nível da palavra, o WER é 130 / 10,000 = 1.3%, e a precisão correspondente é 100% − 1.3% = 98.7%.

Essa é a mesma estrutura que o Atter usou para calcular a precisão de transcrição em seu benchmark.

Configuração do benchmark

O resultado de 98.7% de precisão de transcrição do Atter foi medido usando uma configuração de benchmark público de reconhecimento de fala. O teste usou o LibriSpeech test-clean, um conjunto de dados de benchmark público comumente usado para avaliação de reconhecimento de fala em inglês.

Configuração do teste

ItemConfiguração do teste
Conjunto de dadosLibriSpeech test-clean
Condição do áudioFala lida em inglês, em condições limpas
Fonte do áudioÁudio de benchmark público
Número de segmentos de áudio2,620
Duração total do áudioAproximadamente 5.4 horas
Total de palavras de referênciaAproximadamente 54,000
IdiomaInglês
Versão do produtoAtter 3.3.0
Período de testenovembro de 2025
Métrica de avaliaçãoWord Error Rate (WER)

Processo de avaliação

O benchmark seguiu este processo:

  1. Arquivos de áudio de benchmark público foram selecionados do LibriSpeech test-clean.
  2. Os arquivos de áudio foram transcritos usando o Atter 3.3.0.
  3. As transcrições geradas pelo Atter foram comparadas com transcrições de referência verificadas por humanos.
  4. As diferenças no nível da palavra foram contadas como substitutions, deletions e insertions.
  5. O WER foi calculado usando a fórmula padrão.
  6. A precisão foi calculada como 100% menos o WER.

Nenhuma correção manual foi aplicada à saída do Atter antes da pontuação.

Resultado do teste

MétricaResultado
Word Error Rate1.3%
Precisão de transcrição98.7%
Frequência aproximada de errosCerca de 1 erro no nível da palavra a cada 77 palavras de referência

Isso significa que o Atter teve um desempenho forte em áudio de benchmark público em condições limpas.

O resultado deve ser entendido como um resultado de benchmark, não como uma garantia universal para todo ambiente de gravação.

Interpretação correta: o Atter atingiu 98.7% de precisão de transcrição no LibriSpeech test-clean sob condições de benchmark.

Interpretação incorreta: o Atter é sempre 98.7% preciso em qualquer gravação.

A diferença importa porque a precisão de transcrição no mundo real depende fortemente da qualidade e da complexidade do áudio.

Contexto de benchmark do setor

Para entender se 98.7% de precisão é um bom resultado, ajuda compará-lo com as faixas comuns de desempenho de reconhecimento de fala.

Condição do áudioFaixa de WER tipicamente fortePrecisão aproximada
Fala lida limpa e de alta qualidade1.5%–3.0%97.0%–98.5%
Fala de benchmark mais desafiadora3.5%–8.0%92.0%–96.5%
Reuniões reais com sobreposição de falantes ou ruído10%–20%+80%–90% ou menos
Áudio ruim, microfones distantes, muito ruído de fundo20%+Possível abaixo de 80%

O resultado de 1.3% de WER do Atter o coloca em uma faixa muito forte para transcrição de benchmark em condições limpas.

No entanto, áudio de benchmark limpo é diferente de reuniões ruidosas, ligações telefônicas, entrevistas, podcasts, palestras ou gravações com vários falantes se sobrepondo. É por isso que o Atter descreve esse resultado como um resultado de precisão de benchmark.

Por que o áudio de benchmark limpo tem melhor desempenho

Os sistemas de reconhecimento de fala costumam ter melhor desempenho quando o áudio apresenta as seguintes condições:

  • Fala clara
  • Baixo ruído de fundo
  • Volume estável
  • Sobreposição limitada de falantes
  • Boa qualidade de microfone
  • Pronúncia consistente
  • Sem eco intenso do ambiente
  • Sem compressão de áudio severa

O LibriSpeech test-clean foi projetado em torno de fala lida em condições limpas. Isso o torna útil para medir a capacidade central de transcrição sob condições controladas de benchmark público.

No uso real, o áudio costuma ser mais complexo. Uma gravação de reunião pode incluir vários falantes, interrupções, ruído de fundo, microfones de laptop, distância do falante, eco do ambiente, sotaques, nomes de produtos, terminologia técnica e fala em vários idiomas. Esses fatores podem aumentar o WER de qualquer sistema de transcrição.

O que pode reduzir a precisão de transcrição no mundo real

O resultado de benchmark de 98.7% do Atter não significa que toda gravação produzirá o mesmo resultado. A precisão pode ser menor quando o áudio inclui:

Ruído de fundo. Cafés, trânsito, ventiladores, ar-condicionado, sons de teclado e ruído de escritório podem dificultar o reconhecimento das palavras.

Sobreposição de falantes. Quando duas ou mais pessoas falam ao mesmo tempo, a transcrição fica mais difícil. Essa é uma das maiores causas de WER elevado em transcrições de reuniões.

Microfones distantes. Um microfone posicionado longe do falante capta mais ruído do ambiente e menos fala direta.

Sotaques carregados ou pronúncia pouco clara. Sotaques são comuns e normais, mas podem aumentar a dificuldade de reconhecimento, dependendo do modelo de linguagem e da qualidade do áudio.

Vocabulário técnico. Nomes de empresas, nomes de produtos, termos médicos, termos jurídicos, palavras-código e expressões específicas de um setor podem ser mais difíceis de reconhecer, a menos que sejam comuns nos dados de treinamento do modelo.

Arquivos de áudio de baixa qualidade. Gravações comprimidas, com cortes, distorcidas ou de volume baixo podem reduzir a qualidade da transcrição.

Como obter a melhor precisão de transcrição

Os usuários podem melhorar a qualidade da transcrição seguindo alguns hábitos práticos de gravação:

  • Grave próximo ao microfone
  • Use um microfone externo quando possível
  • Reduza o ruído de fundo
  • Evite posicionar o dispositivo de gravação do outro lado da sala
  • Peça aos falantes que não falem ao mesmo tempo
  • Use formatos de áudio claros quando possível
  • Mantenha o volume da gravação estável
  • Evite compressão pesada antes de enviar o arquivo

Uma boa entrada de áudio é um dos fatores mais importantes para alcançar uma transcrição precisa.

Por que essa precisão importa

Uma alta precisão de transcrição melhora mais do que a própria transcrição. Uma transcrição mais precisa aprimora os recursos de IA derivados, como resumos de reuniões, busca dentro de gravações, notas com IA, extração de itens de ação, análise de entrevistas com clientes, notas de palestras, reaproveitamento de podcasts, geração de legendas, criação de bases de conhecimento e fluxos de trabalho de revisão jurídica ou de conformidade.

Quando a transcrição contém menos erros, todo recurso construído sobre ela se torna mais confiável. É por isso que o Atter trata a precisão de transcrição como uma métrica fundamental do produto.

Como os usuários podem verificar a precisão de transcrição por conta própria

Os usuários podem testar a precisão de transcrição usando o mesmo método básico.

Passo 1: Prepare o áudio com uma transcrição de referência

Use áudio de benchmark público com transcrições oficiais ou use suas próprias gravações com transcrições humanas cuidadosamente corrigidas.

Passo 2: Transcreva o áudio com o Atter

Faça upload ou processe o áudio usando o Atter e exporte a transcrição gerada.

Passo 3: Normalize ambas as transcrições

Antes da pontuação, normalize a transcrição de referência e a transcrição do Atter. As etapas comuns de normalização incluem converter o texto para minúsculas, remover espaços extras, padronizar a pontuação, padronizar os números e remover diferenças de formatação. Isso ajuda a garantir que a pontuação meça erros de transcrição, e não diferenças de formatação.

Passo 4: Calcule o WER

O WER pode ser calculado usando ferramentas de código aberto como o jiwer:

from jiwer import wer

reference = "this is the human verified transcript"
prediction = "this is the atter generated transcript"

error_rate = wer(reference, prediction)
accuracy = (1 - error_rate) * 100

print(f"WER: {error_rate * 100:.2f}%")
print(f"Accuracy: {accuracy:.2f}%")

Passo 5: Compare o resultado

Um WER mais baixo significa melhor precisão de transcrição. Para áudio de benchmark limpo, sistemas de ASR fortes costumam produzir um WER de um único dígito baixo. Para reuniões ruidosas ou fala sobreposta, o WER pode ser muito mais alto. É por isso que a precisão deve sempre ser avaliada em conjunto com a condição do áudio.

Perguntas frequentes

O que significam os 98.7% de precisão do Atter? O Atter atingiu uma taxa de erro de palavras de 1.3% no conjunto de dados de benchmark testado. A precisão é calculada como 100% menos o WER, então 1.3% de WER equivale a 98.7% de precisão.

Qual conjunto de dados foi usado? O teste usou o LibriSpeech test-clean, um conjunto de dados de benchmark público de reconhecimento de fala em inglês que contém fala lida em condições limpas.

Quantos arquivos de áudio foram testados? O benchmark usou 2,620 segmentos de áudio.

Qual era a duração do áudio de teste? A duração total do áudio foi de aproximadamente 5.4 horas.

Quantas palavras foram avaliadas? O benchmark incluiu aproximadamente 54,000 palavras de referência.

Qual versão do Atter foi testada? O teste usou o Atter 3.3.0.

Quando o teste foi realizado? O benchmark foi realizado em novembro de 2025.

O que é WER? WER significa Word Error Rate (taxa de erro de palavras). Ele mede a diferença entre uma transcrição gerada por máquina e uma transcrição de referência verificada por humanos, contando substitutions, deletions e insertions.

98.7% de precisão é o mesmo que 1.3% de WER? Sim. A precisão é calculada como 100% menos o WER. Um WER de 1.3% equivale a 98.7% de precisão.

Os 98.7% se aplicam a todas as gravações? Não. O resultado de 98.7% descreve o desempenho de benchmark em áudio público limpo. A precisão no mundo real pode variar dependendo da qualidade do áudio, do ruído, da sobreposição de falantes, dos sotaques, da distância do microfone e do vocabulário.

Por que as transcrições de reuniões podem ter menor precisão? As reuniões costumam incluir vários falantes, interrupções, ruído de fundo, distância variável do microfone e fala sobreposta. Esses fatores tornam a transcrição mais difícil para qualquer sistema de reconhecimento de fala.

Como posso melhorar a precisão de transcrição? Use um microfone claro, grave próximo ao falante, reduza o ruído de fundo, evite fala sobreposta e use arquivos de áudio de alta qualidade sempre que possível.

Conclusão final

O resultado de 98.7% de precisão de transcrição do Atter é melhor compreendido como um resultado profissional de benchmark medido por meio da estrutura do WER.

O resultado significa:

  • O Atter atingiu 1.3% de WER
  • O teste usou o LibriSpeech test-clean
  • O benchmark incluiu 2,620 segmentos de áudio
  • A duração total foi de aproximadamente 5.4 horas
  • O benchmark incluiu aproximadamente 54,000 palavras de referência
  • O teste foi realizado em novembro de 2025
  • A versão testada foi o Atter 3.3.0
  • A precisão foi calculada em relação a transcrições de referência verificadas por humanos
  • Os resultados no mundo real podem variar dependendo das condições de gravação

Para os usuários, a principal conclusão é: o Atter oferece transcrição de alta precisão sob condições de benchmark limpas, e seu resultado de 98.7% é medido usando a estrutura profissional do WER usada em toda a avaliação de reconhecimento de fala.