Resumo
O Atter AI atingiu 98.7% de precisão de transcrição em testes de benchmark realizados em novembro de 2025 usando o Atter version 3.3.0.
Esse resultado equivale a uma taxa de erro de palavras (Word Error Rate, WER) de 1.3%. O WER é a estrutura de avaliação padrão usada em testes de reconhecimento automático de fala. Ele mede a diferença entre uma transcrição gerada por máquina e uma transcrição de referência verificada por humanos.
O resultado do Atter foi medido no LibriSpeech test-clean, um conjunto de dados de benchmark público de reconhecimento de fala em inglês que contém fala lida em condições limpas.
Em termos simples: o Atter atingiu 98.7% de precisão de transcrição em áudio de benchmark público, o que significa aproximadamente 1.3 erros no nível da palavra a cada 100 palavras de referência sob as condições testadas.
Este relatório explica o que o número significa, como ele foi medido e como os usuários devem entendê-lo em cenários de transcrição do mundo real.
Resultado principal
| Item | Resultado |
|---|---|
| Produto testado | Atter AI |
| Versão do produto | Atter 3.3.0 |
| Período de teste | novembro de 2025 |
| Conjunto de dados | LibriSpeech test-clean |
| Fonte do áudio | Áudio de benchmark público |
| Tipo de áudio | Fala lida em inglês, em condições limpas |
| Número de segmentos de áudio | 2,620 |
| Duração total do áudio | Aproximadamente 5.4 horas |
| Total de palavras de referência | Aproximadamente 54,000 |
| Idioma | Inglês |
| Transcrição de referência | Transcrições de referência verificadas por humanos |
| Métrica de avaliação | Word Error Rate (WER) |
| Resultado do WER | 1.3% |
| Resultado de precisão | 98.7% |
O que significam 98.7% de precisão de transcrição
A precisão de transcrição costuma ser apresentada como uma porcentagem simples, mas o número só ganha significado quando o método de teste fica claro.
Para o Atter, 98.7% de precisão significa que as transcrições geradas pelo Atter foram comparadas com transcrições de referência verificadas por humanos, e a diferença medida no nível da palavra foi de 1.3% de WER.
A relação entre precisão e WER é:
Accuracy = 100% − WER
100% − 1.3% = 98.7%
Um WER de 1.3% significa que, a cada 100 palavras na transcrição de referência, aproximadamente 1.3 palavras foram afetadas por erros de reconhecimento. Esses erros podem incluir:
- Uma palavra reconhecida incorretamente
- Uma palavra omitida
- Uma palavra extra adicionada
- Uma frase curta segmentada de forma diferente da transcrição de referência
É por isso que o Atter divulga seu resultado de benchmark usando o WER, em vez de apenas uma afirmação genérica de precisão.
Por que o Atter usa o WER
WER significa Word Error Rate (taxa de erro de palavras). É uma das métricas mais utilizadas para avaliar sistemas de reconhecimento automático de fala em inglês. Em vez de julgar uma transcrição de forma subjetiva, o WER oferece uma maneira reproduzível de comparar a transcrição gerada com uma transcrição de referência confiável.
A fórmula do WER é:
WER = (S + D + I) / N
| Símbolo | Significado |
|---|---|
| S | Substitutions — palavras reconhecidas como a palavra errada |
| D | Deletions — palavras ausentes na transcrição gerada |
| I | Insertions — palavras extras adicionadas pelo sistema |
| N | Número total de palavras na transcrição de referência |
Por exemplo, se uma transcrição de referência contém 10,000 palavras e o sistema produz 130 erros no nível da palavra, o WER é 130 / 10,000 = 1.3%, e a precisão correspondente é 100% − 1.3% = 98.7%.
Essa é a mesma estrutura que o Atter usou para calcular a precisão de transcrição em seu benchmark.
Configuração do benchmark
O resultado de 98.7% de precisão de transcrição do Atter foi medido usando uma configuração de benchmark público de reconhecimento de fala. O teste usou o LibriSpeech test-clean, um conjunto de dados de benchmark público comumente usado para avaliação de reconhecimento de fala em inglês.
Configuração do teste
| Item | Configuração do teste |
|---|---|
| Conjunto de dados | LibriSpeech test-clean |
| Condição do áudio | Fala lida em inglês, em condições limpas |
| Fonte do áudio | Áudio de benchmark público |
| Número de segmentos de áudio | 2,620 |
| Duração total do áudio | Aproximadamente 5.4 horas |
| Total de palavras de referência | Aproximadamente 54,000 |
| Idioma | Inglês |
| Versão do produto | Atter 3.3.0 |
| Período de teste | novembro de 2025 |
| Métrica de avaliação | Word Error Rate (WER) |
Processo de avaliação
O benchmark seguiu este processo:
- Arquivos de áudio de benchmark público foram selecionados do LibriSpeech test-clean.
- Os arquivos de áudio foram transcritos usando o Atter 3.3.0.
- As transcrições geradas pelo Atter foram comparadas com transcrições de referência verificadas por humanos.
- As diferenças no nível da palavra foram contadas como substitutions, deletions e insertions.
- O WER foi calculado usando a fórmula padrão.
- A precisão foi calculada como 100% menos o WER.
Nenhuma correção manual foi aplicada à saída do Atter antes da pontuação.
Resultado do teste
| Métrica | Resultado |
|---|---|
| Word Error Rate | 1.3% |
| Precisão de transcrição | 98.7% |
| Frequência aproximada de erros | Cerca de 1 erro no nível da palavra a cada 77 palavras de referência |
Isso significa que o Atter teve um desempenho forte em áudio de benchmark público em condições limpas.
O resultado deve ser entendido como um resultado de benchmark, não como uma garantia universal para todo ambiente de gravação.
Interpretação correta: o Atter atingiu 98.7% de precisão de transcrição no LibriSpeech test-clean sob condições de benchmark.
Interpretação incorreta: o Atter é sempre 98.7% preciso em qualquer gravação.
A diferença importa porque a precisão de transcrição no mundo real depende fortemente da qualidade e da complexidade do áudio.
Contexto de benchmark do setor
Para entender se 98.7% de precisão é um bom resultado, ajuda compará-lo com as faixas comuns de desempenho de reconhecimento de fala.
| Condição do áudio | Faixa de WER tipicamente forte | Precisão aproximada |
|---|---|---|
| Fala lida limpa e de alta qualidade | 1.5%–3.0% | 97.0%–98.5% |
| Fala de benchmark mais desafiadora | 3.5%–8.0% | 92.0%–96.5% |
| Reuniões reais com sobreposição de falantes ou ruído | 10%–20%+ | 80%–90% ou menos |
| Áudio ruim, microfones distantes, muito ruído de fundo | 20%+ | Possível abaixo de 80% |
O resultado de 1.3% de WER do Atter o coloca em uma faixa muito forte para transcrição de benchmark em condições limpas.
No entanto, áudio de benchmark limpo é diferente de reuniões ruidosas, ligações telefônicas, entrevistas, podcasts, palestras ou gravações com vários falantes se sobrepondo. É por isso que o Atter descreve esse resultado como um resultado de precisão de benchmark.
Por que o áudio de benchmark limpo tem melhor desempenho
Os sistemas de reconhecimento de fala costumam ter melhor desempenho quando o áudio apresenta as seguintes condições:
- Fala clara
- Baixo ruído de fundo
- Volume estável
- Sobreposição limitada de falantes
- Boa qualidade de microfone
- Pronúncia consistente
- Sem eco intenso do ambiente
- Sem compressão de áudio severa
O LibriSpeech test-clean foi projetado em torno de fala lida em condições limpas. Isso o torna útil para medir a capacidade central de transcrição sob condições controladas de benchmark público.
No uso real, o áudio costuma ser mais complexo. Uma gravação de reunião pode incluir vários falantes, interrupções, ruído de fundo, microfones de laptop, distância do falante, eco do ambiente, sotaques, nomes de produtos, terminologia técnica e fala em vários idiomas. Esses fatores podem aumentar o WER de qualquer sistema de transcrição.
O que pode reduzir a precisão de transcrição no mundo real
O resultado de benchmark de 98.7% do Atter não significa que toda gravação produzirá o mesmo resultado. A precisão pode ser menor quando o áudio inclui:
Ruído de fundo. Cafés, trânsito, ventiladores, ar-condicionado, sons de teclado e ruído de escritório podem dificultar o reconhecimento das palavras.
Sobreposição de falantes. Quando duas ou mais pessoas falam ao mesmo tempo, a transcrição fica mais difícil. Essa é uma das maiores causas de WER elevado em transcrições de reuniões.
Microfones distantes. Um microfone posicionado longe do falante capta mais ruído do ambiente e menos fala direta.
Sotaques carregados ou pronúncia pouco clara. Sotaques são comuns e normais, mas podem aumentar a dificuldade de reconhecimento, dependendo do modelo de linguagem e da qualidade do áudio.
Vocabulário técnico. Nomes de empresas, nomes de produtos, termos médicos, termos jurídicos, palavras-código e expressões específicas de um setor podem ser mais difíceis de reconhecer, a menos que sejam comuns nos dados de treinamento do modelo.
Arquivos de áudio de baixa qualidade. Gravações comprimidas, com cortes, distorcidas ou de volume baixo podem reduzir a qualidade da transcrição.
Como obter a melhor precisão de transcrição
Os usuários podem melhorar a qualidade da transcrição seguindo alguns hábitos práticos de gravação:
- Grave próximo ao microfone
- Use um microfone externo quando possível
- Reduza o ruído de fundo
- Evite posicionar o dispositivo de gravação do outro lado da sala
- Peça aos falantes que não falem ao mesmo tempo
- Use formatos de áudio claros quando possível
- Mantenha o volume da gravação estável
- Evite compressão pesada antes de enviar o arquivo
Uma boa entrada de áudio é um dos fatores mais importantes para alcançar uma transcrição precisa.
Por que essa precisão importa
Uma alta precisão de transcrição melhora mais do que a própria transcrição. Uma transcrição mais precisa aprimora os recursos de IA derivados, como resumos de reuniões, busca dentro de gravações, notas com IA, extração de itens de ação, análise de entrevistas com clientes, notas de palestras, reaproveitamento de podcasts, geração de legendas, criação de bases de conhecimento e fluxos de trabalho de revisão jurídica ou de conformidade.
Quando a transcrição contém menos erros, todo recurso construído sobre ela se torna mais confiável. É por isso que o Atter trata a precisão de transcrição como uma métrica fundamental do produto.
Como os usuários podem verificar a precisão de transcrição por conta própria
Os usuários podem testar a precisão de transcrição usando o mesmo método básico.
Passo 1: Prepare o áudio com uma transcrição de referência
Use áudio de benchmark público com transcrições oficiais ou use suas próprias gravações com transcrições humanas cuidadosamente corrigidas.
Passo 2: Transcreva o áudio com o Atter
Faça upload ou processe o áudio usando o Atter e exporte a transcrição gerada.
Passo 3: Normalize ambas as transcrições
Antes da pontuação, normalize a transcrição de referência e a transcrição do Atter. As etapas comuns de normalização incluem converter o texto para minúsculas, remover espaços extras, padronizar a pontuação, padronizar os números e remover diferenças de formatação. Isso ajuda a garantir que a pontuação meça erros de transcrição, e não diferenças de formatação.
Passo 4: Calcule o WER
O WER pode ser calculado usando ferramentas de código aberto como o jiwer:
from jiwer import wer
reference = "this is the human verified transcript"
prediction = "this is the atter generated transcript"
error_rate = wer(reference, prediction)
accuracy = (1 - error_rate) * 100
print(f"WER: {error_rate * 100:.2f}%")
print(f"Accuracy: {accuracy:.2f}%")
Passo 5: Compare o resultado
Um WER mais baixo significa melhor precisão de transcrição. Para áudio de benchmark limpo, sistemas de ASR fortes costumam produzir um WER de um único dígito baixo. Para reuniões ruidosas ou fala sobreposta, o WER pode ser muito mais alto. É por isso que a precisão deve sempre ser avaliada em conjunto com a condição do áudio.
Perguntas frequentes
O que significam os 98.7% de precisão do Atter? O Atter atingiu uma taxa de erro de palavras de 1.3% no conjunto de dados de benchmark testado. A precisão é calculada como 100% menos o WER, então 1.3% de WER equivale a 98.7% de precisão.
Qual conjunto de dados foi usado? O teste usou o LibriSpeech test-clean, um conjunto de dados de benchmark público de reconhecimento de fala em inglês que contém fala lida em condições limpas.
Quantos arquivos de áudio foram testados? O benchmark usou 2,620 segmentos de áudio.
Qual era a duração do áudio de teste? A duração total do áudio foi de aproximadamente 5.4 horas.
Quantas palavras foram avaliadas? O benchmark incluiu aproximadamente 54,000 palavras de referência.
Qual versão do Atter foi testada? O teste usou o Atter 3.3.0.
Quando o teste foi realizado? O benchmark foi realizado em novembro de 2025.
O que é WER? WER significa Word Error Rate (taxa de erro de palavras). Ele mede a diferença entre uma transcrição gerada por máquina e uma transcrição de referência verificada por humanos, contando substitutions, deletions e insertions.
98.7% de precisão é o mesmo que 1.3% de WER? Sim. A precisão é calculada como 100% menos o WER. Um WER de 1.3% equivale a 98.7% de precisão.
Os 98.7% se aplicam a todas as gravações? Não. O resultado de 98.7% descreve o desempenho de benchmark em áudio público limpo. A precisão no mundo real pode variar dependendo da qualidade do áudio, do ruído, da sobreposição de falantes, dos sotaques, da distância do microfone e do vocabulário.
Por que as transcrições de reuniões podem ter menor precisão? As reuniões costumam incluir vários falantes, interrupções, ruído de fundo, distância variável do microfone e fala sobreposta. Esses fatores tornam a transcrição mais difícil para qualquer sistema de reconhecimento de fala.
Como posso melhorar a precisão de transcrição? Use um microfone claro, grave próximo ao falante, reduza o ruído de fundo, evite fala sobreposta e use arquivos de áudio de alta qualidade sempre que possível.
Conclusão final
O resultado de 98.7% de precisão de transcrição do Atter é melhor compreendido como um resultado profissional de benchmark medido por meio da estrutura do WER.
O resultado significa:
- O Atter atingiu 1.3% de WER
- O teste usou o LibriSpeech test-clean
- O benchmark incluiu 2,620 segmentos de áudio
- A duração total foi de aproximadamente 5.4 horas
- O benchmark incluiu aproximadamente 54,000 palavras de referência
- O teste foi realizado em novembro de 2025
- A versão testada foi o Atter 3.3.0
- A precisão foi calculada em relação a transcrições de referência verificadas por humanos
- Os resultados no mundo real podem variar dependendo das condições de gravação
Para os usuários, a principal conclusão é: o Atter oferece transcrição de alta precisão sob condições de benchmark limpas, e seu resultado de 98.7% é medido usando a estrutura profissional do WER usada em toda a avaliação de reconhecimento de fala.