AI Transcription

Rapport de précision de transcription Atter AI : 98,7 % mesuré avec le WER

Atter AI atteint 98,7 % de précision de transcription (1,3 % de WER) sur LibriSpeech test-clean en novembre 2025. Méthodologie et vérification incluses.

Synthèse

Atter AI a atteint 98,7 % de précision de transcription lors de tests de benchmark menés en novembre 2025 avec Atter version 3.3.0.

Ce résultat équivaut à un taux d’erreur sur les mots (WER) de 1,3 %. Le WER est le cadre d’évaluation standard utilisé dans les tests de reconnaissance vocale automatique. Il mesure l’écart entre une transcription générée par machine et une transcription de référence vérifiée par un humain.

Le résultat d’Atter a été mesuré sur LibriSpeech test-clean, un jeu de données public de benchmark de reconnaissance vocale en anglais contenant de la parole lue dans des conditions claires.

En termes simples : Atter a atteint 98,7 % de précision de transcription sur de l’audio de benchmark public, ce qui correspond à environ 1,3 erreur au niveau du mot pour 100 mots de référence dans les conditions testées.

Ce rapport explique ce que signifie ce chiffre, comment il a été mesuré et comment les utilisateurs doivent l’interpréter dans des scénarios de transcription réels.

Résultat clé

ÉlémentRésultat
Produit testéAtter AI
Version du produitAtter 3.3.0
Période de testnovembre 2025
Jeu de donnéesLibriSpeech test-clean
Source audioAudio de benchmark public
Type d’audioParole lue claire en anglais
Nombre de segments audio2,620
Durée totale de l’audioEnviron 5.4 heures
Total de mots de référenceEnviron 54,000
LangueAnglais
Transcription de référenceTranscriptions de référence vérifiées par un humain
Métrique d’évaluationTaux d’erreur sur les mots (WER)
Résultat WER1,3 %
Résultat de précision98,7 %

Ce que signifie 98,7 % de précision de transcription

La précision de transcription est souvent présentée sous forme d’un simple pourcentage, mais ce chiffre ne devient significatif que lorsque la méthode de test est clairement définie.

Pour Atter, 98,7 % de précision signifie que les transcriptions générées par Atter ont été comparées à des transcriptions de référence vérifiées par un humain, et que l’écart mesuré au niveau du mot était de 1,3 % de WER.

La relation entre la précision et le WER est la suivante :

Accuracy = 100% − WER
100% − 1.3% = 98.7%

Un WER de 1,3 % signifie que, pour 100 mots de la transcription de référence, environ 1,3 mot a été affecté par des erreurs de reconnaissance. Ces erreurs peuvent inclure :

  • Un mot reconnu de manière incorrecte
  • Un mot manquant
  • Un mot supplémentaire ajouté
  • Une courte expression segmentée différemment de la transcription de référence

C’est pourquoi Atter communique son résultat de benchmark à l’aide du WER plutôt que de se limiter à une affirmation générale de précision.

Pourquoi Atter utilise le WER

WER signifie Word Error Rate (taux d’erreur sur les mots). C’est l’une des métriques les plus largement utilisées pour évaluer les systèmes de reconnaissance vocale automatique en anglais. Au lieu de juger une transcription de façon subjective, le WER offre une méthode reproductible pour comparer la transcription générée à une transcription de référence fiable.

La formule du WER est :

WER = (S + D + I) / N
SymboleSignification
SSubstitutions — mots reconnus comme un mot erroné
DSuppressions — mots absents de la transcription générée
IInsertions — mots supplémentaires ajoutés par le système
NNombre total de mots dans la transcription de référence

Par exemple, si une transcription de référence contient 10 000 mots et que le système produit 130 erreurs au niveau du mot, le WER est 130 / 10,000 = 1.3%, et la précision correspondante est 100% − 1.3% = 98.7%.

C’est le même cadre qu’Atter a utilisé pour calculer la précision de transcription de son benchmark.

Configuration du benchmark

Le résultat de 98,7 % de précision de transcription d’Atter a été mesuré à l’aide d’une configuration de benchmark public de reconnaissance vocale. Le test a utilisé LibriSpeech test-clean, un jeu de données public de benchmark couramment utilisé pour l’évaluation de la reconnaissance vocale en anglais.

Configuration du test

ÉlémentConfiguration du test
Jeu de donnéesLibriSpeech test-clean
Condition audioParole lue claire en anglais
Source audioAudio de benchmark public
Nombre de segments audio2,620
Durée totale de l’audioEnviron 5.4 heures
Total de mots de référenceEnviron 54,000
LangueAnglais
Version du produitAtter 3.3.0
Période de testnovembre 2025
Métrique d’évaluationTaux d’erreur sur les mots (WER)

Processus d’évaluation

Le benchmark a suivi ce processus :

  1. Des fichiers audio de benchmark public ont été sélectionnés dans LibriSpeech test-clean.
  2. Les fichiers audio ont été transcrits à l’aide d’Atter 3.3.0.
  3. Les transcriptions générées par Atter ont été comparées aux transcriptions de référence vérifiées par un humain.
  4. Les écarts au niveau du mot ont été comptabilisés sous forme de substitutions, suppressions et insertions.
  5. Le WER a été calculé à l’aide de la formule standard.
  6. La précision a été calculée comme 100 % moins le WER.

Aucune correction manuelle n’a été appliquée à la sortie d’Atter avant l’évaluation.

Résultat du test

MétriqueRésultat
Taux d’erreur sur les mots1,3 %
Précision de transcription98,7 %
Fréquence d’erreur approximativeEnviron 1 erreur au niveau du mot pour 77 mots de référence

Cela signifie qu’Atter a obtenu d’excellentes performances sur de l’audio de benchmark public clair.

Ce résultat doit être compris comme un résultat de benchmark, et non comme une garantie universelle pour tout environnement d’enregistrement.

Interprétation correcte : Atter a atteint 98,7 % de précision de transcription sur LibriSpeech test-clean dans des conditions de benchmark.

Interprétation incorrecte : Atter est toujours précis à 98,7 % sur tous les enregistrements.

La différence est importante, car la précision de transcription en conditions réelles dépend fortement de la qualité et de la complexité de l’audio.

Mise en contexte par rapport aux benchmarks du secteur

Pour comprendre si 98,7 % de précision constitue un bon résultat, il est utile de le comparer aux plages de performance courantes en reconnaissance vocale.

Condition audioPlage de WER typique d’un bon systèmePrécision approximative
Parole lue claire et de haute qualité1,5 %–3,0 %97,0 %–98,5 %
Parole de benchmark plus difficile3,5 %–8,0 %92,0 %–96,5 %
Réunions réelles avec chevauchement de locuteurs ou bruit10 %–20 %+80 %–90 % ou moins
Audio de mauvaise qualité, micros distants, fort bruit de fond20 %+Possiblement en dessous de 80 %

Le résultat de 1,3 % de WER d’Atter le place dans une plage très solide pour la transcription de benchmark sur audio clair.

Cependant, l’audio de benchmark clair est différent des réunions bruyantes, des appels téléphoniques, des entretiens, des podcasts, des cours magistraux ou des enregistrements comportant plusieurs locuteurs parlant en même temps. C’est pourquoi Atter décrit ce résultat comme un résultat de précision de benchmark.

Pourquoi l’audio de benchmark clair donne de meilleurs résultats

Les systèmes de reconnaissance vocale obtiennent généralement leurs meilleures performances lorsque l’audio réunit les conditions suivantes :

  • Parole claire
  • Faible bruit de fond
  • Volume stable
  • Chevauchement de locuteurs limité
  • Bonne qualité de microphone
  • Prononciation régulière
  • Pas de fort écho de pièce
  • Pas de compression audio importante

LibriSpeech test-clean est conçu autour de la parole lue claire. Cela le rend utile pour mesurer la capacité de transcription fondamentale dans des conditions de benchmark public contrôlées.

En usage réel, l’audio est souvent plus complexe. Un enregistrement de réunion peut comporter plusieurs locuteurs, des interruptions, du bruit de fond, des micros d’ordinateur portable, une distance par rapport au locuteur, de l’écho de pièce, des accents, des noms de produits, de la terminologie technique et un discours multilingue. Ces facteurs peuvent augmenter le WER de n’importe quel système de transcription.

Ce qui peut réduire la précision de transcription en conditions réelles

Le résultat de benchmark de 98,7 % d’Atter ne signifie pas que chaque enregistrement produira le même résultat. La précision peut être inférieure lorsque l’audio comprend :

Du bruit de fond. Les cafés, la circulation, les ventilateurs, la climatisation, les bruits de clavier et le bruit de bureau peuvent rendre les mots plus difficiles à reconnaître.

Le chevauchement de locuteurs. Lorsque deux personnes ou plus parlent en même temps, la transcription devient plus difficile. C’est l’une des principales causes d’un WER plus élevé dans les transcriptions de réunions.

Les micros distants. Un microphone placé loin du locuteur capte davantage de bruit de pièce et moins de parole directe.

Les accents prononcés ou une prononciation peu claire. Les accents sont courants et normaux, mais ils peuvent accroître la difficulté de reconnaissance selon le modèle de langue et la qualité de l’audio.

Le vocabulaire technique. Les noms d’entreprises, les noms de produits, les termes médicaux, les termes juridiques, les mots-codes et les expressions propres à un secteur peuvent être plus difficiles à reconnaître à moins d’être fréquents dans les données d’entraînement du modèle.

Les fichiers audio de mauvaise qualité. Les enregistrements compressés, saturés, distordus ou à faible volume peuvent réduire la qualité de transcription.

Comment obtenir la meilleure précision de transcription

Les utilisateurs peuvent améliorer la qualité de transcription en adoptant quelques bonnes pratiques d’enregistrement :

  • Enregistrer près du microphone
  • Utiliser un microphone externe lorsque c’est possible
  • Réduire le bruit de fond
  • Éviter de placer l’appareil d’enregistrement à l’autre bout de la pièce
  • Demander aux locuteurs de ne pas se couper la parole
  • Utiliser des formats audio clairs lorsque c’est possible
  • Maintenir un volume d’enregistrement stable
  • Éviter une compression importante avant l’import

Une bonne entrée audio est l’un des facteurs les plus importants pour obtenir une transcription précise.

Pourquoi cette précision est importante

Une haute précision de transcription améliore bien plus que la transcription elle-même. Une transcription plus précise améliore les fonctionnalités IA en aval telles que les résumés de réunions, la recherche dans les enregistrements, les notes IA, l’extraction de points d’action, l’analyse d’entretiens clients, les notes de cours, le recyclage de podcasts, la génération de sous-titres, la création de bases de connaissances et les workflows de revue juridique ou de conformité.

Lorsque la transcription contient moins d’erreurs, chaque fonctionnalité construite par-dessus la transcription devient plus fiable. C’est pourquoi Atter considère la précision de transcription comme une métrique produit fondamentale.

Comment les utilisateurs peuvent vérifier eux-mêmes la précision de transcription

Les utilisateurs peuvent tester la précision de transcription en suivant la même méthode de base.

Étape 1 : Préparer un audio avec une transcription de référence

Utilisez de l’audio de benchmark public accompagné de transcriptions officielles, ou utilisez vos propres enregistrements avec des transcriptions humaines soigneusement corrigées.

Étape 2 : Transcrire l’audio avec Atter

Importez ou traitez l’audio à l’aide d’Atter et exportez la transcription générée.

Étape 3 : Normaliser les deux transcriptions

Avant l’évaluation, normalisez la transcription de référence et la transcription d’Atter. Les étapes de normalisation courantes incluent la mise en minuscules du texte, la suppression des espaces superflus, l’uniformisation de la ponctuation, l’uniformisation des nombres et la suppression des différences de mise en forme. Cela permet de s’assurer que le score mesure les erreurs de transcription plutôt que les différences de mise en forme.

Étape 4 : Calculer le WER

Le WER peut être calculé à l’aide d’outils open source tels que jiwer :

from jiwer import wer

reference = "this is the human verified transcript"
prediction = "this is the atter generated transcript"

error_rate = wer(reference, prediction)
accuracy = (1 - error_rate) * 100

print(f"WER: {error_rate * 100:.2f}%")
print(f"Accuracy: {accuracy:.2f}%")

Étape 5 : Comparer le résultat

Un WER plus bas signifie une meilleure précision de transcription. Pour de l’audio de benchmark clair, les systèmes de reconnaissance vocale performants produisent souvent un WER à un seul chiffre faible. Pour des réunions bruyantes ou de la parole qui se chevauche, le WER peut être beaucoup plus élevé. C’est pourquoi la précision doit toujours être évaluée conjointement avec la condition audio.

FAQ

Que signifie la précision de 98,7 % d’Atter ? Atter a obtenu un taux d’erreur sur les mots de 1,3 % sur le jeu de données de benchmark testé. La précision se calcule comme 100 % moins le WER, donc 1,3 % de WER équivaut à 98,7 % de précision.

Quel jeu de données a été utilisé ? Le test a utilisé LibriSpeech test-clean, un jeu de données public de benchmark de reconnaissance vocale en anglais contenant de la parole lue claire.

Combien de fichiers audio ont été testés ? Le benchmark a utilisé 2,620 segments audio.

Quelle était la durée de l’audio de test ? La durée totale de l’audio était d’environ 5.4 heures.

Combien de mots ont été évalués ? Le benchmark a inclus environ 54,000 mots de référence.

Quelle version d’Atter a été testée ? Le test a utilisé Atter 3.3.0.

Quand le test a-t-il été réalisé ? Le benchmark a été réalisé en novembre 2025.

Qu’est-ce que le WER ? WER signifie Word Error Rate (taux d’erreur sur les mots). Il mesure l’écart entre une transcription générée par machine et une transcription de référence vérifiée par un humain en comptant les substitutions, suppressions et insertions.

98,7 % de précision équivaut-il à 1,3 % de WER ? Oui. La précision se calcule comme 100 % moins le WER. Un WER de 1,3 % équivaut à 98,7 % de précision.

98,7 % s’applique-t-il à tous les enregistrements ? Non. Le résultat de 98,7 % décrit la performance de benchmark sur de l’audio public clair. La précision réelle peut varier selon la qualité de l’audio, le bruit, le chevauchement de locuteurs, les accents, la distance du microphone et le vocabulaire.

Pourquoi les transcriptions de réunions peuvent-elles avoir une précision inférieure ? Les réunions comportent souvent plusieurs locuteurs, des interruptions, du bruit de fond, une distance de microphone variable et de la parole qui se chevauche. Ces facteurs rendent la transcription plus difficile pour tout système de reconnaissance vocale.

Comment puis-je améliorer la précision de transcription ? Utilisez un microphone clair, enregistrez près du locuteur, réduisez le bruit de fond, évitez la parole qui se chevauche et utilisez des fichiers audio de haute qualité dès que possible.

Conclusion finale

Le résultat de 98,7 % de précision de transcription d’Atter se comprend mieux comme un résultat de benchmark professionnel mesuré à travers le cadre du WER.

Ce résultat signifie :

  • Atter a atteint 1,3 % de WER
  • Le test a utilisé LibriSpeech test-clean
  • Le benchmark a inclus 2,620 segments audio
  • La durée totale était d’environ 5.4 heures
  • Le benchmark a inclus environ 54,000 mots de référence
  • Le test a été réalisé en novembre 2025
  • La version testée était Atter 3.3.0
  • La précision a été calculée par rapport à des transcriptions de référence vérifiées par un humain
  • Les résultats réels peuvent varier selon les conditions d’enregistrement

Pour les utilisateurs, l’enseignement clé est le suivant : Atter offre une transcription de haute précision dans des conditions de benchmark claires, et son résultat de 98,7 % est mesuré à l’aide du cadre professionnel WER utilisé dans l’évaluation de la reconnaissance vocale.