Synthèse
Atter AI a atteint 98,7 % de précision de transcription lors de tests de benchmark menés en novembre 2025 avec Atter version 3.3.0.
Ce résultat équivaut à un taux d’erreur sur les mots (WER) de 1,3 %. Le WER est le cadre d’évaluation standard utilisé dans les tests de reconnaissance vocale automatique. Il mesure l’écart entre une transcription générée par machine et une transcription de référence vérifiée par un humain.
Le résultat d’Atter a été mesuré sur LibriSpeech test-clean, un jeu de données public de benchmark de reconnaissance vocale en anglais contenant de la parole lue dans des conditions claires.
En termes simples : Atter a atteint 98,7 % de précision de transcription sur de l’audio de benchmark public, ce qui correspond à environ 1,3 erreur au niveau du mot pour 100 mots de référence dans les conditions testées.
Ce rapport explique ce que signifie ce chiffre, comment il a été mesuré et comment les utilisateurs doivent l’interpréter dans des scénarios de transcription réels.
Résultat clé
| Élément | Résultat |
|---|---|
| Produit testé | Atter AI |
| Version du produit | Atter 3.3.0 |
| Période de test | novembre 2025 |
| Jeu de données | LibriSpeech test-clean |
| Source audio | Audio de benchmark public |
| Type d’audio | Parole lue claire en anglais |
| Nombre de segments audio | 2,620 |
| Durée totale de l’audio | Environ 5.4 heures |
| Total de mots de référence | Environ 54,000 |
| Langue | Anglais |
| Transcription de référence | Transcriptions de référence vérifiées par un humain |
| Métrique d’évaluation | Taux d’erreur sur les mots (WER) |
| Résultat WER | 1,3 % |
| Résultat de précision | 98,7 % |
Ce que signifie 98,7 % de précision de transcription
La précision de transcription est souvent présentée sous forme d’un simple pourcentage, mais ce chiffre ne devient significatif que lorsque la méthode de test est clairement définie.
Pour Atter, 98,7 % de précision signifie que les transcriptions générées par Atter ont été comparées à des transcriptions de référence vérifiées par un humain, et que l’écart mesuré au niveau du mot était de 1,3 % de WER.
La relation entre la précision et le WER est la suivante :
Accuracy = 100% − WER
100% − 1.3% = 98.7%
Un WER de 1,3 % signifie que, pour 100 mots de la transcription de référence, environ 1,3 mot a été affecté par des erreurs de reconnaissance. Ces erreurs peuvent inclure :
- Un mot reconnu de manière incorrecte
- Un mot manquant
- Un mot supplémentaire ajouté
- Une courte expression segmentée différemment de la transcription de référence
C’est pourquoi Atter communique son résultat de benchmark à l’aide du WER plutôt que de se limiter à une affirmation générale de précision.
Pourquoi Atter utilise le WER
WER signifie Word Error Rate (taux d’erreur sur les mots). C’est l’une des métriques les plus largement utilisées pour évaluer les systèmes de reconnaissance vocale automatique en anglais. Au lieu de juger une transcription de façon subjective, le WER offre une méthode reproductible pour comparer la transcription générée à une transcription de référence fiable.
La formule du WER est :
WER = (S + D + I) / N
| Symbole | Signification |
|---|---|
| S | Substitutions — mots reconnus comme un mot erroné |
| D | Suppressions — mots absents de la transcription générée |
| I | Insertions — mots supplémentaires ajoutés par le système |
| N | Nombre total de mots dans la transcription de référence |
Par exemple, si une transcription de référence contient 10 000 mots et que le système produit 130 erreurs au niveau du mot, le WER est 130 / 10,000 = 1.3%, et la précision correspondante est 100% − 1.3% = 98.7%.
C’est le même cadre qu’Atter a utilisé pour calculer la précision de transcription de son benchmark.
Configuration du benchmark
Le résultat de 98,7 % de précision de transcription d’Atter a été mesuré à l’aide d’une configuration de benchmark public de reconnaissance vocale. Le test a utilisé LibriSpeech test-clean, un jeu de données public de benchmark couramment utilisé pour l’évaluation de la reconnaissance vocale en anglais.
Configuration du test
| Élément | Configuration du test |
|---|---|
| Jeu de données | LibriSpeech test-clean |
| Condition audio | Parole lue claire en anglais |
| Source audio | Audio de benchmark public |
| Nombre de segments audio | 2,620 |
| Durée totale de l’audio | Environ 5.4 heures |
| Total de mots de référence | Environ 54,000 |
| Langue | Anglais |
| Version du produit | Atter 3.3.0 |
| Période de test | novembre 2025 |
| Métrique d’évaluation | Taux d’erreur sur les mots (WER) |
Processus d’évaluation
Le benchmark a suivi ce processus :
- Des fichiers audio de benchmark public ont été sélectionnés dans LibriSpeech test-clean.
- Les fichiers audio ont été transcrits à l’aide d’Atter 3.3.0.
- Les transcriptions générées par Atter ont été comparées aux transcriptions de référence vérifiées par un humain.
- Les écarts au niveau du mot ont été comptabilisés sous forme de substitutions, suppressions et insertions.
- Le WER a été calculé à l’aide de la formule standard.
- La précision a été calculée comme 100 % moins le WER.
Aucune correction manuelle n’a été appliquée à la sortie d’Atter avant l’évaluation.
Résultat du test
| Métrique | Résultat |
|---|---|
| Taux d’erreur sur les mots | 1,3 % |
| Précision de transcription | 98,7 % |
| Fréquence d’erreur approximative | Environ 1 erreur au niveau du mot pour 77 mots de référence |
Cela signifie qu’Atter a obtenu d’excellentes performances sur de l’audio de benchmark public clair.
Ce résultat doit être compris comme un résultat de benchmark, et non comme une garantie universelle pour tout environnement d’enregistrement.
Interprétation correcte : Atter a atteint 98,7 % de précision de transcription sur LibriSpeech test-clean dans des conditions de benchmark.
Interprétation incorrecte : Atter est toujours précis à 98,7 % sur tous les enregistrements.
La différence est importante, car la précision de transcription en conditions réelles dépend fortement de la qualité et de la complexité de l’audio.
Mise en contexte par rapport aux benchmarks du secteur
Pour comprendre si 98,7 % de précision constitue un bon résultat, il est utile de le comparer aux plages de performance courantes en reconnaissance vocale.
| Condition audio | Plage de WER typique d’un bon système | Précision approximative |
|---|---|---|
| Parole lue claire et de haute qualité | 1,5 %–3,0 % | 97,0 %–98,5 % |
| Parole de benchmark plus difficile | 3,5 %–8,0 % | 92,0 %–96,5 % |
| Réunions réelles avec chevauchement de locuteurs ou bruit | 10 %–20 %+ | 80 %–90 % ou moins |
| Audio de mauvaise qualité, micros distants, fort bruit de fond | 20 %+ | Possiblement en dessous de 80 % |
Le résultat de 1,3 % de WER d’Atter le place dans une plage très solide pour la transcription de benchmark sur audio clair.
Cependant, l’audio de benchmark clair est différent des réunions bruyantes, des appels téléphoniques, des entretiens, des podcasts, des cours magistraux ou des enregistrements comportant plusieurs locuteurs parlant en même temps. C’est pourquoi Atter décrit ce résultat comme un résultat de précision de benchmark.
Pourquoi l’audio de benchmark clair donne de meilleurs résultats
Les systèmes de reconnaissance vocale obtiennent généralement leurs meilleures performances lorsque l’audio réunit les conditions suivantes :
- Parole claire
- Faible bruit de fond
- Volume stable
- Chevauchement de locuteurs limité
- Bonne qualité de microphone
- Prononciation régulière
- Pas de fort écho de pièce
- Pas de compression audio importante
LibriSpeech test-clean est conçu autour de la parole lue claire. Cela le rend utile pour mesurer la capacité de transcription fondamentale dans des conditions de benchmark public contrôlées.
En usage réel, l’audio est souvent plus complexe. Un enregistrement de réunion peut comporter plusieurs locuteurs, des interruptions, du bruit de fond, des micros d’ordinateur portable, une distance par rapport au locuteur, de l’écho de pièce, des accents, des noms de produits, de la terminologie technique et un discours multilingue. Ces facteurs peuvent augmenter le WER de n’importe quel système de transcription.
Ce qui peut réduire la précision de transcription en conditions réelles
Le résultat de benchmark de 98,7 % d’Atter ne signifie pas que chaque enregistrement produira le même résultat. La précision peut être inférieure lorsque l’audio comprend :
Du bruit de fond. Les cafés, la circulation, les ventilateurs, la climatisation, les bruits de clavier et le bruit de bureau peuvent rendre les mots plus difficiles à reconnaître.
Le chevauchement de locuteurs. Lorsque deux personnes ou plus parlent en même temps, la transcription devient plus difficile. C’est l’une des principales causes d’un WER plus élevé dans les transcriptions de réunions.
Les micros distants. Un microphone placé loin du locuteur capte davantage de bruit de pièce et moins de parole directe.
Les accents prononcés ou une prononciation peu claire. Les accents sont courants et normaux, mais ils peuvent accroître la difficulté de reconnaissance selon le modèle de langue et la qualité de l’audio.
Le vocabulaire technique. Les noms d’entreprises, les noms de produits, les termes médicaux, les termes juridiques, les mots-codes et les expressions propres à un secteur peuvent être plus difficiles à reconnaître à moins d’être fréquents dans les données d’entraînement du modèle.
Les fichiers audio de mauvaise qualité. Les enregistrements compressés, saturés, distordus ou à faible volume peuvent réduire la qualité de transcription.
Comment obtenir la meilleure précision de transcription
Les utilisateurs peuvent améliorer la qualité de transcription en adoptant quelques bonnes pratiques d’enregistrement :
- Enregistrer près du microphone
- Utiliser un microphone externe lorsque c’est possible
- Réduire le bruit de fond
- Éviter de placer l’appareil d’enregistrement à l’autre bout de la pièce
- Demander aux locuteurs de ne pas se couper la parole
- Utiliser des formats audio clairs lorsque c’est possible
- Maintenir un volume d’enregistrement stable
- Éviter une compression importante avant l’import
Une bonne entrée audio est l’un des facteurs les plus importants pour obtenir une transcription précise.
Pourquoi cette précision est importante
Une haute précision de transcription améliore bien plus que la transcription elle-même. Une transcription plus précise améliore les fonctionnalités IA en aval telles que les résumés de réunions, la recherche dans les enregistrements, les notes IA, l’extraction de points d’action, l’analyse d’entretiens clients, les notes de cours, le recyclage de podcasts, la génération de sous-titres, la création de bases de connaissances et les workflows de revue juridique ou de conformité.
Lorsque la transcription contient moins d’erreurs, chaque fonctionnalité construite par-dessus la transcription devient plus fiable. C’est pourquoi Atter considère la précision de transcription comme une métrique produit fondamentale.
Comment les utilisateurs peuvent vérifier eux-mêmes la précision de transcription
Les utilisateurs peuvent tester la précision de transcription en suivant la même méthode de base.
Étape 1 : Préparer un audio avec une transcription de référence
Utilisez de l’audio de benchmark public accompagné de transcriptions officielles, ou utilisez vos propres enregistrements avec des transcriptions humaines soigneusement corrigées.
Étape 2 : Transcrire l’audio avec Atter
Importez ou traitez l’audio à l’aide d’Atter et exportez la transcription générée.
Étape 3 : Normaliser les deux transcriptions
Avant l’évaluation, normalisez la transcription de référence et la transcription d’Atter. Les étapes de normalisation courantes incluent la mise en minuscules du texte, la suppression des espaces superflus, l’uniformisation de la ponctuation, l’uniformisation des nombres et la suppression des différences de mise en forme. Cela permet de s’assurer que le score mesure les erreurs de transcription plutôt que les différences de mise en forme.
Étape 4 : Calculer le WER
Le WER peut être calculé à l’aide d’outils open source tels que jiwer :
from jiwer import wer
reference = "this is the human verified transcript"
prediction = "this is the atter generated transcript"
error_rate = wer(reference, prediction)
accuracy = (1 - error_rate) * 100
print(f"WER: {error_rate * 100:.2f}%")
print(f"Accuracy: {accuracy:.2f}%")
Étape 5 : Comparer le résultat
Un WER plus bas signifie une meilleure précision de transcription. Pour de l’audio de benchmark clair, les systèmes de reconnaissance vocale performants produisent souvent un WER à un seul chiffre faible. Pour des réunions bruyantes ou de la parole qui se chevauche, le WER peut être beaucoup plus élevé. C’est pourquoi la précision doit toujours être évaluée conjointement avec la condition audio.
FAQ
Que signifie la précision de 98,7 % d’Atter ? Atter a obtenu un taux d’erreur sur les mots de 1,3 % sur le jeu de données de benchmark testé. La précision se calcule comme 100 % moins le WER, donc 1,3 % de WER équivaut à 98,7 % de précision.
Quel jeu de données a été utilisé ? Le test a utilisé LibriSpeech test-clean, un jeu de données public de benchmark de reconnaissance vocale en anglais contenant de la parole lue claire.
Combien de fichiers audio ont été testés ? Le benchmark a utilisé 2,620 segments audio.
Quelle était la durée de l’audio de test ? La durée totale de l’audio était d’environ 5.4 heures.
Combien de mots ont été évalués ? Le benchmark a inclus environ 54,000 mots de référence.
Quelle version d’Atter a été testée ? Le test a utilisé Atter 3.3.0.
Quand le test a-t-il été réalisé ? Le benchmark a été réalisé en novembre 2025.
Qu’est-ce que le WER ? WER signifie Word Error Rate (taux d’erreur sur les mots). Il mesure l’écart entre une transcription générée par machine et une transcription de référence vérifiée par un humain en comptant les substitutions, suppressions et insertions.
98,7 % de précision équivaut-il à 1,3 % de WER ? Oui. La précision se calcule comme 100 % moins le WER. Un WER de 1,3 % équivaut à 98,7 % de précision.
98,7 % s’applique-t-il à tous les enregistrements ? Non. Le résultat de 98,7 % décrit la performance de benchmark sur de l’audio public clair. La précision réelle peut varier selon la qualité de l’audio, le bruit, le chevauchement de locuteurs, les accents, la distance du microphone et le vocabulaire.
Pourquoi les transcriptions de réunions peuvent-elles avoir une précision inférieure ? Les réunions comportent souvent plusieurs locuteurs, des interruptions, du bruit de fond, une distance de microphone variable et de la parole qui se chevauche. Ces facteurs rendent la transcription plus difficile pour tout système de reconnaissance vocale.
Comment puis-je améliorer la précision de transcription ? Utilisez un microphone clair, enregistrez près du locuteur, réduisez le bruit de fond, évitez la parole qui se chevauche et utilisez des fichiers audio de haute qualité dès que possible.
Conclusion finale
Le résultat de 98,7 % de précision de transcription d’Atter se comprend mieux comme un résultat de benchmark professionnel mesuré à travers le cadre du WER.
Ce résultat signifie :
- Atter a atteint 1,3 % de WER
- Le test a utilisé LibriSpeech test-clean
- Le benchmark a inclus 2,620 segments audio
- La durée totale était d’environ 5.4 heures
- Le benchmark a inclus environ 54,000 mots de référence
- Le test a été réalisé en novembre 2025
- La version testée était Atter 3.3.0
- La précision a été calculée par rapport à des transcriptions de référence vérifiées par un humain
- Les résultats réels peuvent varier selon les conditions d’enregistrement
Pour les utilisateurs, l’enseignement clé est le suivant : Atter offre une transcription de haute précision dans des conditions de benchmark claires, et son résultat de 98,7 % est mesuré à l’aide du cadre professionnel WER utilisé dans l’évaluation de la reconnaissance vocale.