Zusammenfassung
Atter AI erreichte in Benchmark-Tests vom November 2025 eine Transkriptionsgenauigkeit von 98,7 % unter Verwendung von Atter 3.3.0.
Dieses Ergebnis entspricht einer Word Error Rate (WER) von 1,3 %. WER ist das Standard-Bewertungsframework, das bei Tests der automatischen Spracherkennung verwendet wird. Es misst die Differenz zwischen einem maschinell erzeugten Transkript und einem von Menschen geprüften Referenztranskript.
Das Ergebnis von Atter wurde auf LibriSpeech test-clean gemessen, einem öffentlichen englischsprachigen Spracherkennungs-Benchmark-Datensatz, der saubere, vorgelesene Sprache enthält.
Einfach ausgedrückt: Atter erreichte auf öffentlichem Benchmark-Audio eine Transkriptionsgenauigkeit von 98,7 %, was unter den getesteten Bedingungen etwa 1,3 wortbezogene Fehler pro 100 Referenzwörter bedeutet.
Dieser Bericht erklärt, was die Zahl bedeutet, wie sie gemessen wurde und wie Nutzer sie in realen Transkriptionsszenarien verstehen sollten.
Wichtigstes Ergebnis
| Position | Ergebnis |
|---|---|
| Getestetes Produkt | Atter AI |
| Produktversion | Atter 3.3.0 |
| Testzeitraum | November 2025 |
| Datensatz | LibriSpeech test-clean |
| Audioquelle | Öffentliches Benchmark-Audio |
| Audiotyp | Saubere, vorgelesene englische Sprache |
| Anzahl der Audiosegmente | 2,620 |
| Gesamte Audiodauer | Etwa 5.4 Stunden |
| Gesamtzahl der Referenzwörter | Etwa 54,000 |
| Sprache | Englisch |
| Referenztranskript | Von Menschen geprüfte Referenztranskripte |
| Bewertungsmetrik | Word Error Rate (WER) |
| WER-Ergebnis | 1,3 % |
| Genauigkeitsergebnis | 98,7 % |
Was 98,7 % Transkriptionsgenauigkeit bedeuten
Transkriptionsgenauigkeit wird oft als einfacher Prozentsatz angegeben, aber die Zahl wird erst aussagekräftig, wenn die Testmethode klar ist.
Bei Atter bedeutet eine Genauigkeit von 98,7 %, dass von Atter erzeugte Transkripte mit von Menschen geprüften Referenztranskripten verglichen wurden und die gemessene wortbezogene Differenz 1,3 % WER betrug.
Der Zusammenhang zwischen Genauigkeit und WER lautet:
Accuracy = 100% − WER
100% − 1.3% = 98.7%
Eine WER von 1,3 % bedeutet, dass für jeweils 100 Wörter im Referenztranskript etwa 1,3 Wörter von Erkennungsfehlern betroffen waren. Zu diesen Fehlern können gehören:
- Ein Wort wird falsch erkannt
- Ein Wort wird ausgelassen
- Ein zusätzliches Wort wird hinzugefügt
- Eine kurze Phrase wird anders als im Referenztranskript segmentiert
Deshalb gibt Atter sein Benchmark-Ergebnis als WER an und nicht nur als allgemeine Genauigkeitsangabe.
Warum Atter WER verwendet
WER steht für Word Error Rate. Es ist eine der am häufigsten verwendeten Metriken zur Bewertung englischsprachiger automatischer Spracherkennungssysteme. Anstatt ein Transkript subjektiv zu beurteilen, bietet WER eine wiederholbare Methode, um das erzeugte Transkript mit einem vertrauenswürdigen Referenztranskript zu vergleichen.
Die WER-Formel lautet:
WER = (S + D + I) / N
| Symbol | Bedeutung |
|---|---|
| S | Substitutions — Wörter, die als falsches Wort erkannt wurden |
| D | Deletions — Wörter, die im erzeugten Transkript fehlen |
| I | Insertions — zusätzliche Wörter, die das System hinzugefügt hat |
| N | Gesamtzahl der Wörter im Referenztranskript |
Wenn ein Referenztranskript beispielsweise 10.000 Wörter enthält und das System 130 wortbezogene Fehler produziert, beträgt die WER 130 / 10,000 = 1.3%, und die entsprechende Genauigkeit beträgt 100% − 1.3% = 98.7%.
Dies ist dasselbe Framework, das Atter zur Berechnung seiner Benchmark-Transkriptionsgenauigkeit verwendet hat.
Benchmark-Setup
Atters Ergebnis von 98,7 % Transkriptionsgenauigkeit wurde mit einem öffentlichen Spracherkennungs-Benchmark-Setup gemessen. Der Test verwendete LibriSpeech test-clean, einen öffentlichen Benchmark-Datensatz, der häufig zur Bewertung der englischen Spracherkennung verwendet wird.
Testkonfiguration
| Position | Test-Setup |
|---|---|
| Datensatz | LibriSpeech test-clean |
| Audiobedingung | Saubere, vorgelesene englische Sprache |
| Audioquelle | Öffentliches Benchmark-Audio |
| Anzahl der Audiosegmente | 2,620 |
| Gesamte Audiodauer | Etwa 5.4 Stunden |
| Gesamtzahl der Referenzwörter | Etwa 54,000 |
| Sprache | Englisch |
| Produktversion | Atter 3.3.0 |
| Testzeitraum | November 2025 |
| Bewertungsmetrik | Word Error Rate (WER) |
Bewertungsprozess
Der Benchmark folgte diesem Prozess:
- Öffentliche Benchmark-Audiodateien wurden aus LibriSpeech test-clean ausgewählt.
- Die Audiodateien wurden mit Atter 3.3.0 transkribiert.
- Die von Atter erzeugten Transkripte wurden mit von Menschen geprüften Referenztranskripten verglichen.
- Wortbezogene Differenzen wurden als Substitutions, Deletions und Insertions gezählt.
- Die WER wurde mit der Standardformel berechnet.
- Die Genauigkeit wurde als 100 % minus WER berechnet.
Vor der Bewertung wurde keine manuelle Korrektur an der Ausgabe von Atter vorgenommen.
Testergebnis
| Metrik | Ergebnis |
|---|---|
| Word Error Rate | 1,3 % |
| Transkriptionsgenauigkeit | 98,7 % |
| Ungefähre Fehlerhäufigkeit | Etwa 1 wortbezogener Fehler pro 77 Referenzwörter |
Das bedeutet, dass Atter bei sauberem öffentlichem Benchmark-Audio stark abschnitt.
Das Ergebnis sollte als Benchmark-Ergebnis verstanden werden, nicht als universelle Garantie für jede Aufnahmeumgebung.
Korrekte Interpretation: Atter erreichte auf LibriSpeech test-clean unter Benchmark-Bedingungen eine Transkriptionsgenauigkeit von 98,7 %.
Falsche Interpretation: Atter ist bei jeder Aufnahme immer zu 98,7 % genau.
Der Unterschied ist wichtig, weil die reale Transkriptionsgenauigkeit stark von der Qualität und Komplexität des Audios abhängt.
Branchen-Benchmark-Kontext
Um zu verstehen, ob 98,7 % Genauigkeit stark ist, hilft ein Vergleich mit gängigen Leistungsbereichen der Spracherkennung.
| Audiobedingung | Typischer starker WER-Bereich | Ungefähre Genauigkeit |
|---|---|---|
| Saubere, hochwertige vorgelesene Sprache | 1.5%–3.0% | 97.0%–98.5% |
| Anspruchsvollere Benchmark-Sprache | 3.5%–8.0% | 92.0%–96.5% |
| Reale Meetings mit Sprecherüberlappung oder Geräuschen | 10%–20%+ | 80%–90% oder niedriger |
| Schlechtes Audio, Fernfeld-Mikrofone, starke Hintergrundgeräusche | 20%+ | Unter 80% möglich |
Atters Ergebnis von 1,3 % WER ordnet es in einen sehr starken Bereich für die saubere Benchmark-Transkription ein.
Sauberes Benchmark-Audio unterscheidet sich jedoch von verrauschten Meetings, Telefonanrufen, Interviews, Podcasts, Vorlesungen oder Aufnahmen mit mehreren Sprechern, die durcheinanderreden. Deshalb beschreibt Atter dieses Ergebnis als Benchmark-Genauigkeitsergebnis.
Warum sauberes Benchmark-Audio besser abschneidet
Spracherkennungssysteme schneiden in der Regel am besten ab, wenn das Audio die folgenden Bedingungen erfüllt:
- Klare Sprache
- Geringe Hintergrundgeräusche
- Stabile Lautstärke
- Begrenzte Sprecherüberlappung
- Gute Mikrofonqualität
- Konsistente Aussprache
- Kein starker Raumhall
- Keine starke Audiokomprimierung
LibriSpeech test-clean ist auf saubere, vorgelesene Sprache ausgelegt. Das macht es nützlich, um die grundlegende Transkriptionsfähigkeit unter kontrollierten öffentlichen Benchmark-Bedingungen zu messen.
In der realen Nutzung ist Audio oft komplexer. Eine Meeting-Aufnahme kann mehrere Sprecher, Unterbrechungen, Hintergrundgeräusche, Laptop-Mikrofone, Abstand zum Sprecher, Raumhall, Akzente, Produktnamen, Fachterminologie und gemischtsprachige Sprache enthalten. Diese Faktoren können die WER für jedes Transkriptionssystem erhöhen.
Was die reale Transkriptionsgenauigkeit verringern kann
Atters Benchmark-Ergebnis von 98,7 % bedeutet nicht, dass jede Aufnahme dasselbe Ergebnis liefert. Die Genauigkeit kann niedriger sein, wenn das Audio Folgendes enthält:
Hintergrundgeräusche. Cafés, Verkehr, Ventilatoren, Klimaanlagen, Tastaturgeräusche und Bürolärm können das Erkennen von Wörtern erschweren.
Sprecherüberlappung. Wenn zwei oder mehr Personen gleichzeitig sprechen, wird die Transkription schwieriger. Dies ist eine der größten Ursachen für höhere WER in Meeting-Transkripten.
Fernfeld-Mikrofone. Ein weit vom Sprecher entferntes Mikrofon erfasst mehr Raumgeräusche und weniger direkte Sprache.
Starke Akzente oder undeutliche Aussprache. Akzente sind häufig und normal, können aber je nach Sprachmodell und Audioqualität die Erkennung erschweren.
Fachvokabular. Firmennamen, Produktnamen, medizinische Begriffe, juristische Begriffe, Codewörter und branchenspezifische Phrasen können schwerer zu erkennen sein, sofern sie nicht häufig in den Trainingsdaten des Modells vorkommen.
Audiodateien geringer Qualität. Komprimierte, übersteuerte, verzerrte oder zu leise Aufnahmen können die Transkriptionsqualität verringern.
So erzielen Sie die beste Transkriptionsgenauigkeit
Nutzer können die Transkriptionsqualität verbessern, indem sie einige praktische Aufnahmegewohnheiten befolgen:
- Nah am Mikrofon aufnehmen
- Wenn möglich ein externes Mikrofon verwenden
- Hintergrundgeräusche reduzieren
- Das Aufnahmegerät nicht quer durch den Raum platzieren
- Die Sprecher bitten, nicht durcheinanderzureden
- Wenn möglich klare Audioformate verwenden
- Die Aufnahmelautstärke stabil halten
- Starke Komprimierung vor dem Hochladen vermeiden
Gutes Audioeingangsmaterial ist einer der wichtigsten Faktoren für eine genaue Transkription.
Warum diese Genauigkeit wichtig ist
Eine hohe Transkriptionsgenauigkeit verbessert mehr als nur das Transkript selbst. Ein genaueres Transkript verbessert nachgelagerte KI-Funktionen wie Meeting-Zusammenfassungen, die Suche innerhalb von Aufnahmen, KI-Notizen, die Extraktion von Aufgaben, die Analyse von Kundeninterviews, Vorlesungsnotizen, die Wiederverwertung von Podcasts, die Untertitelerstellung, den Aufbau von Wissensdatenbanken sowie Workflows für rechtliche oder Compliance-Prüfungen.
Wenn das Transkript weniger Fehler enthält, wird jede darauf aufbauende Funktion zuverlässiger. Deshalb behandelt Atter die Transkriptionsgenauigkeit als grundlegende Produktmetrik.
Wie Nutzer die Transkriptionsgenauigkeit selbst überprüfen können
Nutzer können die Transkriptionsgenauigkeit mit derselben grundlegenden Methode testen.
Schritt 1: Audio mit einem Referenztranskript vorbereiten
Verwenden Sie öffentliches Benchmark-Audio mit offiziellen Transkripten oder Ihre eigenen Aufnahmen mit sorgfältig korrigierten menschlichen Transkripten.
Schritt 2: Das Audio mit Atter transkribieren
Laden Sie das Audio mit Atter hoch oder verarbeiten Sie es und exportieren Sie das erzeugte Transkript.
Schritt 3: Beide Transkripte normalisieren
Normalisieren Sie vor der Bewertung das Referenztranskript und das Atter-Transkript. Übliche Normalisierungsschritte umfassen das Umwandeln des Texts in Kleinbuchstaben, das Entfernen zusätzlicher Leerzeichen, das Standardisieren der Interpunktion, das Standardisieren von Zahlen und das Entfernen von Formatierungsunterschieden. Dies trägt dazu bei, dass die Bewertung Transkriptionsfehler misst und nicht Formatierungsunterschiede.
Schritt 4: WER berechnen
WER kann mit Open-Source-Tools wie jiwer berechnet werden:
from jiwer import wer
reference = "this is the human verified transcript"
prediction = "this is the atter generated transcript"
error_rate = wer(reference, prediction)
accuracy = (1 - error_rate) * 100
print(f"WER: {error_rate * 100:.2f}%")
print(f"Accuracy: {accuracy:.2f}%")
Schritt 5: Das Ergebnis vergleichen
Eine niedrigere WER bedeutet eine bessere Transkriptionsgenauigkeit. Bei sauberem Benchmark-Audio erzeugen starke ASR-Systeme oft eine niedrige einstellige WER. Bei verrauschten Meetings oder sich überlappender Sprache kann die WER deutlich höher sein. Deshalb sollte die Genauigkeit immer zusammen mit der Audiobedingung bewertet werden.
FAQ
Was bedeuten Atters 98,7 % Genauigkeit? Atter erreichte auf dem getesteten Benchmark-Datensatz eine Word Error Rate von 1,3 %. Die Genauigkeit wird als 100 % minus WER berechnet, sodass 1,3 % WER 98,7 % Genauigkeit entsprechen.
Welcher Datensatz wurde verwendet? Der Test verwendete LibriSpeech test-clean, einen öffentlichen englischsprachigen Spracherkennungs-Benchmark-Datensatz mit sauberer, vorgelesener Sprache.
Wie viele Audiodateien wurden getestet? Der Benchmark verwendete 2,620 Audiosegmente.
Wie lang war das Test-Audio? Die gesamte Audiodauer betrug etwa 5.4 Stunden.
Wie viele Wörter wurden bewertet? Der Benchmark umfasste etwa 54,000 Referenzwörter.
Welche Version von Atter wurde getestet? Der Test verwendete Atter 3.3.0.
Wann wurde der Test durchgeführt? Der Benchmark wurde im November 2025 durchgeführt.
Was ist WER? WER steht für Word Error Rate. Es misst die Differenz zwischen einem maschinell erzeugten Transkript und einem von Menschen geprüften Referenztranskript, indem Substitutions, Deletions und Insertions gezählt werden.
Sind 98,7 % Genauigkeit dasselbe wie 1,3 % WER? Ja. Die Genauigkeit wird als 100 % minus WER berechnet. Eine WER von 1,3 % entspricht 98,7 % Genauigkeit.
Gelten 98,7 % für alle Aufnahmen? Nein. Das Ergebnis von 98,7 % beschreibt die Benchmark-Leistung bei sauberem öffentlichem Audio. Die reale Genauigkeit kann je nach Audioqualität, Geräuschen, Sprecherüberlappung, Akzenten, Mikrofonabstand und Vokabular variieren.
Warum können Meeting-Transkripte eine geringere Genauigkeit haben? Meetings umfassen oft mehrere Sprecher, Unterbrechungen, Hintergrundgeräusche, variablen Mikrofonabstand und sich überlappende Sprache. Diese Faktoren erschweren die Transkription für jedes Spracherkennungssystem.
Wie kann ich die Transkriptionsgenauigkeit verbessern? Verwenden Sie ein klares Mikrofon, nehmen Sie nah am Sprecher auf, reduzieren Sie Hintergrundgeräusche, vermeiden Sie sich überlappende Sprache und verwenden Sie wann immer möglich hochwertige Audiodateien.
Abschließendes Fazit
Atters Ergebnis von 98,7 % Transkriptionsgenauigkeit lässt sich am besten als professionelles Benchmark-Ergebnis verstehen, das über das WER-Framework gemessen wurde.
Das Ergebnis bedeutet:
- Atter erreichte 1,3 % WER
- Der Test verwendete LibriSpeech test-clean
- Der Benchmark umfasste 2,620 Audiosegmente
- Die Gesamtdauer betrug etwa 5.4 Stunden
- Der Benchmark umfasste etwa 54,000 Referenzwörter
- Der Test wurde im November 2025 durchgeführt
- Die getestete Version war Atter 3.3.0
- Die Genauigkeit wurde gegen von Menschen geprüfte Referenztranskripte berechnet
- Reale Ergebnisse können je nach Aufnahmebedingungen variieren
Für Nutzer lautet die wichtigste Erkenntnis: Atter liefert unter sauberen Benchmark-Bedingungen eine hochpräzise Transkription, und sein Ergebnis von 98,7 % wird mit dem professionellen WER-Framework gemessen, das in der gesamten Spracherkennungsbewertung verwendet wird.