요약
Atter AI는 2025년 11월에 Atter 3.3.0 버전으로 진행한 벤치마크 테스트에서 98.7%의 녹취록 정확도를 기록했습니다.
이 결과는 **1.3%의 Word Error Rate(WER)**에 해당합니다. WER은 자동 음성 인식 테스트에서 사용되는 표준 평가 프레임워크로, 기계가 생성한 녹취록과 사람이 검증한 기준 녹취록 사이의 차이를 측정합니다.
Atter의 결과는 클린한 낭독 음성으로 구성된 영어 음성 인식 공개 벤치마크 데이터셋인 LibriSpeech test-clean에서 측정되었습니다.
간단히 말하면, Atter는 공개 벤치마크 오디오에서 98.7%의 녹취록 정확도를 달성했으며, 이는 테스트 조건에서 기준 단어 100개당 약 1.3개의 단어 단위 오류가 발생함을 의미합니다.
이 리포트는 이 수치가 무엇을 의미하는지, 어떻게 측정되었는지, 그리고 사용자가 실제 전사 상황에서 이를 어떻게 이해해야 하는지를 설명합니다.
핵심 결과
| 항목 | 결과 |
|---|---|
| 테스트 제품 | Atter AI |
| 제품 버전 | Atter 3.3.0 |
| 테스트 기간 | 2025년 11월 |
| 데이터셋 | LibriSpeech test-clean |
| 오디오 출처 | 공개 벤치마크 오디오 |
| 오디오 유형 | 클린한 영어 낭독 음성 |
| 오디오 세그먼트 수 | 2,620 |
| 총 오디오 길이 | 약 5.4시간 |
| 총 기준 단어 수 | 약 54,000 |
| 언어 | 영어 |
| 기준 녹취록 | 사람이 검증한 기준 녹취록 |
| 평가 지표 | Word Error Rate(WER) |
| WER 결과 | 1.3% |
| 정확도 결과 | 98.7% |
98.7% 녹취록 정확도의 의미
전사 정확도는 흔히 단순한 백분율로 표시되지만, 그 수치는 테스트 방법이 명확할 때 비로소 의미를 가집니다.
Atter의 경우 98.7% 정확도란 Atter가 생성한 녹취록을 사람이 검증한 기준 녹취록과 비교했을 때, 측정된 단어 단위 차이가 1.3% WER이었음을 의미합니다.
정확도와 WER의 관계는 다음과 같습니다.
Accuracy = 100% − WER
100% − 1.3% = 98.7%
1.3% WER은 기준 녹취록의 단어 100개당 약 1.3개의 단어가 인식 오류의 영향을 받았다는 뜻입니다. 이러한 오류에는 다음이 포함될 수 있습니다.
- 단어가 잘못 인식됨
- 단어가 누락됨
- 추가 단어가 삽입됨
- 짧은 어구가 기준 녹취록과 다르게 분할됨
이것이 Atter가 일반적인 정확도 주장만 사용하지 않고 WER로 벤치마크 결과를 보고하는 이유입니다.
Atter가 WER을 사용하는 이유
WER은 Word Error Rate의 약자입니다. 영어 자동 음성 인식 시스템을 평가하는 데 가장 널리 쓰이는 지표 중 하나입니다. 녹취록을 주관적으로 판단하는 대신, WER은 생성된 녹취록을 신뢰할 수 있는 기준 녹취록과 비교하는 반복 가능한 방법을 제공합니다.
WER 공식은 다음과 같습니다.
WER = (S + D + I) / N
| 기호 | 의미 |
|---|---|
| S | Substitutions — 잘못된 단어로 인식된 단어 |
| D | Deletions — 생성된 녹취록에서 누락된 단어 |
| I | Insertions — 시스템이 추가한 여분의 단어 |
| N | 기준 녹취록의 총 단어 수 |
예를 들어 기준 녹취록에 10,000개의 단어가 있고 시스템이 130개의 단어 단위 오류를 생성하면 WER은 130 / 10,000 = 1.3%이고, 이에 해당하는 정확도는 100% − 1.3% = 98.7%입니다.
이는 Atter가 벤치마크 전사 정확도를 계산하는 데 사용한 것과 동일한 프레임워크입니다.
벤치마크 설정
Atter의 98.7% 녹취록 정확도 결과는 공개 음성 인식 벤치마크 설정을 사용해 측정되었습니다. 테스트에는 영어 음성 인식 평가에 흔히 쓰이는 공개 벤치마크 데이터셋인 LibriSpeech test-clean을 사용했습니다.
테스트 구성
| 항목 | 테스트 설정 |
|---|---|
| 데이터셋 | LibriSpeech test-clean |
| 오디오 조건 | 클린한 영어 낭독 음성 |
| 오디오 출처 | 공개 벤치마크 오디오 |
| 오디오 세그먼트 수 | 2,620 |
| 총 오디오 길이 | 약 5.4시간 |
| 총 기준 단어 수 | 약 54,000 |
| 언어 | 영어 |
| 제품 버전 | Atter 3.3.0 |
| 테스트 기간 | 2025년 11월 |
| 평가 지표 | Word Error Rate(WER) |
평가 과정
벤치마크는 다음 과정을 따랐습니다.
- LibriSpeech test-clean에서 공개 벤치마크 오디오 파일을 선택했습니다.
- Atter 3.3.0으로 오디오 파일을 전사했습니다.
- Atter가 생성한 녹취록을 사람이 검증한 기준 녹취록과 비교했습니다.
- 단어 단위 차이를 substitutions, deletions, insertions로 집계했습니다.
- 표준 공식을 사용해 WER을 계산했습니다.
- 정확도는 100%에서 WER을 뺀 값으로 계산했습니다.
채점 전에 Atter의 출력에는 어떠한 수동 보정도 적용하지 않았습니다.
테스트 결과
| 지표 | 결과 |
|---|---|
| Word Error Rate | 1.3% |
| 녹취록 정확도 | 98.7% |
| 대략적인 오류 빈도 | 기준 단어 약 77개당 단어 단위 오류 1개 |
이는 Atter가 클린한 공개 벤치마크 오디오에서 강력한 성능을 보였음을 의미합니다.
이 결과는 모든 녹음 환경에 대한 보편적 보장이 아니라 벤치마크 결과로 이해해야 합니다.
올바른 해석: Atter는 벤치마크 조건의 LibriSpeech test-clean에서 98.7%의 녹취록 정확도를 달성했습니다.
잘못된 해석: Atter는 모든 녹음에서 항상 98.7% 정확합니다.
이 차이가 중요한 이유는 실제 전사 정확도가 오디오의 품질과 복잡도에 크게 좌우되기 때문입니다.
업계 벤치마크 맥락
98.7% 정확도가 우수한 수준인지 이해하려면 일반적인 음성 인식 성능 범위와 비교해 보는 것이 도움이 됩니다.
| 오디오 조건 | 일반적인 우수 WER 범위 | 대략적인 정확도 |
|---|---|---|
| 클린하고 고품질인 낭독 음성 | 1.5%–3.0% | 97.0%–98.5% |
| 좀 더 까다로운 벤치마크 음성 | 3.5%–8.0% | 92.0%–96.5% |
| 발화자 겹침이나 소음이 있는 실제 회의 | 10%–20%+ | 80%–90% 이하 |
| 저품질 오디오, 원거리 마이크, 심한 배경 소음 | 20%+ | 80% 미만 가능 |
Atter의 1.3% WER 결과는 클린 벤치마크 전사에서 매우 강력한 범위에 위치합니다.
다만 클린 벤치마크 오디오는 소음이 있는 회의, 전화 통화, 인터뷰, 팟캐스트, 강의, 또는 여러 발화자가 동시에 말하는 녹음과는 다릅니다. 그래서 Atter는 이 결과를 벤치마크 정확도 결과로 설명합니다.
클린 벤치마크 오디오가 더 좋은 성능을 내는 이유
음성 인식 시스템은 보통 오디오가 다음 조건을 갖출 때 가장 좋은 성능을 냅니다.
- 명료한 발화
- 낮은 배경 소음
- 안정적인 음량
- 제한적인 발화자 겹침
- 좋은 마이크 품질
- 일관된 발음
- 심한 실내 울림 없음
- 심한 오디오 압축 없음
LibriSpeech test-clean은 클린한 낭독 음성을 중심으로 설계되었습니다. 그래서 통제된 공개 벤치마크 조건에서 핵심 전사 역량을 측정하는 데 유용합니다.
실제 사용에서 오디오는 종종 더 복잡합니다. 회의 녹음에는 여러 발화자, 끼어들기, 배경 소음, 노트북 마이크, 발화자와의 거리, 실내 울림, 억양, 제품명, 전문 용어, 혼합 언어 발화가 포함될 수 있습니다. 이러한 요인은 어떤 전사 시스템에서든 WER을 높일 수 있습니다.
실제 전사 정확도를 낮출 수 있는 요인
Atter의 98.7% 벤치마크 결과가 모든 녹음에서 동일한 결과가 나온다는 뜻은 아닙니다. 오디오에 다음이 포함되면 정확도가 낮아질 수 있습니다.
배경 소음. 카페, 교통, 선풍기, 에어컨, 키보드 소리, 사무실 소음은 단어를 인식하기 어렵게 만들 수 있습니다.
발화자 겹침. 두 명 이상이 동시에 말하면 전사가 더 어려워집니다. 이는 회의 녹취록에서 WER이 높아지는 가장 큰 원인 중 하나입니다.
원거리 마이크. 발화자에게서 멀리 떨어진 마이크는 직접 발화는 덜, 실내 소음은 더 많이 포착합니다.
강한 억양이나 불명확한 발음. 억양은 흔하고 자연스러운 것이지만, 언어 모델과 오디오 품질에 따라 인식 난이도를 높일 수 있습니다.
전문 어휘. 회사명, 제품명, 의학 용어, 법률 용어, 코드명, 업계 특화 표현은 모델의 학습 데이터에서 흔하지 않은 한 인식이 더 어려울 수 있습니다.
저품질 오디오 파일. 압축되거나 클리핑되거나 왜곡되거나 음량이 낮은 녹음은 전사 품질을 떨어뜨릴 수 있습니다.
최상의 전사 정확도를 얻는 방법
사용자는 몇 가지 실용적인 녹음 습관을 따라 전사 품질을 높일 수 있습니다.
- 마이크에 가까이서 녹음하기
- 가능하면 외장 마이크 사용하기
- 배경 소음 줄이기
- 녹음 기기를 방 건너편에 두지 않기
- 발화자에게 서로 겹쳐 말하지 않도록 요청하기
- 가능하면 깨끗한 오디오 포맷 사용하기
- 녹음 음량을 안정적으로 유지하기
- 업로드 전 심한 압축 피하기
좋은 오디오 입력은 정확한 전사를 달성하는 가장 중요한 요인 중 하나입니다.
이 정확도가 중요한 이유
높은 전사 정확도는 녹취록 자체뿐 아니라 그 이상을 개선합니다. 더 정확한 녹취록은 회의 요약, 녹음 내 검색, AI 노트, 액션 아이템 추출, 고객 인터뷰 분석, 강의 노트, 팟캐스트 재가공, 자막 생성, 지식베이스 구축, 법률·컴플라이언스 검토 워크플로 같은 후속 AI 기능을 향상시킵니다.
녹취록에 오류가 적을수록 그 위에 구축된 모든 기능이 더 신뢰할 수 있게 됩니다. 이것이 Atter가 전사 정확도를 제품의 근간이 되는 지표로 다루는 이유입니다.
사용자가 직접 전사 정확도를 검증하는 방법
사용자는 동일한 기본 방법으로 전사 정확도를 테스트할 수 있습니다.
1단계: 기준 녹취록이 있는 오디오 준비
공식 녹취록이 있는 공개 벤치마크 오디오를 사용하거나, 사람이 꼼꼼히 교정한 녹취록이 있는 본인의 녹음을 사용하세요.
2단계: Atter로 오디오 전사
Atter로 오디오를 업로드하거나 처리한 뒤 생성된 녹취록을 내보내세요.
3단계: 두 녹취록 정규화
채점 전에 기준 녹취록과 Atter 녹취록을 정규화하세요. 일반적인 정규화 단계에는 텍스트 소문자화, 여분의 공백 제거, 구두점 표준화, 숫자 표준화, 서식 차이 제거가 포함됩니다. 이렇게 하면 점수가 서식 차이가 아니라 전사 오류를 측정하도록 보장하는 데 도움이 됩니다.
4단계: WER 계산
WER은 jiwer 같은 오픈소스 도구로 계산할 수 있습니다.
from jiwer import wer
reference = "this is the human verified transcript"
prediction = "this is the atter generated transcript"
error_rate = wer(reference, prediction)
accuracy = (1 - error_rate) * 100
print(f"WER: {error_rate * 100:.2f}%")
print(f"Accuracy: {accuracy:.2f}%")
5단계: 결과 비교
WER이 낮을수록 전사 정확도가 높습니다. 클린 벤치마크 오디오에서는 강력한 ASR 시스템이 흔히 한 자릿수 낮은 WER을 보입니다. 소음이 있는 회의나 겹치는 발화에서는 WER이 훨씬 높아질 수 있습니다. 그래서 정확도는 항상 오디오 조건과 함께 평가해야 합니다.
FAQ
Atter의 98.7% 정확도는 무엇을 의미하나요? Atter는 테스트한 벤치마크 데이터셋에서 1.3%의 Word Error Rate를 달성했습니다. 정확도는 100%에서 WER을 뺀 값으로 계산되므로, 1.3% WER은 98.7% 정확도와 같습니다.
어떤 데이터셋을 사용했나요? 테스트에는 클린한 낭독 음성으로 구성된 영어 음성 인식 공개 벤치마크 데이터셋인 LibriSpeech test-clean을 사용했습니다.
몇 개의 오디오 파일을 테스트했나요? 벤치마크에는 2,620개의 오디오 세그먼트를 사용했습니다.
테스트 오디오의 길이는 얼마였나요? 총 오디오 길이는 약 5.4시간이었습니다.
몇 개의 단어가 평가되었나요? 벤치마크에는 약 54,000개의 기준 단어가 포함되었습니다.
테스트한 Atter 버전은 무엇인가요? 테스트에는 Atter 3.3.0을 사용했습니다.
테스트는 언제 진행되었나요? 벤치마크는 2025년 11월에 진행되었습니다.
WER이 무엇인가요? WER은 Word Error Rate의 약자입니다. substitutions, deletions, insertions를 집계하여 기계가 생성한 녹취록과 사람이 검증한 기준 녹취록 사이의 차이를 측정합니다.
98.7% 정확도는 1.3% WER과 같은 것인가요? 네. 정확도는 100%에서 WER을 뺀 값으로 계산됩니다. 1.3% WER은 98.7% 정확도와 같습니다.
98.7%가 모든 녹음에 적용되나요? 아니요. 98.7% 결과는 클린한 공개 오디오에 대한 벤치마크 성능을 나타냅니다. 실제 정확도는 오디오 품질, 소음, 발화자 겹침, 억양, 마이크 거리, 어휘에 따라 달라질 수 있습니다.
회의 녹취록의 정확도가 더 낮을 수 있는 이유는 무엇인가요? 회의에는 흔히 여러 발화자, 끼어들기, 배경 소음, 가변적인 마이크 거리, 겹치는 발화가 포함됩니다. 이러한 요인은 어떤 음성 인식 시스템에서든 전사를 더 어렵게 만듭니다.
전사 정확도를 어떻게 높일 수 있나요? 명료한 마이크를 사용하고, 발화자에 가까이서 녹음하고, 배경 소음을 줄이고, 겹치는 발화를 피하고, 가능한 한 고품질 오디오 파일을 사용하세요.
최종 결론
Atter의 98.7% 녹취록 정확도 결과는 WER 프레임워크를 통해 측정된 전문적인 벤치마크 결과로 이해하는 것이 가장 정확합니다.
이 결과가 의미하는 바는 다음과 같습니다.
- Atter는 1.3% WER을 달성했습니다
- 테스트에는 LibriSpeech test-clean을 사용했습니다
- 벤치마크에는 2,620개의 오디오 세그먼트가 포함되었습니다
- 총 길이는 약 5.4시간이었습니다
- 벤치마크에는 약 54,000개의 기준 단어가 포함되었습니다
- 테스트는 2025년 11월에 진행되었습니다
- 테스트한 버전은 Atter 3.3.0이었습니다
- 정확도는 사람이 검증한 기준 녹취록과 비교해 계산되었습니다
- 실제 결과는 녹음 조건에 따라 달라질 수 있습니다
사용자에게 핵심 요점은 이렇습니다. Atter는 클린 벤치마크 조건에서 고정밀 전사를 제공하며, 98.7%라는 결과는 음성 인식 평가 전반에서 사용되는 전문적인 WER 프레임워크로 측정되었습니다.