摘要
Atter AI 在 2025 年 11 月 進行的基準測試中,使用 Atter 3.3.0 版本,達到 98.7% 的逐字稿準確率。
這項結果相當於 1.3% 的字詞錯誤率(Word Error Rate,WER)。WER 是自動語音辨識測試中的標準評估框架,用來衡量機器產生的逐字稿與人工校驗過的參考逐字稿之間的差異。
Atter 的這項結果是在 LibriSpeech test-clean 上測得的——這是一個公開的英語語音辨識基準資料集,內容為清晰的朗讀語音。
簡單來說:Atter 在公開基準音訊上達到了 98.7% 的逐字稿準確率,也就是在受測條件下,每 100 個參考字詞中大約只有 1.3 個字詞層級的錯誤。
本報告將說明這個數字代表什麼、是如何測量的,以及使用者在真實的逐字稿場景中應該如何理解它。
核心結果
| 項目 | 結果 |
|---|---|
| 受測產品 | Atter AI |
| 產品版本 | Atter 3.3.0 |
| 測試期間 | 2025 年 11 月 |
| 資料集 | LibriSpeech test-clean |
| 音訊來源 | 公開基準音訊 |
| 音訊類型 | 清晰的英語朗讀語音 |
| 音訊片段數量 | 2,620 |
| 音訊總時長 | 約 5.4 小時 |
| 參考字詞總數 | 約 54,000 |
| 語言 | 英語 |
| 參考逐字稿 | 人工校驗過的參考逐字稿 |
| 評估指標 | 字詞錯誤率(WER) |
| WER 結果 | 1.3% |
| 準確率結果 | 98.7% |
98.7% 逐字稿準確率代表什麼
逐字稿準確率經常以一個簡單的百分比呈現,但只有在測試方法清楚的情況下,這個數字才有意義。
對 Atter 而言,98.7% 準確率代表的是:將 Atter 產生的逐字稿與人工校驗過的參考逐字稿比對後,所測得的字詞層級差異為 1.3% WER。
準確率與 WER 之間的關係如下:
Accuracy = 100% − WER
100% − 1.3% = 98.7%
1.3% 的 WER 代表,參考逐字稿中每 100 個字詞,大約有 1.3 個字詞受到辨識錯誤的影響。這些錯誤可能包括:
- 某個字詞被辨識錯誤
- 某個字詞被漏掉
- 多出一個字詞
- 某個短語的斷詞方式與參考逐字稿不同
這正是為什麼 Atter 以 WER 來呈現其基準結果,而不是僅僅給出一個籠統的準確率宣稱。
Atter 為何採用 WER
WER 代表 Word Error Rate(字詞錯誤率)。它是評估英語自動語音辨識系統最廣泛使用的指標之一。WER 不以主觀方式評斷逐字稿,而是提供一種可重複的方法,用來將產生的逐字稿與可信賴的參考逐字稿進行比對。
WER 的公式為:
WER = (S + D + I) / N
| 符號 | 意義 |
|---|---|
| S | 替換(Substitutions)——被辨識成錯誤字詞的字 |
| D | 刪除(Deletions)——產生的逐字稿中缺漏的字 |
| I | 插入(Insertions)——系統多加上的字 |
| N | 參考逐字稿中的字詞總數 |
舉例來說,如果一份參考逐字稿包含 10,000 個字詞,而系統產生了 130 個字詞層級的錯誤,那麼 WER 就是 130 / 10,000 = 1.3%,對應的準確率為 100% − 1.3% = 98.7%。
這正是 Atter 計算其基準逐字稿準確率所採用的框架。
基準測試配置
Atter 的 98.7% 逐字稿準確率結果,是使用公開的語音辨識基準配置測得的。測試採用 LibriSpeech test-clean,這是英語語音辨識評估中常用的公開基準資料集。
測試配置
| 項目 | 測試配置 |
|---|---|
| 資料集 | LibriSpeech test-clean |
| 音訊條件 | 清晰的英語朗讀語音 |
| 音訊來源 | 公開基準音訊 |
| 音訊片段數量 | 2,620 |
| 音訊總時長 | 約 5.4 小時 |
| 參考字詞總數 | 約 54,000 |
| 語言 | 英語 |
| 產品版本 | Atter 3.3.0 |
| 測試期間 | 2025 年 11 月 |
| 評估指標 | 字詞錯誤率(WER) |
評估流程
本次基準測試遵循以下流程:
- 從 LibriSpeech test-clean 中選取公開基準音訊檔案。
- 使用 Atter 3.3.0 對這些音訊檔案進行轉錄。
- 將 Atter 產生的逐字稿與人工校驗過的參考逐字稿進行比對。
- 將字詞層級的差異計為替換、刪除與插入。
- 使用標準公式計算 WER。
- 以 100% 減去 WER 計算出準確率。
在評分前,並未對 Atter 的輸出進行任何人工修正。
測試結果
| 指標 | 結果 |
|---|---|
| 字詞錯誤率 | 1.3% |
| 逐字稿準確率 | 98.7% |
| 約略錯誤頻率 | 每 77 個參考字詞約有 1 個字詞層級錯誤 |
這代表 Atter 在清晰的公開基準音訊上表現相當優異。
這項結果應被理解為一項 基準結果,而非對每一種錄音環境的普遍保證。
正確解讀: Atter 在基準條件下,於 LibriSpeech test-clean 上達到 98.7% 的逐字稿準確率。
錯誤解讀: Atter 在每一段錄音上都永遠保持 98.7% 的準確率。
這個區別之所以重要,是因為真實世界的逐字稿準確率,很大程度上取決於音訊的品質與複雜度。
產業基準參照
要判斷 98.7% 的準確率是否優異,將它與常見的語音辨識表現區間相比會很有幫助。
| 音訊條件 | 典型的優異 WER 區間 | 約略準確率 |
|---|---|---|
| 清晰、高品質的朗讀語音 | 1.5%–3.0% | 97.0%–98.5% |
| 較具挑戰性的基準語音 | 3.5%–8.0% | 92.0%–96.5% |
| 有人聲重疊或雜音的真實會議 | 10%–20%+ | 80%–90% 或更低 |
| 音質不佳、遠場麥克風、嚴重背景雜音 | 20%+ | 可能低於 80% |
Atter 的 1.3% WER 結果,使其在清晰基準逐字稿方面落在非常優異的區間。
不過,清晰的基準音訊與充滿雜音的會議、電話、訪談、Podcast、講座,或多人同時搶話的錄音都不同。這正是 Atter 將這項結果描述為基準準確率結果的原因。
為何清晰的基準音訊表現較佳
語音辨識系統通常在音訊具備以下條件時表現最佳:
- 語音清晰
- 背景雜音低
- 音量穩定
- 人聲重疊有限
- 麥克風品質良好
- 發音一致
- 沒有嚴重的房間回音
- 沒有嚴重的音訊壓縮
LibriSpeech test-clean 是圍繞清晰朗讀語音設計的。這使它非常適合在受控的公開基準條件下,衡量核心的逐字稿能力。
在實際使用中,音訊往往更為複雜。一段會議錄音可能包含多位講者、插話、背景雜音、筆電麥克風、與講者之間的距離、房間回音、口音、產品名稱、專業術語,以及混合語言的對話。這些因素都可能讓任何逐字稿系統的 WER 上升。
哪些因素會降低真實世界的逐字稿準確率
Atter 的 98.7% 基準結果,並不代表每段錄音都會得到相同結果。當音訊包含以下情況時,準確率可能會較低:
背景雜音。 咖啡廳、車流、電風扇、冷氣、鍵盤聲與辦公室噪音,都會讓字詞更難辨識。
人聲重疊。 當兩人以上同時說話時,轉錄會變得更困難。這是會議逐字稿 WER 偏高的最大成因之一。
遠場麥克風。 放在離講者較遠處的麥克風,會收進更多房間噪音、更少的直接語音。
濃厚口音或發音不清。 口音是常見且正常的現象,但依語言模型與音質的不同,可能會增加辨識難度。
專業詞彙。 公司名稱、產品名稱、醫療術語、法律術語、代號與產業專有用語,除非在模型訓練資料中很常見,否則可能較難辨識。
低品質音訊檔案。 經過壓縮、削波、失真或音量過低的錄音,都可能降低逐字稿品質。
如何取得最佳的逐字稿準確率
使用者只要遵循幾項實用的錄音習慣,就能提升逐字稿品質:
- 靠近麥克風錄音
- 盡可能使用外接麥克風
- 降低背景雜音
- 避免把錄音裝置放在房間另一端
- 請講者不要互相搶話
- 盡可能使用清晰的音訊格式
- 保持錄音音量穩定
- 上傳前避免過度壓縮
良好的音訊輸入,是取得準確逐字稿最重要的因素之一。
這個準確率為何重要
高逐字稿準確率所改善的,不只是逐字稿本身。更準確的逐字稿能提升下游的 AI 功能,例如會議摘要、錄音內搜尋、AI 筆記、待辦事項擷取、客戶訪談分析、講座筆記、Podcast 內容再利用、字幕產生、知識庫建立,以及法律或法遵審查流程。
當逐字稿的錯誤更少時,建構於其上的每一項功能也會變得更可靠。這正是 Atter 將逐字稿準確率視為產品基礎指標的原因。
使用者如何自行驗證逐字稿準確率
使用者可以用同樣的基本方法來測試逐字稿準確率。
步驟 1:準備帶有參考逐字稿的音訊
使用附有官方逐字稿的公開基準音訊,或使用你自己的錄音搭配經過仔細校正的人工逐字稿。
步驟 2:用 Atter 轉錄音訊
使用 Atter 上傳或處理音訊,並匯出產生的逐字稿。
步驟 3:將兩份逐字稿正規化
評分前,先將參考逐字稿與 Atter 逐字稿正規化。常見的正規化步驟包括:將文字轉為小寫、移除多餘空格、統一標點、統一數字格式,以及移除格式上的差異。這有助於確保分數衡量的是轉錄錯誤,而非格式差異。
步驟 4:計算 WER
WER 可以使用 jiwer 等開源工具來計算:
from jiwer import wer
reference = "this is the human verified transcript"
prediction = "this is the atter generated transcript"
error_rate = wer(reference, prediction)
accuracy = (1 - error_rate) * 100
print(f"WER: {error_rate * 100:.2f}%")
print(f"Accuracy: {accuracy:.2f}%")
步驟 5:比對結果
WER 越低,代表逐字稿準確率越好。對於清晰的基準音訊,優異的 ASR 系統通常會產生個位數的低 WER。對於充滿雜音的會議或人聲重疊的內容,WER 則可能高出許多。這正是為什麼準確率永遠要與音訊條件一併評估。
常見問題
Atter 的 98.7% 準確率代表什麼? Atter 在受測的基準資料集上達到 1.3% 的字詞錯誤率。準確率以 100% 減去 WER 計算,因此 1.3% 的 WER 等於 98.7% 的準確率。
使用了哪個資料集? 測試使用 LibriSpeech test-clean,這是一個內容為清晰朗讀語音的公開英語語音辨識基準資料集。
測試了多少個音訊檔案? 本次基準測試使用了 2,620 個音訊片段。
測試音訊有多長? 音訊總時長約為 5.4 小時。
評估了多少字詞? 本次基準測試包含約 54,000 個參考字詞。
測試的是哪個版本的 Atter? 測試使用 Atter 3.3.0。
測試是什麼時候進行的? 這項基準測試於 2025 年 11 月進行。
什麼是 WER? WER 代表 Word Error Rate(字詞錯誤率)。它透過計算替換、刪除與插入,衡量機器產生的逐字稿與人工校驗過的參考逐字稿之間的差異。
98.7% 準確率和 1.3% WER 是一樣的嗎? 是的。準確率以 100% 減去 WER 計算。1.3% 的 WER 等於 98.7% 的準確率。
98.7% 適用於所有錄音嗎? 不是。98.7% 的結果描述的是在清晰公開音訊上的基準表現。真實世界的準確率可能會因音質、雜音、人聲重疊、口音、麥克風距離與詞彙而有所不同。
為什麼會議逐字稿的準確率可能較低? 會議常包含多位講者、插話、背景雜音、不固定的麥克風距離,以及人聲重疊。這些因素都讓任何語音辨識系統的轉錄變得更困難。
我該如何提升逐字稿準確率? 使用清晰的麥克風、靠近講者錄音、降低背景雜音、避免人聲重疊,並盡可能使用高品質的音訊檔案。
最終結論
Atter 的 98.7% 逐字稿準確率結果,最好理解為一項透過 WER 框架測得的專業基準結果。
這項結果代表:
- Atter 達到 1.3% WER
- 測試使用 LibriSpeech test-clean
- 基準測試包含 2,620 個音訊片段
- 總時長約為 5.4 小時
- 基準測試包含 約 54,000 個參考字詞
- 測試於 2025 年 11 月 進行
- 受測版本為 Atter 3.3.0
- 準確率是對照 人工校驗過的參考逐字稿 計算的
- 真實世界的結果可能因錄音條件而異
對使用者而言,關鍵重點是:Atter 在清晰的基準條件下提供高準確率的逐字稿,而它的 98.7% 結果,是使用語音辨識評估通用的專業 WER 框架測得的。