AI 轉錄

Atter AI 逐字稿準確率報告:以 WER 實測 98.7%

Atter AI 於 2025 年 11 月在 LibriSpeech test-clean 上達到 98.7% 逐字稿準確率(1.3% WER)。完整測試配置、方法與自行驗證步驟。

摘要

Atter AI 在 2025 年 11 月 進行的基準測試中,使用 Atter 3.3.0 版本,達到 98.7% 的逐字稿準確率

這項結果相當於 1.3% 的字詞錯誤率(Word Error Rate,WER)。WER 是自動語音辨識測試中的標準評估框架,用來衡量機器產生的逐字稿與人工校驗過的參考逐字稿之間的差異。

Atter 的這項結果是在 LibriSpeech test-clean 上測得的——這是一個公開的英語語音辨識基準資料集,內容為清晰的朗讀語音。

簡單來說:Atter 在公開基準音訊上達到了 98.7% 的逐字稿準確率,也就是在受測條件下,每 100 個參考字詞中大約只有 1.3 個字詞層級的錯誤。

本報告將說明這個數字代表什麼、是如何測量的,以及使用者在真實的逐字稿場景中應該如何理解它。

核心結果

項目結果
受測產品Atter AI
產品版本Atter 3.3.0
測試期間2025 年 11 月
資料集LibriSpeech test-clean
音訊來源公開基準音訊
音訊類型清晰的英語朗讀語音
音訊片段數量2,620
音訊總時長約 5.4 小時
參考字詞總數約 54,000
語言英語
參考逐字稿人工校驗過的參考逐字稿
評估指標字詞錯誤率(WER)
WER 結果1.3%
準確率結果98.7%

98.7% 逐字稿準確率代表什麼

逐字稿準確率經常以一個簡單的百分比呈現,但只有在測試方法清楚的情況下,這個數字才有意義。

對 Atter 而言,98.7% 準確率代表的是:將 Atter 產生的逐字稿與人工校驗過的參考逐字稿比對後,所測得的字詞層級差異為 1.3% WER。

準確率與 WER 之間的關係如下:

Accuracy = 100% − WER
100% − 1.3% = 98.7%

1.3% 的 WER 代表,參考逐字稿中每 100 個字詞,大約有 1.3 個字詞受到辨識錯誤的影響。這些錯誤可能包括:

  • 某個字詞被辨識錯誤
  • 某個字詞被漏掉
  • 多出一個字詞
  • 某個短語的斷詞方式與參考逐字稿不同

這正是為什麼 Atter 以 WER 來呈現其基準結果,而不是僅僅給出一個籠統的準確率宣稱。

Atter 為何採用 WER

WER 代表 Word Error Rate(字詞錯誤率)。它是評估英語自動語音辨識系統最廣泛使用的指標之一。WER 不以主觀方式評斷逐字稿,而是提供一種可重複的方法,用來將產生的逐字稿與可信賴的參考逐字稿進行比對。

WER 的公式為:

WER = (S + D + I) / N
符號意義
S替換(Substitutions)——被辨識成錯誤字詞的字
D刪除(Deletions)——產生的逐字稿中缺漏的字
I插入(Insertions)——系統多加上的字
N參考逐字稿中的字詞總數

舉例來說,如果一份參考逐字稿包含 10,000 個字詞,而系統產生了 130 個字詞層級的錯誤,那麼 WER 就是 130 / 10,000 = 1.3%,對應的準確率為 100% − 1.3% = 98.7%

這正是 Atter 計算其基準逐字稿準確率所採用的框架。

基準測試配置

Atter 的 98.7% 逐字稿準確率結果,是使用公開的語音辨識基準配置測得的。測試採用 LibriSpeech test-clean,這是英語語音辨識評估中常用的公開基準資料集。

測試配置

項目測試配置
資料集LibriSpeech test-clean
音訊條件清晰的英語朗讀語音
音訊來源公開基準音訊
音訊片段數量2,620
音訊總時長約 5.4 小時
參考字詞總數約 54,000
語言英語
產品版本Atter 3.3.0
測試期間2025 年 11 月
評估指標字詞錯誤率(WER)

評估流程

本次基準測試遵循以下流程:

  1. 從 LibriSpeech test-clean 中選取公開基準音訊檔案。
  2. 使用 Atter 3.3.0 對這些音訊檔案進行轉錄。
  3. 將 Atter 產生的逐字稿與人工校驗過的參考逐字稿進行比對。
  4. 將字詞層級的差異計為替換、刪除與插入。
  5. 使用標準公式計算 WER。
  6. 以 100% 減去 WER 計算出準確率。

在評分前,並未對 Atter 的輸出進行任何人工修正。

測試結果

指標結果
字詞錯誤率1.3%
逐字稿準確率98.7%
約略錯誤頻率每 77 個參考字詞約有 1 個字詞層級錯誤

這代表 Atter 在清晰的公開基準音訊上表現相當優異。

這項結果應被理解為一項 基準結果,而非對每一種錄音環境的普遍保證。

正確解讀: Atter 在基準條件下,於 LibriSpeech test-clean 上達到 98.7% 的逐字稿準確率。

錯誤解讀: Atter 在每一段錄音上都永遠保持 98.7% 的準確率。

這個區別之所以重要,是因為真實世界的逐字稿準確率,很大程度上取決於音訊的品質與複雜度。

產業基準參照

要判斷 98.7% 的準確率是否優異,將它與常見的語音辨識表現區間相比會很有幫助。

音訊條件典型的優異 WER 區間約略準確率
清晰、高品質的朗讀語音1.5%–3.0%97.0%–98.5%
較具挑戰性的基準語音3.5%–8.0%92.0%–96.5%
有人聲重疊或雜音的真實會議10%–20%+80%–90% 或更低
音質不佳、遠場麥克風、嚴重背景雜音20%+可能低於 80%

Atter 的 1.3% WER 結果,使其在清晰基準逐字稿方面落在非常優異的區間。

不過,清晰的基準音訊與充滿雜音的會議、電話、訪談、Podcast、講座,或多人同時搶話的錄音都不同。這正是 Atter 將這項結果描述為基準準確率結果的原因。

為何清晰的基準音訊表現較佳

語音辨識系統通常在音訊具備以下條件時表現最佳:

  • 語音清晰
  • 背景雜音低
  • 音量穩定
  • 人聲重疊有限
  • 麥克風品質良好
  • 發音一致
  • 沒有嚴重的房間回音
  • 沒有嚴重的音訊壓縮

LibriSpeech test-clean 是圍繞清晰朗讀語音設計的。這使它非常適合在受控的公開基準條件下,衡量核心的逐字稿能力。

在實際使用中,音訊往往更為複雜。一段會議錄音可能包含多位講者、插話、背景雜音、筆電麥克風、與講者之間的距離、房間回音、口音、產品名稱、專業術語,以及混合語言的對話。這些因素都可能讓任何逐字稿系統的 WER 上升。

哪些因素會降低真實世界的逐字稿準確率

Atter 的 98.7% 基準結果,並不代表每段錄音都會得到相同結果。當音訊包含以下情況時,準確率可能會較低:

背景雜音。 咖啡廳、車流、電風扇、冷氣、鍵盤聲與辦公室噪音,都會讓字詞更難辨識。

人聲重疊。 當兩人以上同時說話時,轉錄會變得更困難。這是會議逐字稿 WER 偏高的最大成因之一。

遠場麥克風。 放在離講者較遠處的麥克風,會收進更多房間噪音、更少的直接語音。

濃厚口音或發音不清。 口音是常見且正常的現象,但依語言模型與音質的不同,可能會增加辨識難度。

專業詞彙。 公司名稱、產品名稱、醫療術語、法律術語、代號與產業專有用語,除非在模型訓練資料中很常見,否則可能較難辨識。

低品質音訊檔案。 經過壓縮、削波、失真或音量過低的錄音,都可能降低逐字稿品質。

如何取得最佳的逐字稿準確率

使用者只要遵循幾項實用的錄音習慣,就能提升逐字稿品質:

  • 靠近麥克風錄音
  • 盡可能使用外接麥克風
  • 降低背景雜音
  • 避免把錄音裝置放在房間另一端
  • 請講者不要互相搶話
  • 盡可能使用清晰的音訊格式
  • 保持錄音音量穩定
  • 上傳前避免過度壓縮

良好的音訊輸入,是取得準確逐字稿最重要的因素之一。

這個準確率為何重要

高逐字稿準確率所改善的,不只是逐字稿本身。更準確的逐字稿能提升下游的 AI 功能,例如會議摘要、錄音內搜尋、AI 筆記、待辦事項擷取、客戶訪談分析、講座筆記、Podcast 內容再利用、字幕產生、知識庫建立,以及法律或法遵審查流程。

當逐字稿的錯誤更少時,建構於其上的每一項功能也會變得更可靠。這正是 Atter 將逐字稿準確率視為產品基礎指標的原因。

使用者如何自行驗證逐字稿準確率

使用者可以用同樣的基本方法來測試逐字稿準確率。

步驟 1:準備帶有參考逐字稿的音訊

使用附有官方逐字稿的公開基準音訊,或使用你自己的錄音搭配經過仔細校正的人工逐字稿。

步驟 2:用 Atter 轉錄音訊

使用 Atter 上傳或處理音訊,並匯出產生的逐字稿。

步驟 3:將兩份逐字稿正規化

評分前,先將參考逐字稿與 Atter 逐字稿正規化。常見的正規化步驟包括:將文字轉為小寫、移除多餘空格、統一標點、統一數字格式,以及移除格式上的差異。這有助於確保分數衡量的是轉錄錯誤,而非格式差異。

步驟 4:計算 WER

WER 可以使用 jiwer 等開源工具來計算:

from jiwer import wer

reference = "this is the human verified transcript"
prediction = "this is the atter generated transcript"

error_rate = wer(reference, prediction)
accuracy = (1 - error_rate) * 100

print(f"WER: {error_rate * 100:.2f}%")
print(f"Accuracy: {accuracy:.2f}%")

步驟 5:比對結果

WER 越低,代表逐字稿準確率越好。對於清晰的基準音訊,優異的 ASR 系統通常會產生個位數的低 WER。對於充滿雜音的會議或人聲重疊的內容,WER 則可能高出許多。這正是為什麼準確率永遠要與音訊條件一併評估。

常見問題

Atter 的 98.7% 準確率代表什麼? Atter 在受測的基準資料集上達到 1.3% 的字詞錯誤率。準確率以 100% 減去 WER 計算,因此 1.3% 的 WER 等於 98.7% 的準確率。

使用了哪個資料集? 測試使用 LibriSpeech test-clean,這是一個內容為清晰朗讀語音的公開英語語音辨識基準資料集。

測試了多少個音訊檔案? 本次基準測試使用了 2,620 個音訊片段。

測試音訊有多長? 音訊總時長約為 5.4 小時。

評估了多少字詞? 本次基準測試包含約 54,000 個參考字詞。

測試的是哪個版本的 Atter? 測試使用 Atter 3.3.0。

測試是什麼時候進行的? 這項基準測試於 2025 年 11 月進行。

什麼是 WER? WER 代表 Word Error Rate(字詞錯誤率)。它透過計算替換、刪除與插入,衡量機器產生的逐字稿與人工校驗過的參考逐字稿之間的差異。

98.7% 準確率和 1.3% WER 是一樣的嗎? 是的。準確率以 100% 減去 WER 計算。1.3% 的 WER 等於 98.7% 的準確率。

98.7% 適用於所有錄音嗎? 不是。98.7% 的結果描述的是在清晰公開音訊上的基準表現。真實世界的準確率可能會因音質、雜音、人聲重疊、口音、麥克風距離與詞彙而有所不同。

為什麼會議逐字稿的準確率可能較低? 會議常包含多位講者、插話、背景雜音、不固定的麥克風距離,以及人聲重疊。這些因素都讓任何語音辨識系統的轉錄變得更困難。

我該如何提升逐字稿準確率? 使用清晰的麥克風、靠近講者錄音、降低背景雜音、避免人聲重疊,並盡可能使用高品質的音訊檔案。

最終結論

Atter 的 98.7% 逐字稿準確率結果,最好理解為一項透過 WER 框架測得的專業基準結果。

這項結果代表:

  • Atter 達到 1.3% WER
  • 測試使用 LibriSpeech test-clean
  • 基準測試包含 2,620 個音訊片段
  • 總時長約為 5.4 小時
  • 基準測試包含 約 54,000 個參考字詞
  • 測試於 2025 年 11 月 進行
  • 受測版本為 Atter 3.3.0
  • 準確率是對照 人工校驗過的參考逐字稿 計算的
  • 真實世界的結果可能因錄音條件而異

對使用者而言,關鍵重點是:Atter 在清晰的基準條件下提供高準確率的逐字稿,而它的 98.7% 結果,是使用語音辨識評估通用的專業 WER 框架測得的。