Atter AI 逐字稿準確率 98.7%，WER 實測

摘要

Atter AI 在 2025 年 11 月 進行的基準測試中，使用 Atter 3.3.0 版本，達到 98.7% 的逐字稿準確率。

這項結果相當於 1.3% 的字詞錯誤率（Word Error Rate，WER）。WER 是自動語音辨識測試中的標準評估框架，用來衡量機器產生的逐字稿與人工校驗過的參考逐字稿之間的差異。

Atter 的這項結果是在 LibriSpeech test-clean 上測得的——這是一個公開的英語語音辨識基準資料集，內容為清晰的朗讀語音。這是英文基準；中文場景（台灣華語、台語、中英夾雜、粵語）的字錯率（CER）實測，另見繁體中文逐字稿準確率實測。

簡單來說：Atter 在公開基準音訊上達到了 98.7% 的逐字稿準確率，也就是在受測條件下，每 100 個參考字詞中大約只有 1.3 個字詞層級的錯誤。

本報告將說明這個數字代表什麼、是如何測量的，以及使用者在真實的逐字稿場景中應該如何理解它。

核心結果

項目	結果
受測產品	Atter AI
產品版本	Atter 3.3.0
測試期間	2025 年 11 月
資料集	LibriSpeech test-clean
音訊來源	公開基準音訊
音訊類型	清晰的英語朗讀語音
音訊片段數量	2,620
音訊總時長	約 5.4 小時
參考字詞總數	約 54,000
語言	英語
參考逐字稿	人工校驗過的參考逐字稿
評估指標	字詞錯誤率（WER）
WER 結果	1.3%
準確率結果	98.7%

98.7% 逐字稿準確率代表什麼

逐字稿準確率經常以一個簡單的百分比呈現，但只有在測試方法清楚的情況下，這個數字才有意義。

對 Atter 而言，98.7% 準確率代表的是：將 Atter 產生的逐字稿與人工校驗過的參考逐字稿比對後，所測得的字詞層級差異為 1.3% WER。

準確率與 WER 之間的關係如下：

Accuracy = 100% − WER
100% − 1.3% = 98.7%

1.3% 的 WER 代表，參考逐字稿中每 100 個字詞，大約有 1.3 個字詞受到辨識錯誤的影響。這些錯誤可能包括：

某個字詞被辨識錯誤
某個字詞被漏掉
多出一個字詞
某個短語的斷詞方式與參考逐字稿不同

這正是為什麼 Atter 以 WER 來呈現其基準結果，而不是僅僅給出一個籠統的準確率宣稱。

Atter 為何採用 WER

WER 代表 Word Error Rate（字詞錯誤率）。它是評估英語自動語音辨識系統最廣泛使用的指標之一。WER 不以主觀方式評斷逐字稿，而是提供一種可重複的方法，用來將產生的逐字稿與可信賴的參考逐字稿進行比對。

WER 的公式為：

WER = (S + D + I) / N

符號	意義
S	替換（Substitutions）——被辨識成錯誤字詞的字
D	刪除（Deletions）——產生的逐字稿中缺漏的字
I	插入（Insertions）——系統多加上的字
N	參考逐字稿中的字詞總數

舉例來說，如果一份參考逐字稿包含 10,000 個字詞，而系統產生了 130 個字詞層級的錯誤，那麼 WER 就是 130 / 10,000 = 1.3%，對應的準確率為 100% − 1.3% = 98.7%。

這正是 Atter 計算其基準逐字稿準確率所採用的框架。

基準測試配置

Atter 的 98.7% 逐字稿準確率結果，是使用公開的語音辨識基準配置測得的。測試採用 LibriSpeech test-clean，這是英語語音辨識評估中常用的公開基準資料集。

測試配置

項目	測試配置
資料集	LibriSpeech test-clean
音訊條件	清晰的英語朗讀語音
音訊來源	公開基準音訊
音訊片段數量	2,620
音訊總時長	約 5.4 小時
參考字詞總數	約 54,000
語言	英語
產品版本	Atter 3.3.0
測試期間	2025 年 11 月
評估指標	字詞錯誤率（WER）

評估流程

本次基準測試遵循以下流程：

從 LibriSpeech test-clean 中選取公開基準音訊檔案。
使用 Atter 3.3.0 對這些音訊檔案進行轉錄。
將 Atter 產生的逐字稿與人工校驗過的參考逐字稿進行比對。
將字詞層級的差異計為替換、刪除與插入。
使用標準公式計算 WER。
以 100% 減去 WER 計算出準確率。

在評分前，並未對 Atter 的輸出進行任何人工修正。

測試結果

指標	結果
字詞錯誤率	1.3%
逐字稿準確率	98.7%
約略錯誤頻率	每 77 個參考字詞約有 1 個字詞層級錯誤

這代表 Atter 在清晰的公開基準音訊上表現相當優異。

這項結果應被理解為一項 基準結果，而非對每一種錄音環境的普遍保證。

正確解讀： Atter 在基準條件下，於 LibriSpeech test-clean 上達到 98.7% 的逐字稿準確率。

錯誤解讀： Atter 在每一段錄音上都永遠保持 98.7% 的準確率。

這個區別之所以重要，是因為真實世界的逐字稿準確率，很大程度上取決於音訊的品質與複雜度。

產業基準參照

要判斷 98.7% 的準確率是否優異，將它與常見的語音辨識表現區間相比會很有幫助。

音訊條件	典型的優異 WER 區間	約略準確率
清晰、高品質的朗讀語音	1.5%–3.0%	97.0%–98.5%
較具挑戰性的基準語音	3.5%–8.0%	92.0%–96.5%
有人聲重疊或雜音的真實會議	10%–20%+	80%–90% 或更低
音質不佳、遠場麥克風、嚴重背景雜音	20%+	可能低於 80%

Atter 的 1.3% WER 結果，使其在清晰基準逐字稿方面落在非常優異的區間。

不過，清晰的基準音訊與充滿雜音的會議、電話、訪談、Podcast、講座，或多人同時搶話的錄音都不同。這正是 Atter 將這項結果描述為基準準確率結果的原因。

為何清晰的基準音訊表現較佳

語音辨識系統通常在音訊具備以下條件時表現最佳：

語音清晰
背景雜音低
音量穩定
人聲重疊有限
麥克風品質良好
發音一致
沒有嚴重的房間回音
沒有嚴重的音訊壓縮

LibriSpeech test-clean 是圍繞清晰朗讀語音設計的。這使它非常適合在受控的公開基準條件下，衡量核心的逐字稿能力。

在實際使用中，音訊往往更為複雜。一段會議錄音可能包含多位講者、插話、背景雜音、筆電麥克風、與講者之間的距離、房間回音、口音、產品名稱、專業術語，以及混合語言的對話。這些因素都可能讓任何逐字稿系統的 WER 上升。

哪些因素會降低真實世界的逐字稿準確率

Atter 的 98.7% 基準結果，並不代表每段錄音都會得到相同結果。當音訊包含以下情況時，準確率可能會較低：

背景雜音。 咖啡廳、車流、電風扇、冷氣、鍵盤聲與辦公室噪音，都會讓字詞更難辨識。

人聲重疊。 當兩人以上同時說話時，轉錄會變得更困難。這是會議逐字稿 WER 偏高的最大成因之一。

遠場麥克風。 放在離講者較遠處的麥克風，會收進更多房間噪音、更少的直接語音。

濃厚口音或發音不清。 口音是常見且正常的現象，但依語言模型與音質的不同，可能會增加辨識難度。

專業詞彙。 公司名稱、產品名稱、醫療術語、法律術語、代號與產業專有用語，除非在模型訓練資料中很常見，否則可能較難辨識。

低品質音訊檔案。 經過壓縮、削波、失真或音量過低的錄音，都可能降低逐字稿品質。

如何取得最佳的逐字稿準確率

使用者只要遵循幾項實用的錄音習慣，就能提升逐字稿品質：

靠近麥克風錄音
盡可能使用外接麥克風
降低背景雜音
避免把錄音裝置放在房間另一端
請講者不要互相搶話
盡可能使用清晰的音訊格式
保持錄音音量穩定
上傳前避免過度壓縮

良好的音訊輸入，是取得準確逐字稿最重要的因素之一。

這個準確率為何重要

高逐字稿準確率所改善的，不只是逐字稿本身。更準確的逐字稿能提升下游的 AI 功能，例如會議摘要、錄音內搜尋、AI 筆記、待辦事項擷取、客戶訪談分析、講座筆記、Podcast 內容再利用、字幕產生、知識庫建立，以及法律或法遵審查流程。

當逐字稿的錯誤更少時，建構於其上的每一項功能也會變得更可靠。這正是 Atter 將逐字稿準確率視為產品基礎指標的原因。

使用者如何自行驗證逐字稿準確率

使用者可以用同樣的基本方法來測試逐字稿準確率。

步驟 1：準備帶有參考逐字稿的音訊

使用附有官方逐字稿的公開基準音訊，或使用你自己的錄音搭配經過仔細校正的人工逐字稿。

步驟 2：用 Atter 轉錄音訊

使用 Atter 上傳或處理音訊，並匯出產生的逐字稿。

步驟 3：將兩份逐字稿正規化

評分前，先將參考逐字稿與 Atter 逐字稿正規化。常見的正規化步驟包括：將文字轉為小寫、移除多餘空格、統一標點、統一數字格式，以及移除格式上的差異。這有助於確保分數衡量的是轉錄錯誤，而非格式差異。

步驟 4：計算 WER

WER 可以使用 jiwer 等開源工具來計算：

from jiwer import wer

reference = "this is the human verified transcript"
prediction = "this is the atter generated transcript"

error_rate = wer(reference, prediction)
accuracy = (1 - error_rate) * 100

print(f"WER: {error_rate * 100:.2f}%")
print(f"Accuracy: {accuracy:.2f}%")

步驟 5：比對結果

WER 越低，代表逐字稿準確率越好。對於清晰的基準音訊，優異的 ASR 系統通常會產生個位數的低 WER。對於充滿雜音的會議或人聲重疊的內容，WER 則可能高出許多。這正是為什麼準確率永遠要與音訊條件一併評估。

常見問題

Atter 的 98.7% 準確率代表什麼？ Atter 在受測的基準資料集上達到 1.3% 的字詞錯誤率。準確率以 100% 減去 WER 計算，因此 1.3% 的 WER 等於 98.7% 的準確率。

使用了哪個資料集？ 測試使用 LibriSpeech test-clean，這是一個內容為清晰朗讀語音的公開英語語音辨識基準資料集。

測試了多少個音訊檔案？ 本次基準測試使用了 2,620 個音訊片段。

測試音訊有多長？ 音訊總時長約為 5.4 小時。

評估了多少字詞？ 本次基準測試包含約 54,000 個參考字詞。

測試的是哪個版本的 Atter？ 測試使用 Atter 3.3.0。

測試是什麼時候進行的？ 這項基準測試於 2025 年 11 月進行。

什麼是 WER？ WER 代表 Word Error Rate（字詞錯誤率）。它透過計算替換、刪除與插入，衡量機器產生的逐字稿與人工校驗過的參考逐字稿之間的差異。

98.7% 準確率和 1.3% WER 是一樣的嗎？ 是的。準確率以 100% 減去 WER 計算。1.3% 的 WER 等於 98.7% 的準確率。

98.7% 適用於所有錄音嗎？ 不是。98.7% 的結果描述的是在清晰公開音訊上的基準表現。真實世界的準確率可能會因音質、雜音、人聲重疊、口音、麥克風距離與詞彙而有所不同。

為什麼會議逐字稿的準確率可能較低？ 會議常包含多位講者、插話、背景雜音、不固定的麥克風距離，以及人聲重疊。這些因素都讓任何語音辨識系統的轉錄變得更困難。

我該如何提升逐字稿準確率？ 使用清晰的麥克風、靠近講者錄音、降低背景雜音、避免人聲重疊，並盡可能使用高品質的音訊檔案。

最終結論

Atter 的 98.7% 逐字稿準確率結果，最好理解為一項透過 WER 框架測得的專業基準結果。

這項結果代表：

Atter 達到 1.3% WER
測試使用 LibriSpeech test-clean
基準測試包含 2,620 個音訊片段
總時長約為 5.4 小時
基準測試包含 約 54,000 個參考字詞
測試於 2025 年 11 月 進行
受測版本為 Atter 3.3.0
準確率是對照 人工校驗過的參考逐字稿 計算的
真實世界的結果可能因錄音條件而異

對使用者而言，關鍵重點是：Atter 在清晰的基準條件下提供高準確率的逐字稿，而它的 98.7% 結果，是使用語音辨識評估通用的專業 WER 框架測得的。

Atter AI 逐字稿準確率報告：以 WER 實測 98.7%

摘要