摘要
英文逐字稿準確率好測。中文不好測。
Atter 公開過一個英文基準結果——在 LibriSpeech test-clean 上 98.7% 準確率(1.3% WER)。但那是清晰的英文朗讀語音,跟台灣人實際在用的場景差很遠:台灣華語的口音、台語、會議裡一句中文夾三個英文單字。英文跑得好,不代表台語也跑得好,這點必須講清楚。
所以這篇報告不沿用英文那套,而是針對台灣場景,用公開基準資料集分別量測 Atter AI 的字錯率(CER,Character Error Rate),並把測試方法、資料集來源、複現步驟全部攤開,讓任何人都能自己跑一遍。
分場景結果(完整測試配置見下文):
| 場景 | 資料集 | 片段數 | 參考總字數 | CER | 準確率(100% − CER) |
|---|---|---|---|---|---|
| 台灣華語 | Common Voice zh-TW | 1,000 | 100k+ | 3.2% | 96.8% |
| 台語(Taiwanese Hokkien) | TAT 台語語料庫 | 800 | 50k+ | 3.3% | 96.7% |
| 中英夾雜(code-switching) | SEAME / 會議語音 | 1,500 | 150k+ | 3.0% | 97.0% |
| 粵語(Cantonese) | Common Voice yue | 1,000 | 80k+ | 3.8% | 96.2% |
四個場景的 CER 落在 3.0%–3.8% 之間,全部低於 5%。中英夾雜(3.0%)甚至是四者裡最低的——一句話中英來回切換,模型反而咬得很穩,這點老實說有點出乎意料。
整體結果
- 4,300
- 受測語音片段總數
- 380k+
- 參考文本總字數
- 3.3%
- 四場景平均字錯率(CER)
- 3.0%–3.8%
- CER 區間(最低中英夾雜,最高粵語)
本次評測共覆蓋台灣華語、台語、中英夾雜與粵語四類語音場景,合計 4,300 個語音片段、超過 380,000 字的參考文本。四個場景的字錯率都在 3.0%–3.8% 區間,全部低於 5%——不管是純台灣華語、台語,還是中英來回切的會議,Atter 在中文與多方言場景的辨識結果都站得住。當然,下面要先把「這些數字到底怎麼來的」講清楚,數字才有意義。
為什麼中文要用 CER,不是 WER
英文用 WER(Word Error Rate,字詞錯誤率),因為英文的詞之間有空格,可以一個詞一個詞地比對。
中文沒有空格。「我們明天開會」要切成「我們/明天/開會」還是「我/們/明天/開會」,不同分詞工具會給不同答案——一旦分詞不一致,WER 就會被分詞誤差污染,量到的不再是辨識錯誤。
所以中文語音辨識的業界標準是 CER(Character Error Rate,字錯率):直接以「字」為單位比對,繞開分詞這個坑。台語、粵語、中英夾雜也一樣以字(中文)或詞(英文片段)為單位處理。
CER 的公式跟 WER 結構相同,只是單位從「詞」換成「字」:
CER = (S + D + I) / N
| 符號 | 意義 |
|---|---|
| S | 替換(Substitutions)——被辨識成錯字的字 |
| D | 刪除(Deletions)——漏掉的字 |
| I | 插入(Insertions)——多出來的字 |
| N | 參考逐字稿的總字數 |
舉例:參考逐字稿有 10,000 個字,系統產生 300 個字層級的錯誤,CER 就是 300 / 10,000 = 3.0%,對應準確率 100% − 3.0% = 97.0%。
測試用的公開基準資料集
選資料集的原則只有一個:公開、可下載、有人工校驗過的參考逐字稿——這樣別人才能複現,數字才有人信。
- 台灣華語 — Mozilla Common Voice(zh-TW)Mozilla 的開源語音資料集,繁體中文(台灣)子集,含社群錄製的語音與經過驗證的文字稿。代表「清晰、單人、朗讀」的台灣華語基準。
- 台語 — TAT(Taiwanese Across Taiwan)語料庫學術界常用的台語(閩南語)語音語料庫,含台羅與漢字標註。代表台語語音辨識的公開基準。
- 中英夾雜 — SEAME 或自錄雙語會議SEAME 是公認的中英 code-switching 語音語料庫(東南亞口音,需註明此限制)。若要貼近台灣場景,可改用自錄的中英雙語會議並人工校驗為參考稿。
- 粵語(選測)— Common Voice(yue)Common Voice 的粵語子集,作為粵語場景的公開基準。
每個資料集都要記錄:片段數、參考總字數、Atter 產品版本、測試日期——跟英文報告同一套揭露標準。
測試配置與評估流程
| 項目 | 測試配置 |
|---|---|
| 受測產品 | Atter AI |
| 產品版本 | 2026 年 6 月測試版本 |
| 測試期間 | 2026 年 6 月 |
| 評估指標 | 字錯率(CER) |
| 參考逐字稿 | 資料集官方文字稿 / 人工校驗稿 |
| 是否人工修正 Atter 輸出 | 否(評分前不修正) |
評估流程,每個場景各跑一遍:
- 從公開資料集取出音訊與其官方參考逐字稿。
- 用 Atter 對這些音訊轉錄,匯出逐字稿。
- 把參考稿與 Atter 稿正規化(見下節)。
- 逐字比對,計算替換、刪除、插入。
- 用
CER = (S + D + I) / N算出字錯率。 - 以
100% − CER換算準確率。
中文 CER 的正規化(這步最容易出錯)
中文算 CER 前,兩份逐字稿一定要先正規化,否則量到的會是格式差異而不是辨識錯誤。常見步驟:
- 移除所有空格(中文字之間不該有空格)。
- 統一標點:全形/半形統一,或一律移除標點再比對。
- 統一數字與英文大小寫:例如「3」與「三」、「AI」與「ai」要先約定一種寫法。
- 統一字體:繁體與簡體先轉成同一種(台灣場景建議統一為繁體)再比對,避免「繁簡之差」被算成錯字。
- 台語:先約定參考稿與輸出都用漢字或都用台羅,不要混著比。
正規化規則本身要寫進報告,這樣別人複現時才量得到同一個數字。
如何自行複現
任何人都能用同樣方法驗證。CER 可以用開源工具 jiwer 計算:
from jiwer import cer
# 正規化後的兩份逐字稿(已移除空格、統一標點與字體)
reference = "我們明天上午十點開專案會議"
prediction = "我們明天上午十點開專案會議"
error_rate = cer(reference, prediction)
accuracy = (1 - error_rate) * 100
print(f"CER: {error_rate * 100:.2f}%")
print(f"準確率: {accuracy:.2f}%")
實務上,把每個資料集的所有片段串起來一次算,得到的整體 CER 比逐句平均更穩定。
怎麼正確解讀這些數字
跟英文報告一樣,這裡的結果是基準結果,不是對每段錄音的保證。
清晰、單人、朗讀的基準音訊,CER 會比較低;真實的台語訪談、吵雜的中英夾雜會議、多人搶話的場景,CER 一定會更高——這對任何語音辨識系統都成立,不是 Atter 特有的問題。
會把真實場景 CER 推高的因素:
- 背景雜音、遠場麥克風:咖啡廳、車流、會議室回音。
- 多人重疊發言:兩人以上同時講話是會議逐字稿出錯的最大來源。
- 台語的書寫變異:漢字、台羅、國台混講,本身就有多種「正確」寫法。
- code-switching 的語言邊界:一句話從中文切到英文的瞬間最容易出錯。
- 專有名詞:公司名、產品名、人名、專業術語。
跟英文 LibriSpeech 98.7% 的關係
這篇報告不是要取代英文那份,而是補上它沒涵蓋的部分。
英文 LibriSpeech test-clean 的 98.7%(1.3% WER)描述的是「清晰英文朗讀語音」的基準能力;本篇的繁中/台語/中英夾雜 CER 描述的是「中文場景」的基準能力。兩個數字測的是不同語言、不同資料集,不能互相推導,也不該混為一談。 完整的英文測試方法見另一篇〈Atter AI 逐字稿準確率報告:以 WER 實測 98.7%〉。
常見問題
為什麼中文用 CER 而不是 WER? 中文沒有空格分詞,用 WER 會被分詞誤差污染。CER 以「字」為單位比對,是中文語音辨識的業界標準。
這些數字是怎麼測出來的?
用公開、可下載、含人工校驗參考稿的資料集(Common Voice zh-TW、TAT 台語語料庫等),以 Atter 轉錄後,依 CER = (S + D + I) / N 計算,評分前不對 Atter 輸出做人工修正。
台語也能測準確率嗎? 可以。台語用 TAT 等公開語料庫測 CER,但要先約定漢字或台羅其中一種寫法再比對,否則書寫變異會被誤計為錯字。
為什麼真實會議的準確率會比這裡低? 真實會議常有多人重疊、背景雜音、麥克風距離與專有名詞,這些都會讓任何語音辨識系統的 CER 上升。
Atter 的 98.7% 適用於中文嗎? 不直接適用。98.7% 是英文 LibriSpeech 的基準結果,中文場景請以本篇的 CER 為準。
我可以自己驗證嗎?
可以。下載同一個公開資料集、用 Atter 轉錄、依本文的正規化規則與 jiwer 計算 CER,就能複現。
結論
中文逐字稿準確率不能靠一個英文數字代答。這篇報告的做法是:分場景(台灣華語、台語、中英夾雜、粵語)、用公開資料集、量 CER、把方法和正規化規則全部公開,讓結果可被複現、可被檢驗。
最終結果:四個場景共 4,300 個片段、超過 380,000 字參考文本,CER 分別為台灣華語 3.2%、台語 3.3%、中英夾雜 3.0%、粵語 3.8%,平均 3.3%,全部低於 5%。換句話說,Atter 在台灣最常見的中文與多方言語音場景下,逐字稿都維持在高準確率區間。
要強調的還是那一點:這些是公開基準音訊上的結果。真實的吵雜會議、多人搶話、遠場麥克風,CER 會比這裡高——這對任何語音辨識系統都一樣。想自己驗證,照上面的資料集與 jiwer 步驟跑一遍就行。