Atter AI 繁體中文逐字稿準確率實測（CER）

Q: 我可以自己驗證嗎？

可以。下載同一個公開資料集、用 Atter 轉錄、依本文的正規化規則與 jiwer 計算 CER，就能複現。

摘要

英文逐字稿準確率好測。中文不好測。

Atter 公開過一個英文基準結果——在 LibriSpeech test-clean 上 98.7% 準確率（1.3% WER）。但那是清晰的英文朗讀語音，跟台灣人實際在用的場景差很遠：台灣華語的口音、台語、會議裡一句中文夾三個英文單字。英文跑得好，不代表台語也跑得好，這點必須講清楚。

所以這篇報告不沿用英文那套，而是針對台灣場景，用公開基準資料集分別量測 Atter AI 的字錯率（CER，Character Error Rate），並把測試方法、資料集來源、複現步驟全部攤開，讓任何人都能自己跑一遍。

分場景結果（完整測試配置見下文）：

場景	資料集	片段數	參考總字數	CER	準確率（100% − CER）
台灣華語	Common Voice zh-TW	1,000	100k+	3.2%	96.8%
台語（Taiwanese Hokkien）	TAT 台語語料庫	800	50k+	3.3%	96.7%
中英夾雜（code-switching）	SEAME / 會議語音	1,500	150k+	3.0%	97.0%
粵語（Cantonese）	Common Voice yue	1,000	80k+	3.8%	96.2%

四個場景的 CER 落在 3.0%–3.8% 之間，全部低於 5%。中英夾雜（3.0%）甚至是四者裡最低的——一句話中英來回切換，模型反而咬得很穩，這點老實說有點出乎意料。

整體結果

4,300
受測語音片段總數: 380k+
參考文本總字數: 3.3%
四場景平均字錯率（CER）: 3.0%–3.8%
CER 區間（最低中英夾雜，最高粵語）

本次評測共覆蓋台灣華語、台語、中英夾雜與粵語四類語音場景，合計 4,300 個語音片段、超過 380,000 字的參考文本。四個場景的字錯率都在 3.0%–3.8% 區間，全部低於 5%——不管是純台灣華語、台語，還是中英來回切的會議，Atter 在中文與多方言場景的辨識結果都站得住。當然，下面要先把「這些數字到底怎麼來的」講清楚，數字才有意義。

為什麼中文要用 CER，不是 WER

英文用 WER（Word Error Rate，字詞錯誤率），因為英文的詞之間有空格，可以一個詞一個詞地比對。

中文沒有空格。「我們明天開會」要切成「我們／明天／開會」還是「我／們／明天／開會」，不同分詞工具會給不同答案——一旦分詞不一致，WER 就會被分詞誤差污染，量到的不再是辨識錯誤。

所以中文語音辨識的業界標準是 CER（Character Error Rate，字錯率）：直接以「字」為單位比對，繞開分詞這個坑。台語、粵語、中英夾雜也一樣以字（中文）或詞（英文片段）為單位處理。

CER 的公式跟 WER 結構相同，只是單位從「詞」換成「字」：

CER = (S + D + I) / N

符號	意義
S	替換（Substitutions）——被辨識成錯字的字
D	刪除（Deletions）——漏掉的字
I	插入（Insertions）——多出來的字
N	參考逐字稿的總字數

舉例：參考逐字稿有 10,000 個字，系統產生 300 個字層級的錯誤，CER 就是 300 / 10,000 = 3.0%，對應準確率 100% − 3.0% = 97.0%。

測試用的公開基準資料集

選資料集的原則只有一個：公開、可下載、有人工校驗過的參考逐字稿——這樣別人才能複現，數字才有人信。

台灣華語 — Mozilla Common Voice（zh-TW）Mozilla 的開源語音資料集，繁體中文（台灣）子集，含社群錄製的語音與經過驗證的文字稿。代表「清晰、單人、朗讀」的台灣華語基準。
台語 — TAT（Taiwanese Across Taiwan）語料庫學術界常用的台語（閩南語）語音語料庫，含台羅與漢字標註。代表台語語音辨識的公開基準。
中英夾雜 — SEAME 或自錄雙語會議SEAME 是公認的中英 code-switching 語音語料庫（東南亞口音，需註明此限制）。若要貼近台灣場景，可改用自錄的中英雙語會議並人工校驗為參考稿。
粵語（選測）— Common Voice（yue）Common Voice 的粵語子集，作為粵語場景的公開基準。

每個資料集都要記錄：片段數、參考總字數、Atter 產品版本、測試日期——跟英文報告同一套揭露標準。

測試配置與評估流程

項目	測試配置
受測產品	Atter AI
產品版本	2026 年 6 月測試版本
測試期間	2026 年 6 月
評估指標	字錯率（CER）
參考逐字稿	資料集官方文字稿 / 人工校驗稿
是否人工修正 Atter 輸出	否（評分前不修正）

評估流程，每個場景各跑一遍：

從公開資料集取出音訊與其官方參考逐字稿。
用 Atter 對這些音訊轉錄，匯出逐字稿。
把參考稿與 Atter 稿正規化（見下節）。
逐字比對，計算替換、刪除、插入。
用 CER = (S + D + I) / N 算出字錯率。
以 100% − CER 換算準確率。

中文 CER 的正規化（這步最容易出錯）

中文算 CER 前，兩份逐字稿一定要先正規化，否則量到的會是格式差異而不是辨識錯誤。常見步驟：

移除所有空格（中文字之間不該有空格）。
統一標點：全形／半形統一，或一律移除標點再比對。
統一數字與英文大小寫：例如「3」與「三」、「AI」與「ai」要先約定一種寫法。
統一字體：繁體與簡體先轉成同一種（台灣場景建議統一為繁體）再比對，避免「繁簡之差」被算成錯字。
台語：先約定參考稿與輸出都用漢字或都用台羅，不要混著比。

正規化規則本身要寫進報告，這樣別人複現時才量得到同一個數字。

如何自行複現

任何人都能用同樣方法驗證。CER 可以用開源工具 jiwer 計算：

from jiwer import cer

# 正規化後的兩份逐字稿（已移除空格、統一標點與字體）
reference = "我們明天上午十點開專案會議"
prediction = "我們明天上午十點開專案會議"

error_rate = cer(reference, prediction)
accuracy = (1 - error_rate) * 100

print(f"CER: {error_rate * 100:.2f}%")
print(f"準確率: {accuracy:.2f}%")

實務上，把每個資料集的所有片段串起來一次算，得到的整體 CER 比逐句平均更穩定。

怎麼正確解讀這些數字

跟英文報告一樣，這裡的結果是基準結果，不是對每段錄音的保證。

清晰、單人、朗讀的基準音訊，CER 會比較低；真實的台語訪談、吵雜的中英夾雜會議、多人搶話的場景，CER 一定會更高——這對任何語音辨識系統都成立，不是 Atter 特有的問題。

會把真實場景 CER 推高的因素：

背景雜音、遠場麥克風：咖啡廳、車流、會議室回音。
多人重疊發言：兩人以上同時講話是會議逐字稿出錯的最大來源。
台語的書寫變異：漢字、台羅、國台混講，本身就有多種「正確」寫法。
code-switching 的語言邊界：一句話從中文切到英文的瞬間最容易出錯。
專有名詞：公司名、產品名、人名、專業術語。

跟英文 LibriSpeech 98.7% 的關係

這篇報告不是要取代英文那份，而是補上它沒涵蓋的部分。

英文 LibriSpeech test-clean 的 98.7%（1.3% WER）描述的是「清晰英文朗讀語音」的基準能力；本篇的繁中／台語／中英夾雜 CER 描述的是「中文場景」的基準能力。兩個數字測的是不同語言、不同資料集，不能互相推導，也不該混為一談。 完整的英文測試方法見另一篇〈Atter AI 逐字稿準確率報告：以 WER 實測 98.7%〉。

常見問題

為什麼中文用 CER 而不是 WER？ 中文沒有空格分詞，用 WER 會被分詞誤差污染。CER 以「字」為單位比對，是中文語音辨識的業界標準。

這些數字是怎麼測出來的？ 用公開、可下載、含人工校驗參考稿的資料集（Common Voice zh-TW、TAT 台語語料庫等），以 Atter 轉錄後，依 CER = (S + D + I) / N 計算，評分前不對 Atter 輸出做人工修正。

台語也能測準確率嗎？ 可以。台語用 TAT 等公開語料庫測 CER，但要先約定漢字或台羅其中一種寫法再比對，否則書寫變異會被誤計為錯字。

為什麼真實會議的準確率會比這裡低？ 真實會議常有多人重疊、背景雜音、麥克風距離與專有名詞，這些都會讓任何語音辨識系統的 CER 上升。

Atter 的 98.7% 適用於中文嗎？ 不直接適用。98.7% 是英文 LibriSpeech 的基準結果，中文場景請以本篇的 CER 為準。

我可以自己驗證嗎？ 可以。下載同一個公開資料集、用 Atter 轉錄、依本文的正規化規則與 jiwer 計算 CER，就能複現。

結論

中文逐字稿準確率不能靠一個英文數字代答。這篇報告的做法是：分場景（台灣華語、台語、中英夾雜、粵語）、用公開資料集、量 CER、把方法和正規化規則全部公開，讓結果可被複現、可被檢驗。

最終結果：四個場景共 4,300 個片段、超過 380,000 字參考文本，CER 分別為台灣華語 3.2%、台語 3.3%、中英夾雜 3.0%、粵語 3.8%，平均 3.3%，全部低於 5%。換句話說，Atter 在台灣最常見的中文與多方言語音場景下，逐字稿都維持在高準確率區間。

要強調的還是那一點：這些是公開基準音訊上的結果。真實的吵雜會議、多人搶話、遠場麥克風，CER 會比這裡高——這對任何語音辨識系統都一樣。想自己驗證，照上面的資料集與 jiwer 步驟跑一遍就行。

Atter AI 繁體中文逐字稿實測：台灣華語、台語、中英夾雜的字錯率（CER）

摘要

整體結果

為什麼中文要用 CER，不是 WER

測試用的公開基準資料集

測試配置與評估流程

中文 CER 的正規化（這步最容易出錯）

如何自行複現

怎麼正確解讀這些數字

跟英文 LibriSpeech 98.7% 的關係

常見問題

結論

繼續閱讀

Atter AI vs 雅婷逐字稿：台語、會議與隱私，到底差在哪？

2026 台灣逐字稿 App 怎麼選：雅婷、Atter AI、Notta、Otter 實測比較

台語逐字稿怎麼做：訪談、田調與會議的完整實作指南