打開幾乎任何一款逐字稿工具的價格頁,你會看到同一句吹噓:「支援 90 多種語言」「50+ 語言」「100+ 語言」。這是一場多語言軍備競賽,數字一路往上飆。問題來了:這個數字,幾乎沒告訴你它到底能不能把你這種語言轉好。
「支援某語言」這個打勾,通常只代表模型吃過夠多那種語言的資料,能吐出某種東西。不代表那東西能用。我親眼看過掛著「60 種語言」徽章的工具,把一段乾淨的粵語錄音,轉成一本正經的鬼話。而官網那個準確率數字——行銷素材上最大那個——幾乎永遠是英文的數字。其他語言都安靜得多,而且常常低很多。
所以這篇不是又一份「誰的語言清單最長」排行榜。真正決定一款多語言逐字稿工具能不能用的,是三件事:它在你那種語言上有多準、遇到中英夾雜撐不撐得住、還有當音檔不再是純英文以後,講者標籤跟摘要還活不活得下來。老實說,前面那個數字最不重要。
「多語言」到底該是什麼意思
在列工具之前,先誠實講清楚:一款真的能打的多語言工具,跟一個只是下拉選單很長的工具,差在哪。
各語言的真實準確率,不是官網那個準確率。 每家都報一個準確率數字。那個數字量的是乾淨英文——通常還是錄音室等級、照稿念的。同一款工具餵它一段越南語電話、或一段吵雜的波蘭語訪談,準確率可以掉兩位數。真正的多語言工具,是在很多語言上都撐得住,不是只有首頁那一種。
中英夾雜。 這才是真正的壓力測試,而且很殘忍。世界上一大票人根本不是一次只講一種語言——台灣的會議室裡,一句話中間就從國語滑到英文的專有名詞;香港辦公室講的是粵語裡撒滿英文商業詞。多數轉錄引擎假設一個檔案就一種語言。你跟它說「這是中文」,它就把出現的每個英文字拼成亂碼,反過來也一樣。這點必須吐槽:能好好處理夾雜的工具,幾乎清一色是建在大型語言模型上的,因為它們是靠上下文權衡,而不是硬把每個音塞進事先選好的那一種語言。
原語言的結構。 轉出文字只是第一步。真正的多語言工具,還得把講者標籤、摘要、可搜尋的輸出都做在原語言上——而不是先全部翻成英文、把味道弄丟。講者辨識尤其愛在有人切換語言時晃,這點值得單獨測。
文字系統與輸出。 從右往左寫的(阿拉伯文、希伯來文)、方塊字(中文、日文、韓文)、帶變音符號的(越南文、捷克文),全都會弄壞那些骨子裡是英文優先的工具。你的語言只要不是基本拉丁字母,這件事就比語言數量重要得多。
把這四點記著,戰場一下就窄了。
值得比較的幾款多語言逐字稿工具
| 工具 | 語言數 | 中英夾雜 | 最適合 |
|---|---|---|---|
| Atter AI | 90+ | 強(含中英夾雜) | 混語音檔、中文、個人工作者 |
| Good Tape | 100+ | 有限 | 記者、單純上傳檔案 |
| Notta | 50+ | 有限 | 跨平台團隊協作 |
| Sonix | 38+ | 有限 | 大量檔案批次轉錄 + 字幕 |
| Whisper(開源) | 90+ | 弱(原生模型) | 工程師、免費 + 隱私 |
| Otter | 英文優先 | 不行 | 純英文會議 |
Atter AI —— 真多語言音檔的綜合首選
你的錄音如果經常不是英文——或不是同一種語言——從這款開始。
Atter AI 支援 90 多種語言,每一種都給你完整功能(轉錄、摘要、講者標籤、AI 對話),不是那種「其他語言」只給你一份陽春逐字稿的做法。乾淨音訊上做到 98.7% 準確率,而且它是建在大型語言模型上、不是傳統的語音引擎——這正是它能接住那些會弄壞其他工具的狀況的原因。
它最亮眼的地方就是中文和中英夾雜。國語、粵語、台灣國語都處理得來,而且——這才是難的——一通在中英之間來回滑的電話,它轉起來不會在英文字上崩成亂碼。光這一項能力,就把數量多得驚人的「多語言」競品刷掉。單檔可以跑到 5 小時或 2GB,也沒有每月配額的分鐘牆——你在轉的是長篇多語言訪談、而不是十分鐘站會時,這點差很多。
誠實講短板:它瞄準的是個人和小團隊,不是那種五十個席位、還有一組採購清單的企業。而且跟這裡每一款一樣,它在長尾小語種上的準確率,會低於那個乾淨英文的招牌數字——沒有一家逃得過。最適合:音檔是中文、混語、或散在多種語言的人。想專門看粵語轉得如何,可以讀粵語逐字稿怎麼做。
Good Tape —— 語言清單最長,流程最簡單
Good Tape 出自新聞圈,掛的是這裡最長的菜單:100 多種語言。介面刻意做得極簡——上傳檔案、拿回乾淨逐字稿——而且它很吃隱私和保護消息來源,這正是記者在乎的。
代價是深度。它是檔案上傳型的轉錄器,不是會議平台:沒有即時機器人、AI 摘要比較輕,中英夾雜也不是它的強項。你如果主要就是要把一大堆各種語言的訪談錄音變成乾淨文字,它很棒。但你的音檔如果在同一個檔案裡混語言,去別的地方看。最適合:轉單一語言、但橫跨很多種語言的記者與研究者。
Notta —— 主流大語言穩,長尾就薄
Notta 涵蓋 50 多種語言,是通用型裡打磨得最好的一款,網頁、iOS、Android 之間同步順暢,團隊功能也成熟。碰到資源充足的大語言——西班牙文、國語、日文、法文、德文——它真的不錯,協作工具還領先一截。
它變薄的地方就是長尾和中英夾雜:它想要一個錄音一種語言,小語種明顯弱下去。免費版的每月分鐘也很緊。最適合:主要用主流語言、又重視跨裝置協作的團隊。想細看它和 Atter 在會議筆記上怎麼選,讀Atter AI vs Notta。
Sonix —— 大量多語言,還帶字幕
Sonix 處理 38 多種語言,是為吞吐量而生的:丟一疊檔案進去,吐出排版整齊的逐字稿,上面還疊了很強的字幕與翻譯匯出。對要跨幾種主流語言上字幕的媒體團隊來說,那套翻譯流程就是賣點。
它在語言數量上比領先群窄,沒有即時會議機器人,而且按小時計價的方案,一疊積壓檔案很快就疊出來。最適合:主流語言的大量檔案轉錄與字幕製作。
Whisper —— 免費、隱私、90+ 語言,但要自己組
OpenAI 的 Whisper 是安靜地驅動著這整片市場一大塊的開源引擎。自己架來跑,它完全免費、徹底隱私(音訊永遠不離開你的電腦),支援 90 多種語言。對一個想要多語言逐字稿、又不想付訂閱、也不想擔心隱私的工程師來說,這組合沒得比。
但原生 Whisper 是模型,不是產品——沒有 App、沒有摘要、沒有講者標籤,中英夾雜開箱也弱,因為它一個片段只挑一種語言。工作流程要你自己圍著它搭。最適合:不介意自己接管線的技術用戶與隱私純粹主義者。
Otter —— 反面教材
Otter 放在這裡,純粹是當反例。它開創了會議逐字稿這個類別,但它從骨子裡就是英文優先,你餵它別的語言那一刻就露餡。你的工作如果真的多語言,它是錯的起點——這也正是為什麼一堆人一開始就在找多語言的 Otter 替代品。
真正該做的那個測試
這整個類別有個很不舒服的真相:你不能信語言數量,官網那個準確率也不能全信。兩個數字都是量來好看的。
所以,自己跑測試。拿一段你真實語言的真實錄音——最好是雜的,帶點背景噪音,如果適用,還帶點中英夾雜——丟進你排前兩名的工具。把兩份逐字稿都讀一遍。數難的部分錯了幾個:專有名詞、切換語言的那些字、兩個人同時開口的那一刻。這樣花十五分鐘,比任何規格表都告訴你更多,因為它測的正是行銷藏起來的那件事:出了乾淨英文以後,會發生什麼。
怎麼挑
把工具對準你音檔的形狀,不是對準最大那個數字。
錄的是中文,或在同一個檔案裡混語言?Atter AI。轉的是單一語言、但橫跨超多種語言的檔案?Good Tape 或 Whisper。主要用主流語言、還要團隊協作?Notta。要大量產字幕?Sonix。想要免費又隱私、而且你會技術?Whisper。卡在 Otter、又被非英文結果搞到火大?這份清單上幾乎任何一款都是升級。
最後一句,適用於這裡每一款、包括我們自己:沒有人能在 90 種語言上都一樣強。徽章是行銷;你的語言才是考題。去測。
常見問題
中英夾雜的會議,哪個逐字稿工具接得住?
中英夾雜(一句國語裡摻幾個英文字)是大多數工具翻車的地方,因為它們一個檔案只認一種語言。你設成「中文」,它就把英文字拼成亂碼;設成「英文」,中文又慘。基於大型語言模型的工具明顯強很多,因為它看上下文而不是硬把每個音塞進一種語言。實測上 Atter AI 能在同一段錄音裡同時處理國語/英文、粵語/英文的夾雜。
中文音檔哪個逐字稿工具最準?
中文是這個類別最清楚的分水嶺,因為 Otter 這種英文優先的工具一碰中文就現形。Atter AI 國語、粵語、台灣國語都能處理,連中英夾雜也接得住,乾淨音訊約 98.7% 準確率,是我們最推薦的中文選擇。Notta、Sonix 轉國語也堪用。但粵語、台語這種,大多數西方做的工具偏弱,一定要拿自己的錄音先測。
有免費的多語言逐字稿工具嗎?
OpenAI 的 Whisper 免費、開源、支援 90 多種語言,在本機跑還能完全保留隱私——但它是模型不是成品 App,工作流程要你自己搭。雲端 App 裡 Notta、Good Tape 都有免費版,但都卡每月分鐘數。想要免安裝、開瀏覽器就能用的免費選項,挑雲端免費版最省事;想要不限量又免費,會技術的話 Whisper 勝出。
標榜「支援 90 種語言」是真的每種都一樣準嗎?
不是,而且這是整個類別最大的陷阱。「90+ 語言」幾乎都代表:十來種資源充足的語言(英文、西班牙文、國語、法文、德文、日文)很準,剩下的長尾越往後越差。越南文、他加祿語、斯瓦希里語的準確率,在每一款工具上通常都遠低於官網那個英文數字。決定前先拿你自己那種語言、你自己那段雜訊音檔測一遍。
多人講不同語言的會議,逐字稿轉得出來嗎?
部分可以。多數工具會照每個人實際講的語言各自轉錄,所以混語會議出來就是混語逐字稿——通常這正是你要的。差別在於它會不會順便翻譯、以及講者標籤撐不撐得過語言切換。講者辨識(誰講了哪句)在有人中途換語言時特別容易亂,如果你的通話真的多語言,這點要特別測。
多語言逐字稿和「翻譯」是同一件事嗎?
不是。逐字稿是把講的話照原語言轉成文字;翻譯是再把文字換成另一種語言。好的多語言工具會先把原語言忠實轉出來,講者標籤、摘要、可搜尋的輸出都留在原語言,之後你要不要翻譯是另一步。有些工具(像 Sonix)主打字幕與翻譯匯出,那是加值;但先把原語言轉準,永遠是第一關。