粵語逐字稿怎麼做：工具、準確率與實作 2026

粵語錄音要變成逐字稿，難點跟你想的可能不一樣。

不是「AI 聽不懂廣東話」——這幾年進步很快，聽寫早就不是主要障礙。真正麻煩的是粵語的書寫：一句話你到底要照講的寫（佢話佢唔嚟），還是整理成書面中文（他說他不來）？這兩種寫法差很遠，卻是同一句話。再加上港式粵語幾乎句句夾英文、九聲六調帶來的同音字、各地用語不一，整理起來眉角比國語逐字稿多得多。

這篇就把「粵語逐字稿怎麼做」從頭講清楚——難在哪、動手前要先拍板什麼、實際怎麼操作、準確率能到什麼程度。不管你是做口述歷史的研究者、整理訪談的記者，還是要把粵語會議留下紀錄的工作者，看完就能上手。

粵語逐字稿難在哪：先認清三個坑

工具好壞是一回事，粵語本身有三個結構性難點，換哪個工具都躲不掉。先認識它們，後面每個決定才有依據。

第一個坑：口語跟書面語是兩套系統。 這是粵語最特別、也最容易讓新手卡住的地方。粵語有大量只在口語出現的字——佢（他）、嘅（的）、喺（在）、冇（沒有）、嗰（那）、乜（什麼）。你講粵語時滿口都是這些字，但正式書寫的中文裡幾乎不會出現。所以做逐字稿的第一個岔路口就是：要逐字記下口語（保留「佢哋而家喺度」），還是轉寫成書面語（「他們現在在這裡」）？兩條路的成品完全不同。

第二個坑：沒有百分百統一的書寫標準。 就算你決定寫粵字，同一個音也可能有好幾種寫法。香港政府、教育界、民間各有慣用字，網路上還有一堆同音借字。「係咪」有人寫「係咪」有人寫「系咪」，音譯外來語更是各寫各的。這意味著校稿時你得自己定一套用字規範，否則整份稿會前後不一。

第三個坑：粵中英夾雜是日常，不是例外。 尤其港式粵語，一句話裡塞英文是再自然不過的事——「你 send 個 file 畀我」「今日個 project 好 tight」「開個 meeting 傾下」。系統得在一句話中間判斷語言邊界，這正是辨識最容易掉詞或拼錯的地方。

這三個坑，第一個是你要做的決定，後兩個是你校稿時要處理的現實。

動手前先決定：粵字、書面語，還是粵拼？

這是粵語逐字稿最先要拍板的事。它決定整份稿長什麼樣，中途才換會很痛苦。

逐字寫粵字，當你—— 做口述歷史、語言研究、戲劇字幕，或任何需要保留受訪者「原汁原味」語氣的場景。粵字能留住說話的節奏和個性，「我唔係咁講㗎喎」跟「我不是這樣說的」讀起來完全是兩個人。缺點是部分口語字沒有公認寫法，你得自己定規範；而且不熟粵字的讀者會讀得吃力。

整理成書面中文，當你—— 逐字稿要當正式紀錄、給廣泛讀者看、或之後要改寫成文章報告。把「佢話聽日唔得閒」整理成「他說明天沒空」，可讀性高、方便引用，但你等於在轉錄之外多做了一層翻譯，也犧牲掉原話的語感。

加註粵拼（Jyutping），當你—— 做語音、聲調的學術研究，或遇到沒有標準寫法的詞、外來語音譯需要精確標音。粵拼是香港語言學學會的羅馬拼音方案，能準確記錄九聲六調，但非專業讀者看不懂，所以通常是「粵字或書面語為主、關鍵處附粵拼」，不會整篇都標。

沒有標準答案，重點是先選一種、寫進你的體例規範、全稿一致。這比選哪一種更重要——一份一半粵字一半書面語、跳來跳去的逐字稿，比任何一種單一體例都難用。

粵中英夾雜：粵語逐字稿最真實的樣子

如果你整理的是香港的訪談或會議，得先有個心理準備：純粵語的逐字稿幾乎不存在。真實對話長這樣——

「個 client 今朝 email 話個 deadline 想 push 前，我 check 咗個 schedule，其實 OK 嘅，不過要 confirm 下個 budget。」

一句話裡粵語、英文來回切五六次。這種夾雜不是說話者「中文不好」，而是港式粵語的正常語體，很多英文詞根本沒人講對應的中文。做逐字稿時，你要決定的是：英文詞照原樣保留（保留「send」「file」「meeting」），還是硬翻成中文？

我的建議是照原話保留。既然人家就是這樣講的，硬翻成「傳個檔案給我」反而失真，也可能改變語意——很多英文專業詞在圈內就是那個講法。真正要處理的，是選一個對語言切換咬得穩的工具，讓它別把「send」聽成別的字，減少你事後補的工。

順帶一提，粵中英夾雜跟國台英夾雜其實是同一類問題。如果你也做台語，可以參考台語逐字稿怎麼做，很多混講的處理原則是共通的。

選一個真的聽得懂粵語的工具

能把粵語轉得像樣的工具，比支援國語的少很多——這一步就刷掉一大半市面選項。挑的時候看兩件事：一是它有沒有真的把粵語當一個獨立語言支援（而不是拿國語模型硬套），二是它對粵中英夾雜的處理穩不穩。

Atter AI 支援粵語，並把它放在國語、台語、客家話等多方言矩陣裡，對粵中英夾雜的語言切換處理較穩，轉完還會一併產出摘要、待辦與說話者標籤。它的粵語準確率有公開資料集的字錯率實測（下一節細講）。

老實說，市面上也有不少工具宣稱「支援粵語」，但實際上只是把粵語錄音丟進國語模型，出來一堆同音錯字。判斷方法很簡單：拿一段有粵字口語、又夾幾個英文詞的真實錄音去試轉，看它能不能認出「佢」「嘅」「冇」這些字，還是全部轉成國語同音字。這一測就露餡。

如果你想先看更大範圍的橫向比較，2026 台灣逐字稿 App 怎麼選裡有把常見工具的中文、方言、隱私與價格攤開比。

準確率能到什麼程度：一個可查的數字

講粵語辨識準確率，最怕空口說白話。這裡給一個可以自己複現的數字。

在 Common Voice 粵語子集（yue）這種公開、可下載、附人工校驗參考稿的朗讀語料上實測，Atter AI 的粵語字錯率（CER，Character Error Rate）約 3.8%，換算準確率約 96.2%。這個數字跟同一套方法測出來的台語（CER 3.3%）、台灣華語、中英夾雜都落在 3%–4% 區間，全部低於 5%。完整的資料集來源、計算公式與自行複現步驟，都寫在繁體中文逐字稿準確率實測裡，任何人都能照著跑一遍驗證。

但這裡要說句公道話：這是「乾淨朗讀語音」的基準值，不等於你實際會拿到的準確率。 Common Voice 是單人、清晰、照稿念的錄音；你手上的粵語訪談可能有背景音、多人搶話、麥克風離得遠、還夾一堆英文專有名詞——這些都會把 CER 推高。這對任何語音辨識系統都成立，不是粵語或某個工具特有的問題。所以把 96% 當成「上限」，實際規劃校稿時間時要抓寬一點。

實作流程：從錄音到成稿

工具選好、書寫體例定好，就可以開工。流程不複雜，關鍵在錄音品質。

錄音前先顧好現場。 麥克風盡量靠近說話者，避開冷氣、電視、街聲。粵語有大量同音字，音質一差，同音字辨識錯的機率就飆高——「有」跟「冇」差一個音，意思剛好相反，收音不清很容易出包。
先錄一段測試音。 正式開始前錄個 30 秒轉一次，確認口音、夾雜的英文、收音狀況 AI 都接得住。比錄完一小時才發現整段糊掉好太多。
多人對談請大家不要搶話。 重疊發言是粵語逐字稿出錯的最大來源，也是語者辨識最容易亂掉的地方。真的會搶話的場合，就盡量讓每個人用獨立麥克風。
轉錄後，帶著你的體例規範校稿。 這一步跑不掉。重點檢查三處：口語字有沒有照你定的規範統一（佢/他要一致）、夾雜的英文有沒有拼對、同音字有沒有選錯字。粵語校稿比國語花時間，就是卡在這些地方。
決定要不要「熟化」。 逐字稿有兩種：完整逐字（連語氣詞「囉」「㗎」「喎」都留）和智慧潤稿（去掉贅字、保留語意）。做語言研究留完整逐字，做會議紀錄或報導用潤稿版。訪談場景怎麼取捨，訪談逐字稿怎麼做講得更細。

整套走下來，一小時的粵語錄音大概幾分鐘就能出初稿，剩下的時間都花在校對——而校對花多久，八成取決於你錄音那一刻收得夠不夠乾淨。

常見問題

粵語真的能用 AI 轉逐字稿嗎？ 可以。現在的 AI 粵語辨識已經相當能用。以 Common Voice 粵語（yue）這種公開朗讀語料實測，Atter AI 的字錯率約 3.8%，也就是準確率約 96.2%。不過真實對話有搶話、背景音與粵中英夾雜，準確率會下降，人工校對仍是必要的最後一步。

粵語逐字稿應該寫粵字還是書面語？ 看用途。要保留受訪者原話、做語言或口述歷史研究，用粵字（佢、嘅、喺、冇）逐字記；要給一般讀者閱讀、當正式文件，可以整理成書面中文。重點是先選一種體例並全稿一致，不要一段粵字一段書面語混著跳。

粵拼（Jyutping）什麼時候要用？ 做語言學、語音研究，或遇到沒有公認寫法的口語詞、外來語音譯時，用粵拼精確標音。一般閱讀用途不需要全稿標粵拼，非專業讀者反而讀不來，通常只在關鍵字附註。

粵語夾國語、英文會不會轉不出來？ 會增加難度，但能處理。港式粵語夾英文（例如「send 個 file 畀我」）是常態，選一個對語言切換處理較穩的工具能減少校稿量。錄音時請受訪者維持自然說話即可，不用刻意避開夾雜。

香港、廣州、馬來西亞的粵語，同一個工具都聽得懂嗎？ 主流用語大致通用，但各地有獨特詞彙、外來語與口音差異，辨識準確率會有落差。校稿時要用當地讀者熟悉的用字，別把港式詞硬改成廣州說法，反之亦然。

多人粵語會議怎麼分辨誰在講？ 選有「說話者標籤／語者辨識」功能的工具，它會自動區分不同發言者。錄音時請大家盡量不要同時講話，重疊發言愈少，分離效果愈好。

粵語逐字稿怎麼做：從口語字、粵拼到粵中英夾雜的完整實作

粵語逐字稿難在哪：先認清三個坑

動手前先決定：粵字、書面語，還是粵拼？

粵中英夾雜：粵語逐字稿最真實的樣子

選一個真的聽得懂粵語的工具

準確率能到什麼程度：一個可查的數字

實作流程：從錄音到成稿

常見問題

繼續閱讀

Atter AI vs Sonix：多語言逐字稿誰更順手

客家話語音轉文字，AI 真聽得懂嗎？五腔差異、寫法與逐字稿實作

Otter.ai 替代品 2026：9 款值得換的逐字稿工具實測