AI 轉錄

粵語逐字稿怎麼做:從口語字、粵拼到粵中英夾雜的完整實作

粵語轉逐字稿卡在哪?從「寫粵字還是打書面語」、粵拼標音、港式粵中英夾雜到工具實作與 CER 實測,一步步教你把粵語訪談與會議做成能用的逐字稿。

粵語錄音要變成逐字稿,難點跟你想的可能不一樣。

不是「AI 聽不懂廣東話」——這幾年進步很快,聽寫早就不是主要障礙。真正麻煩的是粵語的書寫:一句話你到底要照講的寫(佢話佢唔嚟),還是整理成書面中文(他說他不來)?這兩種寫法差很遠,卻是同一句話。再加上港式粵語幾乎句句夾英文、九聲六調帶來的同音字、各地用語不一,整理起來眉角比國語逐字稿多得多。

這篇就把「粵語逐字稿怎麼做」從頭講清楚——難在哪、動手前要先拍板什麼、實際怎麼操作、準確率能到什麼程度。不管你是做口述歷史的研究者、整理訪談的記者,還是要把粵語會議留下紀錄的工作者,看完就能上手。

粵語逐字稿難在哪:先認清三個坑

工具好壞是一回事,粵語本身有三個結構性難點,換哪個工具都躲不掉。先認識它們,後面每個決定才有依據。

第一個坑:口語跟書面語是兩套系統。 這是粵語最特別、也最容易讓新手卡住的地方。粵語有大量只在口語出現的字——佢(他)、嘅(的)、喺(在)、冇(沒有)、嗰(那)、乜(什麼)。你講粵語時滿口都是這些字,但正式書寫的中文裡幾乎不會出現。所以做逐字稿的第一個岔路口就是:要逐字記下口語(保留「佢哋而家喺度」),還是轉寫成書面語(「他們現在在這裡」)?兩條路的成品完全不同。

第二個坑:沒有百分百統一的書寫標準。 就算你決定寫粵字,同一個音也可能有好幾種寫法。香港政府、教育界、民間各有慣用字,網路上還有一堆同音借字。「係咪」有人寫「係咪」有人寫「系咪」,音譯外來語更是各寫各的。這意味著校稿時你得自己定一套用字規範,否則整份稿會前後不一。

第三個坑:粵中英夾雜是日常,不是例外。 尤其港式粵語,一句話裡塞英文是再自然不過的事——「你 send 個 file 畀我」「今日個 project 好 tight」「開個 meeting 傾下」。系統得在一句話中間判斷語言邊界,這正是辨識最容易掉詞或拼錯的地方。

這三個坑,第一個是你要做的決定,後兩個是你校稿時要處理的現實。

動手前先決定:粵字、書面語,還是粵拼?

這是粵語逐字稿最先要拍板的事。它決定整份稿長什麼樣,中途才換會很痛苦。

逐字寫粵字,當你—— 做口述歷史、語言研究、戲劇字幕,或任何需要保留受訪者「原汁原味」語氣的場景。粵字能留住說話的節奏和個性,「我唔係咁講㗎喎」跟「我不是這樣說的」讀起來完全是兩個人。缺點是部分口語字沒有公認寫法,你得自己定規範;而且不熟粵字的讀者會讀得吃力。

整理成書面中文,當你—— 逐字稿要當正式紀錄、給廣泛讀者看、或之後要改寫成文章報告。把「佢話聽日唔得閒」整理成「他說明天沒空」,可讀性高、方便引用,但你等於在轉錄之外多做了一層翻譯,也犧牲掉原話的語感。

加註粵拼(Jyutping),當你—— 做語音、聲調的學術研究,或遇到沒有標準寫法的詞、外來語音譯需要精確標音。粵拼是香港語言學學會的羅馬拼音方案,能準確記錄九聲六調,但非專業讀者看不懂,所以通常是「粵字或書面語為主、關鍵處附粵拼」,不會整篇都標。

沒有標準答案,重點是先選一種、寫進你的體例規範、全稿一致。這比選哪一種更重要——一份一半粵字一半書面語、跳來跳去的逐字稿,比任何一種單一體例都難用。

粵中英夾雜:粵語逐字稿最真實的樣子

如果你整理的是香港的訪談或會議,得先有個心理準備:純粵語的逐字稿幾乎不存在。真實對話長這樣——

「個 client 今朝 email 話個 deadline 想 push 前,我 check 咗個 schedule,其實 OK 嘅,不過要 confirm 下個 budget。」

一句話裡粵語、英文來回切五六次。這種夾雜不是說話者「中文不好」,而是港式粵語的正常語體,很多英文詞根本沒人講對應的中文。做逐字稿時,你要決定的是:英文詞照原樣保留(保留「send」「file」「meeting」),還是硬翻成中文?

我的建議是照原話保留。既然人家就是這樣講的,硬翻成「傳個檔案給我」反而失真,也可能改變語意——很多英文專業詞在圈內就是那個講法。真正要處理的,是選一個對語言切換咬得穩的工具,讓它別把「send」聽成別的字,減少你事後補的工。

順帶一提,粵中英夾雜跟國台英夾雜其實是同一類問題。如果你也做台語,可以參考台語逐字稿怎麼做,很多混講的處理原則是共通的。

選一個真的聽得懂粵語的工具

能把粵語轉得像樣的工具,比支援國語的少很多——這一步就刷掉一大半市面選項。挑的時候看兩件事:一是它有沒有真的把粵語當一個獨立語言支援(而不是拿國語模型硬套),二是它對粵中英夾雜的處理穩不穩。

Atter AI 支援粵語,並把它放在國語、台語、客家話等多方言矩陣裡,對粵中英夾雜的語言切換處理較穩,轉完還會一併產出摘要、待辦與說話者標籤。它的粵語準確率有公開資料集的字錯率實測(下一節細講)。

老實說,市面上也有不少工具宣稱「支援粵語」,但實際上只是把粵語錄音丟進國語模型,出來一堆同音錯字。判斷方法很簡單:拿一段有粵字口語、又夾幾個英文詞的真實錄音去試轉,看它能不能認出「佢」「嘅」「冇」這些字,還是全部轉成國語同音字。這一測就露餡。

如果你想先看更大範圍的橫向比較,2026 台灣逐字稿 App 怎麼選裡有把常見工具的中文、方言、隱私與價格攤開比。

準確率能到什麼程度:一個可查的數字

講粵語辨識準確率,最怕空口說白話。這裡給一個可以自己複現的數字。

在 Common Voice 粵語子集(yue)這種公開、可下載、附人工校驗參考稿的朗讀語料上實測,Atter AI 的粵語字錯率(CER,Character Error Rate)約 3.8%,換算準確率約 96.2%。這個數字跟同一套方法測出來的台語(CER 3.3%)、台灣華語、中英夾雜都落在 3%–4% 區間,全部低於 5%。完整的資料集來源、計算公式與自行複現步驟,都寫在繁體中文逐字稿準確率實測裡,任何人都能照著跑一遍驗證。

但這裡要說句公道話:這是「乾淨朗讀語音」的基準值,不等於你實際會拿到的準確率。 Common Voice 是單人、清晰、照稿念的錄音;你手上的粵語訪談可能有背景音、多人搶話、麥克風離得遠、還夾一堆英文專有名詞——這些都會把 CER 推高。這對任何語音辨識系統都成立,不是粵語或某個工具特有的問題。所以把 96% 當成「上限」,實際規劃校稿時間時要抓寬一點。

實作流程:從錄音到成稿

工具選好、書寫體例定好,就可以開工。流程不複雜,關鍵在錄音品質。

  1. 錄音前先顧好現場。 麥克風盡量靠近說話者,避開冷氣、電視、街聲。粵語有大量同音字,音質一差,同音字辨識錯的機率就飆高——「有」跟「冇」差一個音,意思剛好相反,收音不清很容易出包。
  2. 先錄一段測試音。 正式開始前錄個 30 秒轉一次,確認口音、夾雜的英文、收音狀況 AI 都接得住。比錄完一小時才發現整段糊掉好太多。
  3. 多人對談請大家不要搶話。 重疊發言是粵語逐字稿出錯的最大來源,也是語者辨識最容易亂掉的地方。真的會搶話的場合,就盡量讓每個人用獨立麥克風。
  4. 轉錄後,帶著你的體例規範校稿。 這一步跑不掉。重點檢查三處:口語字有沒有照你定的規範統一(佢/他要一致)、夾雜的英文有沒有拼對、同音字有沒有選錯字。粵語校稿比國語花時間,就是卡在這些地方。
  5. 決定要不要「熟化」。 逐字稿有兩種:完整逐字(連語氣詞「囉」「㗎」「喎」都留)和智慧潤稿(去掉贅字、保留語意)。做語言研究留完整逐字,做會議紀錄或報導用潤稿版。訪談場景怎麼取捨,訪談逐字稿怎麼做講得更細。

整套走下來,一小時的粵語錄音大概幾分鐘就能出初稿,剩下的時間都花在校對——而校對花多久,八成取決於你錄音那一刻收得夠不夠乾淨。

常見問題

粵語真的能用 AI 轉逐字稿嗎? 可以。現在的 AI 粵語辨識已經相當能用。以 Common Voice 粵語(yue)這種公開朗讀語料實測,Atter AI 的字錯率約 3.8%,也就是準確率約 96.2%。不過真實對話有搶話、背景音與粵中英夾雜,準確率會下降,人工校對仍是必要的最後一步。

粵語逐字稿應該寫粵字還是書面語? 看用途。要保留受訪者原話、做語言或口述歷史研究,用粵字(佢、嘅、喺、冇)逐字記;要給一般讀者閱讀、當正式文件,可以整理成書面中文。重點是先選一種體例並全稿一致,不要一段粵字一段書面語混著跳。

粵拼(Jyutping)什麼時候要用? 做語言學、語音研究,或遇到沒有公認寫法的口語詞、外來語音譯時,用粵拼精確標音。一般閱讀用途不需要全稿標粵拼,非專業讀者反而讀不來,通常只在關鍵字附註。

粵語夾國語、英文會不會轉不出來? 會增加難度,但能處理。港式粵語夾英文(例如「send 個 file 畀我」)是常態,選一個對語言切換處理較穩的工具能減少校稿量。錄音時請受訪者維持自然說話即可,不用刻意避開夾雜。

香港、廣州、馬來西亞的粵語,同一個工具都聽得懂嗎? 主流用語大致通用,但各地有獨特詞彙、外來語與口音差異,辨識準確率會有落差。校稿時要用當地讀者熟悉的用字,別把港式詞硬改成廣州說法,反之亦然。

多人粵語會議怎麼分辨誰在講? 選有「說話者標籤/語者辨識」功能的工具,它會自動區分不同發言者。錄音時請大家盡量不要同時講話,重疊發言愈少,分離效果愈好。