台語錄音要轉成逐字稿,比你想的麻煩——但也比幾年前簡單太多了。
麻煩的不是「聽不懂」,現在的 AI 台語辨識已經相當能用。麻煩的是台語本身:它沒有單一的標準書寫方式,一句話常常國台英混著講,加上長輩受訪時的口語、語氣詞、跳題,整理起來眉角不少。
這篇就把「台語逐字稿怎麼做」從頭講到尾——為什麼難、要先決定什麼、實際怎麼操作、怎麼把準確率拉高。不管你是做田野調查的研究生、訪問長輩的家族史記錄者,還是要整理地方會議的工作者,看完就能上手。
台語逐字稿難在哪:先搞懂三個坑
動手前先認識敵人。台語轉文字有三個結構性難點,跟工具好壞無關,是語言本身的特性。
第一個坑:沒有唯一的書寫系統。 同一句台語,可以寫成漢字,也可以寫成臺羅(臺灣閩南語羅馬字拼音方案,Tâi-lô),甚至兩者混用。同一句「你是按怎」,用漢字寫是「你是按怎」,用臺羅寫是「lí sī án-tsuánn」,看起來完全不同,但講的是同一句。你要先決定逐字稿用哪一種,不然整份稿會亂。
第二個坑:國台英混講是常態。 真實的台語對話幾乎不會「純台語」。長輩會夾國語詞,年輕人會夾英文,專有名詞常常直接用國語或英文講。系統得在一句話裡判斷語言的邊界,這正是辨識最容易出錯的地方。
第三個坑:口語的鬆散。 訪談、田調的台語是高度口語的——重複、語氣詞(「嘿啊」「就是講」)、講一半改口、跳題。這些對逐字稿的可讀性是挑戰,後製時要決定保留多少。
認清這三點,後面的每個決定才有依據。
動手前先決定:漢字還是臺羅?
這是台語逐字稿最先要拍板的事,因為它影響整份稿的形態,中途換很痛苦。
選漢字,當你—— 讀者是一般大眾、家族成員、不熟羅馬拼音的人;逐字稿要拿來閱讀、引用、做成文章。漢字的好處是直觀,缺點是有些台語詞沒有公認的本字,得依賴教育部《臺灣閩南語常用詞辭典》的推薦用字來統一,否則同一個詞會出現好幾種寫法。
選臺羅,當你—— 做的是語言學、語音研究,需要精確記錄發音、聲調;或受訪內容有大量沒有標準漢字的詞。臺羅能精準標音,是學術場景的常見選擇,缺點是非專業讀者讀不來。
兩者並陳,當你—— 做嚴謹的語料保存。很多田調逐字稿會「漢字為主、關鍵處附臺羅」,兼顧可讀性與精確性。工作量最大,但資料價值最高。
沒有標準答案,但一定要先選一種並寫進你的體例規範,整份稿從頭到尾一致。這比選哪一種更重要。
選一個真的支援台語的工具
能把台語轉得像樣的工具不多,這一步直接刷掉大半市面選項。台灣目前比較實際的選擇,是雅婷逐字稿和 Atter AI。
雅婷逐字稿是台灣人工智慧實驗室的本土產品,台語是它的核心支援語言之一,在地調性強,適合要純台語逐字稿的人。
Atter AI 同樣支援台語,並把它放在國語、粵語、客家話等多方言矩陣裡,對國台英混講的處理較穩,而且錄完會一併產生摘要、待辦與心智圖。它的台語準確率有公開資料集的字錯率(CER)實測——台語場景 CER 約 3.3%,方法與複現步驟公開,可參考繁體中文逐字稿準確率實測。
兩者怎麼挑,取決於你要純逐字稿還是要連帶的整理成果。更完整的橫向比較見Atter AI vs 雅婷逐字稿,或更大範圍的2026 台灣逐字稿 App 怎麼選。
實作步驟:從錄音到成稿
選好工具、定好書寫體例,就可以開工了。流程其實不複雜:
- 錄音前先安排好現場。 麥克風盡量靠近受訪者,避免冷氣、電視、馬路等背景音。多人對談時,請大家盡量不要搶話——重疊發言是台語逐字稿出錯的最大來源。
- 錄一段測試音。 正式開始前先錄 30 秒、轉一次看看,確認口音和收音 AI 接得住,比錄完一小時才發現問題好太多。
- 完整錄音。 用手機 App 或上傳既有音檔都可以。台語訪談常很長,留意工具的單檔上限(例如 Atter 單檔可到 5 小時或 2GB),太長的訪談分段上傳即可。
- 讓 AI 產生初稿。 上傳或錄製後,工具會輸出帶說話者區分的逐字稿初稿。
- 逐段校對。 這步免不了。重點看:國台英切換的邊界、專有名詞、人名地名、以及沒有標準漢字的台語詞——這些是 AI 最可能出錯的地方。
- 統一書寫體例。 按你先前決定的漢字/臺羅規範,把全稿統一。善用工具的「點段落即可修改」功能,逐句訂正。
- 匯出。 校對完匯出成 Word 或 PDF;若要做成影片字幕,選能匯出 SRT/VTT 的工具。
整個流程裡,第 5、6 步最花時間。工具幫你把初稿做到八九成,剩下的一兩成是人工把關——尤其是台語這種書寫變異大的語言,人的最後校對短期內還省不掉。
處理國台混講:別跟它硬碰
台語逐字稿最常卡關的,就是國台英混講。給幾個實用做法:
- 保留原話,不要硬翻。 受訪者夾國語就記國語、夾英文就記英文,逐字稿的價值在「真實」,不是「純台語」。
- 專有名詞用最通行的寫法。 公司名、產品名、地名,用大家看得懂的國語或英文寫法,不必硬轉成台語漢字。
- 選對中英夾雜處理較好的工具。 如果你的受訪者特別愛夾英文,工具在語言切換上的穩定度會直接決定你校稿的工作量。
把台語準確率再拉高的幾個細節
同樣的工具,好的錄音習慣能讓初稿準確率差一截:
- 收音優先。 一支靠近嘴邊的外接麥克風,勝過任何後製。台語的聲調資訊豐富,收音糊掉,辨識就難。
- 一次一個人講。 多人台語對談時的重疊發言,是準確率殺手。
- 環境越安靜越好。 廟口、市場、餐廳這些田調常見場景背景音很雜,能找安靜角落就找。
- 長輩受訪放慢節奏。 不是要他們講不自然,而是提醒不用急,停頓清楚一點,辨識會更準。
- 先錄測試段。 再強調一次——30 秒測試音省下的,是事後幾小時的補救。
常見使用場景
台語逐字稿最常用在這幾種情況,做法略有不同:
田野調查與口述歷史。 重精確、重保存,通常漢字為主、關鍵處附臺羅,語氣詞和重複也常選擇保留,因為它們本身是研究材料。
家族長輩訪談。 重可讀、重情感,漢字為主即可,可以適度整理掉口語的冗贅,讓後代讀得順。
地方會議與社區活動。 重效率,要的是抓到決議和待辦。這種場景用能自動產生摘要與待辦的工具,會比純逐字稿省事很多。
台語 Podcast 與影片。 要的是字幕,重點是能匯出 SRT/VTT,並對齊時間軸。
常見問題
台語真的能用 AI 轉逐字稿嗎? 可以。現在的 AI 台語辨識已經相當能用,雅婷逐字稿和 Atter AI 都支援台語。初稿準確率不錯,但因為台語書寫變異大,人工校對仍是必要的最後一步。
逐字稿應該用漢字還是臺羅? 看用途。給一般讀者、要閱讀引用,用漢字(並依教育部推薦用字統一);做語言或語音研究、需要精確標音,用臺羅;嚴謹的語料保存則常漢字為主、關鍵處附臺羅。重點是先選一種並全稿一致。
國台語混講會不會轉不出來? 會增加難度,但能處理。建議保留受訪者的原話(夾什麼語就記什麼語),並選一個對中英/國台切換處理較穩的工具,可減少校稿工作量。
台語逐字稿可以匯出 Word 或 PDF 嗎? 可以。多數支援台語的工具都能匯出 Word、PDF;要做影片字幕的話,選能匯出 SRT/VTT 的工具。
多人的台語會議怎麼分辨誰在講? 選有「說話者標籤/語者辨識」的工具,它會自動區分不同發言者。錄音時請大家盡量不要同時講話,分離效果會更好。
結論
台語逐字稿的難,不在 AI 聽不聽得懂,而在你要替它把幾個決定先做好:用漢字還是臺羅、混講怎麼記、口語保留多少。把書寫體例先定下來、錄音收乾淨、選一個真的支援台語的工具,剩下的就是讓 AI 產初稿、你做最後校對。
工具能幫你把最累的部分做掉八九成。把這份指南當成你的標準流程,第一份台語逐字稿就不會手忙腳亂。