訪談逐字稿怎麼做：AI 語音轉文字實戰 (2026)

只要你親手打過一次訪談逐字稿，就會知道這筆帳怎麼算都不划算。一段 60 分鐘的訪談大概有 8,000 到 10,000 個口說字，純手打吃掉你一天裡 4 到 6 個小時。一個研究做 20 個受訪者，光是打字就賠進去大半個工作週。AI 逐字稿要補的就是這個缺口——把同樣一小時的音檔，幾分鐘內變成乾淨、有標講者的初稿，讓你的時間花在分析上，而不是敲鍵盤。

這篇是寫給真的整天泡在訪談音檔裡的人：追一句引述的記者、做主題編碼的質性與 UX 研究者、剪精華片段的 Podcaster、寫面試紀錄的招募人員。這四種人的流程其實大同小異。真正有意思的是那幾個判斷題——要完整逐字還是潤稿、人名怎麼處理、核對要多嚴。一步一步來。

為什麼 AI 語音轉文字改寫了訪談流程

以前做逐字稿，要嘛自己熬、要嘛花錢請人。人工逐字稿服務到現在還在，做得也不差，但通常一分鐘音檔收 US$1.00 到 1.50，交件要 12 到 48 小時。一段 45 分鐘的訪談花你 US$45 到 67，隔天早上才到手。偶爾一次，還好。一個研究跑 15 到 30 場訪談，這帳單漲得很快。

真正變的是什麼？瓶頸搬家了。用一個好的 AI 逐字稿工具，慢的那一段不再是「產出文字」，而是「核對文字」。你不再是打字員，變成編輯。這是個比較小、比較聰明的活，也正是下面這套流程為什麼圍著「先出初稿、再核對」轉，而不是從零打起。

品質也有一面。乾淨音檔上，比較好的引擎現在能到 98.7% 準確率，意思是一小時的訪談回來大概只剩幾十個字要修，不是幾百個。你要引用的部分還是得對著音檔讀一遍。但你是在改錯，不是重建。

訪談逐字稿的四步流程

不管你是為了什麼做逐字稿，這四步都站得住。細節會挪——記者核對引述更兇，研究者化名更嚴——但骨架一模一樣。

錄乾淨，再上傳安靜房間、一支堪用麥克風、麥克風靠近每位講者。然後把音檔拖進逐字稿工具。Atter AI 吃 MP3、M4A、WAV、AAC 等格式，單檔上限 5 小時或 2GB，沒有每月配額——所以一場很長的口述歷史可以一次跑完。
打開講者分離在你動手做任何事之前，先讓引擎標出誰在講話。你會拿到講者 1、講者 2，等著改名。
決定完整逐字還是智慧潤稿這個要先想好。它會改變你後面每一行怎麼編。差別下面細講。
核對、標名、化名針對你要用的每句話對著音檔讀，把講者改成真名或受訪者代碼，流程有要求的話再把可辨識的細節拿掉。

注意這張清單少了什麼？打字。重點就在這。

完整逐字 vs 智慧潤稿：動手前先選

這是最多人做錯的決定，通常是因為他們根本沒意識到自己在做選擇。兩種風格，兩份差很多的逐字稿。

完整逐字什麼都記。每個「呃」、每次說一半、每句「你懂我意思吧」、每個 [笑] 和 [長停頓]。它是人實際講話那種亂糟糟但精準的紀錄。對話分析的人需要它。有些 IRB 流程強制要它。法律和合規場合也常常要。你要是把完整逐字稿念出來過，就知道它幾乎沒法讀——而且這是故意的。

智慧潤稿，有人叫它乾淨回讀，拿掉贅字、修掉明顯口誤，意思一點不少。「我、呃、我覺得那個、那個重點是信任」會變成「我覺得重點是信任」。大部分新聞用這個。大部分 UX 研究用這個。它讀起來像人寫的，所以凡是要引用或分享的東西，預設都用它。

陷阱在這：把完整逐字稿刪成乾淨版很簡單。反過來不可能——贅字一旦沒了，不重聽根本救不回。所以只要有一絲可能要用到完整逐字，先產完整版，再清一份副本。老建議，到現在還是對。

現代 AI 引擎預設給你的是接近完整逐字的初稿，比乾淨版更靠近原始。從那裡往下刪就好。想知道各種檔案格式怎麼弄出第一份初稿，這篇語音轉文字指南把支援的格式和上傳流程從頭講到尾。

講者標記與人名化名

兩人訪談是最好辦的——引擎大多數時候能乾淨地把訪談者和受訪者分開。麻煩從座談會、焦點團體、還有任何大家會搶話的場合開始。講者分離處理重疊講話算還行，但偶爾會把兩個聲音併成一個標籤、或把一個人拆成兩個。交叉對話很密的地方，每分鐘抓大概 30 秒整理時間。不是沒成本，但比整段重聽強多了。

標籤對了之後，改名是一次搞定的活：講者 1 變訪談者、講者 2 變你的受訪者，一次套用到整份文件。如果你常做多人場次，引擎怎麼判斷「一個講者在哪結束、下一個從哪開始」這種底層機制值得弄懂，自動辨識講者指南講得比較細。

接下來是研究者不能跳過的部分：化名。對 UX 和學術研究來說，把真名換成假名或 P07 這種代碼不是可選項——它通常是研究倫理委員會的要求，寫進你的同意書裡的。乾淨的做法：

先做逐字稿，再化名。引擎還在標講者的時候別去改名字。
用尋找取代，把每個真名換成代碼或假名，整份逐字稿一致地換。
代碼對身分的對照表放另一個有上鎖的檔案。絕對不要放在逐字稿本身裡。
連間接識別資訊也要抓——受訪者的雇主、家鄉、罕見的職稱，去匿名化的速度跟名字一樣快。

老實說，最後這點連有經驗的研究者都會栽。名字很明顯。「那家區域航空公司唯一的女機師」不明顯，但一樣能認出人。

你是誰，重點就不一樣

流程跨角色都成立，但優先順序不一樣。下面是每種人該把注意力放哪。

你是誰	常用風格	該死盯著的點
記者	智慧潤稿	引述一字不差、留時間戳供事實查核
UX／質性研究者	智慧潤稿（有時用完整逐字）	化名、講者代碼一致、乾淨匯出到編碼工具
Podcaster	智慧潤稿	時間戳方便找片段、整理成可發節目筆記的格式
招募人員	重點摘要勝過全文逐字	候選人之間的一致性、公平比較、筆記隱私

特別給研究者一句：有個很有名的經驗法則——主題飽和（新訪談不再冒出新主題的那個點）在樣本同質性還算高的情況下，常常 12 場左右就到。這不代表你只做 12 份逐字稿。它的意思是：當初稿回來得快，你可以早點橫向讀一遍，判斷第 13 場訪談還值不值得做。逐字稿做得快，改變的是你「什麼時候分析」，不只是「花多久」。

如果你是學生而不是有經費的研究者，預算和同意書的取捨會有點不一樣——給學生的 AI 逐字稿指南講的就是這個角度。

幾個會悄悄出包的地方

一些訪談特有的雷，往往要等到已經害你浪費時間了才浮出來。

電話和遠端通話音質。 從電話線抓下來的錄音被壓縮、頻寬受限，準確率會比房間麥克風差一截。如果你常用電話做訪談，值得專門讀一下電話通話逐字稿那篇，因為這裡「怎麼收音」比「用哪個引擎」還重要。

口音和混語。 重一點的地方口音沒問題。一句話講到一半在兩種語言之間切換的受訪者，對任何引擎都很難。90 種以上語言的自動偵測處理單一語言訪談很好；一直在中英夾雜的，語言交界處要預留人工整理。

省略核對的捷徑。 初稿看起來乾淨時，最大的誘惑就是跳過重聽。別——至少引述別跳。AI 逐字稿很會處理常見字，最弱的地方恰好就是最要命的：專有名詞、技術術語、數字。「二〇一五」聽成「二〇五〇」這種錯，快速掃過去發現不了，印出來就炸了。

超長場次。 口述歷史、生命故事訪談可以講好幾小時。單檔上限 5 小時或 2GB 不用切割就吃得下，也沒有每月配額要省著用——但動手前先把原始音檔備份。永遠先備份。

價格，簡短講

成本通常是決定你自己做還是花錢請人的關鍵。人工逐字稿，再講一次，大概一分鐘 US$1.00 到 1.50。AI 工具改成訂閱計價，Atter AI 給 3 天免費試用，方案則是 US$6.99/週、US$49.99/年，或 US$129.99 終身買斷。對任何規律做訪談的人——做到一半的研究者、跑特定路線的記者——終身買斷攤到每場訪談，跟人工按分鐘計費比起來只是個零頭。

這也是價格唯一該出現在這個決定裡的地方。其他全是流程。

常見問題

訪談錄音可以免費做逐字稿嗎？

大多數工具給的是「免費額度」而不是無限免費。YouTube 自動字幕、手機內建語音輸入確實免費，但兩人對話的口語音檔大概只有 70-85% 準確率。想要乾淨一點的初稿，專門工具通常給短期試用——Atter AI 是 3 天試用——夠你先試幾段訪談再決定。老實說，真免費的選項是有，但你省下的錢會在校稿時間上補回去。

研究訪談的逐字稿，最好的做法是什麼？

找安靜的房間、一支堪用的麥克風錄，把音檔丟進有講者分離功能的 AI 工具，然後針對你要引用的每句話對著音檔核對一次。要做質性編碼的話，匯出成 DOCX 或 TXT，就能直接貼進 NVivo、Atlas.ti 或 Dedoose。核對這一步最多人跳過——但被質疑「你這引述哪來的」時，能救你的就是它。

完整逐字和智慧潤稿差在哪？

完整逐字（true verbatim）把每個「呃」、每次說一半、口吃、[笑] 通通照原樣記下來——對話分析、法律紀錄、有些研究倫理（IRB）流程都要求這樣。智慧潤稿（intelligent verbatim）則拿掉贅字、修掉明顯口誤，但意思一字不差地保留。大部分新聞和 UX 研究用智慧潤稿，因為好讀太多。動手編輯前就要先決定要哪一種，不是編到一半才想。

AI 逐字稿會標出誰說的話嗎？

會，只要工具支援講者分離。它會標成講者 1、講者 2 這樣，你再一次把他們改成真實參與者的名字。當大家搶話、講話重疊時，講者標記的準確率會掉，所以交叉對話多的訪談要預留一點整理時間。想深入了解原理，可以看自動辨識講者那篇。

訪談逐字稿裡的人名怎麼做化名？

先做逐字稿，再用尋找取代把真名換成假名或代碼，例如 P07（受訪者 7）。另外存一份有上鎖的對照表，把代碼對回真實身分——千萬別放在逐字稿檔案裡。UX 和學術研究通常這是研究倫理委員會的硬性要求，所以要在逐字稿離開你電腦、或分享給協作者之前就做好。

一小時的訪談做逐字稿要多久？

純手打的話，每一小時音檔抓 4 到 6 小時——完整逐字或口音重的更久。AI 工具把同一個 60 分鐘檔案變成初稿，大概只要 4 到 7 分鐘，你剩下要做的是核對，不是打字。這就是整個流程裡最大的一筆時間省下來的地方：你從打字員變成編輯。

AI 能做其他語言的訪談逐字稿嗎？

可以。Atter AI 支援 90 種以上語言、可自動偵測，對跨國田野、跨境採訪很重要。混語訪談——比方同一句話裡中英文交替——對任何引擎都比較難；如果受訪者一直切換語言，語言交界處要預留人工整理。

把機密訪談上傳到逐字稿服務安全嗎？

上傳任何敏感內容前，先看清楚那家的資料政策：音檔處理完會不會刪、錄音會不會拿去訓練模型、資料存在哪裡。Atter AI 處理音檔產出逐字稿後就丟掉原始檔，留下的是逐字稿和一條參考連結，不是錄音的副本。簽了保密協議或走 IRB 的訪談，要用書面跟受訪者的同意條款確認清楚。

訪談逐字稿怎麼做：給記者與研究者的實戰流程

為什麼 AI 語音轉文字改寫了訪談流程

訪談逐字稿的四步流程

完整逐字 vs 智慧潤稿：動手前先選

講者標記與人名化名

你是誰，重點就不一樣

幾個會悄悄出包的地方

價格，簡短講

常見問題

繼續閱讀

Atter AI vs Good Tape：隱私導向的逐字稿，怎麼挑才不踩雷

雅婷逐字稿的替代品：2026 台灣還有哪些選擇？

Atter AI vs Notta：中文會議逐字稿，誰更適合台灣團隊？