AI 轉錄

訪談逐字稿怎麼做:給記者與研究者的實戰流程

用 AI 做訪談逐字稿:完整逐字 vs 智慧潤稿、講者標記、化名處理,把 60 分鐘錄音幾分鐘變成可用文字。

只要你親手打過一次訪談逐字稿,就會知道這筆帳怎麼算都不划算。一段 60 分鐘的訪談大概有 8,000 到 10,000 個口說字,純手打吃掉你一天裡 4 到 6 個小時。一個研究做 20 個受訪者,光是打字就賠進去大半個工作週。AI 逐字稿要補的就是這個缺口——把同樣一小時的音檔,幾分鐘內變成乾淨、有標講者的初稿,讓你的時間花在分析上,而不是敲鍵盤。

這篇是寫給真的整天泡在訪談音檔裡的人:追一句引述的記者、做主題編碼的質性與 UX 研究者、剪精華片段的 Podcaster、寫面試紀錄的招募人員。這四種人的流程其實大同小異。真正有意思的是那幾個判斷題——要完整逐字還是潤稿、人名怎麼處理、核對要多嚴。一步一步來。

為什麼 AI 語音轉文字改寫了訪談流程

以前做逐字稿,要嘛自己熬、要嘛花錢請人。人工逐字稿服務到現在還在,做得也不差,但通常一分鐘音檔收 US$1.00 到 1.50,交件要 12 到 48 小時。一段 45 分鐘的訪談花你 US$45 到 67,隔天早上才到手。偶爾一次,還好。一個研究跑 15 到 30 場訪談,這帳單漲得很快。

真正變的是什麼?瓶頸搬家了。用一個好的 AI 逐字稿工具,慢的那一段不再是「產出文字」,而是「核對文字」。你不再是打字員,變成編輯。這是個比較小、比較聰明的活,也正是下面這套流程為什麼圍著「先出初稿、再核對」轉,而不是從零打起。

品質也有一面。乾淨音檔上,比較好的引擎現在能到 98.7% 準確率,意思是一小時的訪談回來大概只剩幾十個字要修,不是幾百個。你要引用的部分還是得對著音檔讀一遍。但你是在改錯,不是重建。

訪談逐字稿的四步流程

不管你是為了什麼做逐字稿,這四步都站得住。細節會挪——記者核對引述更兇,研究者化名更嚴——但骨架一模一樣。

  1. 錄乾淨,再上傳安靜房間、一支堪用麥克風、麥克風靠近每位講者。然後把音檔拖進逐字稿工具。Atter AI 吃 MP3、M4A、WAV、AAC 等格式,單檔上限 5 小時或 2GB,沒有每月配額——所以一場很長的口述歷史可以一次跑完。
  2. 打開講者分離在你動手做任何事之前,先讓引擎標出誰在講話。你會拿到講者 1、講者 2,等著改名。
  3. 決定完整逐字還是智慧潤稿這個要先想好。它會改變你後面每一行怎麼編。差別下面細講。
  4. 核對、標名、化名針對你要用的每句話對著音檔讀,把講者改成真名或受訪者代碼,流程有要求的話再把可辨識的細節拿掉。

注意這張清單少了什麼?打字。重點就在這。

完整逐字 vs 智慧潤稿:動手前先選

這是最多人做錯的決定,通常是因為他們根本沒意識到自己在做選擇。兩種風格,兩份差很多的逐字稿。

完整逐字什麼都記。每個「呃」、每次說一半、每句「你懂我意思吧」、每個 [笑] 和 [長停頓]。它是人實際講話那種亂糟糟但精準的紀錄。對話分析的人需要它。有些 IRB 流程強制要它。法律和合規場合也常常要。你要是把完整逐字稿念出來過,就知道它幾乎沒法讀——而且這是故意的。

智慧潤稿,有人叫它乾淨回讀,拿掉贅字、修掉明顯口誤,意思一點不少。「我、呃、我覺得那個、那個重點是信任」會變成「我覺得重點是信任」。大部分新聞用這個。大部分 UX 研究用這個。它讀起來像人寫的,所以凡是要引用或分享的東西,預設都用它。

陷阱在這:把完整逐字稿刪成乾淨版很簡單。反過來不可能——贅字一旦沒了,不重聽根本救不回。所以只要有一絲可能要用到完整逐字,先產完整版,再清一份副本。老建議,到現在還是對。

現代 AI 引擎預設給你的是接近完整逐字的初稿,比乾淨版更靠近原始。從那裡往下刪就好。想知道各種檔案格式怎麼弄出第一份初稿,這篇 語音轉文字指南 把支援的格式和上傳流程從頭講到尾。

講者標記與人名化名

兩人訪談是最好辦的——引擎大多數時候能乾淨地把訪談者和受訪者分開。麻煩從座談會、焦點團體、還有任何大家會搶話的場合開始。講者分離處理重疊講話算還行,但偶爾會把兩個聲音併成一個標籤、或把一個人拆成兩個。交叉對話很密的地方,每分鐘抓大概 30 秒整理時間。不是沒成本,但比整段重聽強多了。

標籤對了之後,改名是一次搞定的活:講者 1 變訪談者、講者 2 變你的受訪者,一次套用到整份文件。如果你常做多人場次,引擎怎麼判斷「一個講者在哪結束、下一個從哪開始」這種底層機制值得弄懂,自動辨識講者指南 講得比較細。

接下來是研究者不能跳過的部分:化名。對 UX 和學術研究來說,把真名換成假名或 P07 這種代碼不是可選項——它通常是研究倫理委員會的要求,寫進你的同意書裡的。乾淨的做法:

  • 先做逐字稿,再化名。引擎還在標講者的時候別去改名字。
  • 用尋找取代,把每個真名換成代碼或假名,整份逐字稿一致地換。
  • 代碼對身分的對照表放另一個有上鎖的檔案。絕對不要放在逐字稿本身裡。
  • 連間接識別資訊也要抓——受訪者的雇主、家鄉、罕見的職稱,去匿名化的速度跟名字一樣快。

老實說,最後這點連有經驗的研究者都會栽。名字很明顯。「那家區域航空公司唯一的女機師」不明顯,但一樣能認出人。

你是誰,重點就不一樣

流程跨角色都成立,但優先順序不一樣。下面是每種人該把注意力放哪。

你是誰 常用風格 該死盯著的點
記者 智慧潤稿 引述一字不差、留時間戳供事實查核
UX/質性研究者 智慧潤稿(有時用完整逐字) 化名、講者代碼一致、乾淨匯出到編碼工具
Podcaster 智慧潤稿 時間戳方便找片段、整理成可發節目筆記的格式
招募人員 重點摘要勝過全文逐字 候選人之間的一致性、公平比較、筆記隱私

特別給研究者一句:有個很有名的經驗法則——主題飽和(新訪談不再冒出新主題的那個點)在樣本同質性還算高的情況下,常常 12 場左右就到。這不代表你只做 12 份逐字稿。它的意思是:當初稿回來得快,你可以早點橫向讀一遍,判斷第 13 場訪談還值不值得做。逐字稿做得快,改變的是你「什麼時候分析」,不只是「花多久」。

如果你是學生而不是有經費的研究者,預算和同意書的取捨會有點不一樣——給學生的 AI 逐字稿指南 講的就是這個角度。

幾個會悄悄出包的地方

一些訪談特有的雷,往往要等到已經害你浪費時間了才浮出來。

電話和遠端通話音質。 從電話線抓下來的錄音被壓縮、頻寬受限,準確率會比房間麥克風差一截。如果你常用電話做訪談,值得專門讀一下 電話通話逐字稿 那篇,因為這裡「怎麼收音」比「用哪個引擎」還重要。

口音和混語。 重一點的地方口音沒問題。一句話講到一半在兩種語言之間切換的受訪者,對任何引擎都很難。90 種以上語言的自動偵測處理單一語言訪談很好;一直在中英夾雜的,語言交界處要預留人工整理。

省略核對的捷徑。 初稿看起來乾淨時,最大的誘惑就是跳過重聽。別——至少引述別跳。AI 逐字稿很會處理常見字,最弱的地方恰好就是最要命的:專有名詞、技術術語、數字。「二〇一五」聽成「二〇五〇」這種錯,快速掃過去發現不了,印出來就炸了。

超長場次。 口述歷史、生命故事訪談可以講好幾小時。單檔上限 5 小時或 2GB 不用切割就吃得下,也沒有每月配額要省著用——但動手前先把原始音檔備份。永遠先備份。

價格,簡短講

成本通常是決定你自己做還是花錢請人的關鍵。人工逐字稿,再講一次,大概一分鐘 US$1.00 到 1.50。AI 工具改成訂閱計價,Atter AI 給 3 天免費試用,方案則是 US$6.99/週、US$49.99/年,或 US$129.99 終身買斷。對任何規律做訪談的人——做到一半的研究者、跑特定路線的記者——終身買斷攤到每場訪談,跟人工按分鐘計費比起來只是個零頭。

這也是價格唯一該出現在這個決定裡的地方。其他全是流程。

常見問題

訪談錄音可以免費做逐字稿嗎?

大多數工具給的是「免費額度」而不是無限免費。YouTube 自動字幕、手機內建語音輸入確實免費,但兩人對話的口語音檔大概只有 70-85% 準確率。想要乾淨一點的初稿,專門工具通常給短期試用——Atter AI 是 3 天試用——夠你先試幾段訪談再決定。老實說,真免費的選項是有,但你省下的錢會在校稿時間上補回去。

研究訪談的逐字稿,最好的做法是什麼?

找安靜的房間、一支堪用的麥克風錄,把音檔丟進有講者分離功能的 AI 工具,然後針對你要引用的每句話對著音檔核對一次。要做質性編碼的話,匯出成 DOCX 或 TXT,就能直接貼進 NVivo、Atlas.ti 或 Dedoose。核對這一步最多人跳過——但被質疑「你這引述哪來的」時,能救你的就是它。

完整逐字和智慧潤稿差在哪?

完整逐字(true verbatim)把每個「呃」、每次說一半、口吃、[笑] 通通照原樣記下來——對話分析、法律紀錄、有些研究倫理(IRB)流程都要求這樣。智慧潤稿(intelligent verbatim)則拿掉贅字、修掉明顯口誤,但意思一字不差地保留。大部分新聞和 UX 研究用智慧潤稿,因為好讀太多。動手編輯前就要先決定要哪一種,不是編到一半才想。

AI 逐字稿會標出誰說的話嗎?

會,只要工具支援講者分離。它會標成講者 1、講者 2 這樣,你再一次把他們改成真實參與者的名字。當大家搶話、講話重疊時,講者標記的準確率會掉,所以交叉對話多的訪談要預留一點整理時間。想深入了解原理,可以看自動辨識講者那篇。

訪談逐字稿裡的人名怎麼做化名?

先做逐字稿,再用尋找取代把真名換成假名或代碼,例如 P07(受訪者 7)。另外存一份有上鎖的對照表,把代碼對回真實身分——千萬別放在逐字稿檔案裡。UX 和學術研究通常這是研究倫理委員會的硬性要求,所以要在逐字稿離開你電腦、或分享給協作者之前就做好。

一小時的訪談做逐字稿要多久?

純手打的話,每一小時音檔抓 4 到 6 小時——完整逐字或口音重的更久。AI 工具把同一個 60 分鐘檔案變成初稿,大概只要 4 到 7 分鐘,你剩下要做的是核對,不是打字。這就是整個流程裡最大的一筆時間省下來的地方:你從打字員變成編輯。

AI 能做其他語言的訪談逐字稿嗎?

可以。Atter AI 支援 90 種以上語言、可自動偵測,對跨國田野、跨境採訪很重要。混語訪談——比方同一句話裡中英文交替——對任何引擎都比較難;如果受訪者一直切換語言,語言交界處要預留人工整理。

把機密訪談上傳到逐字稿服務安全嗎?

上傳任何敏感內容前,先看清楚那家的資料政策:音檔處理完會不會刪、錄音會不會拿去訓練模型、資料存在哪裡。Atter AI 處理音檔產出逐字稿後就丟掉原始檔,留下的是逐字稿和一條參考連結,不是錄音的副本。簽了保密協議或走 IRB 的訪談,要用書面跟受訪者的同意條款確認清楚。