大學課堂錄音轉逐字稿：實戰攻略（2026）

快速解答

大學課堂大概是你日常會遇到、最難做成逐字稿的音檔——難的不是內容，是教室本身。300 人的階梯教室殘響時間一到兩秒，教授講到一半就走離講台麥克風，而你的手機在第 14 排。解法多半發生在軟體之前：先拿到最乾淨的音源（學校課程錄影平台匯出的檔案，完勝任何手機錄音），再丟給語音轉文字。做到這一步，Atter AI 在乾淨音檔上 98.7% 的準確率，就能幾乎原封不動地從教室搬進逐字稿——50 分鐘的課和 3 小時的研究所專題討論走同一條流程（單檔上限 5 小時或 2GB）。

這篇只談「收音與轉檔」這一段。逐字稿到手之後怎麼複習、怎麼做成考前資料，請看另一篇大學生語音轉文字指南。這裡我們只盯著音檔。

編輯觀點

幾乎每個拿到爛逐字稿的人，第一反應都是怪 AI。但老實講，那份稿子多半在上傳之前就已經沒救了——壞在有人放著現成的課程錄影匯出不用，硬要用後排手機錄音的那一刻。很多學校的錄影系統（NTU COOL、ee-class、Panopto 這類）直接收的是講台麥克風，等於一份近乎錄音室等級的音檔就躺在下載按鈕後面。先確認這個匯出存不存在，再談其他優化。這是全文槓桿最大的一步，而且一毛錢都不用花。

為什麼階梯教室天生剋語音轉文字

語音辨識模型的訓練資料，大宗是近距離收音：Podcast、電話錄音、有聲書。而大學階梯教室把這些前提一條一條全部打破。

先講殘響。聲學上用 RT60 衡量——聲音衰減 60 分貝所需的時間。要錄出清晰人聲，RT60 最好壓在 0.5 秒以內；沒做聲學處理的階梯教室，實測普遍落在 1.5 到 2.5 秒。教授說的每個字，抵達你的麥克風時都拖著兩三道稍微錯開的回音尾巴。人耳會自動過濾，根本不會察覺。模型只能濾掉一部分，錯字率就這樣墊高了。

再來是距離。手機內建麥克風能收到「轉寫等級」清晰人聲的範圍，大約 4 到 5 公尺。一間階梯教室縱深 15 到 20 公尺。坐在後三分之一，直達音已經輸給滿屋子的殘響糊音——麥克風根本沒收到乾淨的訊號，AI 再強也生不出來。

1.5–2.5 秒
未做聲學處理的階梯教室典型殘響時間（RT60），錄人聲的理想值是 0.5 秒以內: 4–5 公尺
手機麥克風能錄出轉寫等級人聲的有效距離: 98.7%
Atter AI 乾淨音檔準確率——摸不摸得到這個天花板，由你的收音品質決定: 無上限
單一檔案的最長時數——3 小時專題討論和 50 分鐘的課同樣處理

這不代表課堂逐字稿做不起來。而是說：好稿和爛稿的差距，在收音那一刻就定了，跟引擎關係不大。所以接下來談音源。

音源分三級：課程錄影第一，手機第二

同一堂課，通常有三種拿到音檔的途徑。品質差距不是普通的大。

有這些就優先用

課程錄影平台匯出（NTU COOL、ee-class、Panopto、Echo360）——直接收講台麥克風，你和講台之間那 20 公尺空氣完全不會進到檔案裡
線上課或混成課的 Google Meet、Teams 錄影——同理，教授自己的麥克風直接進檔
學校公開的開放式課程（台大開放式課程、MIT OpenCourseWare 公開的 2,500 多門課、YouTube 課程影片）

真的沒有再退而求其次

手機放教室前半段——可用，照下文的擺放規則來
手機在後三分之一——專業術語的錯誤會明顯變多
同學傳來的語音訊息轉錄——拜託不要

課程錄影匯出為什麼贏？理由粗暴得很：這些系統的音訊來自教授配戴或站位的那支麥克風，教室裡那段又長又糊的空氣路徑從頭到尾不存在。多數平台允許學生下載有權限觀看的課程影片（MP4/M4A），下載入口通常藏在播放器的「下載」或「輸出」選項裡。

如果你的課是放在 YouTube 或影音平台上的錄影，只有取得音檔這步略有不同——YouTube 影片轉文字指南講了怎麼從已發布的課程影片抽出音訊，後面的流程一模一樣。

真的只剩手機這條路：坐前半段，麥克風那端朝向教授，手機直接放桌面（不要塞口袋、不要丟包包——隔一層布，子音先陣亡）、開飛航模式。從第 18 排換到第 6 排，比你在任何 App 裡調任何參數都有效。錄之前先問過教授——錄音規範那一節在大學生指南裡寫過，一句話版本：一門課，寄一封信，問一次。

從檔案到逐字稿的完整流程

檔案到手，剩下的就短了。以下用一堂 100 分鐘的課估算，50 分鐘的課或 3 小時的專題討論只是等比例縮放。

把檔案弄出來下載課程錄影匯出（MP4/M4A）、儲存會議錄影、或停掉手機錄音。100 分鐘的課以一般人聲位元率估算約 50–80 MB——整週的課全錄起來也不過幾百 MB。
原檔上傳 Atter AI不用先把影片轉成音檔——影片檔直接轉。長檔也不用切：沒有時長上限，3 小時專題討論整支丟上去。這點很關鍵，因為切檔正是時間戳錯亂、說話者標記斷裂的重災區。
說話者標記，在該出力的場合出力單人滿堂灌的課，說話者辨識基本上是裝飾。但六個人搶話的專題討論、或帶長問答時段的課，它就是「可用紀錄」和「一鍋粥」的分水嶺。問答時段才是「誰問了什麼」真正重要的地方。
當天掃一遍專業術語錯誤不是平均分布的——它們集中在每堂課那二十來個課程專屬詞彙上（基因名、判例名、定理名）。趁記憶還熱花五分鐘掃一遍，幾乎能全部抓到。這是唯一值得做的人工品管。

順帶一提產出量：100 分鐘的課轉出來大約兩萬多字。這還不是複習教材，只是檔案庫——怎麼壓縮成筆記，看大學生指南；到了期末，這座檔案庫才真正發威：用 AI 對話搜尋逐字稿，一句話翻完一整個學期。

口音、術語、中英夾雜：逐字稿真正的考驗

講個反直覺的：教室聲學對逐字稿的傷害，比口音大得多。

現在的語音模型聽過的各種口音樣本多到難以想像——一位口音很重但透過講台麥克風清楚收音的教授，轉出來的效果通常好過一位發音標準卻被第 18 排手機收音的教授。如果你讀的是國際學程，這個不對稱站在你這邊：搞定乾淨音源，口音問題大致自己消失。

更難也更常見的是中英夾雜——全英語授課的教授講到一半切回中文補一句，或者反過來。90+ 語言支援在這裡的意義是：語碼轉換的句子能活著進逐字稿，而不是變成一串拼音亂碼。最需要逐字稿的國際學生，偏偏最常遇到這種課。

專業術語是誠實的弱點，沒有哪家引擎躲得掉。「克氏循環」訓練資料夠多；你指導教授研究的那個冷門酵素，沒有。三個緩解方法，照省力程度排：先照上文拿乾淨音源（多數「術語錯誤」其實是音訊錯誤）；當天五分鐘術語掃描；每門課維護一份自己的小詞彙表——錄個幾堂課，你就知道固定要核對的就那十幾個詞。最後，音訊頻道永遠載不動的東西：黑板。公式、圖表、化學結構式，拍照。逐字稿加板書照片才是完整紀錄，少一樣都不算。

一學期的課，轉逐字稿要花多少錢

選工具前先算量，因為「課堂」正好是把按分鐘計費模式壓垮的情境。一門課每週兩堂、一學期 16 週（台灣常見學制），就是 32 段錄音、30 多個小時。修五門課，一學期直逼 150 個小時。在按分鐘計價、或免費額度每月只有幾十分鐘的工具上，要嘛帳單三位數，要嘛每週都在做「哪堂課配得上轉寫」的配給題。

均一價直接繞過整個問題：Atter AI 是每週 $6.99、每年 $49.99、或 $129.99 終身買斷，附 3 天免費試用。試用的正確姿勢：拿你真實教室的兩段錄音去測——一段課程錄影匯出、一段手機錄音，比一比。你買的是你那間教室的準確率，不是誰家官網的跑分。「沒有每月用量限制」在這裡也不再是行銷話術：一學期 150 小時的量擺在眼前，它就是剛需。

FAQ

上課錄音要怎麼錄，逐字稿效果最好？

能不自己錄就不自己錄。學校有 NTU COOL、ee-class、Panopto 這類課程錄影系統的，直接下載課程匯出——音源是講台麥克風，碾壓任何教室內錄音。沒有錄影系統？手機放教室前半段的桌面，麥克風朝教授，開飛航模式。大教室的後三分之一已超出手機麥克風的可靠範圍，轉出來一眼就看得出落差。

課程錄影平台的影片可以直接轉逐字稿嗎？

可以。下載 MP4（入口通常在播放器的「下載」或「輸出」選項，是否開放看學校設定），原檔上傳即可——影片檔不需要先轉音檔。如果這門課關閉下載權限，直接問教授，順便把「我可以錄音嗎」這個本來就該問的問題一起問掉。

一堂課可以多長？我的專題討論一上就是 3 小時。

單檔上限 5 小時或 2GB，3 小時的課一個檔案上傳、一份逐字稿出來。這件事值得在意：限制單檔長度的工具會逼你切割錄音，而切割點正是時間戳漂移、說話者標記重置的好發處。一堂課、一個檔、一份逐字稿。

真實教室音檔的語音轉文字準確率有多高？

Atter AI 在乾淨音檔上實測 98.7%，講台麥克風的錄影匯出能讓你貼近這個天花板。教室中後排的手機錄音會低一截——殘響和距離是兩大扣分項，而且專扣課程專業術語的分。實用結論：音源品質決定你的稿子落在「很好」的哪一側，力氣花在收音，不要花在事後改稿。

教授口音很重，逐字稿能看嗎？

多半比你想的能看。現代模型的訓練資料裡口音樣本極為充足；收音清楚的重口音教授，通常贏過被收音毀掉的標準發音教授。真正要預先打算的是中英夾雜的課——一句話講一半換語言——這正是 90+ 語言支援在國際學程裡的價值所在。

公式和板書會進逐字稿嗎？

不會，而且沒有任何工具救得了——轉寫處理的是音訊，黑板不是音訊。口頭推導轉得出來（「x 平方從 0 積到 1」），寫在板上的符號轉不出來。數學、物理、化學課，逐字稿配板書照片才完整。逐字稿記下的是每一步為什麼這樣走——這恰好是你拍的投影片照片裡沒有的東西。

大學課堂逐字稿：300 人階梯教室是最難轉的音檔