快速解答
大學課堂大概是你日常會遇到、最難做成逐字稿的音檔——難的不是內容,是教室本身。300 人的階梯教室殘響時間一到兩秒,教授講到一半就走離講台麥克風,而你的手機在第 14 排。解法多半發生在軟體之前:先拿到最乾淨的音源(學校課程錄影平台匯出的檔案,完勝任何手機錄音),再丟給語音轉文字。做到這一步,Atter AI 在乾淨音檔上 98.7% 的準確率,就能幾乎原封不動地從教室搬進逐字稿——50 分鐘的課和 3 小時的研究所專題討論走同一條流程,沒有時長限制。
這篇只談「收音與轉檔」這一段。逐字稿到手之後怎麼複習、怎麼做成考前資料,請看另一篇大學生語音轉文字指南。這裡我們只盯著音檔。
編輯觀點
幾乎每個拿到爛逐字稿的人,第一反應都是怪 AI。但老實講,那份稿子多半在上傳之前就已經沒救了——壞在有人放著現成的課程錄影匯出不用,硬要用後排手機錄音的那一刻。很多學校的錄影系統(NTU COOL、ee-class、Panopto 這類)直接收的是講台麥克風,等於一份近乎錄音室等級的音檔就躺在下載按鈕後面。先確認這個匯出存不存在,再談其他優化。這是全文槓桿最大的一步,而且一毛錢都不用花。
為什麼階梯教室天生剋語音轉文字
語音辨識模型的訓練資料,大宗是近距離收音:Podcast、電話錄音、有聲書。而大學階梯教室把這些前提一條一條全部打破。
先講殘響。聲學上用 RT60 衡量——聲音衰減 60 分貝所需的時間。要錄出清晰人聲,RT60 最好壓在 0.5 秒以內;沒做聲學處理的階梯教室,實測普遍落在 1.5 到 2.5 秒。教授說的每個字,抵達你的麥克風時都拖著兩三道稍微錯開的回音尾巴。人耳會自動過濾,根本不會察覺。模型只能濾掉一部分,錯字率就這樣墊高了。
再來是距離。手機內建麥克風能收到「轉寫等級」清晰人聲的範圍,大約 4 到 5 公尺。一間階梯教室縱深 15 到 20 公尺。坐在後三分之一,直達音已經輸給滿屋子的殘響糊音——麥克風根本沒收到乾淨的訊號,AI 再強也生不出來。
- 1.5–2.5 秒
- 未做聲學處理的階梯教室典型殘響時間(RT60),錄人聲的理想值是 0.5 秒以內
- 4–5 公尺
- 手機麥克風能錄出轉寫等級人聲的有效距離
- 98.7%
- Atter AI 乾淨音檔準確率——摸不摸得到這個天花板,由你的收音品質決定
- 無上限
- 單一檔案的最長時數——3 小時專題討論和 50 分鐘的課同樣處理
這不代表課堂逐字稿做不起來。而是說:好稿和爛稿的差距,在收音那一刻就定了,跟引擎關係不大。所以接下來談音源。
音源分三級:課程錄影第一,手機第二
同一堂課,通常有三種拿到音檔的途徑。品質差距不是普通的大。
有這些就優先用
- 課程錄影平台匯出(NTU COOL、ee-class、Panopto、Echo360)——直接收講台麥克風,你和講台之間那 20 公尺空氣完全不會進到檔案裡
- 線上課或混成課的 Google Meet、Teams 錄影——同理,教授自己的麥克風直接進檔
- 學校公開的開放式課程(台大開放式課程、MIT OpenCourseWare 公開的 2,500 多門課、YouTube 課程影片)
真的沒有再退而求其次
- 手機放教室前半段——可用,照下文的擺放規則來
- 手機在後三分之一——專業術語的錯誤會明顯變多
- 同學傳來的語音訊息轉錄——拜託不要
課程錄影匯出為什麼贏?理由粗暴得很:這些系統的音訊來自教授配戴或站位的那支麥克風,教室裡那段又長又糊的空氣路徑從頭到尾不存在。多數平台允許學生下載有權限觀看的課程影片(MP4/M4A),下載入口通常藏在播放器的「下載」或「輸出」選項裡。
如果你的課是放在 YouTube 或影音平台上的錄影,只有取得音檔這步略有不同——YouTube 影片轉文字指南講了怎麼從已發布的課程影片抽出音訊,後面的流程一模一樣。
真的只剩手機這條路:坐前半段,麥克風那端朝向教授,手機直接放桌面(不要塞口袋、不要丟包包——隔一層布,子音先陣亡)、開飛航模式。從第 18 排換到第 6 排,比你在任何 App 裡調任何參數都有效。錄之前先問過教授——錄音規範那一節在大學生指南裡寫過,一句話版本:一門課,寄一封信,問一次。
從檔案到逐字稿的完整流程
檔案到手,剩下的就短了。以下用一堂 100 分鐘的課估算,50 分鐘的課或 3 小時的專題討論只是等比例縮放。
- 把檔案弄出來下載課程錄影匯出(MP4/M4A)、儲存會議錄影、或停掉手機錄音。100 分鐘的課以一般人聲位元率估算約 50–80 MB——整週的課全錄起來也不過幾百 MB。
- 原檔上傳 Atter AI不用先把影片轉成音檔——影片檔直接轉。長檔也不用切:沒有時長上限,3 小時專題討論整支丟上去。這點很關鍵,因為切檔正是時間戳錯亂、說話者標記斷裂的重災區。
- 說話者標記,在該出力的場合出力單人滿堂灌的課,說話者辨識基本上是裝飾。但六個人搶話的專題討論、或帶長問答時段的課,它就是「可用紀錄」和「一鍋粥」的分水嶺。問答時段才是「誰問了什麼」真正重要的地方。
- 當天掃一遍專業術語錯誤不是平均分布的——它們集中在每堂課那二十來個課程專屬詞彙上(基因名、判例名、定理名)。趁記憶還熱花五分鐘掃一遍,幾乎能全部抓到。這是唯一值得做的人工品管。
順帶一提產出量:100 分鐘的課轉出來大約兩萬多字。這還不是複習教材,只是檔案庫——怎麼壓縮成筆記,看大學生指南;到了期末,這座檔案庫才真正發威:用 AI 對話搜尋逐字稿,一句話翻完一整個學期。
口音、術語、中英夾雜:逐字稿真正的考驗
講個反直覺的:教室聲學對逐字稿的傷害,比口音大得多。
現在的語音模型聽過的各種口音樣本多到難以想像——一位口音很重但透過講台麥克風清楚收音的教授,轉出來的效果通常好過一位發音標準卻被第 18 排手機收音的教授。如果你讀的是國際學程,這個不對稱站在你這邊:搞定乾淨音源,口音問題大致自己消失。
更難也更常見的是中英夾雜——全英語授課的教授講到一半切回中文補一句,或者反過來。90+ 語言支援在這裡的意義是:語碼轉換的句子能活著進逐字稿,而不是變成一串拼音亂碼。最需要逐字稿的國際學生,偏偏最常遇到這種課。
專業術語是誠實的弱點,沒有哪家引擎躲得掉。「克氏循環」訓練資料夠多;你指導教授研究的那個冷門酵素,沒有。三個緩解方法,照省力程度排:先照上文拿乾淨音源(多數「術語錯誤」其實是音訊錯誤);當天五分鐘術語掃描;每門課維護一份自己的小詞彙表——錄個幾堂課,你就知道固定要核對的就那十幾個詞。最後,音訊頻道永遠載不動的東西:黑板。公式、圖表、化學結構式,拍照。逐字稿加板書照片才是完整紀錄,少一樣都不算。
一學期的課,轉逐字稿要花多少錢
選工具前先算量,因為「課堂」正好是把按分鐘計費模式壓垮的情境。一門課每週兩堂、一學期 16 週(台灣常見學制),就是 32 段錄音、30 多個小時。修五門課,一學期直逼 150 個小時。在按分鐘計價、或免費額度每月只有幾十分鐘的工具上,要嘛帳單三位數,要嘛每週都在做「哪堂課配得上轉寫」的配給題。
均一價直接繞過整個問題:Atter AI 是每週 $6.99、每年 $49.99、或 $129.99 終身買斷,附 3 天免費試用。試用的正確姿勢:拿你真實教室的兩段錄音去測——一段課程錄影匯出、一段手機錄音,比一比。你買的是你那間教室的準確率,不是誰家官網的跑分。「無時長限制」在這裡也不再是行銷話術:一學期 150 小時的量擺在眼前,它就是剛需。
FAQ
上課錄音要怎麼錄,逐字稿效果最好?
能不自己錄就不自己錄。學校有 NTU COOL、ee-class、Panopto 這類課程錄影系統的,直接下載課程匯出——音源是講台麥克風,碾壓任何教室內錄音。沒有錄影系統?手機放教室前半段的桌面,麥克風朝教授,開飛航模式。大教室的後三分之一已超出手機麥克風的可靠範圍,轉出來一眼就看得出落差。
課程錄影平台的影片可以直接轉逐字稿嗎?
可以。下載 MP4(入口通常在播放器的「下載」或「輸出」選項,是否開放看學校設定),原檔上傳即可——影片檔不需要先轉音檔。如果這門課關閉下載權限,直接問教授,順便把「我可以錄音嗎」這個本來就該問的問題一起問掉。
一堂課可以多長?我的專題討論一上就是 3 小時。
沒有時長限制,3 小時的課一個檔案上傳、一份逐字稿出來。這件事值得在意:限制單檔長度的工具會逼你切割錄音,而切割點正是時間戳漂移、說話者標記重置的好發處。一堂課、一個檔、一份逐字稿。
真實教室音檔的語音轉文字準確率有多高?
Atter AI 在乾淨音檔上實測 98.7%,講台麥克風的錄影匯出能讓你貼近這個天花板。教室中後排的手機錄音會低一截——殘響和距離是兩大扣分項,而且專扣課程專業術語的分。實用結論:音源品質決定你的稿子落在「很好」的哪一側,力氣花在收音,不要花在事後改稿。
教授口音很重,逐字稿能看嗎?
多半比你想的能看。現代模型的訓練資料裡口音樣本極為充足;收音清楚的重口音教授,通常贏過被收音毀掉的標準發音教授。真正要預先打算的是中英夾雜的課——一句話講一半換語言——這正是 90+ 語言支援在國際學程裡的價值所在。
公式和板書會進逐字稿嗎?
不會,而且沒有任何工具救得了——轉寫處理的是音訊,黑板不是音訊。口頭推導轉得出來(「x 平方從 0 積到 1」),寫在板上的符號轉不出來。數學、物理、化學課,逐字稿配板書照片才完整。逐字稿記下的是每一步為什麼這樣走——這恰好是你拍的投影片照片裡沒有的東西。