Education

老師與教授的逐字稿指南:那件你終於能交給 AI 的無障礙苦差事

美國司法部 2024 年新規上路,公立大學 2026 年前必須補上字幕。用逐字稿把課堂講授變成合規字幕、複習講義與 Office Hour 紀錄。

快速解答

對老師來說,逐字稿做的事跟對學生剛好相反。學生錄音是為了「跟上」,你錄音是為了「給回去」——給第三排那位聽障同學的字幕、給請病假那位學生一份能搜尋的文字稿、給螢幕報讀軟體一份它真的讀得懂的乾淨課堂文字。逐字稿能在幾分鐘內把一堂錄好的課變成準確率 98.7% 的文字(乾淨音檔),接著你拿這份文字加工成字幕、複習講義和無障礙教材,而不是再花每分鐘 $1 到 $7.50 請人工字幕廠商一個字一個字打。

而且現在這件事多了一條死線,這也是我特地寫給授課老師的原因。美國司法部 2024 年 4 月根據《美國身心障礙者法》第二章發布新規,要求公立大專院校把網路內容——包含課堂錄影——做到 WCAG 2.1 AA。大型機構期限到 2026 年 4 月,小型的到 2027 年 4 月。字幕不再是選配,它變成行事曆上的一個日期。

2024 年改了什麼,又為什麼落到你頭上

過去很多年,課堂上字幕都是「之後再說」那一類的事——等到某位有正式需求證明的學生提出申請,才被動處理,沒人問就放著。2024 年 4 月司法部這條最終規則,終結了公立機構的被動模式。網頁與行動內容必須達到 WCAG 2.1 AA,而課堂錄影正好整個落在這個範圍裡。

這邊有個雷,常常打教師一個措手不及:合規不是身心障礙資源中心自己一肩扛的事。內容是從你這裡產出的。一堂 50 分鐘的課大約是 7,500 個口說字,而這每一個字都得變成準確、同步的文字,落在某個學生讀得到的地方。一學期三門課、十五週課程乘下去,光一位老師就要面對超過五十萬字的字幕量。

2026 年 4 月
大型公立大學的 WCAG 2.1 AA 死線(司法部 ADA 第二章新規)
~7,500 字
一堂 50 分鐘課的口說字數
$1–$7.50
人工字幕廠商每分鐘音訊的收費
90+ 種
支援語言數,照顧多語課堂

把這些全外包給人工字幕服務,就算用最低價每分鐘 $1,一位老師一學期也是好幾千美元起跳,而且交件是用「天」算的,不是「分鐘」。週四晚上學生寄信來要週二那堂課的文字稿,等好幾天根本沒用。逐字稿補的正是這個缺口:近乎即時、草稿等級的文字,你拿來改、不用從零打。

老師拿到逐字稿真正會做的五件事

字幕是義務。但它不是唯一的回報,老實說也不是最有意思的那個。一旦你手上有每堂課的準確逐字稿,後面一大堆活兒都變輕鬆了。

  1. 產出字幕與無障礙文字稿上傳課堂錄音,拿回一份帶說話者標記的逐字稿,掃過一遍把模型卡住的專業術語改掉,匯出。這同時搞定 WCAG 義務,和那種「讀比聽快」的學生。
  2. 用你自己的話做複習講義把逐字稿濃縮成重點名詞表、摘要和一組複習題。學生拿到的是你的措辭,不是課本的——而那才是考試真正在考的東西。
  3. 留下 Office Hour 與指導的紀錄取得學生同意後,一份論文指導的逐字稿,能讓三週後沒人再為「可是你那時說……」翻舊帳。白紙黑字就是白紙黑字。
  4. 記錄系務會議與委員會工作服務工作是學術生活裡那筆沒薪水的稅。課程委員會的逐字稿會自己寫成會議紀錄,你就不用再被推去當紀錄了。
  5. 轉錄研究訪談如果你做質性研究,訪談轉錄是同一套流程——也是你以前得從研究經費裡撥出來的那筆轉錄費。

第二件事比它看起來重要。學生是用課堂上聽到的那些字在讀書,你對「天擇壓力」或「社會契約」的講法,就是會出現在你考卷上的那個版本。從逐字稿煉出來的複習講義,比任何出版社的摘要都更貼近考題。學生那一端怎麼把課堂變成記憶卡和複習表,從課堂錄音整理 AI 讀書筆記講得很清楚;讀一讀,你就知道你發出去的錄音,他們拿去做了什麼。

準確率到底會在哪裡崩(以及怎麼不讓它崩)

講堂是個對錄音很不友善的環境,假裝不是這樣,老師最後只會失望。98.7% 是乾淨音檔的數字——安靜的房間、貼近的麥克風、口齒清楚的講者。你的現實是冷氣嗡嗡作響、一支離嘴 40 公分的領夾麥而且前八分鐘你忘了開、還有你拚命投射過去的後三排。

而且錯誤不是亂撒的。它們剛好聚在最要命的那些字上:學科專有名詞、人名地名、外語詞,還有任何只寫在黑板上、根本沒進到音訊裡的東西。「西發里亞和約」可能轉成「西發失敗和約」。你的學生會發現。所以流程永遠不是「轉完就出」——而是先轉,再花五分鐘掃過那十幾個模型注定會錯的術語。

逐字稿是對的工具,當你……

  • 需要每週、有死線、大量產出字幕與文字稿
  • 音訊是用專屬麥克風錄的,不是收整間教室的環境音
  • 事後願意花幾分鐘修專業術語
  • 同一堂課要服務多語言的學生

該找人工字幕,當……

  • 內容在法律上高度敏感、零容錯是底線(正式的合理調整公文指定要逐字認證字幕)
  • 音訊真的救不回來——嚴重交談重疊、沒有堪用的麥克風
  • 你有預算、也耗得起好幾天的交件時間

兩個習慣就能修掉大半問題。用夾式或 USB 麥克風,別賭整間教室;開錄前先確認收音音量,不是錄完才發現。準確率最大的那根槓桿不是軟體——是你嘴巴到麥克風那 40 公分。這段弄對,後面要改的幾乎縮到沒有。

多語課堂,是被低估的那筆紅利

這個角度沒人放進合規通知裡。在大型研究型大學,大約每九位學生就有一位是用非母語在念書。對他們來說,即時聽課是地獄級任務——一邊聽、一邊解析第二語言、一邊抄筆記,三件事同時來,還沒有倒帶鍵。

把逐字稿交到他們手上,你就把那個不可能的即時任務,換成一個能應付的閱讀任務。句子可以重讀,聲音沒辦法重聽。支援 90 多種語言,代表你用英語上的一堂課,可以先轉成文字,再讓母語是中文、西班牙文或韓文的學生,用閱讀速度慢慢啃。你的教學一個字都沒改,你只是把「非母語處理速度比較慢」這個懲罰拿掉了。如果你的課本來就放在影音平台上、而不是在教室裡,把大學課堂轉成逐字稿更深入講了教室音場那一面,而寫給學生的逐字稿指南也值得掃一眼,看看同一套流程在他們那端長什麼樣。

到了學期末,這些逐字稿會變成比字幕更大的東西:一整學期你說過的所有話,全部可搜尋。學生問「你有沒有講過 X?」,你不用再猜——你用搜的。這個小本事自成一種超能力,用 AI 對話搜尋逐字稿裡有寫。

跟字幕預算比,到底花多少錢

這題算起來很簡單,因為兩邊根本不對等。人工字幕廠商收每分鐘 $1 到 $7.50。一堂 50 分鐘的課,用最低價算就是 $50;一門課一學期輕鬆就是 $750 到 $1,000,而這還沒算研究訪談和委員會會議。

Atter AI 是均一價:每週 $6.99、每年 $49.99,或 $129.99 終身買斷,附 3 天免費試用,而且關鍵是單一檔案沒有時長上限——三小時的研究生研討課,跟二十分鐘的習題課走同一條流程。對一位每週都在做這件事的老師來說,年方案的價錢比人工做兩堂課的字幕還便宜。免費試用是最誠實的第一步:拿你真實那間教室、用你真實那支麥克風,錄一堂真的課,轉成文字,用你自己的音場去評準確率,而不是看官網的數字。你買的是你那間教室,不是規格表。

有條界線值得講白:一份指定要「逐字認證」字幕的正式合理調整公文,是一份法律文件,你要照字面一個字不漏地辦——那就是人工字幕的案子,沒得商量。逐字稿負責 WCAG 的大範圍基線,以及上面所有自願加碼的東西。兩者不是對手,它們蓋的是不同的義務。

常見問題

逐字稿能滿足 ADA/WCAG 2.1 AA 的字幕要求嗎?

對於司法部 2024 年新規要求的 WCAG 2.1 AA 一般基線來說,經過修正的準確字幕是達標的——關鍵字是「修正過」。原始自動字幕帶著錯誤不算數;WCAG 要求的是準確且同步的字幕。所以合規流程是逐字稿加上一道人工複查,把專業術語改對。至於那種要求逐字認證字幕的正式合理調整公文,是另一個更高的標準,通常得交給人工字幕服務。

真實一堂課(不是錄音室)轉出來準確率有多高?

Atter AI 在乾淨音檔上維持 98.7%,但講堂不是乾淨音檔。離麥的距離、教室回音、環境噪音,全都會吃掉準確率,而且錯誤會集中在學科專有名詞和人名地名上。最有用的兩個補救:用夾式或 USB 麥克風,別收整間教室的環境音;開錄第一分鐘前先確認收音音量。事後再留五分鐘修專業術語就好。

我可以轉用其他語言、或中外夾雜上的課嗎?

可以——支援 90 多種語言,包含課中途切換語言的情況,這在國際學程和語言教學裡很常見。這也正是逐字稿對那大約每九位用非母語念書的學生這麼有價值的原因:它把一個不可能的即時聽力任務,換成一個能應付的閱讀任務。

錄我自己的課需要學生同意嗎?

為了無障礙和教材而錄自己的教學,一般在老師的權限範圍內,但有兩個提醒。第一,如果學生的聲音也錄進去了——提問、討論、研討課——他們的聲音可能受隱私和錄音同意規範保護,所以要事先告知這堂課有錄音。第二,永遠照你所屬機構的具體規定走,那可能比法律還嚴。Office Hour 或個別指導,錄之前要拿到明確同意。

會不會撞到檔案長度或每月上限?

單一檔案沒有時長上限,這正是教育工作者要的——三小時的研究生研討課,跟二十分鐘的習題課轉起來一樣,不用再為「哪堂課值得錄」算計用量。就是這種均一結構,讓每週、每堂課都上字幕變成可行,而不是省著用。

跟手工做相比,實際能省多少時間?

純手工轉錄一堂 50 分鐘的課,受過訓練的打字員大約要四小時;逐字稿幾分鐘就回一份草稿,你修專業術語那道工序大約五到十分鐘。跟人工字幕廠商比,你還把好幾天的交件時間換成近乎即時——這就是「週四晚上的請求當晚回掉」和「拖到下週」之間的差別。