Verizon Media 的研究指出,約 83% 的手機影片是在靜音狀態下被觀看的,iOS 上的這個數字多年沒變。一條事實重塑了影片轉錄的玩法:到了 2026 年,影片檔做逐字稿,最常見的需求已經不是輸出一份 Word 來閱讀,而是生成一段 .srt 或 .vtt 字幕軌,讓畫面自己講故事、聲音變成可選。目前約 92% 的影片轉寫工單會同時勾選「附時間碼的字幕匯出」。
這篇是 2026 年影片檔逐字稿的實戰手冊。內容涵蓋:AI 引擎接受哪些影片容器、原始影片直接上傳 vs. 先抽音軌怎麼選、如何拿到與影片格率對齊的 SRT、以及當 Final Cut Pro 丟給你一個 4K ProRes 檔(每小時 110 GB)時該怎麼處理。
影片逐字稿跟音檔逐字稿差在哪
音檔轉錄的產物是文字;影片轉錄的產物是「文字加上一份與影片時間軸的契約」。三個差異在實際工作中決定成敗:
- 格率對齊。 SRT 和 VTT 的時間碼必須對齊影片格率(23.976、25、29.97、60 fps)。在純音檔逐字稿裡沒人會察覺的 200 毫秒誤差,在螢幕上就是「字幕慢半拍」的肉眼可見問題。
- 可閱讀速度。 字幕跟畫面並列出現,人眼可讀上限大約是每秒 17–20 個可見字元(中文按全形約 8–10 字/秒)。超出這個區間的字幕得切分,否則觀眾還沒讀完就消失。
- 容器複雜度。 一個 MP3 只有一條音軌;相機 MP4 可能同時帶主音軌、360 度麥克風的環繞軌、場記板軌、導演旁白軌——AI 必須挑對那一條。
Atter AI 的影片管線把這三件事都做了:從容器標頭讀取來源格率、按格率對齊 SRT、並且在多音軌檔案裡讓你手動選要轉哪一條。98.7% 準確率和90+ 種語言支援,跟純音檔場景完全一致。
影片逐字稿支援哪些格式(以及一個會悄悄失敗的格式)
HTML5 檔案選擇器會把任何影片 MIME 類型丟給上傳器,但後端能否解碼才是關鍵。Atter AI 在 2026 年支援 8 種影片容器:
| 容器 | 常見來源 | 說明 |
|---|---|---|
.mp4(H.264 + AAC) | 約佔網路影片與會議影片的 85% | 預設格式,所有方案皆支援。 |
.mp4(HEVC / H.265) | iPhone 11+、近代 Android | 同畫質下體積比 H.264 小約 50%。 |
.mov(ProRes) | Final Cut Pro、ARRI、RED 工作流 | 4K ProRes 422 HQ 可達 110 GB/小時,建議先抽音軌。 |
.mkv | OBS 錄製、字幕組散布 | 支援多音軌,上傳時手動選擇。 |
.webm(VP9 / Opus) | Chrome 錄影、Loom 匯出 | 瀏覽器原生格式,上傳最快。 |
.avi | 舊式 Windows 錄製 | 能用,2010 年後的錄製建議重封裝至 MP4。 |
.m4v | iTunes、QuickTime 匯出 | 與 .mp4 管線相同。 |
.wmv | Windows Media 匯出 | 支援,但 VC-1 解碼會多花約 10 秒前處理時間。 |
LINE 轉傳的影片會悄悄踩雷:副檔名是 .mp4,但 moov atom 位置不標準,有些老式轉錄管線直接報「解碼失敗」。Atter AI 會在伺服器端先修 atom 再轉錄,這邊沒問題;如果在其他平台遇到,改副檔名沒用,要用 ffmpeg -i in.mp4 -c copy -movflags +faststart out.mp4 重封裝。
直接上傳影片還是先抽音軌?
老實說:這要看你的上傳頻寬,跟轉錄品質無關。品質兩種方式完全相同,差的只是速度。
一段 1 小時 1080p MP4(Zoom 錄製)通常是 1.2–1.8 GB;同樣 1 小時抽成 M4A(直接複製音軌、不重編碼)只有 28–35 MB——體積差約 40 倍。在 50 Mbps 上行的網路上,這就是「3 分鐘上傳」與「5 秒上傳」的差距。
2026 年的實用判斷準則:
- 檔案小於 500 MB 或頻寬 100+ Mbps —— 直接上傳影片,方便最重要。
- 檔案大於 2 GB 或網路慢 / 流量計費 / 行動網路 —— 先抽音軌。花 60 秒跑
ffmpeg -i in.mp4 -vn -c:a copy out.m4a,能省 5–20 分鐘上傳時間。 - 需要 SRT/VTT 字幕 —— 直接上傳影片。管線會按來源格率對齊時間碼,純音檔上傳做不到。
第三條最關鍵。如果終點是字幕,「抽音軌 → 轉錄 → 手動把 SRT 重新對齊影片格率」的回路會比慢一點的上傳花更多時間。
只要音檔的話,可以參考 線上音檔逐字稿指南。平台相關的錄製場景:Zoom 會議轉錄 涵蓋雲端 MP4 流程,YouTube 影片轉錄 介紹跳過上傳的公開 URL 流程。
實戰步驟:5 分鐘內把影片變 SRT
在 https://transcription.atter-ai.com 上的流程:
- 打開上傳器。 瀏覽器版或桌面版皆接受影片檔。網頁流程零安裝,Chromebook、圖書館 PC、學校管控機都能用。
- 拖入影片。 上傳器會檢測容器,顯示時長、格率、音軌數量,並對毀損檔案發出警告。
- 多音軌時手動選軌。 雙麥相機、OBS 多軌匯出、DAW 預混都會產生多音軌檔,預設「軌道 1」95% 情況正確。
- 預先選好匯出格式。 SRT、VTT、ASS/SSA(有樣式字幕)、TXT、DOCX、PDF,或燒錄字幕的 MP4。燒錄會在轉錄後追加一段渲染。
- 多人對話時開啟說話者分離。 訪談、座談、上鏡 Podcast 都用得上,每條字幕前會標註說話者。
- 送出。 1 小時 MP4 在 100 Mbps 上行下,端到端約 4 分鐘:上傳約 2.5 分鐘、轉錄約 90 秒。燒錄字幕再加 60–90 秒 GPU 渲染。
- 下載。 SRT 或 VTT 可直接丟進 Premiere、Final Cut、DaVinci、剪映、Descript、YouTube Studio,不必重新對時。
3 天免費試用涵蓋完整流程,包含字幕燒錄和 SRT 匯出,沒有單檔或分鐘數限制。付費方案:$6.99/週、$49.99/年、$129.99 終身,所有方案皆無時長上限。
SRT、VTT、燒錄字幕:該怎麼選
三種字幕輸出解決不同問題:
- SRT 是通用交換格式。誕生於 2001 年,純文字加時間碼。Premiere、Final Cut、DaVinci、VLC、MX Player、YouTube、Vimeo——約 99% 的播放器都認。後續可能要編輯字幕、或要交給剪輯同事的選這個。
- VTT 是 SRT 加樣式(定位、顏色、日文注音)。HTML5
<track>在瀏覽器做內嵌字幕必須用 VTT。多語言或需要直書文字的網頁播放器選這個。 - 燒錄字幕(硬字幕) 直接把字幕渲染進畫面像素,觀眾無法關閉。社群平台(YouTube Shorts、Instagram Reels、TikTok、Facebook、Threads)通常會剝離 SRT 邊軌,加上前面提到的 83% 靜音播放率——這些場景選燒錄。
最常見的失誤是把燒錄字幕傳到 YouTube。YouTube 完全能接受 SRT,並且自動翻譯成 100+ 種語言,讓字幕可被搜尋。只在目標播放器會剝離邊軌時才燒錄。
用逐字稿反向加速影片剪輯
除了做字幕,2026 年影片逐字稿的第二大用途是「文本式剪輯」:
- 把素材轉成帶時間碼的 SRT;
- 閱讀逐字稿,跳過反覆拖播放頭;
- 在文字裡刪句子,剪輯軟體(Descript、Premiere 文本剪輯、DaVinci Cut by Words)會同步刪對應的影片段。
一段傳統粗剪要 6 小時的 60 分鐘訪談,用文本式剪輯約 45 分鐘搞定——根據 2025 年 Adobe 對 412 位剪輯師的調查,提速約 7 倍。這套工作流只有在 SRT 時間碼與影片格率嚴格對齊時才成立,所以要剪輯的影片要直傳,不要先抽音軌。
大檔處理:4K、ProRes 與相機原片
2026 年最大的影片檔通常不是相機直出,而是中間格式:
- 4K H.264 在 45 Mbps 約 20 GB/小時。Atter AI 網頁上傳器標準方案單檔上限 10 GB,30 分鐘 4K 直傳沒問題。
- 4K ProRes 422 HQ 約 110 GB/小時。先抽音軌——上傳 110 GB 跟上傳 30 MB 拿到的語音內容完全一樣,沒必要燒頻寬。
- RED R3D 與 ARRI ARRIRAW 不直接支援,匯出代理 MP4 或抽 WAV 即可。
大於 10 GB 的檔案用 ffmpeg -ss 00:00:00 -t 01:00:00 -c copy out.mp4 按場景切分,每段保持在上限內,且不會重編碼、不損失原片品質。
隱私:影片檔、人臉與 24 小時保留期
影片有人臉,隱私模型必須講清楚:
- 傳輸中: TLS 1.3,HSTS preload。
- 儲存中: AES-256 伺服器端加密,按地區固定儲存(美國、歐盟、亞太)。
- 保留期: 上傳的影片在字幕產生完成後 24 小時內從臨時處理儲存中刪除。燒錄後的影片下載完即刪。
- 訓練用途: 影片檔、抽取的音軌、產生的逐字稿絕不用於模型訓練。這是合約承諾,不是預設勾選的 opt-out。
對於受 HIPAA、GDPR Article 9 或台灣《個資法》規範的工作流,控制台裡的「立即刪除」是硬刪除,不是邏輯墓碑。點擊 60 秒內來源影片不可復原。
影片檔逐字稿 FAQ
上傳前要不要先抽音軌?
只有當上傳頻寬是瓶頸,或不需要時間碼字幕時才需要。品質兩種方式完全一樣,差別只在速度。100+ Mbps 頻寬下直接傳影片更省事,而且 SRT/VTT 會按來源格率對齊。
單檔最大支援多大的影片?
Atter AI 標準方案單檔 10 GB。涵蓋約 30 分鐘 4K H.264 素材、5–6 小時 1080p Zoom 錄製,或 5 分鐘左右的 4K ProRes。更大的檔案用 ffmpeg -ss 按場景切分。
可以直接拿到燒錄字幕(硬字幕)的影片嗎?
可以。上傳器有「將字幕燒錄進影片」開關,伺服器端把字幕渲染進 MP4 像素。每小時影片加 60–90 秒 GPU 時間。燒錄字幕觀眾無法關閉——適合 TikTok、Reels、Shorts 這些會剝離邊軌的平台。
錄影螢幕的影片也能轉嗎?
可以。Loom、OBS、QuickTime、Windows Game Bar、ShareX 的錄影都是標準 MP4 或 WebM,跟其他影片一樣 98.7% 準確率。畫面內容不影響轉錄,只看音軌。
影片有背景音樂會不會拉低準確率?
現代逐字稿管線有「音樂抑制」一道,對純器樂背景的過濾效果約 92%。帶樂的人聲轉錄通常比乾淨人聲低 2–4 個百分點。教學影片的輕量背景樂基本無感;MV 這類帶演唱人聲的影片,轉錄品質會大幅下降,本來也不是目標場景。
1 小時影片端到端要多久?
100 Mbps 上行:1.5 GB 的 1080p MP4 上傳約 2.5 分鐘、AI 轉錄約 90 秒、燒錄字幕可選再加 60–90 秒。60 分鐘影片總計 4–5 分鐘出片。
4K、HDR、60 fps 影片有差別嗎?
解析度、動態範圍與格率不影響轉錄準確率,只看音軌。但會線性影響上傳時長:4K 體積約是 1080p 的 4 倍,預留時間。SRT 時間碼按來源格率寫入,60 fps 字幕能準確落到正確格。
逐字稿真的能用來剪影片嗎?
可以——這是 2026 年最常見的工作流之一。匯出 SRT,導入 Descript、Premiere 文本剪輯或 DaVinci Cut by Words,改文字就是改影片。典型 60 分鐘訪談粗剪從約 6 小時拖播放頭降到約 45 分鐘改文字。