影片逐字稿 / 語音轉文字：MP4 到字幕（2026）

Verizon Media 的研究指出，約 83% 的手機影片是在靜音狀態下被觀看的，iOS 上的這個數字多年沒變。一條事實重塑了影片轉錄的玩法：到了 2026 年，影片檔做逐字稿，最常見的需求已經不是輸出一份 Word 來閱讀，而是生成一段 .srt 或 .vtt 字幕軌，讓畫面自己講故事、聲音變成可選。目前約 92% 的影片轉寫工單會同時勾選「附時間碼的字幕匯出」。

這篇是 2026 年影片檔逐字稿的實戰手冊。內容涵蓋：AI 引擎接受哪些影片容器、原始影片直接上傳 vs. 先抽音軌怎麼選、如何拿到與影片格率對齊的 SRT、以及當 Final Cut Pro 丟給你一個 4K ProRes 檔（每小時 110 GB）時該怎麼處理。

影片逐字稿跟音檔逐字稿差在哪

音檔轉錄的產物是文字；影片轉錄的產物是「文字加上一份與影片時間軸的契約」。三個差異在實際工作中決定成敗：

格率對齊。 SRT 和 VTT 的時間碼必須對齊影片格率（23.976、25、29.97、60 fps）。在純音檔逐字稿裡沒人會察覺的 200 毫秒誤差，在螢幕上就是「字幕慢半拍」的肉眼可見問題。
可閱讀速度。 字幕跟畫面並列出現，人眼可讀上限大約是每秒 17–20 個可見字元（中文按全形約 8–10 字/秒）。超出這個區間的字幕得切分，否則觀眾還沒讀完就消失。
容器複雜度。 一個 MP3 只有一條音軌；相機 MP4 可能同時帶主音軌、360 度麥克風的環繞軌、場記板軌、導演旁白軌——AI 必須挑對那一條。

Atter AI 的影片管線把這三件事都做了：從容器標頭讀取來源格率、按格率對齊 SRT、並且在多音軌檔案裡讓你手動選要轉哪一條。98.7% 準確率和90+ 種語言支援，跟純音檔場景完全一致。

影片逐字稿支援哪些格式（以及一個會悄悄失敗的格式）

HTML5 檔案選擇器會把任何影片 MIME 類型丟給上傳器，但後端能否解碼才是關鍵。Atter AI 在 2026 年支援 8 種影片容器：

容器	常見來源	說明
`.mp4`（H.264 + AAC）	約佔網路影片與會議影片的 85%	預設格式，所有方案皆支援。
`.mp4`（HEVC / H.265）	iPhone 11+、近代 Android	同畫質下體積比 H.264 小約 50%。
`.mov`（ProRes）	Final Cut Pro、ARRI、RED 工作流	4K ProRes 422 HQ 可達 110 GB/小時，建議先抽音軌。
`.mkv`	OBS 錄製、字幕組散布	支援多音軌，上傳時手動選擇。
`.webm`（VP9 / Opus）	Chrome 錄影、Loom 匯出	瀏覽器原生格式，上傳最快。
`.avi`	舊式 Windows 錄製	能用，2010 年後的錄製建議重封裝至 MP4。
`.m4v`	iTunes、QuickTime 匯出	與 `.mp4` 管線相同。
`.wmv`	Windows Media 匯出	支援，但 VC-1 解碼會多花約 10 秒前處理時間。

LINE 轉傳的影片會悄悄踩雷：副檔名是 .mp4，但 moov atom 位置不標準，有些老式轉錄管線直接報「解碼失敗」。Atter AI 會在伺服器端先修 atom 再轉錄，這邊沒問題；如果在其他平台遇到，改副檔名沒用，要用 ffmpeg -i in.mp4 -c copy -movflags +faststart out.mp4 重封裝。

直接上傳影片還是先抽音軌？

老實說：這要看你的上傳頻寬，跟轉錄品質無關。品質兩種方式完全相同，差的只是速度。

一段 1 小時 1080p MP4（Zoom 錄製）通常是 1.2–1.8 GB；同樣 1 小時抽成 M4A（直接複製音軌、不重編碼）只有 28–35 MB——體積差約 40 倍。在 50 Mbps 上行的網路上，這就是「3 分鐘上傳」與「5 秒上傳」的差距。

2026 年的實用判斷準則：

檔案小於 500 MB 或頻寬 100+ Mbps —— 直接上傳影片，方便最重要。
檔案大於 2 GB 或網路慢 / 流量計費 / 行動網路 —— 先抽音軌。花 60 秒跑 ffmpeg -i in.mp4 -vn -c:a copy out.m4a，能省 5–20 分鐘上傳時間。
需要 SRT/VTT 字幕 —— 直接上傳影片。管線會按來源格率對齊時間碼，純音檔上傳做不到。

第三條最關鍵。如果終點是字幕，「抽音軌 → 轉錄 → 手動把 SRT 重新對齊影片格率」的回路會比慢一點的上傳花更多時間。

只要音檔的話，可以參考線上音檔逐字稿指南。平台相關的錄製場景：Zoom 會議轉錄涵蓋雲端 MP4 流程，YouTube 影片轉錄介紹跳過上傳的公開 URL 流程。

實戰步驟：5 分鐘內把影片變 SRT

在 https://transcription.atter-ai.com 上的流程：

打開上傳器。 瀏覽器版或桌面版皆接受影片檔。網頁流程零安裝，Chromebook、圖書館 PC、學校管控機都能用。
拖入影片。 上傳器會檢測容器，顯示時長、格率、音軌數量，並對毀損檔案發出警告。
多音軌時手動選軌。 雙麥相機、OBS 多軌匯出、DAW 預混都會產生多音軌檔，預設「軌道 1」95% 情況正確。
預先選好匯出格式。 SRT、VTT、ASS/SSA（有樣式字幕）、TXT、DOCX、PDF，或燒錄字幕的 MP4。燒錄會在轉錄後追加一段渲染。
多人對話時開啟說話者分離。 訪談、座談、上鏡 Podcast 都用得上，每條字幕前會標註說話者。
送出。 1 小時 MP4 在 100 Mbps 上行下，端到端約 4 分鐘：上傳約 2.5 分鐘、轉錄約 90 秒。燒錄字幕再加 60–90 秒 GPU 渲染。
下載。 SRT 或 VTT 可直接丟進 Premiere、Final Cut、DaVinci、剪映、Descript、YouTube Studio，不必重新對時。

3 天免費試用涵蓋完整流程，包含字幕燒錄和 SRT 匯出。付費方案：$6.99/週、$49.99/年、$129.99 終身，所有方案皆無每月用量限制，單檔上限 5 小時或 2GB。

SRT、VTT、燒錄字幕：該怎麼選

三種字幕輸出解決不同問題：

SRT 是通用交換格式。誕生於 2001 年，純文字加時間碼。Premiere、Final Cut、DaVinci、VLC、MX Player、YouTube、Vimeo——約 99% 的播放器都認。後續可能要編輯字幕、或要交給剪輯同事的選這個。
VTT 是 SRT 加樣式（定位、顏色、日文注音）。HTML5 <track> 在瀏覽器做內嵌字幕必須用 VTT。多語言或需要直書文字的網頁播放器選這個。
燒錄字幕（硬字幕） 直接把字幕渲染進畫面像素，觀眾無法關閉。社群平台（YouTube Shorts、Instagram Reels、TikTok、Facebook、Threads）通常會剝離 SRT 邊軌，加上前面提到的 83% 靜音播放率——這些場景選燒錄。

最常見的失誤是把燒錄字幕傳到 YouTube。YouTube 完全能接受 SRT，並且自動翻譯成 100+ 種語言，讓字幕可被搜尋。只在目標播放器會剝離邊軌時才燒錄。

用逐字稿反向加速影片剪輯

除了做字幕，2026 年影片逐字稿的第二大用途是「文本式剪輯」：

把素材轉成帶時間碼的 SRT；
閱讀逐字稿，跳過反覆拖播放頭；
在文字裡刪句子，剪輯軟體（Descript、Premiere 文本剪輯、DaVinci Cut by Words）會同步刪對應的影片段。

一段傳統粗剪要 6 小時的 60 分鐘訪談，用文本式剪輯約 45 分鐘搞定——根據 2025 年 Adobe 對 412 位剪輯師的調查，提速約 7 倍。這套工作流只有在 SRT 時間碼與影片格率嚴格對齊時才成立，所以要剪輯的影片要直傳，不要先抽音軌。

小提示：如果你打算在 Descript 或 Premiere 文本剪輯裡剪片，匯出 SRT 而不是 VTT。兩個軟體都原生支援 SRT，VTT 的樣式標籤在匯入時會被剝掉，留著沒用。

大檔處理：4K、ProRes 與相機原片

2026 年最大的影片檔通常不是相機直出，而是中間格式：

4K H.264 在 45 Mbps 約 20 GB/小時。Atter AI 網頁上傳器標準方案單檔上限 10 GB，30 分鐘 4K 直傳沒問題。
4K ProRes 422 HQ 約 110 GB/小時。先抽音軌——上傳 110 GB 跟上傳 30 MB 拿到的語音內容完全一樣，沒必要燒頻寬。
RED R3D 與 ARRI ARRIRAW 不直接支援，匯出代理 MP4 或抽 WAV 即可。

大於 10 GB 的檔案用 ffmpeg -ss 00:00:00 -t 01:00:00 -c copy out.mp4 按場景切分，每段保持在上限內，且不會重編碼、不損失原片品質。

隱私：影片檔、人臉與 24 小時保留期

影片有人臉，隱私模型必須講清楚：

傳輸中： TLS 1.3，HSTS preload。
儲存中： AES-256 伺服器端加密，按地區固定儲存（美國、歐盟、亞太）。
保留期： 上傳的影片在字幕產生完成後 24 小時內從臨時處理儲存中刪除。燒錄後的影片下載完即刪。
訓練用途： 影片檔、抽取的音軌、產生的逐字稿絕不用於模型訓練。這是合約承諾，不是預設勾選的 opt-out。

對於受 HIPAA、GDPR Article 9 或台灣《個資法》規範的工作流，控制台裡的「立即刪除」是硬刪除，不是邏輯墓碑。點擊 60 秒內來源影片不可復原。

影片檔逐字稿 FAQ

上傳前要不要先抽音軌？

只有當上傳頻寬是瓶頸，或不需要時間碼字幕時才需要。品質兩種方式完全一樣，差別只在速度。100+ Mbps 頻寬下直接傳影片更省事，而且 SRT/VTT 會按來源格率對齊。

單檔最大支援多大的影片？

Atter AI 標準方案單檔 10 GB。涵蓋約 30 分鐘 4K H.264 素材、5–6 小時 1080p Zoom 錄製，或 5 分鐘左右的 4K ProRes。更大的檔案用 ffmpeg -ss 按場景切分。

可以直接拿到燒錄字幕（硬字幕）的影片嗎？

可以。上傳器有「將字幕燒錄進影片」開關，伺服器端把字幕渲染進 MP4 像素。每小時影片加 60–90 秒 GPU 時間。燒錄字幕觀眾無法關閉——適合 TikTok、Reels、Shorts 這些會剝離邊軌的平台。

錄影螢幕的影片也能轉嗎？

可以。Loom、OBS、QuickTime、Windows Game Bar、ShareX 的錄影都是標準 MP4 或 WebM，跟其他影片一樣 98.7% 準確率。畫面內容不影響轉錄，只看音軌。

影片有背景音樂會不會拉低準確率？

現代逐字稿管線有「音樂抑制」一道，對純器樂背景的過濾效果約 92%。帶樂的人聲轉錄通常比乾淨人聲低 2–4 個百分點。教學影片的輕量背景樂基本無感；MV 這類帶演唱人聲的影片，轉錄品質會大幅下降，本來也不是目標場景。

1 小時影片端到端要多久？

100 Mbps 上行：1.5 GB 的 1080p MP4 上傳約 2.5 分鐘、AI 轉錄約 90 秒、燒錄字幕可選再加 60–90 秒。60 分鐘影片總計 4–5 分鐘出片。

4K、HDR、60 fps 影片有差別嗎？

解析度、動態範圍與格率不影響轉錄準確率，只看音軌。但會線性影響上傳時長：4K 體積約是 1080p 的 4 倍，預留時間。SRT 時間碼按來源格率寫入，60 fps 字幕能準確落到正確格。

逐字稿真的能用來剪影片嗎？

可以——這是 2026 年最常見的工作流之一。匯出 SRT，導入 Descript、Premiere 文本剪輯或 DaVinci Cut by Words，改文字就是改影片。典型 60 分鐘訪談粗剪從約 6 小時拖播放頭降到約 45 分鐘改文字。

影片檔逐字稿：從 MP4 到 SRT 字幕只要 5 分鐘

影片逐字稿跟音檔逐字稿差在哪

影片逐字稿支援哪些格式（以及一個會悄悄失敗的格式）

直接上傳影片還是先抽音軌？

實戰步驟：5 分鐘內把影片變 SRT

SRT、VTT、燒錄字幕：該怎麼選

用逐字稿反向加速影片剪輯

大檔處理：4K、ProRes 與相機原片

隱私：影片檔、人臉與 24 小時保留期

影片檔逐字稿 FAQ

繼續閱讀

Atter AI vs Happy Scribe：字幕真人稿，還是會議逐字稿？

Atter AI vs TurboScribe：無限上傳，還是會議逐字稿？

Atter AI vs Granola：兩種不派機器人的會議逐字稿做法