動画ファイル文字起こし：MP4・MOV・MKV（2026）

Verizon Media の調査によれば、スマートフォンの動画再生のおよそ 83% はミュート状態で行われており、iOS ではこの割合が長年変わっていません。この一点が、動画の文字起こしの位置づけを根本から変えました。2026 年、動画ファイルに対する文字起こしの最も多いアウトプットは「読む Word 文書」ではなく、画面に重ねる .srt または .vtt の字幕トラックです。実際、現在の文字起こしサービスにおける動画ジョブの約 92% が、プレーンな書き起こしと同時に「タイムコード付き字幕の書き出し」を選んでいます。

本ガイドは、2026 年の動画ファイル文字起こしの実践マニュアルです。AI エンジンが受け付ける動画コンテナ、生動画を直接アップする vs. 先に音声だけ抜き出す場合の判断基準、フレーム精度の SRT を話者ラベル付きで仕上げる手順、そして Final Cut Pro から 4K ProRes（1 時間 110 GB）が降ってきたときの対処までを扱います。

動画の文字起こしは音声の文字起こしとどう違うか

音声の文字起こしは「テキスト」を生みます。動画の文字起こしは「テキスト + 動画タイムラインとの契約」を生みます。実務で効くのは次の 3 点です。

フレーム整合性。 SRT と VTT のタイムコードは、動画のフレームレート（23.976、25、29.97、60 fps）に揃える必要があります。音声では誰も気づかない 200 ms の遅延が、画面上では「字幕が半拍遅れる」として可視化されます。
可読速度。 字幕は映像と並んで表示されます。視覚的に読み切れる上限はおよそ 1 秒あたり 17〜20 文字（日本語は全角換算でおよそ 8〜10 字/秒）。これを超えると、読み終える前に字幕が消えます。
コンテナの複雑さ。 MP3 はトラックが 1 本ですが、カメラの MP4 はメイン音声、360 度マイクのアンビソニック、カチンコ用トラック、監督コメントなど複数の音声を抱えうるため、AI はどれを文字に落とすか選ぶ必要があります。

Atter AI の動画パイプラインはこの 3 つを全部処理します。コンテナヘッダから元のフレームレートを読み取って SRT を揃え、多音声ファイルでは「どのトラックを文字起こしするか」を選ばせます。クリーン音声と同じ 98.7% の精度、90 以上の言語サポートが、動画でもそのまま効きます。

文字起こしが対応する動画フォーマット（と静かに失敗する 1 つ）

HTML5 のファイルピッカーは任意の動画 MIME をアップローダーに渡しますが、肝心なのはバックエンドです。Atter AI は 2026 年時点で 8 種類の動画コンテナを受け付けます。

コンテナ	代表的なソース	備考
`.mp4`（H.264 + AAC）	Web・会議動画の約 85%	既定。全プランで利用可能。
`.mp4`（HEVC / H.265）	iPhone 11 以降、近年の Android	同等画質で H.264 比約 50% 小さい。
`.mov`（ProRes）	Final Cut Pro、ARRI、RED 系	4K ProRes 422 HQ で 110 GB/時。先に音声抽出を推奨。
`.mkv`	OBS 録画、字幕配布	多音声に対応、アップロード時に選択。
`.webm`（VP9 / Opus）	Chrome 画面録画、Loom 書き出し	ブラウザ標準フォーマット、アップが速い。
`.avi`	古い Windows のキャプチャ	動くが、2010 年以降の素材は MP4 へ再ラップ推奨。
`.m4v`	iTunes、QuickTime 書き出し	`.mp4` と同じパイプライン。
`.wmv`	Windows Media 書き出し	対応するが VC-1 のデコードに約 10 秒の前処理が増える。

LINE で転送された動画には罠があります。拡張子は .mp4 ですが moov atom の配置が非標準で、古い文字起こしパイプラインの一部は「デコード失敗」を返します。Atter AI はサーバー側で atom を修復してから処理するので問題ありませんが、別のサービスで遭遇したら拡張子変更では直りません。ffmpeg -i in.mp4 -c copy -movflags +faststart out.mp4 で再ラップしてください。

アップロード前に音声だけ抜くべきか？

率直に言って、判断材料は文字起こしの品質ではなくアップロード帯域です。品質はどちらの方法でも同じで、変わるのは速度だけです。

Zoom 録画の 1 時間 1080p MP4 は通常 1.2〜1.8 GB。同じ 1 時間を M4A（音声トラックのコピー、再エンコードなし）に落とすと 28〜35 MB ——体積差はおよそ 40 倍です。50 Mbps の上り回線では「3 分のアップロード」と「5 秒のアップロード」の差に直結します。

2026 年の実用的な判断基準：

500 MB 未満 or 100 Mbps 以上の回線 —— 動画を直接アップ。手間が少ない方が勝ち。
2 GB 超 or 低速・従量制・モバイル回線 —— 音声を先に抜く。ffmpeg -i in.mp4 -vn -c:a copy out.m4a の 60 秒で、5〜20 分の上りを節約。
SRT/VTT 字幕が必要 —— 動画を直接アップ。パイプラインがソースのフレームレートに合わせてタイムコードを揃えるため、音声だけのアップでは再現できません。

3 番目が最重要です。ゴールが字幕なら、「音声抽出 → 文字起こし → SRT を動画のフレームレートに手動で再合わせ」のラウンドトリップは、遅めのアップロードよりも時間がかかります。

音声だけで完結するワークフローはオンライン音声ファイルの文字起こしガイドを参照してください。プラットフォーム別の録画は Zoom 会議の文字起こしがクラウド MP4 を、YouTube 動画の文字起こしがアップロード不要の公開 URL フローをカバーしています。

ステップバイステップ：動画から 5 分で SRT を作る

https://transcription.atter-ai.com の操作手順：

アップローダーを開く。 ブラウザ版でもデスクトップ版でも動画を受け付けます。Web 版はインストール不要で、Chromebook・図書館 PC・学校管理機でも動きます。
動画をドラッグ。 コンテナを検査し、長さ・フレームレート・音声トラック数を表示し、破損ファイルには警告を出します。
音声トラックが複数あるなら手動で選択。 デュアルマイクのカメラ、OBS のマルチトラック書き出し、DAW のプレミックスはみな複数音声を持ちます。既定の「トラック 1」が正しいのは約 95% です。
書き出し形式を先に選ぶ。 SRT・VTT・ASS/SSA（スタイル付き字幕）・TXT・DOCX・PDF・字幕焼き付け済み MP4。焼き付けを選ぶと文字起こし後にレンダリング工程が走ります。
複数話者なら話者分離をオン。 インタビュー、座談、カメラ収録のポッドキャストで活躍。各キューに話者ラベルが付きます。
送信。 100 Mbps の上りで 1 時間の MP4 はおよそ 4 分で完結します（アップ約 2.5 分、文字起こし約 90 秒）。字幕焼き付けは 60〜90 秒の GPU レンダリングを追加します。
ダウンロード。 SRT/VTT は Premiere、Final Cut、DaVinci Resolve、CapCut、Descript、YouTube Studio にそのまま投入でき、再タイミングは不要です。

3 日間の無料トライアルは、字幕焼き付けと SRT 書き出しを含めたこのワークフロー全体を、ファイル単位・分単位の上限なしで使えます。有料は週 $6.99、年 $49.99、買い切り $129.99。いずれも長さの上限はありません。

SRT・VTT・焼き付け：どれを選ぶか

3 つの字幕出力は解く問題が違います。

SRT は汎用交換フォーマット。2001 年生まれ、プレーンテキスト + タイムコード。Premiere、Final Cut、DaVinci、VLC、MX Player、YouTube、Vimeo ——今までに出荷された動画プレーヤーの約 99% が対応します。後で字幕を編集する可能性がある、または編集者に渡す場合はこちら。
VTT は SRT にスタイル（位置・色・日本語ルビ）が加わったもの。HTML5 <track> でブラウザ内字幕を出すなら必須。Web プレーヤー、特に多言語や縦書きを使う場合はこちら。
焼き付け（オープンキャプション） は字幕を映像のピクセルに描き込むもの。視聴者は消せません。SRT サイドカーを剥がすソーシャル（TikTok、Instagram Reels、X 動画）と、先述の 83% ミュート再生の事情で、この用途にはこちらが向きます。

最も多い失敗は焼き付け字幕を YouTube に上げてしまうこと。YouTube は SRT を素直に受け取り、100 以上の言語に自動翻訳して、字幕を検索可能にしてくれます。サイドカーが剥がされる相手にだけ焼き付けるのが正解です。

文字起こしを使って動画編集を加速する

字幕に次いで多い 2026 年の用途が「テキストベース編集」です。手順は：

素材をタイムコード付き SRT に文字起こし。
動画をスクラブする代わりにテキストを読む。
テキストから文を消す。エディター（Descript、Premiere のテキストベース編集、DaVinci Resolve の Cut by Words）が対応する映像区間を同時に削除。

伝統的な粗編集で 6 時間かかる 60 分のインタビューが、テキスト編集だとおよそ 45 分で済む——2025 年 Adobe が 412 名の編集者を対象に行った調査での結果は約 7 倍の高速化です。これは SRT のタイムコードがフレーム精度で揃っているときにのみ成立するので、編集が目的の動画は直接アップしてください（先に音声抽出はしないこと）。

ヒント：Descript や Premiere のテキストベース編集で編集する予定なら、書き出しは VTT ではなく SRT を選びましょう。両者とも SRT を直接パースしますが、VTT のスタイルタグはインポート時に剥がされて何も残りません。

大容量ファイルの扱い：4K、ProRes、生素材

2026 年の典型的なワークフローで最も大きい動画はカメラ直出しではなく、中間コーデックです。

4K H.264（45 Mbps） はおよそ 20 GB/時。Atter AI の Web アップローダーは標準プランで 1 ファイル 10 GB まで受け付けるので、30 分の 4K は直接アップ可能。
4K ProRes 422 HQ はおよそ 110 GB/時。先に音声を抽出してください。110 GB をアップしても、30 MB と中身の音声は同じです。
RED R3D と ARRI ARRIRAW は直接非対応。プロキシ MP4 を書き出すか、音声を WAV に抜いてください。

10 GB を超える場合、ffmpeg -ss 00:00:00 -t 01:00:00 -c copy out.mp4 でチャプター/シーン境界で分割すると、各チャンクが上限内に収まり、再エンコードなしで原品質を保てます。

プライバシー：動画ファイル、顔、24 時間ウィンドウ

動画には顔が映っています。プライバシーモデルはその前提で組み立てる必要があります。

通信中： TLS 1.3、HSTS プリロード。
保存中： AES-256 サーバーサイド暗号化、リージョン固定保管（米国、EU、APAC）。
保持期間： アップロードされた動画は字幕と書き起こしの提供完了から 24 時間以内に一時処理ストレージから削除されます。焼き付け済み動画はダウンロード後に削除。
学習目的： 動画ファイル、抽出した音声、生成された書き起こしをモデル学習に使うことはありません。これは契約上の約束で、デフォルト ON のオプトアウトではありません。

HIPAA、GDPR 第 9 条、または日本の個人情報保護法に関わるワークフローでは、ダッシュボードの「即時削除」はハードデリートです。クリックから 60 秒以内に元の動画は復元不能になります。

動画ファイル文字起こし FAQ

アップロード前に音声を抽出すべき？

アップロード帯域がボトルネック、もしくはタイムコード付き字幕が不要な場合だけです。品質はどちらでも同じで、変わるのは速度のみ。100 Mbps 以上なら動画を直接アップする方が楽で、SRT/VTT もソースのフレームレートに揃います。

1 ファイルの最大サイズは？

Atter AI 標準プランで 1 ファイル 10 GB。4K H.264 ならおよそ 30 分、1080p Zoom 録画なら 5〜6 時間、4K ProRes ならおよそ 5 分が目安。これを超える場合は ffmpeg -ss でチャプター分割を。

サイドカー SRT ではなく焼き付け字幕の動画を直接もらえる？

可能です。アップローダーに「字幕を動画に焼き付ける」トグルがあり、サーバー側で MP4 ピクセルにレンダリングします。1 時間の動画あたり 60〜90 秒の GPU 時間が追加。視聴者は消せないため、SRT サイドカーが剥がされる TikTok、Reels、Shorts 向き。

画面録画も文字起こしできる？

できます。Loom、OBS、QuickTime、Windows Game Bar、ShareX の画面録画はすべて標準 MP4 または WebM で、他の動画と同様 98.7% の精度で処理されます。映像内容は影響せず、音声トラックだけが対象です。

BGM や効果音が入っていると精度は下がる？

最新の文字起こしパイプラインには「音楽抑制」のステップがあり、純器楽の BGM はおよそ 92% の効果で除去されます。BGM が乗った音声の精度はクリーン音声より 2〜4 ポイント下がる程度。チュートリアル動画の控えめな BGM では体感差は無く、歌が乗ったミュージックビデオでは品質が大きく下がり、そもそも想定外の用途です。

1 時間の動画はエンドツーエンドでどれくらい？

100 Mbps の上りで、1.5 GB の 1080p MP4 アップ約 2.5 分、AI 文字起こし約 90 秒、焼き付け（任意）に 60〜90 秒。60 分動画で合計 4〜5 分。

4K、HDR、60 fps だと違う？

解像度・ダイナミックレンジ・フレームレートは文字起こしの精度には影響しません（対象は音声だけ）。ただしアップロード時間には線形に効きます。4K は 1080p のおよそ 4 倍のバイト数。SRT のタイムコードはソースのフレームレートで書かれるので、60 fps の字幕も正しいフレームに当たります。

書き起こしを使って動画を編集できる？

できます。2026 年で最も一般的なワークフローの一つです。SRT を書き出し、Descript、Premiere のテキストベース編集、DaVinci Resolve の Cut by Words に取り込めば、テキストを編集することで動画を編集できます。典型的な 60 分インタビューの粗編集は、スクラブ 6 時間からテキスト編集 45 分に短縮されます。

動画ファイルの文字起こし：MP4 から SRT 字幕まで 5 分で完結

動画の文字起こしは音声の文字起こしとどう違うか

文字起こしが対応する動画フォーマット（と静かに失敗する 1 つ）

アップロード前に音声だけ抜くべきか？

ステップバイステップ：動画から 5 分で SRT を作る

SRT・VTT・焼き付け：どれを選ぶか

文字起こしを使って動画編集を加速する

大容量ファイルの扱い：4K、ProRes、生素材

プライバシー：動画ファイル、顔、24 時間ウィンドウ

動画ファイル文字起こし FAQ

続きを読む

Atter AI vs Happy Scribe：字幕と人力文字起こしか、会議メモか

Atter AI vs TurboScribe：無制限アップロードか、会議メモか

無料の文字起こしアプリおすすめ 2026（「無料」がどこで終わるか正直に書く）