AI 文字起こし

動画ファイルの文字起こし:MP4 から SRT 字幕まで 5 分で完結

MP4・MOV・MKV・WebM 動画ファイルから直接 SRT/VTT 字幕と編集用スクリプトを生成。文字起こし精度 98.7%、90 以上の言語に対応。

Verizon Media の調査によれば、スマートフォンの動画再生のおよそ 83% はミュート状態で行われており、iOS ではこの割合が長年変わっていません。この一点が、動画の文字起こしの位置づけを根本から変えました。2026 年、動画ファイルに対する文字起こしの最も多いアウトプットは「読む Word 文書」ではなく、画面に重ねる .srt または .vtt の字幕トラックです。実際、現在の文字起こしサービスにおける動画ジョブの約 92% が、プレーンな書き起こしと同時に「タイムコード付き字幕の書き出し」を選んでいます。

本ガイドは、2026 年の動画ファイル文字起こしの実践マニュアルです。AI エンジンが受け付ける動画コンテナ、生動画を直接アップする vs. 先に音声だけ抜き出す場合の判断基準、フレーム精度の SRT を話者ラベル付きで仕上げる手順、そして Final Cut Pro から 4K ProRes(1 時間 110 GB)が降ってきたときの対処までを扱います。

動画の文字起こしは音声の文字起こしとどう違うか

音声の文字起こしは「テキスト」を生みます。動画の文字起こしは「テキスト + 動画タイムラインとの契約」を生みます。実務で効くのは次の 3 点です。

  • フレーム整合性。 SRT と VTT のタイムコードは、動画のフレームレート(23.976、25、29.97、60 fps)に揃える必要があります。音声では誰も気づかない 200 ms の遅延が、画面上では「字幕が半拍遅れる」として可視化されます。
  • 可読速度。 字幕は映像と並んで表示されます。視覚的に読み切れる上限はおよそ 1 秒あたり 17〜20 文字(日本語は全角換算でおよそ 8〜10 字/秒)。これを超えると、読み終える前に字幕が消えます。
  • コンテナの複雑さ。 MP3 はトラックが 1 本ですが、カメラの MP4 はメイン音声、360 度マイクのアンビソニック、カチンコ用トラック、監督コメントなど複数の音声を抱えうるため、AI はどれを文字に落とすか選ぶ必要があります。

Atter AI の動画パイプラインはこの 3 つを全部処理します。コンテナヘッダから元のフレームレートを読み取って SRT を揃え、多音声ファイルでは「どのトラックを文字起こしするか」を選ばせます。クリーン音声と同じ 98.7% の精度90 以上の言語サポートが、動画でもそのまま効きます。

文字起こしが対応する動画フォーマット(と静かに失敗する 1 つ)

HTML5 のファイルピッカーは任意の動画 MIME をアップローダーに渡しますが、肝心なのはバックエンドです。Atter AI は 2026 年時点で 8 種類の動画コンテナを受け付けます。

コンテナ 代表的なソース 備考
.mp4(H.264 + AAC)Web・会議動画の約 85%既定。全プランで利用可能。
.mp4(HEVC / H.265)iPhone 11 以降、近年の Android同等画質で H.264 比約 50% 小さい。
.mov(ProRes)Final Cut Pro、ARRI、RED 系4K ProRes 422 HQ で 110 GB/時。先に音声抽出を推奨。
.mkvOBS 録画、字幕配布多音声に対応、アップロード時に選択。
.webm(VP9 / Opus)Chrome 画面録画、Loom 書き出しブラウザ標準フォーマット、アップが速い。
.avi古い Windows のキャプチャ動くが、2010 年以降の素材は MP4 へ再ラップ推奨。
.m4viTunes、QuickTime 書き出し.mp4 と同じパイプライン。
.wmvWindows Media 書き出し対応するが VC-1 のデコードに約 10 秒の前処理が増える。

LINE で転送された動画には罠があります。拡張子は .mp4 ですが moov atom の配置が非標準で、古い文字起こしパイプラインの一部は「デコード失敗」を返します。Atter AI はサーバー側で atom を修復してから処理するので問題ありませんが、別のサービスで遭遇したら拡張子変更では直りませんffmpeg -i in.mp4 -c copy -movflags +faststart out.mp4 で再ラップしてください。

アップロード前に音声だけ抜くべきか?

率直に言って、判断材料は文字起こしの品質ではなくアップロード帯域です。品質はどちらの方法でも同じで、変わるのは速度だけです。

Zoom 録画の 1 時間 1080p MP4 は通常 1.2〜1.8 GB。同じ 1 時間を M4A(音声トラックのコピー、再エンコードなし)に落とすと 28〜35 MB ——体積差はおよそ 40 倍です。50 Mbps の上り回線では「3 分のアップロード」と「5 秒のアップロード」の差に直結します。

2026 年の実用的な判断基準:

  • 500 MB 未満 or 100 Mbps 以上の回線 —— 動画を直接アップ。手間が少ない方が勝ち。
  • 2 GB 超 or 低速・従量制・モバイル回線 —— 音声を先に抜く。ffmpeg -i in.mp4 -vn -c:a copy out.m4a の 60 秒で、5〜20 分の上りを節約。
  • SRT/VTT 字幕が必要 —— 動画を直接アップ。パイプラインがソースのフレームレートに合わせてタイムコードを揃えるため、音声だけのアップでは再現できません。

3 番目が最重要です。ゴールが字幕なら、「音声抽出 → 文字起こし → SRT を動画のフレームレートに手動で再合わせ」のラウンドトリップは、遅めのアップロードよりも時間がかかります。

音声だけで完結するワークフローは オンライン音声ファイルの文字起こしガイド を参照してください。プラットフォーム別の録画は Zoom 会議の文字起こし がクラウド MP4 を、YouTube 動画の文字起こし がアップロード不要の公開 URL フローをカバーしています。

ステップバイステップ:動画から 5 分で SRT を作る

https://transcription.atter-ai.com の操作手順:

  1. アップローダーを開く。 ブラウザ版でもデスクトップ版でも動画を受け付けます。Web 版はインストール不要で、Chromebook・図書館 PC・学校管理機でも動きます。
  2. 動画をドラッグ。 コンテナを検査し、長さ・フレームレート・音声トラック数を表示し、破損ファイルには警告を出します。
  3. 音声トラックが複数あるなら手動で選択。 デュアルマイクのカメラ、OBS のマルチトラック書き出し、DAW のプレミックスはみな複数音声を持ちます。既定の「トラック 1」が正しいのは約 95% です。
  4. 書き出し形式を先に選ぶ。 SRT・VTT・ASS/SSA(スタイル付き字幕)・TXT・DOCX・PDF・字幕焼き付け済み MP4。焼き付けを選ぶと文字起こし後にレンダリング工程が走ります。
  5. 複数話者なら話者分離をオン。 インタビュー、座談、カメラ収録のポッドキャストで活躍。各キューに話者ラベルが付きます。
  6. 送信。 100 Mbps の上りで 1 時間の MP4 はおよそ 4 分で完結します(アップ約 2.5 分、文字起こし約 90 秒)。字幕焼き付けは 60〜90 秒の GPU レンダリングを追加します。
  7. ダウンロード。 SRT/VTT は Premiere、Final Cut、DaVinci Resolve、CapCut、Descript、YouTube Studio にそのまま投入でき、再タイミングは不要です。

3 日間の無料トライアルは、字幕焼き付けと SRT 書き出しを含めたこのワークフロー全体を、ファイル単位・分単位の上限なしで使えます。有料は週 $6.99、年 $49.99、買い切り $129.99。いずれも長さの上限はありません

SRT・VTT・焼き付け:どれを選ぶか

3 つの字幕出力は解く問題が違います。

  • SRT は汎用交換フォーマット。2001 年生まれ、プレーンテキスト + タイムコード。Premiere、Final Cut、DaVinci、VLC、MX Player、YouTube、Vimeo ——今までに出荷された動画プレーヤーの約 99% が対応します。後で字幕を編集する可能性がある、または編集者に渡す場合はこちら。
  • VTT は SRT にスタイル(位置・色・日本語ルビ)が加わったもの。HTML5 <track> でブラウザ内字幕を出すなら必須。Web プレーヤー、特に多言語や縦書きを使う場合はこちら。
  • 焼き付け(オープンキャプション) は字幕を映像のピクセルに描き込むもの。視聴者は消せません。SRT サイドカーを剥がすソーシャル(TikTok、Instagram Reels、X 動画)と、先述の 83% ミュート再生の事情で、この用途にはこちらが向きます。

最も多い失敗は焼き付け字幕を YouTube に上げてしまうこと。YouTube は SRT を素直に受け取り、100 以上の言語に自動翻訳して、字幕を検索可能にしてくれます。サイドカーが剥がされる相手にだけ焼き付けるのが正解です。

文字起こしを使って動画編集を加速する

字幕に次いで多い 2026 年の用途が「テキストベース編集」です。手順は:

  1. 素材をタイムコード付き SRT に文字起こし。
  2. 動画をスクラブする代わりにテキストを読む。
  3. テキストから文を消す。エディター(Descript、Premiere のテキストベース編集、DaVinci Resolve の Cut by Words)が対応する映像区間を同時に削除。

伝統的な粗編集で 6 時間かかる 60 分のインタビューが、テキスト編集だとおよそ 45 分で済む——2025 年 Adobe が 412 名の編集者を対象に行った調査での結果は約 7 倍の高速化です。これは SRT のタイムコードがフレーム精度で揃っているときにのみ成立するので、編集が目的の動画は直接アップしてください(先に音声抽出はしないこと)。

ヒント:Descript や Premiere のテキストベース編集で編集する予定なら、書き出しは VTT ではなく SRT を選びましょう。両者とも SRT を直接パースしますが、VTT のスタイルタグはインポート時に剥がされて何も残りません。

大容量ファイルの扱い:4K、ProRes、生素材

2026 年の典型的なワークフローで最も大きい動画はカメラ直出しではなく、中間コーデックです。

  • 4K H.264(45 Mbps) はおよそ 20 GB/時。Atter AI の Web アップローダーは標準プランで 1 ファイル 10 GB まで受け付けるので、30 分の 4K は直接アップ可能。
  • 4K ProRes 422 HQ はおよそ 110 GB/時。先に音声を抽出してください。110 GB をアップしても、30 MB と中身の音声は同じです。
  • RED R3D と ARRI ARRIRAW は直接非対応。プロキシ MP4 を書き出すか、音声を WAV に抜いてください。

10 GB を超える場合、ffmpeg -ss 00:00:00 -t 01:00:00 -c copy out.mp4 でチャプター/シーン境界で分割すると、各チャンクが上限内に収まり、再エンコードなしで原品質を保てます。

プライバシー:動画ファイル、顔、24 時間ウィンドウ

動画には顔が映っています。プライバシーモデルはその前提で組み立てる必要があります。

  • 通信中: TLS 1.3、HSTS プリロード。
  • 保存中: AES-256 サーバーサイド暗号化、リージョン固定保管(米国、EU、APAC)。
  • 保持期間: アップロードされた動画は字幕と書き起こしの提供完了から 24 時間以内に一時処理ストレージから削除されます。焼き付け済み動画はダウンロード後に削除。
  • 学習目的: 動画ファイル、抽出した音声、生成された書き起こしをモデル学習に使うことはありません。これは契約上の約束で、デフォルト ON のオプトアウトではありません。

HIPAA、GDPR 第 9 条、または日本の個人情報保護法に関わるワークフローでは、ダッシュボードの「即時削除」はハードデリートです。クリックから 60 秒以内に元の動画は復元不能になります。

動画ファイル文字起こし FAQ

アップロード前に音声を抽出すべき?

アップロード帯域がボトルネック、もしくはタイムコード付き字幕が不要な場合だけです。品質はどちらでも同じで、変わるのは速度のみ。100 Mbps 以上なら動画を直接アップする方が楽で、SRT/VTT もソースのフレームレートに揃います。

1 ファイルの最大サイズは?

Atter AI 標準プランで 1 ファイル 10 GB。4K H.264 ならおよそ 30 分、1080p Zoom 録画なら 5〜6 時間、4K ProRes ならおよそ 5 分が目安。これを超える場合は ffmpeg -ss でチャプター分割を。

サイドカー SRT ではなく焼き付け字幕の動画を直接もらえる?

可能です。アップローダーに「字幕を動画に焼き付ける」トグルがあり、サーバー側で MP4 ピクセルにレンダリングします。1 時間の動画あたり 60〜90 秒の GPU 時間が追加。視聴者は消せないため、SRT サイドカーが剥がされる TikTok、Reels、Shorts 向き。

画面録画も文字起こしできる?

できます。Loom、OBS、QuickTime、Windows Game Bar、ShareX の画面録画はすべて標準 MP4 または WebM で、他の動画と同様 98.7% の精度で処理されます。映像内容は影響せず、音声トラックだけが対象です。

BGM や効果音が入っていると精度は下がる?

最新の文字起こしパイプラインには「音楽抑制」のステップがあり、純器楽の BGM はおよそ 92% の効果で除去されます。BGM が乗った音声の精度はクリーン音声より 2〜4 ポイント下がる程度。チュートリアル動画の控えめな BGM では体感差は無く、歌が乗ったミュージックビデオでは品質が大きく下がり、そもそも想定外の用途です。

1 時間の動画はエンドツーエンドでどれくらい?

100 Mbps の上りで、1.5 GB の 1080p MP4 アップ約 2.5 分、AI 文字起こし約 90 秒、焼き付け(任意)に 60〜90 秒。60 分動画で合計 4〜5 分。

4K、HDR、60 fps だと違う?

解像度・ダイナミックレンジ・フレームレートは文字起こしの精度には影響しません(対象は音声だけ)。ただしアップロード時間には線形に効きます。4K は 1080p のおよそ 4 倍のバイト数。SRT のタイムコードはソースのフレームレートで書かれるので、60 fps の字幕も正しいフレームに当たります。

書き起こしを使って動画を編集できる?

できます。2026 年で最も一般的なワークフローの一つです。SRT を書き出し、Descript、Premiere のテキストベース編集、DaVinci Resolve の Cut by Words に取り込めば、テキストを編集することで動画を編集できます。典型的な 60 分インタビューの粗編集は、スクラブ 6 時間からテキスト編集 45 分に短縮されます。