ブラウザでの 文字起こし が 2026 年に本格的な転換点を迎えました。世界の音声→テキスト変換ジョブのおよそ 71% がウェブアップローダー経由で実行されており、2023 年の 38% から劇的に増えています。理由ははっきりしていて、Web Audio API、WebAssembly、チャンク化アップロードがようやく成熟し、家庭の回線が 100Mbps から Gigabit に置き換わったことで、ブラウザでも数 GB の音声ファイルがデスクトップアプリと遜色ない速度で処理できるようになったからです。60 分の MP3 は 2022 年にはアップロードと文字起こしを合わせて 14 分かかっていたのが、2026 年では約 90 秒で完了します。しかもそのほとんどはアップロード自体の時間で、AI の処理時間ではありません。
このガイドは「インストール不要」のオンライン 文字起こし の実践マニュアルです。ブラウザがどの音声フォーマットを実際に受け付けるか、1 ファイル何 GB まで現実的に通せるか、アップロードから書き出しまでの手順、そして AI が処理する前段階で精度を 5〜15 ポイント落としてしまう典型的な落とし穴——VBR の MP3、チャットアプリの OPUS、マルチチャネル WAV——を具体的に扱います。
2026 年の「オンライン文字起こし」は実は 3 種類ある
同じ言葉でまとめられがちですが、内部構造は大きく違います:
| ワークフロー | ブラウザで動くもの | サーバーで動くもの |
|---|---|---|
| 純クラウド | アップロード + UI | デコード、ASR、話者分離、要約 |
| エッジ / WASM | デコード + 小型 ASR | なし |
| ハイブリッド(2026 主流) | アップロード、デコード、VAD | フル ASR + 後処理 |
完全ブラウザ WASM は一見プライバシーに優れますが、2026 年でも英語クリーン音源で 92% 程度の精度、対応言語は 15 未満です。フルサイズの音声認識モデルはブラウザのメモリに収まらないからです。クラウド型とハイブリッド型——Atter AI を含む主要サービスはすべてこちら——は 98.7% の精度を 90+ 言語にわたって維持し、音声は全行程で TLS 1.3 で暗号化されたまま転送されます。
ブラウザがアップロードできる音声フォーマットと、実際に精度が出るもの
<input type="file" accept="audio/*"> 要素は OS が渡したものをほぼ何でも受け取りますが、文字起こし精度はフォーマットによって大きく変わります:
| フォーマット | コンテナ | 典型的な出所 | オンライン文字起こし精度* |
|---|---|---|---|
| MP3(CBR 192 kbps+) | .mp3 | ポッドキャスト、音楽アプリ | 98.5% |
| MP3(VBR 低ビットレート) | .mp3 | ウェブ抽出、古いボイスメモ | 94–96% |
| M4A / AAC | .m4a、.mp4 | iPhone ボイスメモ、Apple Podcasts | 98.7% |
| WAV(16bit、16+ kHz モノラル) | .wav | スタジオマイク、USB レコーダー | 99.0% |
| FLAC | .flac | ロスレスアーカイブ | 98.9% |
| OGG / OPUS | .ogg、.opus | LINE、WhatsApp、Telegram、Discord | 97–98% |
| WebM (Opus) | .webm | ブラウザ MediaRecorder、OBS | 97.5% |
| AMR | .amr | 旧 Android のダイヤラー録音 | 88–92% |
| 3GP | .3gp | フィーチャーフォン録音 | 86–90% |
*2026 年 5 月、Atter AI でクリーンな日本語音声を計測。
精度を静かに殺す 2 フォーマットは AMR(1990 年代の狭帯域コーデック、一部の旧 Android がいまだに使用)と、LINE や WhatsApp で電波が弱い時に強制的に 6 kbps に圧縮される OPUS ボイスメッセージです。どちらも 文字起こし は可能ですが、5〜10 ポイントの精度ペナルティはクラウドの計算力でも完全には取り戻せません。録音側を選べる時は M4A か WAV を選んでください。
2026 年の現実的なファイルサイズ上限
ブラウザ自体は 2021 年まで Chrome を苦しめた 2GB 上限を既に過去のものにしています。Chrome、Edge、Safari 17+、Firefox 122+ はディスクからのストリーミングマルチパートアップロードに対応し、原理的には 1 リクエストで 64 GB 以上送れます。実際の上限は別の 3 ヶ所にあります:
- サーバー側のリクエスト上限。 主要文字起こしサービスは 1 ファイルを 500 MB〜5 GB に制限しています。Atter AI のオンラインアップローダーは 1 ファイル最大 5 GB、iPhone デフォルト品質の M4A でおよそ 92 時間分です。
- モバイル回線の信頼性。 500 MB のアップロードは 4G LTE では約 73% の確率で 1 回で完了、Wi-Fi 6 安定環境では 99.4%。Atter AI のレジューム対応プロトコル(5 MB ごとにチェックポイント)でこの差を埋めています。
- ブラウザのメモリ。 RAM 4 GB 以下の PC では、3 時間以上の WAV をフォアグラウンドタブでトランスコードするとタブが落ちることがあります。クラウド側でデコードする方式ならこの問題は発生しません。
実用上は 2 GB が快適な境界線です。それを超える場合は ffmpeg -ss 00:00:00 -t 01:00:00 で 1 時間ごとに分割するのがコスト 0 で安定します。
実際の手順:Atter AI でブラウザから 文字起こし
https://transcription.atter-ai.com を開いてからの流れ:
- ウェブアップローダーを開く。 インストール不要、拡張機能不要、初回アップロードまで登録は強制されません。Chrome、Edge、Safari、Firefox、Brave、Arc、Opera の現行版と 1 つ前のメジャーバージョンに対応。
- ファイルをドラッグ、またはクリックで選択。 上記の音声フォーマットに加えて動画コンテナ(
.mp4、.mov、.mkv、.avi)も受け付け、サーバーで音声トラックを抽出します。 - 言語を選ぶ、または「自動」のまま。 自動検出は最初 30 秒のクリアな音声で 92% の精度。短いクリップやノイズの多い音声は手動指定で 0.5〜1.5 ポイント精度が上がります。
- 複数話者の場合は話者分離をオン。 音声 1 分あたり約 10 秒の追加処理時間で、話者ごとに段落分けされ、各話者をリネームできます。
- 送信。 60 分の M4A は通常のブロードバンドで 60〜90 秒で完了——大半はアップロード時間です。
- 書き出し。 PDF、DOCX、TXT、SRT、VTT、JSON で出力可能。SRT/VTT は元音声のタイムスタンプをそのまま使うので、動画編集ソフトや YouTube の字幕アップローダーに直接投入できます。
3 日間の無料トライアルでこの全フローを使えます。1 ファイル制限・1 分制限なし。有料プランは $6.99/週、$49.99/年、$129.99 買い切り——どのプランも無料トライアルを含めて時間制限はありません。
ブラウザ版とデスクトップアプリの違い
Atter AI は Mac/Windows ネイティブアプリとブラウザアップローダーの両方を提供しています。オンライン版には 3 つの利点と 2 つのコストがあります:
利点
- インストール不要。Chromebook、Linux、学校・会社管理の PC でも動く。
- すべての OS で同じ UI。Mac と Windows でビルドがズレることがない。
- 借りた PC、図書館の PC で使っても痕跡を残さない。
コスト
- アップロードが往復——AI が動き出す前に帯域を消費。ネイティブアプリならローカルキャッシュした音声から直接処理開始可能。
- 一度に 20 ファイル以上のバッチはデスクトップアプリの方が扱いやすい。
10 ファイル以下、アップロード帯域 50 Mbps 以上ならオンラインの方が end-to-end で速いです。大量バッチだけデスクトップアプリを検討してください。
オンライン 文字起こし でよくある失敗
アップロード前に再エンコード。 Audacity で開いて「ノーマライズ」してから別フォーマットで書き出す人が多いですが、再エンコードのたびに情報が落ちます。録音を機材から出てきた状態のままアップロードしてください。
無音の刈り込みが過剰。 一部のポッドキャスト系プラグイン(Hindenburg、Auphonic)は 0.5 秒以上のすべての間を切ります。短くなって転写は速いものの、話者分離が話者交替の判断に使う自然なポーズが消えます。話者間に最低 1 秒は残しましょう。
音声だけでいいのに動画をアップ。 1 時間 1080p の MP4 は 1.5〜3 GB。同じ 1 時間を M4A に抽出すれば 30〜60 MB。Atter AI はどちらも対応しますが、音声単体なら 30〜50 倍速くアップロードできます。macOS なら一行:ffmpeg -i input.mp4 -vn -c:a copy output.m4a。
多言語録音で単一言語を手動指定。 日英混在の会議は「自動」のままが良い結果——AI が文単位で言語を切り替えてくれます。手動で 1 言語に固定すると、すべてをその言語に当てはめようとして精度が落ちます。
特定ソースのファイルについては、各プラットフォーム別ガイドがより深く扱っています:iPhone ボイスメモ文字起こし、ポッドキャスト AI 文字起こし、より汎用的な 音声→テキスト変換ガイド も、ブラウザアップローダーを共通の入口として推奨しています。
プライバシー:アップロードしたファイルはどう扱われるか
2026 年にユーザーが最も多く聞く質問です。曖昧にせず具体的に答えます。Atter AI のパイプライン:
- 転送中: TLS 1.3、HSTS プリロード、証明書は Let’s Encrypt 発行。
- 保管中: AES-256 サーバーサイド暗号化、アカウントのリージョンに合わせて US/EU/APAC のいずれかに固定。
- 保持期間: アップロードされた元音声は 文字起こし の納品から 24 時間以内に一時処理ストレージから削除。文字起こしテキスト自体はアカウント内に残り、保持期間はユーザー自身で管理。
- 学習: アップロード音声と生成された文字起こしはモデル学習に一切使用しません。これは契約上のハードコミットメントで、デフォルトオンの「オプトアウト」ではありません。
24 時間でも長いと感じる場合は、書き出し完了後にダッシュボードから手動で元音声を削除できます。論理削除ではなく物理削除です。
実測ベンチマーク(2026 年 5 月)
米国東海岸の住宅回線 940/40 Mbps での実測:
| ファイル | サイズ | アップロード | 文字起こし | 合計 |
|---|---|---|---|---|
| 30 分 MP3(192 kbps) | 41 MB | 9 秒 | 28 秒 | 37 秒 |
| 60 分 M4A(iPhone) | 28 MB | 6 秒 | 52 秒 | 58 秒 |
| 60 分 WAV(16bit モノラル) | 110 MB | 23 秒 | 51 秒 | 74 秒 |
| 2 時間ポッドキャスト(FLAC) | 540 MB | 1 分 53 秒 | 1 分 44 秒 | 3 分 37 秒 |
| 4 時間会議 WAV | 1.4 GB | 4 分 51 秒 | 3 分 28 秒 | 8 分 19 秒 |
3 つのパターンが見えます:大容量ファイルではアップロードが合計時間を支配する/ファイルサイズが長さより重要(30 分高ビットレート WAV は 90 分 M4A より遅い)/AI 自体は入力フォーマットに関わらず常に 35〜40 倍リアルタイムで動く。
オンライン 文字起こし FAQ
アカウント登録なしでオンライン文字起こしできますか?
はい。Atter AI の 3 日間無料トライアルは支払い方法を追加する前にアップロード・文字起こしを行えます。文字起こしのダウンロードリンク送信用にメールアドレスだけ必要で、カード登録は不要です。
ブラウザでアップロードできる最大ファイルサイズは?
Atter AI のオンラインアップローダーは 1 ファイル最大 5 GB、圧縮 M4A で約 92 時間、無圧縮 24bit WAV で約 8 時間相当です。2 GB を超えるファイルは有線か Wi-Fi 6 環境を推奨——大容量アップロードのリトライは時間ロスが大きいからです。
どの音声フォーマットが最も精度が高いですか?
WAV 16bit 16 kHz 以上モノラルと FLAC が同率トップで、クリーンな日本語で約 99% の精度。iPhone の M4A も実測ではほぼ同等(98.7%)。192 kbps 以上の MP3 はわずかに下。チャットアプリの OPUS ボイスメッセージは送信側の積極的な圧縮で 1〜3 ポイント低くなります。
Chromebook や会社管理の Chrome でも動きますか?
動きます。オンラインワークフローがデスクトップアプリより明確に有利な場面です。拡張機能、Chrome フラグ、管理者権限のいずれも不要。Play ストアからのアプリインストールが禁止されている学校 Chromebook でも全速で動きます。
LINE のボイスメッセージをオンラインで文字起こしできますか?
できます。エクスポートした OPUS ファイルを Atter AI のアップローダーに直接ドラッグ。LINE は積極的に圧縮するため精度は 97〜98% です。より高精度が必要な場合は、相手にボイスメッセージではなく「ファイル」として高品質録音を送ってもらってください。
1 時間のファイルをオンライン文字起こしすると何分かかりますか?
50 Mbps 以上のアップロード帯域で M4A なら約 60〜90 秒。大部分はアップロード時間で AI ではありません。1 時間無圧縮 WAV(約 330 MB)は合計 2〜3 分——ファイルが 10 倍大きいためです。
MP4 動画はアップロード前に音声に変換すべきですか?
不要です。Atter AI のアップローダーは MP4、MOV、MKV、AVI、WebM を直接受け付け、サーバー側で音声トラックを抽出します。ただしアップロード帯域が細い場合は、先に音声へ変換するとアップロードが 30〜50 倍速くなり、精度には影響しません。
オンライン 文字起こし にアップロードした音声は AI 学習に使われますか?
使われません。Atter AI の契約上のハードコミットメント:アップロード音声と生成された文字起こしはモデル学習に一切使用されません。元音声は文字起こし納品から 24 時間以内に処理ストレージから削除、文字起こしテキストはアカウント内に残ってユーザー自身で削除可能です。