AI文字起こし

多言語文字起こしアプリの選び方2026:言語数の裏側を実測で検証

「90言語対応」のバッジは英語以外で精度が崩れたら無意味。多言語文字起こしを日英混在・言語ごとの実測・中国語対応で比べ、本当に使えるアプリを見極める。

どの文字起こしツールでも、料金ページを開くと同じ自慢が並んでいます。「90言語対応」「50以上の言語をサポート」「100言語以上」。まさに多言語の軍拡競争で、数字は年々つり上がっていく。でもここに問題があります。その言語数は、そのアプリが「あなたの」言語をちゃんと文字起こしできるかについて、ほとんど何も教えてくれない。

「対応言語」のチェックボックスが意味するのは、たいてい「その言語で何かしら出力できる程度には学習した」ということだけ。使える出力になる、とは言っていません。「60言語対応」の立派なバッジを掲げたツールが、クリーンな広東語の録音を自信満々の意味不明な文字列に変える——そんな場面を私は何度も見てきました。宣伝に出ている代表的な精度の数字は、ほぼ例外なく英語の数字です。それ以外の言語はもっと静かに、そしてたいていずっと低いところにいる。

だからこの記事は、「言語リストが一番長いのは誰か」ランキングではありません。多言語文字起こしアプリが実際に使えるかどうかを決める、3つのことについての話です。(1) あなたの言語での実際の精度、(2) コードスイッチング(日本語と英語の混在など)を乗り切れるか、(3) 音声が英語一色でなくなった瞬間、話者ラベルや要約が生き残るか。ここを掘っていきます。

「多言語対応」が本来意味すべきこと

ツールのリストに入る前に、正直に整理しておきたいことがあります。本物の多言語アプリと、ドロップダウンメニューがただ長いだけのアプリ。この2つは何が違うのか。

代表精度ではなく、言語ごとの精度。 どのベンダーも精度を1つの数字で出します。その数字はクリーンな英語で測ったもの——たいていはスタジオ品質で台本を読み上げた音声です。同じツールにベトナム語の電話やポーランド語のインタビューを食わせると、精度は二桁単位で落ちることがある。本当に多言語なツールは、ホームページの1言語だけでなく、多くの言語で崩れません。

コードスイッチング。 これが本当のストレステストで、しかも容赦ない。世界の膨大な数の人は、一度に1言語だけを話したりしません。シンガポールのチーム会議は文の途中で英語と北京語を行き来するし、香港のオフィスは英語のビジネス用語を散りばめた広東語で回っている。日本のスタートアップの会議だって、正直かなりの割合で「このKPIをアップデートして」みたいに英単語が混ざる。ところが多くの文字起こしエンジンは1ファイル1言語を前提にしている。「これは日本語です」と伝えれば、出てくる英単語を片っ端からローマ字化したり潰したりする。逆も同じ。ここをうまく処理できるツールは、ほぼ例外なく大規模言語モデルベースです。前後の文脈で重みづけするので、1つ1つの音を選択済みの1言語に押し込めずに済む。

ソース言語のまま構造化できるか。 文字起こしは第一歩にすぎません。本当に多言語なアプリは、話者ラベルも要約も検索も、ソース言語のまま出せる必要がある——全部を先に英語へ翻訳してニュアンスを失うのではなく。特に話者分離は、話者が言語を切り替えるとぐらつきやすいので、確認する価値があります。

文字体系の扱い。 右から左に書く文字(アラビア語・ヘブライ語)、表意文字(中国語・日本語・韓国語)、ダイアクリティカルマーク(ベトナム語・チェコ語)。これらは、こっそり英語優先で作られたツールを片っ端から壊します。あなたの言語が基本ラテンアルファベット以外を使うなら、これは言語数よりずっと重要です。

この4つを頭に入れておくと、候補は一気に絞れます。

比較する価値のある多言語文字起こしアプリ

ツール 対応言語 コードスイッチング 向いている用途
Atter AI 90以上 強い(中英混在も対応) 混在言語の作業・中国語・個人利用
Good Tape 100以上 限定的 ジャーナリスト・シンプルなファイル文字起こし
Notta 50以上 限定的 複数デバイスでのチーム協業
Sonix 38以上 限定的 大量ファイルの文字起こし+字幕
Whisper(オープンソース) 90以上 弱い(素のモデル) 開発者・無料&プライベート
Otter 英語優先 なし 英語のみの会議

Atter AI — 本当に多言語な音声なら総合ベスト

録音が英語じゃないことが多い、あるいは1つの言語に収まらない——そういう人はここから始めてください。

Atter AI は90以上の言語に対応し、しかも全機能(文字起こし・要約・話者ラベル・AIチャット)が各言語で使えます。「おまけの言語」だけ機能を削った簡易版になる、ということがない。クリーンな音声では98.7%の精度に達し、従来型の音声エンジンではなく大規模言語モデルのアプローチで作られている。他のツールが軒並み崩れるケースを乗り切れるのは、まさにここが理由です。

際立つのは中国語とコードスイッチング。北京語・広東語・台湾華語を扱い、そして難しいのはここなんですが、中国語と英語を行き来する通話を、英単語のところで意味不明にならずに文字起こしできる。この1点だけで、「多言語対応」を名乗る競合がびっくりするほど脱落します。単一ファイルは最大5時間または2GBまで、月間の分数上限はなし。短い朝会ではなく、長い多言語インタビューを文字起こしするとき、これは効いてきます。

正直に短所も。狙いは個人と小規模チームで、購買部門のチェックリストを持った50席のエンタープライズ向けではありません。それにここに挙げたどのツールとも同じで、マイナー言語の裾野では、あのクリーン英語の代表値より精度は下がる——ここから逃げられるベンダーはいません。向いているのは、音声が中国語・混在言語・多言語にまたがる人。日本の市場で言えば、日英混在の会議こそが多くのツールの弱点で、そこを1本のまま処理できるのが実用上いちばん大きい差です。Otter に縛られて非英語の結果に困っている人が最初に探すのが、まさに多言語対応の Otter 代替だったりします。

Good Tape — 言語リスト最長、ワークフロー最シンプル

Good Tape はジャーナリズムの世界から出てきたツールで、ここで最長のメニュー、100以上の言語を掲げます。インターフェースは意図的に素っ気ない——ファイルをアップロードすればきれいな文字起こしが返ってくる——そしてプライバシーと取材源の保護を強く打ち出す。記者が気にする部分です。

代償は深さ。これはファイルアップロード型の文字起こしであって、会議プラットフォームではありません。ライブのボットはなく、AI要約は軽め、コードスイッチングも得意ではない。幅広い言語のインタビュー録音をきれいなテキストにするのが主目的なら、優秀です。ただ、1つのファイル内で言語が混ざるなら、別を当たったほうがいい。向いているのは、多言語にまたがる単一言語ファイルを文字起こしするジャーナリストや研究者。

Notta — 主要言語なら手堅い

Notta は50以上の言語をカバーし、汎用ツールとしては最も完成度が高い部類。Web・iOS・Android で同期し、チーム機能も成熟しています。スペイン語・北京語・日本語・フランス語・ドイツ語といった大きくて資源の豊富な言語なら本当に良く、協業ツールは一歩先を行っている。

細くなるのは裾野の言語とコードスイッチング。1録音1言語を前提にしたがるので、マイナー言語は目に見えて弱くなる。無料枠も月間分数がきつい。向いているのは、主に主要言語で作業し、デバイス間の協業を重視するチーム。会議メモまわりの比較はAtter AI vs Nottaで詳しく分解しています。

Sonix — 大量処理の多言語、字幕付き

Sonix は38以上の言語を扱い、スループット重視で作られています。ファイルをまとめて放り込めば整形済みの文字起こしが返り、その上に強力な字幕・翻訳エクスポートが乗る。主要言語をまたいでコンテンツに字幕を付けるメディアチームにとって、この翻訳ワークフローが目玉です。

言語数はトップ勢より狭く、ライブ会議ボットはなく、時間単価は大量のバックログでは積み上がっていく。向いているのは、主要言語での大量ファイル文字起こしと字幕制作。メディア寄りの立ち位置はAtter AI vs Sonixでさらに扱っています。

Whisper — 無料・プライベート・90以上の言語、ただし組み立ては自分で

OpenAI の Whisper は、この市場のかなりの部分を静かに支えているオープンソースエンジンです。自分で動かせば無料、完全にプライベート(音声が自分のマシンから出ない)、そして90以上の言語に対応。サブスクもプライバシーの不安もなしに多言語文字起こしがほしい開発者にとって、この組み合わせに勝るものはありません。

ただし素の Whisper はモデルであって製品ではない。アプリもなく、要約も話者ラベルもなく、初期状態ではセグメントごとに1言語を選ぶのでコードスイッチングにも弱い。ワークフローは周りに自分で組む。向いているのは、自分でパイプラインを配線するのが苦にならない技術者と、プライバシーを最優先する人です。

Otter — 反面教師として

Otter がここにいるのは、あくまで悪い見本としてです。会議文字起こしというジャンルを作った立役者ですが、英語優先で作られていて、それ以外を食わせた瞬間にそれが露呈する。あなたの仕事が本当に多言語なら、これは出発点として間違っている——というのが、そもそも多くの人が Otter 代替を探しに行く理由そのものです。もう少し広い比較はAtter AI vs Otterにまとめています。

本当に意味のあるテスト

このジャンル全体について、居心地の悪い真実を言います。言語数は信用できないし、代表精度の数字も完全には信用できない。どちらも良く見えるように測られているからです。

だから、自分でテストしてください。自分の実際の言語のリアルな録音を用意する——理想を言えば雑音混じりの汚いやつ、そして該当するならコードスイッチングも入ったやつ。それを候補の上位2つに通す。両方の文字起こしを読む。数えるのは「難しいところ」のエラーです。固有名詞、切り替わった言語の単語、2人が同時にしゃべった瞬間。これを15分やるだけで、どんなスペック表よりも多くのことが分かる。なぜなら、それはマーケティングが隠しているまさにその一点——クリーンな英語の外で何が起きるか——を試すからです。

多言語という切り口に限らず、もっと広い候補を見たいなら、最高の音声文字起こしアプリのまとめで、もっと多くのツールを多くのユースケースで試しています。

選び方

一番大きい数字にではなく、あなたの音声の形にツールを合わせてください。

中国語を録る、あるいは1ファイル内で言語が混ざるなら、Atter AI。多言語にまたがる単一言語ファイルを文字起こしするなら、Good Tape か Whisper。主要言語中心でチーム作業なら、Notta。字幕を大量に量産するなら、Sonix。無料でプライベート、しかも技術力があるなら、Whisper。Otter に縛られて非英語の結果にうんざりしているなら、このリストのほぼ何を選んでも一歩前進です。

最後にひとつ、これは私たちのものも含めてここに挙げた全ツールに当てはまる。90言語すべてで等しく優秀な者はいません。バッジはマーケティング。あなたの言語がテストです。走らせてください。

よくある質問

2026年、多言語対応でいちばん使える文字起こしアプリは?

英語以外でも精度が落ちにくいという条件で選ぶなら、Atter AI がもっともバランスの良い全部入りです。90以上の言語に対応し、クリーンな音声で98.7%の精度を出します。純粋な言語数なら Good Tape(100以上)や OpenAI の Whisper(90以上・オープンソース)も肉薄。Notta(50以上)と Sonix(38以上)は主要言語に強い一方、マイナー言語では細くなります。結局は「自分が録る言語」で決めるべきで、バッジの数字の大きさで選ぶものではありません。

2言語が混ざるコードスイッチングに強い文字起こしアプリは?

日本語の文章に英単語が混ざる、といったコードスイッチングは多くのツールが崩れるポイントです。理由は単純で、多くのエンジンが1ファイル1言語を前提にしているから。大規模言語モデルベースのアプリは、前後の文脈で判断するので明らかに強い。実際 Atter AI は日英混在や中英混在を1本の録音のまま処理できます。逆に主流ツールの多くは最初に言語を1つ選ばせ、もう一方の言語を誤変換します。

多言語対応アプリは、本当にどの言語も同じ精度なの?

違います。ここがこのジャンル最大の落とし穴。「90言語対応」の実態は、英語・スペイン語・中国語・フランス語・ドイツ語・日本語など十数言語が高精度で、あとは尾を引くように精度が下がっていく、というのがほぼ全ツール共通です。ベトナム語やタガログ語での精度は、宣伝されている英語の数字よりかなり低いのが普通。契約前に、自分の言語と自分の環境の音声で必ず試してください。

中国語の音声にいちばん向いた文字起こしアプリは?

中国語はこのジャンルで最も差が出る言語です。Otter のような英語優先ツールは苦手。Atter AI は北京語・広東語・台湾華語に対応し、英語が混ざるコードスイッチングも扱えるので、中国語音声ではこれを推します。Notta と Sonix も北京語なら実用範囲。ただし広東語と台湾華語に限ると、欧米製ツールの多くは弱いので慎重に試してください。

無料の多言語文字起こしアプリはある?

OpenAI の Whisper は無料・オープンソースで90以上の言語に対応し、ローカルで動かせば音声も完全にプライベートに保てます。ただし完成したアプリではなくモデルなので、ワークフローは自分で組む必要があります。ホスト型なら Notta や Good Tape に無料枠がありますが、どちらも月間の分数に上限があります。インストール不要で手軽に無料で使いたいならホスト型の無料枠、上限なしで無料に使い倒したくて技術力があるなら Whisper が有利です。

話者が別々の言語を話す会議でも多言語文字起こしは機能する?

部分的には機能します。多くのアプリは各話者が実際に話した言語のまま文字起こしするので、混在会議は混在したままの文字起こしになります。多くの場合それが望む結果です。差が出るのは、翻訳まで付くかどうかと、言語が切り替わっても話者ラベルが崩れないかどうか。話者分離(誰が話したか)は会議の途中で言語が切り替わると精度が落ちやすいので、本当に多言語の通話ならそこを重点的に確認してください。