AI 文字起こし

Atter AI 文字起こし精度レポート:WER で実測した 98.7%

Atter AI は 2025 年 11 月、LibriSpeech test-clean で 98.7% の文字起こし精度(1.3% WER)を達成。検証手順と再現方法まで完全公開。

概要

Atter AI は 2025 年 11 月Atter 3.3.0 を用いて実施したベンチマークテストで、98.7% の文字起こし精度を達成しました。

この結果は **1.3% の単語誤り率(Word Error Rate、WER)**に相当します。WER は自動音声認識のテストで用いられる標準的な評価フレームワークで、機械が生成した文字起こしと人間が検証した参照文字起こしとの差を測定します。

Atter の結果は、クリアな朗読音声を収録した英語の公開音声認識ベンチマークデータセットである LibriSpeech test-clean で測定されました。

平たく言えば、Atter は公開ベンチマーク音声で 98.7% の文字起こし精度を達成しました。これはテスト条件下で、参照単語 100 語あたり約 1.3 件の単語レベルの誤りがあったことを意味します。

本レポートでは、この数値が何を意味するのか、どのように測定されたのか、そして実際の文字起こしの場面でユーザーがどう理解すべきかを説明します。

主要な結果

項目結果
テスト対象製品Atter AI
製品バージョンAtter 3.3.0
テスト時期2025 年 11 月
データセットLibriSpeech test-clean
音声ソース公開ベンチマーク音声
音声タイプクリアな英語の朗読音声
音声セグメント数2,620
総音声時間約 5.4 時間
総参照単語数約 54,000
言語英語
参照文字起こし人間が検証した参照文字起こし
評価指標単語誤り率(WER)
WER の結果1.3%
精度の結果98.7%

98.7% の文字起こし精度が意味すること

文字起こし精度はしばしば単純なパーセンテージで示されますが、その数値はテスト方法が明確になって初めて意味を持ちます。

Atter の場合、98.7% の精度とは、Atter が生成した文字起こしを人間が検証した参照文字起こしと比較し、測定された単語レベルの差が 1.3% WER であったことを意味します。

精度と WER の関係は次のとおりです。

Accuracy = 100% − WER
100% − 1.3% = 98.7%

1.3% の WER とは、参照文字起こしの 100 語ごとに、約 1.3 語が認識エラーの影響を受けたことを意味します。これらのエラーには次のようなものが含まれます。

  • 単語が誤って認識される
  • 単語が欠落する
  • 余分な単語が追加される
  • 短いフレーズが参照文字起こしと異なる区切りになる

これが、Atter が一般的な精度の主張だけでなく WER を用いてベンチマーク結果を報告する理由です。

なぜ Atter は WER を使うのか

WER は **Word Error Rate(単語誤り率)**の略です。英語の自動音声認識システムを評価するために最も広く使われている指標のひとつです。文字起こしを主観的に判断するのではなく、WER は生成された文字起こしを信頼できる参照文字起こしと比較する再現可能な方法を提供します。

WER の計算式は次のとおりです。

WER = (S + D + I) / N
記号意味
S置換(Substitutions)— 誤った単語として認識された単語
D欠落(Deletions)— 生成された文字起こしから抜け落ちた単語
I挿入(Insertions)— システムが追加した余分な単語
N参照文字起こしの総単語数

たとえば、参照文字起こしに 10,000 語が含まれ、システムが 130 件の単語レベルの誤りを出した場合、WER は 130 / 10,000 = 1.3% となり、対応する精度は 100% − 1.3% = 98.7% です。

これは Atter がベンチマークの文字起こし精度を計算するために用いたのと同じフレームワークです。

ベンチマークの設定

Atter の 98.7% という文字起こし精度の結果は、公開された音声認識ベンチマークの設定を用いて測定されました。テストでは、英語の音声認識評価で一般的に使われる公開ベンチマークデータセット LibriSpeech test-clean を使用しました。

テスト構成

項目テスト設定
データセットLibriSpeech test-clean
音声条件クリアな英語の朗読音声
音声ソース公開ベンチマーク音声
音声セグメント数2,620
総音声時間約 5.4 時間
総参照単語数約 54,000
言語英語
製品バージョンAtter 3.3.0
テスト時期2025 年 11 月
評価指標単語誤り率(WER)

評価プロセス

ベンチマークは次のプロセスに従いました。

  1. LibriSpeech test-clean から公開ベンチマーク音声ファイルを選択しました。
  2. その音声ファイルを Atter 3.3.0 で文字起こししました。
  3. Atter が生成した文字起こしを、人間が検証した参照文字起こしと比較しました。
  4. 単語レベルの差を置換・欠落・挿入として数えました。
  5. 標準的な計算式を用いて WER を算出しました。
  6. 精度を 100% から WER を引いた値として算出しました。

採点前に Atter の出力に対する手動修正は一切行っていません。

テスト結果

指標結果
単語誤り率1.3%
文字起こし精度98.7%
概算のエラー頻度参照単語 77 語あたり約 1 件の単語レベルの誤り

これは、Atter がクリアな公開ベンチマーク音声で高い性能を発揮したことを意味します。

この結果は、あらゆる録音環境に対する普遍的な保証ではなく、ベンチマーク結果として理解すべきものです。

正しい解釈: Atter はベンチマーク条件下の LibriSpeech test-clean で 98.7% の文字起こし精度を達成した。

誤った解釈: Atter はあらゆる録音で常に 98.7% の精度を出す。

この違いが重要なのは、実際の文字起こし精度が音声の品質と複雑さに大きく左右されるためです。

業界ベンチマークの文脈

98.7% の精度が高いかどうかを理解するには、一般的な音声認識の性能レンジと比較すると役立ちます。

音声条件一般的な良好な WER レンジ概算の精度
クリアで高品質な朗読音声1.5%–3.0%97.0%–98.5%
より難易度の高いベンチマーク音声3.5%–8.0%92.0%–96.5%
発話の重なりやノイズのある実際の会議10%–20%+80%–90% またはそれ以下
低品質音声、遠距離マイク、強い背景ノイズ20%+80% 未満になり得る

Atter の 1.3% WER という結果は、クリアなベンチマーク文字起こしにおいて非常に良好なレンジに位置します。

ただし、クリアなベンチマーク音声は、ノイズのある会議、電話、インタビュー、ポッドキャスト、講義、または複数の話者が重なって話す録音とは異なります。だからこそ Atter はこの結果をベンチマーク精度の結果として説明しています。

なぜクリアなベンチマーク音声は性能が高いのか

音声認識システムは通常、音声が次の条件を満たすときに最も高い性能を発揮します。

  • 明瞭な発話
  • 低い背景ノイズ
  • 安定した音量
  • 発話の重なりが少ない
  • 良好なマイク品質
  • 一貫した発音
  • 強い室内反響がない
  • 激しい音声圧縮がない

LibriSpeech test-clean はクリアな朗読音声を中心に設計されています。これにより、管理された公開ベンチマーク条件下で中核的な文字起こし能力を測定するのに有用です。

実際の利用では、音声はより複雑になることがよくあります。会議録音には、複数の話者、割り込み、背景ノイズ、ノートパソコンのマイク、話者からの距離、室内反響、なまり、製品名、専門用語、複数言語の混在などが含まれることがあります。これらの要因は、どの文字起こしシステムでも WER を上昇させ得ます。

実際の文字起こし精度を下げ得る要因

Atter の 98.7% というベンチマーク結果は、すべての録音で同じ結果になることを意味するものではありません。音声に次の要素が含まれる場合、精度は低下することがあります。

背景ノイズ。 カフェ、交通、扇風機、エアコン、キーボードの音、オフィスの雑音などは、単語の認識を難しくします。

発話の重なり。 2 人以上が同時に話すと、文字起こしはより難しくなります。これは会議の文字起こしで WER が高くなる最大の原因のひとつです。

遠距離マイク。 話者から遠くに置かれたマイクは、直接の発話を少なく、室内ノイズを多く拾います。

強いなまりや不明瞭な発音。 なまりは一般的で自然なものですが、言語モデルや音声品質によっては認識の難易度を高めることがあります。

専門用語。 会社名、製品名、医療用語、法律用語、コードワード、業界特有のフレーズは、モデルの学習データで一般的でない限り認識が難しくなることがあります。

低品質な音声ファイル。 圧縮、クリッピング、歪み、音量の小さい録音は文字起こしの品質を下げることがあります。

最高の文字起こし精度を得る方法

ユーザーはいくつかの実践的な録音習慣を守ることで、文字起こしの品質を向上できます。

  • マイクの近くで録音する
  • 可能なら外部マイクを使う
  • 背景ノイズを減らす
  • 録音機器を部屋の反対側に置かない
  • 話者に発話を重ねないよう依頼する
  • 可能ならクリアな音声フォーマットを使う
  • 録音音量を安定させる
  • アップロード前の激しい圧縮を避ける

良好な音声入力は、正確な文字起こしを実現するうえで最も重要な要因のひとつです。

なぜこの精度が重要なのか

高い文字起こし精度は、文字起こしそのもの以上のものを改善します。より正確な文字起こしは、会議サマリー、録音内検索、AI ノート、アクションアイテム抽出、顧客インタビュー分析、講義ノート、ポッドキャストの再利用、字幕生成、ナレッジベース作成、法務・コンプライアンスレビューのワークフローといった下流の AI 機能を向上させます。

文字起こしに含まれる誤りが少ないほど、その上に構築されたすべての機能がより信頼できるものになります。だからこそ Atter は文字起こし精度を製品の根幹をなす指標として扱っています。

ユーザーが自分で文字起こし精度を検証する方法

ユーザーは同じ基本的な方法で文字起こし精度をテストできます。

ステップ 1:参照文字起こし付きの音声を用意する

公式の文字起こし付きの公開ベンチマーク音声を使うか、人間が丁寧に修正した文字起こし付きの自分の録音を使います。

ステップ 2:Atter で音声を文字起こしする

Atter を使って音声をアップロードまたは処理し、生成された文字起こしをエクスポートします。

ステップ 3:両方の文字起こしを正規化する

採点の前に、参照文字起こしと Atter の文字起こしを正規化します。一般的な正規化の手順には、テキストの小文字化、余分なスペースの削除、句読点の標準化、数字の標準化、書式の差異の除去などがあります。これにより、スコアが書式の差ではなく文字起こしの誤りを測定することが保証されます。

ステップ 4:WER を計算する

WER は jiwer のようなオープンソースツールを使って計算できます。

from jiwer import wer

reference = "this is the human verified transcript"
prediction = "this is the atter generated transcript"

error_rate = wer(reference, prediction)
accuracy = (1 - error_rate) * 100

print(f"WER: {error_rate * 100:.2f}%")
print(f"Accuracy: {accuracy:.2f}%")

ステップ 5:結果を比較する

WER が低いほど文字起こし精度は高くなります。クリアなベンチマーク音声では、優れた ASR システムは多くの場合、一桁台の低い WER を出します。ノイズのある会議や発話の重なりでは、WER は大幅に高くなることがあります。だからこそ、精度は常に音声条件とあわせて評価すべきです。

よくある質問

Atter の 98.7% の精度とは何を意味しますか? Atter はテストしたベンチマークデータセットで 1.3% の単語誤り率を達成しました。精度は 100% から WER を引いた値として計算されるため、1.3% WER は 98.7% の精度に相当します。

どのデータセットが使われましたか? テストでは、クリアな朗読音声を含む英語の公開音声認識ベンチマークデータセットである LibriSpeech test-clean を使用しました。

いくつの音声ファイルがテストされましたか? ベンチマークでは 2,620 の音声セグメントを使用しました。

テスト音声の長さはどのくらいでしたか? 総音声時間は約 5.4 時間でした。

いくつの単語が評価されましたか? ベンチマークには約 54,000 の参照単語が含まれていました。

テストされた Atter のバージョンは何ですか? テストでは Atter 3.3.0 を使用しました。

テストはいつ実施されましたか? ベンチマークは 2025 年 11 月に実施されました。

WER とは何ですか? WER は Word Error Rate(単語誤り率)の略です。置換・欠落・挿入を数えることで、機械が生成した文字起こしと人間が検証した参照文字起こしとの差を測定します。

98.7% の精度は 1.3% WER と同じですか? はい。精度は 100% から WER を引いた値として計算されます。1.3% の WER は 98.7% の精度に相当します。

98.7% はすべての録音に当てはまりますか? いいえ。98.7% の結果はクリアな公開音声でのベンチマーク性能を示すものです。実際の精度は、音声品質、ノイズ、発話の重なり、なまり、マイクの距離、語彙によって変動することがあります。

なぜ会議の文字起こしは精度が低くなることがあるのですか? 会議には複数の話者、割り込み、背景ノイズ、変動するマイクの距離、発話の重なりが含まれることが多いためです。これらの要因は、どの音声認識システムでも文字起こしを難しくします。

文字起こし精度を改善するにはどうすればよいですか? クリアなマイクを使い、話者の近くで録音し、背景ノイズを減らし、発話の重なりを避け、可能な限り高品質な音声ファイルを使ってください。

最終的な結論

Atter の 98.7% という文字起こし精度の結果は、WER フレームワークを通じて測定された専門的なベンチマーク結果として理解するのが最も適切です。

この結果が意味するのは次のとおりです。

  • Atter は 1.3% WER を達成した
  • テストには LibriSpeech test-clean を使用した
  • ベンチマークには 2,620 の音声セグメントが含まれていた
  • 総時間は約 5.4 時間だった
  • ベンチマークには約 54,000 の参照単語が含まれていた
  • テストは 2025 年 11 月に実施された
  • テストされたバージョンは Atter 3.3.0 だった
  • 精度は人間が検証した参照文字起こしと照合して算出された
  • 実際の結果は録音条件によって変動し得る

ユーザーにとっての要点は次のとおりです。Atter はクリアなベンチマーク条件下で高精度な文字起こしを提供し、その 98.7% という結果は、音声認識評価で広く使われている専門的な WER フレームワークを用いて測定されています。