AI 文字起こし

インタビューの文字起こし完全ガイド:記者・研究者のための実践マニュアル

インタビューの文字起こしを実践目線で。素起こしと整文の違い、話者ラベル、氏名の匿名化、60分の録音を数分でテキストにするコツまで。

手作業でインタビューを起こした経験があるなら、計算が合わないのはもう知っているはずです。60分のインタビュー1本には、だいたい8,000〜10,000語くらいの発話が詰まっています。それを手で打つと、1日のうち4〜6時間が消える。これを参加者20人の調査でやれば、平日のほぼ1週間がタイピングで溶けます。AI 文字起こしが埋めようとしたのは、まさにこの穴です。同じ1時間の音声を、話者ラベル付きのきれいな下書きに数分で変える。空いた時間は分析にまわせます。

このガイドは、インタビュー音声と日常的に格闘している人向けです。引用を追う記者、テーマをコーディングする質的・UX 研究者、抜粋を探すポッドキャスター、候補者メモを書くリクルーター。この4者で、ワークフローはおおむね同じ。面白いのは判断のところです。素起こしか整文か、氏名をどう扱うか、検証をどこまで厳しくやるか。順番に見ていきましょう。

なぜ AI 文字起こしでインタビューの流れが変わったのか

少し前まで、文字起こしは自分で耐えるか誰かに頼むかの面倒な作業でした。人手の文字起こしサービスは今もあるし、いい仕事をします。ただ料金は音声1分あたり1.00〜1.50ドルが相場で、納品まで12〜48時間。45分のインタビューだと45〜67ドルかかって、翌朝に届く。単発ならそれでいい。でも15〜30本のインタビューを回す調査だと、請求はあっという間にふくらみます。

実際に何が変わったか。ボトルネックが移動したんです。いい AI 文字起こしツールを使うと、遅い工程はもう「テキストを作ること」ではない。「それを検証すること」になります。打つ人をやめて、直す人になる。これはもっと小さくて賢い仕事で、この記事のワークフローを「ゼロから起こす」ではなく「下書き→検証」のループで組んでいる理由でもあります。

精度の話もあります。クリーンな音声なら、いまの優秀なエンジンは98.7%に届きます。つまり1時間のインタビューで直すのは数百語ではなく、せいぜい数十語。引用する箇所は音声と突き合わせて読みますが、やっているのは修正であって、組み直しではありません。

インタビュー文字起こしの4ステップ

何のために起こすにせよ、同じ4ステップが崩れません。細部は変わります。記者は引用をより厳しく検証し、研究者はより厳しく匿名化する。でも骨格は同じです。

  1. きれいに録って、アップロード静かな部屋、それなりのマイク1本、話者の口元に近づける。あとは音声ファイルをツールにドラッグするだけ。Atter AI は MP3・M4A・WAV・AAC などに対応し、単一ファイルは最大5時間または2GB まで、月間の上限はありません。長尺のオーラルヒストリーも1回で通せます。
  2. 話者分離をオンにする他の作業に入る前に、誰が話しているかをエンジンに振らせる。「話者1」「話者2」と並ぶので、あとはリネームするだけ。
  3. 素起こしか整文かを選ぶ最初に決める。これでその後の一行ごとの編集の仕方が変わります。違いは下で詳しく。
  4. 検証・ラベル付け・匿名化使う引用は音声と照らして読み、話者を実名や参加者コードに変え、プロトコルが求めるなら識別情報を削る。

このリストから何が抜けているか分かりますか。タイピングです。そこが肝。

素起こし vs 整文:編集の前に選ぶ

ここが一番よく間違えるところで、たいていは「意識して選んでいない」のが原因です。2つのスタイル、まったく別物の文字起こし。

**素起こし(true verbatim)**は全部拾います。「えーと」も、言い直しも、「わかるでしょ?」も、[笑い]も[長い沈黙]も。人が実際にどう話すかを、雑なまま正確に残した記録です。会話分析の研究者には必要。研究倫理審査のプロトコルで義務付けられることもある。法務やコンプライアンスの文脈でもよく求められます。素起こしの記録を声に出して読んだことがあれば、ほぼ読めないのを知っているはず。そして、それは意図どおりなんです。

**整文(インテリジェント・バーベイタム)**は、フィラーを落として明らかな言い間違いを直しつつ、意味は1つ残らず保ちます。「私は、えー、その、一番大事なのは信頼だと、思います」が「一番大事なのは信頼だと思います」になる。ジャーナリズムの多くがこれ。UX リサーチの多くもこれ。人が書いたように読めるので、引用したり共有したりするものはこれが既定になります。

落とし穴はこう。素起こしを整文に削るのは簡単。逆は不可能です。フィラーを消したら、聴き直さない限り戻せない。だから素起こしが要る可能性が少しでもあるなら、先に素起こしを作って、コピーを整える。古い助言ですが、いまも正しい。

最近の AI エンジンは、既定で素起こしに近い下書きを返します。整文よりは素起こし寄り。そこから削っていく。どんなファイル形式からでも最初の下書きを取り出す具体的な手順は、音声をテキストにするガイドが対応形式とアップロードの流れを最後まで押さえています。

話者ラベルと氏名の匿名化

2人のインタビューは楽なケースです。エンジンは聞き手と参加者をたいていきれいに分けます。やっかいなのはパネル、フォーカスグループ、そして人の発言がかぶる会話。話者分離は重なりもそこそこ処理しますが、たまに2つの声を1つのラベルにまとめたり、1人を2つに割ったりします。かぶりの激しい区間では、音声1分あたり30秒くらいの手直しを見込んでおく。ゼロではないけれど、全部を聴き直すよりずっとマシです。

ラベルが正しくなれば、リネームは一発の作業です。話者1を聞き手に、話者2を参加者に、文書全体へ一括で適用する。複数人セッションを頻繁にやるなら、エンジンがどこで話者の切れ目を判断しているか、もう一段深い仕組みを知っておく価値があります。話者の自動識別ガイドが踏み込んでいます。

さて、研究者が飛ばせない部分。匿名化です。UX や学術の仕事では、実名を仮名や P07 のようなコードに置き換えるのは任意ではなく、同意書に組み込まれた倫理審査の要件であることがほとんど。きれいにやる手順はこう。

  • 文字起こしが先、匿名化が後。エンジンがラベル付けしている最中に名前をいじらない。
  • 一括置換で、各実名をコードか仮名に、文書全体で一貫して置き換える。
  • コードと本人の対応表は別の安全なファイルに。文字起こし本体の中には絶対に置かない。
  • 間接的な手がかりも拾う。参加者の勤務先、出身地、珍しい肩書きは、名前と同じ速さで本人を特定してしまう。

正直、最後のこれがベテラン研究者でもつまずくところ。名前は分かりやすい。でも「地方の航空会社で唯一の女性パイロット」は分かりにくくて、しかも名前と同じくらい特定につながります。

誰が起こすかで、何が変わるか

ワークフローは役割をまたいでも崩れませんが、優先順位は崩れます。各グループがどこに注意を割くべきかを並べました。

あなたの立場 よく使うスタイル こだわるべき点
記者 整文 一字一句正確な引用、ファクトチェック用のタイムスタンプ
UX・質的研究者 整文(時に素起こし) 匿名化、一貫した話者コード、コーディングツールへのきれいな書き出し
ポッドキャスター 整文 切り抜き探し用のタイムスタンプ、ショーノートにそのまま使える整形
リクルーター 全文より要約 候補者間の一貫性、公平な比較、メモのプライバシー

研究者向けにもう一言。テーマの飽和、つまり新しいインタビューから新しいテーマが出てこなくなる地点は、比較的均質なサンプルだとおよそ12本あたりで来るという有名な経験則があります。これは「12本だけ起こせ」という意味ではない。下書きが速く返ってくるなら、早い段階で横断的に読んで、13本目がまだ元を取れているかを判断できる、という意味です。速い文字起こしが変えるのは、どれだけ時間がかかるかだけじゃない。いつ分析するか、なんです。

それから、潤沢な予算のある研究者ではなく学生としてこれをやっているなら、予算や同意のトレードオフは少し違って見えます。学生向けの文字起こしガイドがその角度を扱っています。

静かに失敗するいくつかのこと

時間を奪われてから気づく、インタビュー特有の落とし穴をいくつか。

電話・リモート通話の音声。 電話回線から取った録音は圧縮され帯域も狭いので、部屋のマイクに比べて精度が落ちます。電話でのインタビューが多いなら、電話の文字起こしを別途読んでおく価値あり。ここでは録り方のほうが、文字起こしエンジンよりも効いてきます。

訛りと混在言語。 強い地方訛りは平気。問題は、文の途中で2言語を切り替える参加者。これはどのエンジンにとっても難しい。自動判別の90以上の言語は単一言語のインタビューはうまく扱いますが、絶え間ないコードスイッチングだと、言語の境目で手直しが要ります。

検証のショートカット。 下書きがきれいに見えると、聴き直しを飛ばしたくなる。やめましょう、少なくとも引用については。AI 文字起こしはありふれた単語に強く、肝心なところ、つまり固有名詞・専門用語・数字にこそ弱い。「2015年」と「2050年」みたいなズレは、ざっと読むと生き残って、印刷物で爆発します。

長尺セッション。 オーラルヒストリーやライフストーリーのインタビューは何時間にもなり得ます。単一ファイル最大5時間または2GB なら分割なしで処理でき、月間の上限を気にして配分する必要もありません。でも、何かする前に元の音声をバックアップする。いつでも必ず。

料金について、手短に

社内で起こすか外注するかを最後に決めるのは、たいていコストです。人手の文字起こしは、繰り返しになりますが1分あたり1.00〜1.50ドルくらい。AI ツールは代わりにサブスクで、Atter AI は3日間の無料トライアルのあと、週6.99ドル・年49.99ドル・買い切り129.99ドルのプランです。インタビューを定期的に回す人、つまり調査の途中の研究者や、担当領域を追う記者にとっては、買い切りはインタビュー1本あたりに直すと、分単位の人手料金に比べて誤差みたいな額になります。

料金がこの判断に登場していいのは、ここだけ。あとは全部ワークフローの話です。

よくある質問

録音したインタビューを無料で文字起こしする方法は?

ほとんどのツールは「無制限に無料」ではなく「無料枠」を用意しています。YouTube の自動字幕やスマホの音声入力は本当に無料ですが、2人の会話だと精度は70〜85%あたり。下書きの精度を上げたいなら専用ツールの短い無料トライアルが現実的で、Atter AI は3日間試せます。インタビュー数本を流すには十分です。正直に言うと、完全無料の選択肢はあります。ただ、浮いたお金は修正の時間で払うことになります。

研究インタビューを文字起こしする一番いいやり方は?

静かな部屋でそれなりのマイク1本で録り、話者分離をオンにして AI ツールに流し、引用する箇所だけ音声と照合する検証パスを通す。これが基本です。質的コーディングをするなら DOCX か TXT で書き出せば、NVivo・MAXQDA・Dedoose にそのまま貼れます。みんなが飛ばしがちなのが検証パス。でも、知見に異議が出たとき自分を守ってくれるのは、ここなんです。

素起こしと整文(インテリジェント・バーベイタム)の違いは?

素起こし(true verbatim)は「えーと」も言い直しも詰まりも[笑い]も、話されたまま全部拾います。会話分析や法的記録、一部の研究倫理審査のプロトコルで必須です。整文はフィラーを取り、明らかな言い間違いを直しつつ意味はそのまま残す方式。ジャーナリズムや UX リサーチの多くはこちらを使います。読みやすいからです。どちらが要るかは、編集を始める前に決めてください。後からでは遅い。

AI は誰が話したかをラベル付けしてくれる?

話者分離に対応していればしてくれます。発言を「話者1」「話者2」と振り分けるので、あとは実際の参加者名に一括で置き換えるだけ。ただし発言が重なると精度は落ちます。かぶりの多いインタビューでは多少の手直しを見込んでおきましょう。仕組みをもっと知りたい場合は話者の自動識別ガイドが参考になります。

インタビュー文字起こしの中の氏名はどう匿名化する?

まず文字起こしを終わらせ、それから実名を仮名や P07(参加者7)のようなコードに一括置換します。コードと本人を対応させる対応表は別ファイルで安全に保管し、文字起こし本体には絶対に書かない。UX や学術の仕事では倫理審査の要件になっていることが多いので、ファイルが自分のマシンを離れる前、共同研究者と共有する前に済ませてください。

1時間のインタビューの文字起こしにどれくらいかかる?

手作業なら音声1時間あたり4〜6時間が目安。素起こしや訛りが強いとさらに延びます。同じ60分のファイルでも、AI ツールなら下書きはおよそ4〜7分。残りの仕事はタイピングではなく検証です。ワークフロー全体で一番大きな時短がここ。あなたは「打つ人」から「直す人」に変わります。

AI は他の言語のインタビューも文字起こしできる?

できます。Atter AI は自動判別で90以上の言語に対応します。多言語のフィールドワークや国境をまたぐ取材では効いてきます。ただし1つの答えの中で日本語と英語が混ざるような会話は、どのエンジンにとっても難しい。参加者が頻繁に言語を切り替えるなら、切り替わりの境目は手で直すつもりでいてください。

機密のインタビューを文字起こしサービスにアップロードしても安全?

機微な内容を上げる前に、提供元のデータ方針を確認しましょう。処理後に音声が削除されるか、録音がモデルの学習に使われるか、データがどこに保存されるか。Atter AI は音声を処理して文字起こしを作ったあと元の音声を破棄し、録音のコピーではなく文字起こしと参照リンクだけを残します。NDA や倫理審査の対象になるインタビューなら、参加者の同意条件と合わせて書面で確認してください。