AI 文字起こし

電話の文字起こしは「合法か」を確認してから「どうやって」を考える

iOS 18.1 が 2024 年 10 月に通話録音をネイティブ対応。Pixel や VoIP の録音と組み合わせ、Atter AI で 98.7% 精度の文字起こしに。

電話の文字起こしについて書かれた記事の多くは、いきなり「ステップ 1:このアプリを開きます」から始まります。順番が逆です。電話の録音は技術の問題である前に法律の問題で、しかも誰が録音し誰が話しているかによってどちらの法律が適用されるかが変わります。日本では、通話の当事者が自分で録音する場合、刑法上の違法録音にはあたりません(最高裁判例も同様の判断)が、相手方の人格権・プライバシー権との関係で別途問題になりうるほか、業務上の録音は個人情報保護法と電気通信事業法 4 条「通信の秘密」の遵守が必要です。米国は連邦法(18 U.S.C. § 2511)で片当事者同意が原則ですが、カリフォルニア、フロリダ、イリノイなど 12 州は全員同意が必要。EU の GDPR は基本的に明示同意を要求します。国境を跨いだ通話では、より厳しい側のルールが適用されるのが原則です。

合法性が確認できれば、技術的なワークフローはこの 18 ヶ月で劇的に簡単になりました。iOS 18.1 が 2024 年 10 月 28 日にリリースされ、対応 iPhone に通話録音機能がネイティブ実装されました。2007 年の初代 iPhone 以来 17 年ぶりに、サードパーティアプリなしで録音できるようになったわけです。Google Pixel は 2019 年の Pixel 4 から対応済み。日本国内向けの VoIP サービス(楽天モバイル Link、IIJmio みおふぉん、ビジネスフォン系の Dialpad、Zoom Phone、Microsoft Teams Phone)もすべて録音をサポートしています。難しいのは「音声を録ること」ではなく、「その低ビットレートで多くの場合ナローバンドな録音を実際に使える文字起こしに変えること」。それがこのガイドの主題で、Atter AI が 90 言語以上で 98.7% の文字起こし精度を提供します。

音質の基準ライン:8 kHz か 16 kHz か

電話音声は長らく 8 kHz / 64 kbps の G.711 コーデック——1970 年代に PSTN 交換機に焼き込まれた規格——に縛られてきました。2026 年現在も多くの固定電話と旧世代携帯網はこの規格で動いています。HD Voice(VoLTE)は 2014 年 12 月に NTT ドコモが日本初投入、au・ソフトバンクが翌 2015 年に追随し、現在は主要 3 キャリアすべてが標準。サンプルレートは 16 kHz、コーデックは AMR-WB か Opus。違いは聴感ではっきり分かります:8 kHz は 4 kHz 以上の周波数を切り落とすので、人の声から「明るさ」がごっそり消え、伝統的な固定電話が Zoom 会議より「こもって」聞こえる理由はこれです。

これは文字起こしの精度に直結します。一般的な音声認識システムはワイドバンド(16 kHz 以上)で訓練されているため、推論時に 8 kHz が入力されると数パーセントポイントの精度低下が起き、固有名詞・専門用語・訛りのある発音で特に顕著です。Atter AI はナローバンド用とワイドバンド用の独立した音響モデルを持ち、入力音声のサンプルレートで自動振り分けします。古い 8 kHz 通話でも使える結果が得られますが、iPhone・Pixel・VoLTE・VoIP で録った 16 kHz 通話の方が明確に精度が高くなります。

iPhone と Pixel で録音したファイルは通常すでに 16 kHz です。OS が PSTN 側のダウンサンプリング前に上り下り混合を捕捉しているためです。VoIP プラットフォーム(楽天モバイル Link、Dialpad、Zoom Phone)からエクスポートしたファイルはエクスポート設定次第で、多くはデフォルト 16 kHz .mp3.wav ですが、レガシーテナントには 8 kHz のままのものもあります。

方法 1:iPhone ネイティブ通話録音(iOS 18.1 以降)

iOS 18.1 は 2024 年 10 月 28 日リリース、iPhone XS 以降の対応機種で利用できます。操作手順:

  1. 通話中、通話画面の左上にある録音ボタンをタップ。
  2. 相手側に音声アナウンスが流れます:「この通話は録音されます」。Apple が意図的に組み込んだ合意確認 UX で、バグではありません。
  3. 通話終了後、録音はメモアプリ(ボイスメモではない)に保存され、自動生成された文字起こしと AI 要約が添付されます。
  4. メモ内の録音添付を長押し → 共有 → ファイルアプリに保存、Mac へ AirDrop、または任意のアプリに送信。

Apple の内蔵文字起こしより高い品質が必要な場合は、音声を Atter AI にエクスポートしてください。Apple のオンデバイス文字起こしは英語中心で、クラウド型の専用サービスより小さなモデルを使うため、日本語の専門用語、訛り、コードスイッチングがある通話では精度差が大きくなります。iPhone 音声の包括的なワークフローは iPhone ボイスメモの文字起こし で詳しく扱っています。

方法 2:Pixel と他の Android

Google の Recorder アプリは 2019 年の Pixel 4 から通話録音をサポート——主要プラットフォームでネイティブ通話録音を最初に実現した存在で、iPhone より 5 年早いです。操作手順:

  • 通話中、Recorder のショートカットがクイック設定オーバーレイまたは通話 UI に表示されます。
  • 相手側に音声アナウンスが流れます:「この通話は録音されています」。
  • 保存された録音は Recorder アプリに表示され、検索可能なオンデバイス文字起こしが付きます。
  • 任意の録音をタップ → 共有 → アプリ選択または Drive に保存。

Pixel のオンデバイス文字起こしは英語のみ対応で、Google のやや古い世代のオンデバイス音声モデルを使用しています。メモ検索には十分ですが、ドキュメントとして共有する文字起こしには不向き。日本語通話、顧客インタビュー、共有用録音は .m4a をエクスポートして Atter AI で処理してください。

その他の Android メーカーの通話録音対応はバラバラで、Samsung の One UI は地域によって有効/無効が分かれ、日本市場の Galaxy は機種により異なり、Xperia は Android 11 以降では制限あり、AQUOS は機種次第。Pixel ライン以外の Android では、サードパーティアプリが依然として主流です。

方法 3:VoIP / クラウド PBX のエクスポート

通話が RingCentral、Dialpad、Zoom Phone、Microsoft Teams Phone、Google Voice(Workspace 有償版)、楽天モバイル Link、または企業向けクラウド PBX(モットケル、Arcstar Smart PBX、BIZTEL)上で行われた場合、ほぼ間違いなくテナントポリシーに従って自動録音されています。録音はプラットフォームの通話履歴に保存され、.mp3.wav でエクスポート可能です。

標準的なエクスポート手順(プラットフォームにより若干異なります):

  1. プラットフォームの管理ポータルまたは個人の通話履歴を開く。
  2. 日付、内線、参加者でフィルタ。
  3. 通話を選択 → 録音をダウンロード(または一括操作のエクスポート)。
  4. Atter AI を開く → アップロード → ダウンロードしたファイルをドロップ。

ハイボリュームなコールセンターや営業チームでは、多くの VoIP プラットフォームが Webhook または API エンドポイントを公開しており、完了した通話録音を指定 URL に自動送信できます。この Webhook を Atter AI ワークスペースの受信エンドポイントに向けるのが、すべての通話を自動的に文字起こしに保つ最もクリーンな方法です。典型的な Dialpad エンタープライズテナントは席あたり月 500〜2,000 件の録音を生成するため、手動エクスポートはスケールしません。

方法 4:サードパーティ録音アプリ

両端のどちらも通話録音対応のスマホを使っていない場合は、専用アプリが必要です。2026 年の主要プレイヤー:

  • TapeACall(iOS、Android)——500 万以上のダウンロード、月額 $9.99 または年額 $59.99。三者通話の仕組みで録音ブリッジを介して両端を捕捉。.mp3 16 kHz 出力。
  • Rev Call Recorder(iOS)——録音無料、文字起こし $0.25/分。TapeACall と同じ三者通話方式。
  • 通話録音アプリ - ACR Phone(Android)——Android 11 以降は Google による Accessibility API 制限の影響で多くの機種でセルラー録音が動作しなくなりました。
  • LINE 通話——LINE 規約で第三者録音は禁止、エンドツーエンド暗号化により技術的にも阻止されます。ローカルマイクでスピーカーフォン経由の収録のみ可能で、相手側音量は約 6 dB ロスします。

「スピーカーフォン + 別端末のボイスメモで録音」という土法もまだ 2026 年に有効で、一度きりのニーズには十分な音質です。Atter AI の話者分離は、マイクが直接拾った自分の声とスピーカー再生された相手の声で音響特性が大きく異なるため、それぞれを区別できます。

方法 5:電話会議ブリッジと古いアーカイブ

電話会議ブリッジ(NTT 800 番ダイヤルイン会議、海外の Free Conference Call、GoToMeeting Audio、Zoom Phone 音声)からエクスポートされる録音は、通常モノラルの .mp3 または .wav で、全参加者が単一トラックに混合されます。ここでは文字起こし自体よりも話者分離の方が難しい:6 人が同一モノラルチャンネル上にいる場合、Atter AI は音響特性だけで分離する必要があります。

Atter AI のモノラル話者分離は最大 10 名まで安定的に機能します。12 名以上の大規模会議ブリッジ(取締役会、全社会議)では分離精度が下がるため、Speaker 1Speaker N のプレースホルダ付き逐語スクリプトを出力し、後から出席者リストに基づいて一括リネームする方が実用的です。

古いコールセンターのコンプライアンスアーカイブは .au.gsm、8-bit .wav などのレガシー形式で届くことがよくあります。Atter AI はすべて受け付け、音声認識前に文字起こし向けの中間形式に内部トランスコードします。8 kHz .gsm(旧式モバイルブリッジコールセンター標準)の精度はワイドバンドより明らかに低いですが、クリーンな録音なら 92〜95% を維持します。

個人情報保護法と通信の秘密:日本の現実

合法性は多くのガイドが飛ばす部分です。日本では:

  • 個人間の通話:通話当事者が自ら録音する場合、刑法上の違法録音には該当しません(最高裁判例も同様の判断)。ただし無断公開は名誉毀損やプライバシー侵害になり得ます。
  • 業務上の録音(カスタマーサポート、テレアポ、金融機関のコンプライアンス録音):個人情報保護法第 21 条の通知義務として、通話開始時に「サービス向上のため、この通話を録音します」等のアナウンスを流し、通知 + 通話継続を黙示の同意と解する運用が一般的です。
  • 電気通信事業法 4 条「通信の秘密」:第三者として他人の通信を傍受・録音することは禁止。当事者ではない録音は原則違法。
  • クロスボーダー通話:相手が EU・英国にいる場合は GDPR に従い明示同意が必要、カリフォルニアやイリノイなど米国の双方同意州にいる場合はその州法に従う。
  • 金融商品取引法・銀行法の録音義務:証券会社・銀行の対面・通話商品勧誘は法令上の録音義務があり、これは合法どころか必須。
  • LINE 通話:規約禁止 + 技術的に E2E 暗号化で阻止。

以上は法律助言ではありません。労働審判、契約訴訟、行政処分など正式な場で証拠として用いる録音は、当該管轄区での採用可否を事前に弁護士に確認してください。

iPhone / Pixel 内蔵文字起こし vs Atter AI

機能iPhone(iOS 18.1)Pixel RecorderAtter AI
ネイティブ通話録音対応(18.1 以降)対応(Pixel 4 以降)N/A(文字起こし層)
文字起こし対応言語英語中心英語のみ90+ 言語
クリーン通話音声精度約 92-94%約 92-94%98.7%
話者分離2 名・基本2 名・基本最大 10 名
横断検索なし単一録音内のみアーカイブ全体の全文検索
エクスポート形式TXTTXTPDF、DOCX、TXT、SRT、VTT、JSON
長さ制限なしなしなし
費用デバイス付属デバイス付属$129.99 買い切り / $49.99/年 / $6.99/週 + 3 日無料試用

他の音源ソースの処理フローは オンライン音声ファイルの文字起こし と信号特性が若干異なる Zoom 会議の文字起こし を参照してください。

電話通話の文字起こし FAQ

自分の通話を自分で録音して文字起こしするのは合法ですか?

管轄区によります。日本では通話当事者の自録音は刑法上の違法録音にあたりません(判例も同様)。ただし無断公開はプライバシー侵害や名誉毀損になり得ます。業務上の録音は個人情報保護法と電気通信事業法を遵守し、通話開始時のアナウンスが必要。クロスボーダー通話では相手側のより厳しい法律に従う必要があります。重要な場面では事前に弁護士確認を。

Atter AI の従来 8 kHz 電話音声に対する精度は?

Atter AI のナローバンドチューニング音響モデルは、クリーンな 8 kHz 音声で 92〜95% の精度を達成します(話者の訛りとトピックにより変動)。VoLTE、VoIP、iPhone/Pixel で録音された現代の 16 kHz ワイドバンド音声では 98.7% に到達——Zoom や対面会議と同じ数値です。

8 名の電話会議録音を文字起こしできますか?

可能です。Atter AI の話者分離はモノラルチャンネル上で最大 10 名まで対応します。それを超える大規模通話では分離精度が下がるため、プレースホルダ付き逐語スクリプトを出力し、後から出席者リストでリネームする運用が現実的です。

Atter AI は TapeACall や Rev Call Recorder の出力に対応していますか?

対応しています。主要な通話録音アプリはすべて標準フォーマット(.mp3.m4a.wav)でエクスポートします。Atter AI に直接アップロード、手動変換は不要——必要に応じて内部で再エンコードします。

Apple の内蔵文字起こしは日本語通話に対応していますか?

iOS 18.1 のオンデバイス文字起こしは英語中心で、日本語は限定的にサポート。日本語と英語の混在、医療・金融・法律の専門用語、関西弁や東北弁など方言が多い通話では精度差が大きくなります。日本語通話は音声ファイルを Atter AI にエクスポート——90 言語以上対応で日本語の主要方言とコードスイッチングをカバーします。

何年も前の 8-bit .wav 形式の電話録音を文字起こしできますか?

可能です。Atter AI は .au.gsm、8-bit .wav などレガシーフォーマット(旧コールセンターアーカイブで一般的)を受け付けます。音声認識前に文字起こし向け中間形式へトランスコードします。精度はワイドバンドより低いですが、クリーンな音声なら 90% 台後半を維持します。

双方同意の州でスピーカーフォン経由で別端末のボイスメモで録音するのは合法?

録音の「メカニズム」は法的要件を変えません——全員同意が必要な州では、内蔵機能・サードパーティアプリ・別端末のボイスメモを問わず、録音開始前に同意取得が必要です。iPhone と Pixel が再生する音声アナウンスはこの通知義務を果たしているもので、別端末のボイスメモは自動的にはそれを行いません。

コールセンターの 1 年分の録音を一括で文字起こしするには?

Atter AI のフォルダ一括アップロードまたは API 統合を使います。主要な VoIP プラットフォーム(RingCentral、Dialpad、Zoom Phone、Microsoft Teams Phone)は一括エクスポートまたは Webhook 配信を公開しており、両方とも Atter AI ワークスペースの受信エンドポイントと連携できます。月 1,000 時間以上を処理するエンタープライズコールセンターでは、API 統合の方が手動アップロードより一桁高効率です。