文字起こし

iPhone ボイスメモの文字起こし:iOS 18 でできること、できないこと

iOS 18 はボイスメモに文字起こしを追加したが、対応は 12 言語のみで話者ラベルなし。それを補う方法を解説。

ボイスメモは世界で最も使われている録音アプリで、2026年の時点でおよそ22億台のアクティブなiPhoneにプリインストールされています。しかし長らくその出力は.m4aファイル一つだけで、それ以外には何もできませんでした。2024年9月のiOS 18でようやくアプリ内に文字起こしビューが追加されましたが、リリース時から明確な天井がいくつもありました——対応13言語のホワイトリスト、特定のiPhoneハードウェアにひも付くオンデバイス処理のみ、そして文字起こしテキスト自体のエクスポート不可。2年後のiOS 26ではこれらの上限が少し緩みましたが、依然として残っています。

このガイドでは2026年時点でAppleの標準文字起こしが実際に何をできるのか、ボイスメモがiPhone / iPad / Mac / Apple Watchの4プラットフォームでファイルをどこに保存しているのか、そしてiOSのバージョンに関係なく、どのボイスメモファイルも90以上の言語・98.7%の精度で編集可能なフル文字起こしに変換するAIパイプラインの使い方を解説します。

iPhoneボイスメモが出力するファイル

すべての録音は.m4a形式、AAC圧縮、モノラルで、品質は 設定 → ボイスメモ → 音声の品質 で2つから選びます:

設定サンプリングビットレート60分のファイルサイズ
圧縮(デフォルト)32 kHz~32 kbps~14 MB
非圧縮48 kHz~256 kbps~110 MB

デフォルトの「圧縮」が多くのユーザーが踏む落とし穴です。32 kbpsの音声は人間が聞く分には問題ありませんが、音声認識が頼りにする高域のスピーチ手がかりが失われます。重要なインタビューの前に「非圧縮」に切り替えると1時間あたり約100 MB余分に消費しますが、Apple自身のものを含むあらゆるエンジンで文字起こし精度が3〜5ポイント上がります。

ファイル名は次の3段階で決まります:(1)位置情報サービスがオンならGPSで解決された地名(東京オフィス自宅);(2)そうでなければ前回の録音名にサフィックスを付ける;(3)どちらでもなければ新規録音。結果として、長く使うとライブラリ全体が新規録音 47のような誰にも識別できないファイル名で埋め尽くされます。

iOS 18+標準の文字起こしでできること・できないこと

iOS 18で登場した文字起こしビューはiOS 26で少し拡張されましたが、限界は依然として明確です。

言語。 iOS 26のオンデバイスモデルは約13言語に対応:英語(米・英・豪・加・印・シンガポール・南ア)、スペイン語(米・墨・西)、中国語普通話(中国本土・台湾)、広東語、フランス語(仏・加)、ドイツ語(独・スイス・墺)、イタリア語、日本語、韓国語、ポルトガル語(伯・葡)、アラビア語(サウジ)、ロシア語、トルコ語。それ以外——ベトナム語、タイ語、ヒンディー語、ヘブライ語、ポーランド語、オランダ語、北欧諸語、すべてのアフリカ系言語、ベトナム語以外のすべての東南アジア言語——では文字起こしが一切表示されず、文字起こしタブそのものが現れません。

ハードウェア。 A15 Neural Engine以上のデバイスが必要です:iPhone 13シリーズ以降、iPad mini 6 / iPad Air 5 / iPad Pro 2021以降、すべてのApple SiliconのMac(M1以降)。それより古いデバイスでは、対応言語であっても文字起こしビューが表示されません。

エクスポート。 テキストは段落単位でコピーできますが、「文字起こしを書き出す」アクションは存在しません.txt.docx.srt.vttとして保存することはできず、音声と切り離して文字起こしだけを共有することもできません。iPhone上でフルテキストを取り出す唯一の方法は、長押し→すべてを選択→コピー→貼り付けで、スクロールごとにこれを繰り返す必要があります。

精度。 Appleのオンデバイスモデルはどのクラウドサービスよりも高速(録音中ほぼリアルタイムで文字起こしが進む)ですが、最良のクラウドエンジンには明らかに劣ります。米国英語のスタジオ品質の音声で、オンデバイスモデルは88〜92%の単語精度、騒がしいカフェのiPhoneマイク音声では70%台後半まで落ちます。Atter AIは90以上の対応言語のクリーン音声で98.7%——この差は検索可能なアーカイブや法務水準の文字起こしで特に効いてきます。

句読点と話者ラベル。 オンデバイスの文字起こしは基本的な句読点は入れますが、話者ダイアリゼーションは一切行いません。すべての行がデバイスに帰属し、二人のインタビューは延々と続く一つのモノローグとして読まれます。

方法1:iPhoneで標準の文字起こしを取得(iOS 18+)

対応デバイス+対応言語の場合:

  1. ボイスメモを開き、録音をタップ。
  2. 録音カード右上の**≡**アイコンをタップして文字起こしビューを開く。アイコンが見えない場合は言語かハードウェアが非対応。
  3. 文字起こしは再生と同期したスクロール可能なテキストとして表示されます。任意の単語をタップすればそのタイムスタンプにジャンプ。
  4. コピーするには長押し→すべてを選択コピー。メモやメール、任意のテキストアプリに貼り付け。

iOS 24以降のApple Intelligence要約機能(有効化が必要)もこの文字起こしビューに置かれています。要約は短く(3〜6項目)、完全にオンデバイスで生成され、文字起こしより狭い言語サブセットでのみ対応——iOS 26時点では米国英語、普通話、その他いくつかです。

方法2:Atter AIでフル文字起こしを取得

Apple標準ができないこと——非対応言語、古いハードウェア、ファイルのエクスポート、話者ラベル、6項目を超える要約——はすべて同じワークフローで処理でき、iPhoneのモデルに依存しません:

  1. ボイスメモで録音をタップ→もっと見る...)→共有→インストール済みならAtter AIを選択、またはファイルに保存して手動アップロード。
  2. Atter AIのiPhoneアプリからアップロードする場合は、インポート→ボイスメモをタップすればアプリがボイスメモライブラリから録音を直接読み取り、中間ファイル不要。
  3. 30分の録音で通常60〜90秒で文字起こし完了。出力はPDF、DOCX、TXT、SRT、VTT、JSONに対応。
  4. Atter AIは3日間の無料トライアルを提供しており、このワークフロー全体をカバーします。有料プランは週6.99ドル、年49.99ドル、または買い切り129.99ドルから。録音時間やファイル数の上限はありません。

長時間インタビューで文字起こしと要約の両方が必要な場合、Atter AIの要約長は段落1つから完全な議事録形式まで設定可能で、Apple Intelligenceの固定6項目とは異なります。同じパイプラインが 音声を文字起こしするガイドポッドキャストの文字起こしガイド も支えています——エンジンは同じで、入力ソースが違うだけです。

方法3:.m4aをデバイスから取り出す

スマホに別のアプリを入れたくない場合は、まず元のファイルをコンピュータに移します:

  • AirDropで近くのMacへ。ボイスメモ→録音→共有→AirDrop。.m4a~/ダウンロードに着地。最速、オフラインで動作。
  • iCloud同期。 設定 → [自分の名前] → iCloud → ボイスメモを有効化。録音はサインインしたすべてのMacとiPadのボイスメモアプリに表示されます。Macアプリのサイドバーから録音をFinderウィンドウへドラッグすれば.m4aを取り出せます。
  • ファイルアプリ。 iPhoneでボイスメモ→共有→ファイルに保存iPhone内または任意のiCloudフォルダを選択。録音は他アプリから可視になり、Macからは iCloud Drive経由で見えます。
  • メールやメッセージ。 メールの25 MB添付上限は圧縮品質の100分程度までカバー、非圧縮では約12分が限界。iMessageは100 MBまで許容。

.m4aがコンピュータに来たら、Atter AIのウェブアップローダーにドラッグするかmacOSアプリを使用。どちらも同じクラウド品質の文字起こしを返します。

方法4:Apple Watchで録音

Apple Watchのボイスメモコンプリケーションは、画面オフでもウォッチマイクで直接録音できます——廊下での会話やとっさのメモにiPhoneを取り出さずに済むので便利。Watchは16 kHzモノラル(iPhoneの32 / 48 kHzより低い)で録音し、両デバイスがWi-FiまたはBluetoothハンドオフ可能な状態でiPhoneのボイスメモを開けば1〜2分以内に同期します。

16 kHzのWatch録音は人間の聴取には十分ですが、文字起こし精度はiPhoneマイクより明らかに低下します。重要な録音はiPhone本体か、iPhoneに接続した有線/Bluetoothマイクを優先してください。Apple Watchの連続録音バッテリー上限が約100分というのも、1時間を超える録音は携帯側にデフォルトすべき理由のひとつです。

ボイスメモ文字起こしのハマりどころ

iCloud同期はラグがある。 機内モードで作成された録音はネットに戻るまで同期されません。同期前にAirDropや共有を行うとファイル自体は届きますが、Mac側のローカル文字起こしビューが「文字起こしを生成中…」のまま無限ループになることがあります。MacのオンデバイスモデルがiPhoneとは別のコピーを処理しているためです。

録音中の通話は録音を切り詰める。 録音中に着信があるとボイスメモは一時停止し通話終了後に再開します——ただし録音が2ファイルに分割されるのはiOS 26以降のみ。iOS 18以前では一時停止は無音で行われ、結果のファイルには通話の時間がマーカーなしで欠落します。

バックグラウンドノイズ除去は破壊的。 録音エディタの録音を強化トグルはオンデバイスモデルで背景ノイズを除去します。複製をタップしない限り、処理後のファイルは元を上書きします。文字起こし目的なら強化版の方が大抵良好、アーカイブや法的目的なら両方残しましょう。

2 GBの天井。 単一のボイスメモは2 GBを超えられません。非圧縮品質ならおよそ18時間、圧縮品質ならおよそ138時間。上限到達時は静かに録音停止し、トリガーされたタイムスタンプでファイルがクローズされます。

Apple Intelligenceの要約は言語ホワイトリストを守る。 録音がApple Intelligence非対応言語(ベトナム語、ヒンディー語、タイ語など)の場合、他言語ではApple Intelligenceが動くデバイスでも要約ボタンは非表示。Atter AIの要約は90以上の言語でホワイトリストなしに動作します。

Apple標準 vs Atter AI

機能iOSボイスメモ標準Atter AI
クリーンなiPhone音声の精度約88〜92%98.7%
対応言語数13(iOS 26)90以上
必要ハードウェアA15以上のNeural Engineブラウザを持つ任意のデバイス
話者ラベル/ダイアリゼーションなし完全対応、リネーム可
エクスポート形式なし(コピペのみ)PDF, DOCX, TXT, SRT, VTT, JSON
要約3〜6項目固定長さ可変、構造化議事録
録音横断検索一度に1件のみ全文インデックスのライブラリ
価格無料、最新のiPhoneが必要週6.99ドル · 年49.99ドル · 買い切り129.99ドル · 3日間無料トライアル

会議の録音用途では——ホストがZoomやTeamsで録画を押し忘れてボイスメモが唯一の頼みの綱になることもある——このガイドと AIで会議を文字起こしするガイド を合わせて読むと、ボイスメモファイルにも同じく適用できるダイアリゼーションと要約のベストプラクティスがまとまっています。

iPhoneボイスメモ文字起こしFAQ

ボイスメモに文字起こしタブが表示されないのはなぜ?

3つの可能性があります。(1)iPhoneがiPhone 13より古い——オンデバイス音声モデルはA15 Neural Engine以上が必要。(2)録音言語がAppleの13言語ホワイトリスト外。(3)iOS 17以前で文字起こしビューがまだ出る前のバージョン。いずれかに該当するとアイコンが完全に消えます。

ボイスメモの文字起こしをテキストファイルとしてエクスポートできますか?

ネイティブ機能ではできません。iOS 26にも「文字起こしを書き出す」アクションはありません。すべて選択してコピーしメモやメールに貼り付けることはできますが、.txt.docx.srt.vttファイルとして取得するには、音声をAtter AIのような文字起こしサービスに通すしかありません。

iCloudは文字起こしも同期しますか、それとも音声だけ?

音声だけです。文字起こしは各デバイスで初めて文字起こしビューを開いたときにオンデマンドで再生成されます。オンデバイスモデル非対応の古いMacやiPadでは音声は正常に同期するものの文字起こしは表示されません。

2026年時点でボイスメモが対応する言語は?

iOS 26で約13言語:英語(多地域)、スペイン語(米・墨・西)、中国語普通話(中国本土・台湾)、広東語、フランス語(仏・加)、ドイツ語、イタリア語、日本語、韓国語、ポルトガル語(伯・葡)、アラビア語(サウジ)、ロシア語、トルコ語。Atter AIはベトナム語、タイ語、ヒンディー語、ヘブライ語、ポーランド語、オランダ語、スウェーデン語、ノルウェー語、フィンランド語、ほとんどのアフリカ系・東南アジア系言語を含む90以上に対応。

iPhoneボイスメモの文字起こしはジャーナリズムや法務に使える精度ですか?

見出し的なメモなら十分——クリーン音声でAppleのオンデバイスモデルは88〜92%です。逐語訳、裁判記録、誤字一つも許されない用途には足りません。98.7%精度のクラウド文字起こしとの5〜10%の差は、1時間のインタビューでは60〜120語の聞き取りミスとなり、探して直す手間が積み重なります。

Atter AIでボイスメモを文字起こしするのにインターネット接続は必要?

必要です。Atter AIエンジンはクラウドで動くため、iPhoneのハードウェアに依存せず90以上の言語で高めの精度上限を維持できます。ファイルは転送中に暗号化され、文字起こし後は一時ストレージから削除されます。

ボイスメモを使わずに直接文字起こし可能な形式で録音できますか?

Atter AIのiPhoneアプリは録音と同時に文字起こしを進めるので、録音中に文字起こしが出ます。元の.m4aは文字起こしの兄弟ファイルとして保存されます。エクスポート工程を完全に省略でき、90以上の言語に対応します。

Atter AIアプリは既存のボイスメモライブラリから読み取れますか?

可能です。初回にiOSの設定でボイスメモへのアクセスを許可すると、アプリがライブラリ内のすべての録音を日付順にリスト表示します。一つを選ぶと、共有シートや「ファイル」への保存を経由せず、ベースの.m4aが直接インポートされます。