AI 轉錄

電話錄音逐字稿:先搞懂合規,技術其實只是配角

iOS 18.1 在 2024 年 10 月加入原生通話錄音,Pixel 早就有。配合 Atter AI 把電話錄音轉成 98.7% 準確率的逐字稿。

大部分講電話錄音怎麼轉逐字稿的文章,都會一開頭就告訴你「第一步:打開某某 App」。這個順序其實錯了。電話錄音先是一個法律合規問題,技術流程才是後面的事,而誰負責合規、要不要告知對方,會隨你所在地不同而變。台灣《通訊保障及監察法》第 29 條:「通訊之一方為錄音之主體,且非出於不法目的」就不罰,實務上等於單方同意。美國聯邦法(18 U.S.C. § 2511)預設也是單方同意,但加州、佛州、伊利諾、馬里蘭等 12 州要求所有人都同意;歐盟 GDPR 幾乎所有情形都要求顯式同意。跨國通話時,通常以較嚴格那一方的法律為準

合規確認後,技術流程在過去 18 個月已經簡化到幾乎不需教學。iOS 18.1 在 2024 年 10 月 28 日上線,內建通話錄音功能,是 iPhone 自 2007 年問世以來首次原生支援。Google Pixel 從 2019 年 Pixel 4 就有。多數 VoIP 平台(如 LINE Phone、Google Voice、企業 SIP 系統)也都早就支援錄音。難的不再是「怎麼把音檔錄下來」,而是「怎麼把這段低位元率、常常是窄頻的錄音,轉成真正能用的逐字稿」。這就是這篇教學要處理的部分——Atter AI 在 90+ 語言上把電話錄音轉成 98.7% 準確率的逐字稿。

音質底線:8 kHz 還是 16 kHz

傳統電話音質長期停留在 8 kHz / 64 kbps 的 G.711 編碼——這套標準 1970 年代寫進 PSTN 交換機就一直沒動,到 2026 年仍是多數市話和老一代行動網路的現實。HD Voice(中華電信 VoLTE 於 2016 年全面開通,台灣大哥大、遠傳隨後跟進)把取樣率拉到 16 kHz,編碼換成 AMR-WB 或 Opus。聽感差別很明顯:8 kHz 砍掉 4 kHz 以上的所有頻率,人聲幾乎所有「亮度」都消失,所以傳統市話聽起來比同音量的 Google Meet 要「悶」。

這件事直接影響逐字稿準確率。主流語音識別模型是用寬頻(16 kHz 以上)音訊訓練的,遇到 8 kHz 輸入會掉幾個百分點,名字、專有名詞、口音重的發音首當其衝。Atter AI 同時跑兩套獨立的窄頻和寬頻聲學模型,依輸入音檔的取樣率自動路由——老的 8 kHz 通話也能轉出可用結果,但 iPhone / Pixel / VoLTE / VoIP 錄的 16 kHz 通話可以到 98.7%。

iPhone 和 Pixel 本機錄下來的檔案通常已經是 16 kHz,因為作業系統在 PSTN 端下取樣前就把上下行混合擷取了。從 VoIP 後台(Google Voice、LINE Phone、企業 SIP)匯出的錄音要看設定——多數預設 16 kHz .mp3.wav,但有些老租戶仍在 8 kHz。

方法一:iPhone 原生通話錄音(iOS 18.1+)

iOS 18.1 在 2024 年 10 月 28 日推送,所有運行 18.1 以上系統的 iPhone(iPhone XS 及更新機型)都支援。操作流程:

  1. 通話進行中,點通話畫面左上角的錄音按鈕。
  2. 對方會聽到一段語音提示:「此通話將被錄音。」這是 Apple 故意設計的合規 UX,不是 Bug。
  3. 通話結束後,錄音自動存進備忘錄 App(不是「語音備忘錄」),附自動生成的逐字稿和 AI 摘要。
  4. 長按備忘錄裡的錄音附件 → 分享 → 存到「檔案」App 或 AirDrop 到 Mac,或傳給任何 App。

如果你需要比 Apple 內建轉寫品質更高的結果,把音檔匯出到 Atter AI 即可。Apple 本機轉寫以英語為主,中文夾雜、專業術語或台灣口音準確率會明顯下降。iPhone 音檔的完整處理流程在 iPhone 語音備忘錄逐字稿 有詳細說明。

方法二:Pixel + 其他 Android

Google Pixel 從 2019 年 Pixel 4 開始支援通話錄音,是主流品牌第一個原生支援的——比 iPhone 早了五年。操作流程:

  • 通話中,錄音機快捷鍵會出現在控制中心或通話畫面。
  • 對方端會聽到語音提示:「您好,這通電話正在被錄音。」
  • 錄音存在 Recorder App,附本機即時逐字稿可搜尋。
  • 點任一錄音 → 分享 → 選擇 App 或存到 Drive。

Pixel 本機轉寫只支援英文,用的是 Google 較舊一代的裝置端語音模型,搜尋記憶夠用,但要當逐字稿輸出品質不夠。中文通話或要當文件分享的錄音,匯出 .m4a 丟 Atter AI 處理。

Samsung 在台灣販售的 Android 通話錄音支援要看版本,One UI 5 之後部分機型加回來,但美版同型號因法律疑慮被關掉。OPPO、vivo、小米在台販售的版本通常保留通話錄音功能,但 Google Pixel 是少數官方主推的方案。

方法三:VoIP / 企業電話系統匯出

如果通話是在 RingCentral、Zoom Phone、Microsoft Teams Phone、Google Voice(Workspace 付費版)、或台灣常見的企業 SIP 系統(如思科 CUCM、Avaya、邁向商務電話)上發生,平台幾乎都會依租戶政策把通話自動錄下來。匯出流程:

  1. 進入平台管理後台或個人通話紀錄。
  2. 按日期、分機、參與者篩選。
  3. 選通話 → 下載錄音(或批次匯出)。
  4. 打開 Atter AI → 上傳 → 把下載檔案拖進去。

對於客服中心或業務團隊這種高頻場景,多數 VoIP 平台都開放 Webhook 或 API,可以把每通完成的錄音自動推到目標網址。把這個 Webhook 指向 Atter AI 工作區的接收端點,是「每通電話自動轉逐字稿」最乾淨的做法。一個典型的 RingCentral 企業租戶,每位坐席每月會產生 500–2000 通錄音,純手動匯出不切實際。

方法四:第三方錄音 App

當雙方都不是用原生支援錄音的手機系統,第三方 App 還是要出場。2026 年的主要選擇:

  • TapeACall(iOS、Android)——500 萬+ 下載,月費 $9.99 或年費 $59.99。用三方通話橋接錄下雙方音訊。輸出 16 kHz .mp3
  • Rev Call Recorder(iOS)——錄音免費,轉寫每分鐘 $0.25。機制和 TapeACall 類似。
  • Cube ACR(Android)——只在部分 Android 機型上運作,Android 11+ 後 Google 限制了 Accessibility API,原生蜂巢通話錄音功能在多數 Android 上失效。
  • LINE 語音通話——LINE 條款明確禁止第三方錄製,加上端到端加密技術上也阻止了。你只能用本機麥克風開擴音收音,對方端音量會損失約 6 dB。

「開擴音 + 用另一台裝置錄」這個土辦法到 2026 年仍然有效,對一次性需求音質足夠。Atter AI 的說話人分離仍可區分本人和遠端聲音,因為麥克風直接收的本人發聲和擴音播出的遠端發聲在聲學特徵上差異很大。

方法五:電話會議橋與歷史歸檔

傳統電話會議橋(中華電信 800 撥入會議、海外 Free Conference Call、GoToMeeting Audio)匯出的錄音通常是單聲道 .mp3.wav,所有與會者混在一個軌道。這裡轉逐字稿本身不難,說話人分離才是難點:6 個人在同一個 mono 通道,Atter AI 只能靠聲學特徵分開。

Atter AI 在單聲道上穩定支援最多 10 位不同說話人。超過 12 人的大型會議橋(董事會電話、全員大會),更實用的產出是帶 Speaker 1Speaker N 占位符的逐字稿,事後按出席名單批次改名。

老的客服中心合規歸檔常常是 .au.gsm、8-bit .wav 這類老格式,Atter AI 都能直接吃,內部會轉碼到適合語音識別的中間格式。8 kHz .gsm(老式客服中心常用)準確率比寬頻低,但乾淨錄音仍能穩定在 92–95%。

個資法與通保法:台灣的現實

合規問題是多數教學跳過的部分。在台灣:

  • 個人之間通話:依《通訊保障及監察法》第 29 條,通話一方主體錄音且非出於不法目的,不罰。實務上等於單方同意。
  • 商業場景錄音(如客服、電話銷售、金融機構合規錄音):依《個人資料保護法》第 8 條告知義務,必須在通話開頭播放標準告知語:「為提供您更好的服務,本次通話將被錄音」。告知 + 繼續通話 = 法律上視為默示同意。
  • 跨境通話:對方在歐盟 / 英國時依 GDPR 處理,要顯式同意;對方在美國加州、伊利諾等雙方同意州時,依該州法律。
  • LINE 語音通話:條款禁止第三方錄製,技術上也阻止。
  • 金管會 / 證券業合規錄音:證券業從業人員與客戶通話依《證券商管理規則》必須錄音保存,是法定義務。

以上都不是法律意見。正式場合(勞動爭議、契約訴訟、行政裁罰)取證用的錄音,建議事先諮詢律師確認在該管轄區是否可採。

iPhone / Pixel 自帶轉寫 vs Atter AI

能力iPhone(iOS 18.1)Pixel RecorderAtter AI
原生通話錄音支援(18.1+)支援(Pixel 4+)N/A(轉寫層)
轉寫語言英語為主僅英語90+ 語言
乾淨通話準確率約 92-94%約 92-94%98.7%
說話人分離雙人基礎雙人基礎最多 10 人
跨錄音搜尋單錄音內全文搜尋整個歸檔
匯出格式TXTTXTPDF、DOCX、TXT、SRT、VTT、JSON
時長限制
費用隨裝置隨裝置$129.99 終身 / $49.99/年 / $6.99/週 + 3 天免費試用

其他音檔來源的處理流程可以參考 線上音檔逐字稿 和訊號特徵略不同的 Google Meet 錄音逐字稿

電話錄音逐字稿常見問題

我自己錄自己的通話合法嗎?

依台灣《通訊保障及監察法》第 29 條,通話一方為錄音之主體且非出於不法目的,不罰,實務上屬於單方同意。但把錄音公開傳播仍可能侵害對方隱私權或名譽權。商業場景必須在通話開頭播放告知語。跨境通話依較嚴格那一方的法律處理。涉及訴訟證據建議先諮詢律師。

Atter AI 對傳統 8 kHz 電話音質的準確率如何?

Atter AI 有獨立的窄頻聲學模型,乾淨的 8 kHz 錄音可以穩定在 92–95% 準確率,看口音和專有名詞密度。現代 16 kHz 寬頻音訊(VoLTE、VoIP、iPhone/Pixel 錄的)可以達到 98.7%,跟 Zoom 或實體會議錄音同水準。

8 個人的電話會議錄音能轉逐字稿嗎?

可以。Atter AI 在單聲道上穩定支援最多 10 位不同說話人。超過這個數量(董事會電話、全員大會)建議用逐字稿配占位符 Speaker 1Speaker N,事後按出席名單批次改名。

Atter AI 支援 TapeACall、Cube ACR、Rev Call Recorder 的匯出檔嗎?

支援。所有主流通話錄音 App 都匯出標準格式(.mp3.m4a.wav)。直接上傳到 Atter AI,不必手動轉碼——系統內部會處理。

iPhone 內建轉寫能搞定中文通話嗎?

iOS 18.1 內建本機轉寫以英語為主,對繁體中文支援有限,遇到中英夾雜、台語混合、或南部口音準確率會大幅下降。中文通話建議匯出音檔到 Atter AI,90+ 語言支援包含完整繁體中文、粵語、和主要方言。

我有幾年前的 .amr 格式電話錄音,還能轉嗎?

可以。Atter AI 接受 .amr.au.gsm、8-bit .wav 等老格式,常見於老客服中心歸檔。系統會自動轉碼到適合語音識別的中間格式。窄頻錄音準確率比寬頻低但乾淨音質下仍在 92–95%。

開擴音用另一台手機錄音違法嗎?

錄音的「機制」不改變合規要求——如果場景要求所有參與方同意,就必須在錄音開始前取得同意,不管你用的是手機原生功能、第三方 App 還是另一台裝置的錄音機。iPhone 和 Pixel 系統播放的「此通話將被錄音」提示語就是在做這個合規動作,第二台裝置的錄音機不會自動做。

客服中心一年幾萬通錄音怎麼批次轉?

用 Atter AI 的資料夾批次上傳或 API 整合。RingCentral、Zoom Phone、Microsoft Teams Phone、企業 SIP 系統都開放了 Webhook 推送或批次匯出介面,都能對接 Atter AI 工作區的接收端點。一個月千小時以上的企業客服中心,API 整合比人工上傳效率高一個數量級。