AI 转录

电话录音转文字:先搞清楚合规问题,再谈技术流程

iOS 18.1 在 2024 年 10 月加入原生通话录音,国产安卓早已内置。结合 Atter AI 把电话录音转文字做到 98.7% 准确率。

大多数讲电话录音转文字的教程都会一上来就告诉你”第一步,打开某某 APP”。这个顺序错了。电话录音首先是一个合规问题,其次才是技术问题,而且谁是合规主体、谁要负责通知对方,会随你所在地区不同而变化。中国《个人信息保护法》(2021 年 11 月生效)把”通话录音”定性为个人信息处理活动,原则上需要取得对方同意;《民法典》第 1033 条进一步明确禁止”以电话、短信、即时通讯工具、电子邮件、传单等方式侵扰他人的私人生活安宁”。美国联邦法(18 U.S.C. § 2511)默认”单方同意”,但加州、佛州、伊利诺伊、马里兰等 12 个州要求所有参与方同意;欧盟 GDPR 几乎所有情况下都要求显式同意。跨境通话时,通常按更严格那一方的法律来判

把合规问题解决之后,技术流程在过去 18 个月里已经简单到几乎不需要教程。iOS 18.1 在 2024 年 10 月 28 日上线,自带通话录音功能,这是 iPhone 自 2007 年发布以来第一次原生支持。国产安卓(华为、小米、OPPO、vivo、荣耀)早在 2018 年前后就内置了通话录音。Google Pixel 从 2019 年 Pixel 4 开始就有。难的不再是”怎么录到音频”,而是”怎么把这段低码率、常常是窄带的录音变成真正可用的文字稿”。这就是这篇教程要解决的部分——Atter AI 在 90+ 语言上把电话录音转文字做到 98.7% 准确率。

音质底线:8 kHz 还是 16 kHz

传统电话音质长期停留在 8 kHz / 64 kbps 的 G.711 编码——这套标准 1970 年代写进 PSTN 交换机就一直没动,到 2026 年仍是大多数固话和老一代移动网络的现实。HD Voice(中国移动 / 联通 / 电信 VoLTE 全面铺开是 2017 年前后)把采样率提到 16 kHz,用 AMR-WB 或 Opus 编码。听感差别非常明显:8 kHz 砍掉了 4 kHz 以上的所有频率,人声里几乎所有”亮度”都没了,所以传统电话听起来比同等音量的腾讯会议要”闷”。

这件事对录音转文字直接影响准确率。主流语音识别系统是用宽带(16 kHz 及以上)音频训练的,遇到 8 kHz 输入会丢掉几个百分点的准确率,名字、专业术语、带口音的发音首当其冲。Atter AI 用了两套独立的窄带和宽带声学模型,按输入音频的采样率自动路由——老的 8 kHz 通话录音也能转出可用结果,但用 iPhone / 国产安卓 / VoIP 录的 16 kHz 通话能拉到 98.7%。

iPhone 和国产安卓本机录下来的文件通常已经是 16 kHz,因为系统在 PSTN 端下采样之前就把上下行混合捕获了。从 VoIP 后台(腾讯会议电话、钉钉、阿里云通信、华为 WeLink)导出来的录音要看导出格式——大多数默认 16 kHz .mp3.wav,但有些老旧租户还在 8 kHz。

方法一:iPhone 原生通话录音(iOS 18.1+)

iOS 18.1 在 2024 年 10 月 28 日推送,所有运行 18.1 及以上系统的 iPhone(iPhone XS 及更新机型)都支持。操作流程:

  1. 通话进行中,点击通话界面左上角的录音按钮。
  2. 对方会听到一段提示音和语音播报:“此通话将被录制”。这是苹果故意设计的合规 UX,不是 Bug。
  3. 通话结束后,录音自动存进备忘录 APP(不是录音机),附带自动生成的转写文字和 AI 摘要。
  4. 长按备忘录里的录音附件 → 共享 → 存到”文件” APP 或 AirDrop 到 Mac,或者发给任何应用。

如果你需要比苹果内置转写更高质量的结果,把音频导出到 Atter AI 即可。苹果本机转写以英语为主,遇到中文混合、专业术语或地方口音准确率会明显下降。iPhone 音频的完整处理流程在 iPhone 语音备忘录转文字 里有详细说明。

方法二:国产安卓 + Pixel 通话录音

国产安卓厂商在通话录音上比苹果早了至少 6 年。华为 EMUI、小米 MIUI、OPPO ColorOS、vivo OriginOS 在 2018 年前后就把通话录音做进了系统拨号 APP,操作流程基本一致:

  • 通话界面下方”录音”按钮一键开启,对方端会听到本机播出的”此通话正在被录音”提示音(不同厂商措辞略有不同,但都会有提示)。
  • 录音文件存到本机存储 Sounds/CallRecord/ 或类似路径,格式通常是 .mp3.amr
  • 在文件管理器里找到这个文件夹,把 .mp3/.amr 上传到 Atter AI。

Google Pixel 从 2019 年 Pixel 4 开始支持通话录音,文件存在 Recorder APP 里,可以直接分享导出 .m4a

部分海外发行的 Android 通话录音功能被 Google 在 Android 11 之后通过限制 Accessibility API 整体阉割了,这就是为什么 Samsung 美版没有但国行有。如果你在国外用国行手机出差,这个差异要心里有数。

方法三:VoIP / 企业电话系统导出

如果通话是在腾讯会议电话、钉钉电话、阿里云通信、华为 WeLink、企业微信会议电话、或者海外的 RingCentral / Zoom Phone / Microsoft Teams Phone 上发生的,平台 99% 已经按租户策略把通话录下来了。导出流程大同小异:

  1. 进入平台管理后台或个人通话记录。
  2. 按日期、分机或参与人筛选。
  3. 选中通话 → 下载录音(或批量导出)。
  4. 打开 Atter AI → 上传 → 把下载的文件拖进去。

对于呼叫中心或销售团队这种高并发场景,多数 VoIP 平台都开放了 Webhook 或 API,可以把每通完成的录音自动推送到一个目标地址。把这个 Webhook 指向 Atter AI 工作区的入站接口,是保证”每通电话都自动转文字”的最干净方案。一个典型的钉钉电话企业租户每个坐席一个月会产生 500–2000 条通话录音,纯手工导出不现实。

方法四:第三方录音 APP

如果你和对方都不是用原生支持录音的手机系统,第三方 APP 还是要登场。2026 年的主力玩家:

  • 录音宝、讯飞通话录音、备忘录电话录音(国内)——通过本地接听键盘集成,多数支持 16 kHz .mp3 输出。
  • TapeACall(iOS/Android,国际版)——5M+ 下载,月费 $9.99 或年费 $59.99,用三方通话桥接录音。
  • Rev Call Recorder(iOS)——录音免费,转写按分钟 $0.25 收费,机制和 TapeACall 类似。
  • 微信、QQ 语音通话——端到端加密,第三方 APP 无法录制双方音频。你只能本机麦克风开免提捕获,本机说话清晰、对方端的音量会损失大约 6 dB。

“开免提 + 用另一台设备录音”这个土办法在 2026 年仍然有效,对一次性需求来说音质够用。Atter AI 的说话人分离仍然能把两个人区分开,因为本机麦克风录到的本人声音和扬声器播出的远端声音在声学特征上差异很大。

方法五:电话会议桥 + 历史归档

传统电话会议桥(中国移动 / 联通 / 电信 800 拨入式会议、海外 Free Conference Call、GoToMeeting Audio)导出的录音通常是单声道 .mp3.wav,所有参会人混在一个轨道里。这里转文字本身不是问题,说话人分离才是难点:6 个人在同一个 mono 通道里,Atter AI 只能靠声学特征区分。

Atter AI 在单声道上稳定支持最多 10 个不同说话人。超过 12 人的大型会议桥(董事会电话、全员大会),更实用的产出是带 Speaker 1Speaker N 占位符的逐字稿,事后按出席名单批量改名。

老的呼叫中心合规归档常常是 .au.gsm、8-bit .wav 这类老格式,Atter AI 都能直接吃进去,内部转码到适合语音识别的中间格式。8 kHz .gsm(老式呼叫中心常用)准确率会比宽带低一些,但干净录音仍能稳定在 92–95%。

个保法与录音合规:中国的现实

合规问题是大多数教程跳过的部分。在中国,《个人信息保护法》第 13 条把”取得个人同意”列为合法处理个人信息的首要条件,《民法典》第 1032 条把”私人通讯”明确归入隐私权保护范围。实务中

  • 个人之间通话:单方同意(即你自己是通话参与人)一般不构成违法录音,但把录音公开传播仍可能侵犯对方隐私权和名誉权。
  • 商业场景下录音(如客服、电销、金融机构合规录音):需要在通话开始前播放标准告知词(“为提供更好服务,本次通话将被录音”),告知 + 继续通话 = 法律上视为默示同意。
  • 跨境通话:对方在欧盟 / 英国时按 GDPR 来,需要显式同意;对方在美国加州 / 伊利诺伊等两方同意州时,按那个州的法律。
  • 微信、QQ 语音通话:腾讯条款明确禁止第三方录制,技术上 E2E 加密也阻止了。

以上都不是法律意见,正式场合(劳动仲裁、合同诉讼、行政处罚)取证用的录音,最好先咨询专业律师确认在该司法管辖区是否可采。

iPhone / 国产安卓 自带转写 vs Atter AI

能力iPhone(iOS 18.1)国产安卓自带Atter AI
原生通话录音支持(18.1+)支持(2018+)N/A(转写层)
转写语言英语为主中文+英文90+ 语言
干净通话准确率约 92-94%约 90-93%98.7%
说话人分离双人基础通常没有最多 10 人
跨录音搜索单录音内全文搜索整个归档
导出格式TXTTXTPDF、DOCX、TXT、SRT、VTT、JSON
时长限制
费用随设备随设备$129.99 终身 / $49.99/年 / $6.99/周 + 3 天免费试用

其他音频源的处理流程可以参考 线上音频转文字 和信号特征略不同的 腾讯会议录音转文字

电话录音转文字常见问题

我自己录自己的通话合法吗?

看场景。中国《个人信息保护法》原则上要求取得同意,但”对话参与人录音”在司法实践中通常被认为属于合理范围,前提是不公开传播、不用于不正当目的。商业场景必须在通话开头播放告知词。跨境通话时按更严格那一方的法律来判。涉及诉讼证据时建议先咨询律师。

Atter AI 对传统 8 kHz 电话音质的准确率怎么样?

Atter AI 有独立的窄带声学模型,干净的 8 kHz 录音可以稳定在 92–95% 准确率,具体看口音和专业术语密度。现代 16 kHz 宽带音频(VoLTE、VoIP、iPhone / 国产安卓录的)可以达到 98.7%,跟 Zoom 或腾讯会议线下录音水平一致。

8 个人的电话会议录音能转文字吗?

可以。Atter AI 在单声道上稳定支持最多 10 个不同说话人。超过这个数量的(董事会电话、全员大会)建议用逐字稿配占位符 Speaker 1Speaker N,事后按出席名单批量改名。

Atter AI 支持 TapeACall、录音宝、讯飞通话录音的导出吗?

支持。所有主流通话录音 APP 都导出标准格式(.mp3.m4a.amr.wav)。直接上传到 Atter AI,不用手动转码——系统内部会处理。

iPhone 自带的转写能搞定中文通话吗?

iOS 18.1 自带的本机转写以英语为主,对中文的支持有限,遇到中英混合或方言(粤语、闽南语、四川话)准确率会大幅下降。中文通话建议把音频文件导出到 Atter AI,90+ 语言支持包括完整的简繁中文、粤语、和主要方言。

我有几年前的 .amr 格式电话录音,还能转吗?

可以。Atter AI 接受 .amr.au.gsm、8-bit .wav 等老格式,常见于老呼叫中心归档。系统会自动转码到适合语音识别的中间格式。窄带录音准确率比宽带低一些但干净音质下仍在 92–95%。

开免提用另一台手机录音违法吗?

录音的”机制”不改变合规要求——如果场景要求所有参与方同意,就必须在录音开始前取得同意,不管你用的是手机自带功能、第三方 APP 还是另一台设备的录音机。iPhone 和国产安卓系统播放的”本次通话将被录音”语音提示就是在做这个合规动作,第二台设备的录音机不会自动做。

呼叫中心一年几万条录音怎么批量转?

用 Atter AI 的文件夹批量上传或 API 集成。腾讯会议电话、钉钉、华为 WeLink、阿里云通信都开放了 Webhook 推送或批量导出接口,都能对接 Atter AI 工作区的入站端点。一个月千小时以上的企业呼叫中心,API 集成比人工上传效率高一个数量级。