AI 转录

浏览器在线录音转文字:免安装、无时长封顶

把 MP3、M4A、WAV、FLAC、OGG 拖进浏览器就能拿回可搜索的文字稿——不用上传额度、不装软件、覆盖 90+ 语言。

2026 年浏览器端的 录音转文字 已经彻底成为主流:全球约 71% 的音频转写任务跑在网页上传器里,2023 年这个数字只有 38%。原因很直接——Web Audio API、WebAssembly、分块上传协议这几年都成熟了,加上家用宽带从百兆全面进入千兆,浏览器现在处理一两 GB 的音频文件,速度已经和桌面客户端几乎没差距。一个 60 分钟的 MP3,2022 年要 14 分钟才能跑完上传加转录,2026 年差不多 90 秒搞定,而且这 90 秒里大部分时间是上传带宽本身,不是 AI。

这篇指南是「免安装」在线 录音转文字 的实操手册,覆盖:浏览器到底能接受哪些音频格式、单文件多大算合理、完整上传到导出的步骤,以及那些悄悄让准确率掉 5 到 15 个百分点的坑——变码率 MP3、聊天软件导出的 OPUS、多声道 WAV——这些 AI 看到之前就已经在源头上把质量损失了。

2026 年「在线转录」其实有三种工作流

经常被混着说,但底层差异很大:

工作流浏览器里跑什么服务器跑什么
纯云端上传 + 界面解码、ASR、说话人分离、摘要
浏览器端 WASM解码 + 小模型 ASR
混合模式(2026 主流)上传、解码、语音活动检测完整 ASR + 后处理

纯浏览器 WASM 听起来更隐私,但 2026 年这条路线在干净英文音频上准确率仍卡在 92% 上下,支持的语言不到 15 种——因为完整尺寸的语音模型放不进浏览器内存。云端和混合模式才能跑到 98.7% 准确率、90+ 语言无差别覆盖,Atter AI 包括在内的主流服务都是走这条路线,音频全程 TLS 1.3 加密传输。

浏览器能上传的音频格式,以及哪些真正能转准

<input type="file" accept="audio/*"> 元素几乎来者不拒,但准确率因格式差异很大:

格式容器典型来源在线转录准确率*
MP3(CBR 192 kbps+).mp3播客、音乐应用98.5%
MP3(VBR 低码率).mp3网页抓取、旧语音条94–96%
M4A / AAC.m4a、.mp4iPhone 语音备忘录、Apple Podcasts98.7%
WAV(16 位、16+ kHz 单声道).wav录音笔、USB 麦克风99.0%
FLAC.flac无损归档98.9%
OGG / OPUS.ogg、.opus微信、WhatsApp、Telegram、Discord97–98%
WebM (Opus).webm浏览器 MediaRecorder、OBS97.5%
AMR.amr老安卓拨号录音88–92%
3GP.3gp功能机录音86–90%

*测量基于 2026 年 5 月 Atter AI 在干净普通话音频上的实测。

最容易拉低准确率的两个格式:AMR(1990 年代的窄带编码,部分老安卓拨号器还在用),以及微信、WhatsApp 在弱网下「按住录音」时强制压到 6 kbps 的 OPUS 语音条。这两种都能转,但会有 5–10 个百分点的准确率损失,云端再强也救不回来。能控制录音端的时候,优先选 M4A 或 WAV。

2026 年单文件多大算合理

浏览器自身早已不是瓶颈:现代 Chrome、Edge、Safari 17+、Firefox 122+ 都支持从磁盘流式分块上传,理论上一次请求能推 64 GB 以上。真正的上限来自三个地方:

  • 服务端请求上限。 主流转录服务把单文件限制在 500 MB 到 5 GB 之间。Atter AI 网页上传器接受 单文件最大 5 GB,相当于 iPhone 默认压缩质量约 92 小时音频。
  • 移动网络可靠性。 500 MB 文件在 LTE 上一次成功率约 73%,Wi-Fi 6 稳定环境下能到 99.4%。Atter AI 上传器使用断点续传协议,每 5 MB 一个 checkpoint,把这个差距基本抹平。
  • 浏览器内存。 4 GB 内存以下的电脑在前台标签转码 3 小时以上的 WAV 偶尔崩溃。云端方案把解码放到服务器,从根上避免。

实操经验:2 GB 是个舒适分界线。再大就用 ffmpeg -ss 00:00:00 -t 01:00:00 切成 1 小时一段,零成本且更稳。

实操步骤:用 Atter AI 在浏览器里转录

打开 https://transcription.atter-ai.com 的流程:

  1. 进入网页上传器。 免安装、免扩展、首次上传前不强制注册。Chrome、Edge、Safari、Firefox、Brave、Arc、Opera 当前版本和前一大版本都支持。
  2. 拖文件进来,或点击选择。 除了音频,也支持视频容器(.mp4.mov.mkv.avi),服务端会自动剥离音频轨。
  3. 选源语言,或保持「自动检测」。 自动检测在前 30 秒清晰语音上 92% 的概率命中正确语言;短片段或嘈杂音频手动指定能多 0.5–1.5 个百分点。
  4. 多人对话时打开说话人分离。 每分钟音频额外增加约 10 秒处理时间,输出按说话人分段,每段都能重命名。
  5. 提交。 60 分钟 M4A 在普通宽带上 60–90 秒完成——大部分时间是上传本身。
  6. 导出。 支持 PDF、DOCX、TXT、SRT、VTT、JSON。SRT/VTT 用原始音频时间戳,直接拖进视频剪辑软件或 YouTube 字幕上传器就能用。

3 天免费试用覆盖完整流程,无单文件、无单分钟上限。付费方案:$6.99/周、$49.99/年、$129.99 终身——任何方案都没有时长限制,包括免费试用本身。

浏览器版和桌面客户端的差别

Atter AI 同时提供 Mac、Windows 客户端和浏览器上传器。在线方案三个真实优势、两个真实代价:

优势

  • 零安装,Chromebook、Linux、学校或公司管控的电脑都能用。
  • 所有系统界面一致,不会出现 Mac 和 Windows 版本不同步的问题。
  • 借的电脑、图书馆电脑用完不留痕。

代价

  • 上传是双向的——必须先把音频推上去 AI 才能开始;桌面客户端能直接吃本地缓存的音频。
  • 一次性 20 个以上文件批处理,桌面客户端比浏览器标签好用。

10 个文件以内、上传带宽 50 Mbps 以上,在线流程端到端更快。大批量任务才需要桌面客户端。

在线 录音转文字 常见误区

上传前重新编码。 很多用户用 Audacity 「标准化」一下再换格式上传——每次重编码都丢信息。原始录音怎么来的,就原样上传。

静音剪得太狠。 一些播客插件(Hindenburg、Auphonic)把所有大于 0.5 秒的间隔都剪掉。剪过的音频转得更快,但说话人分离用来判定换人的自然停顿被切没了。两个发言人之间至少留 1 秒。

只要文字却上传了视频。 1 小时 1080p MP4 大约 1.5–3 GB;同样 1 小时音频抽成 M4A 是 30–60 MB。Atter AI 都支持,但音频上传快 30–50 倍。macOS 一行命令:ffmpeg -i input.mp4 -vn -c:a copy output.m4a

多语言录音手动选了单一语言。 中英混说的会议,把语言选择留在「自动」比手动锁定一种语言效果好——AI 会按句切换语言,而不是把所有内容硬套到一种语言上。

针对具体来源的文件,平台专属指南讲得更深:iPhone 语音备忘录转录播客 AI 录音转文字,以及更通用的 音频转文字指南,都把网页上传器作为推荐的统一入口。

隐私:文件上传后到底怎么处理

2026 年用户问得最多的就是这个,必须给具体答案,不能糊弄。Atter AI 的管线:

  • 传输中: TLS 1.3,HSTS 预加载,证书由 Let’s Encrypt 签发。
  • 存储中: AES-256 服务端加密,按账户区域固定到中国境外的美国、欧盟或亚太节点。
  • 保留期: 上传的源音频在转录交付后 24 小时内从临时处理存储中删除。转录文本本身留在你的账户里,由你自己控制保留时长。
  • 训练: 上传音频和生成的转录文本永不用于训练模型。这是合同硬约定,不是默认开启的「可选退订」。

如果 24 小时还嫌长,可以在仪表板里转录下载完成后手动删除源音频。删除是硬删除,不是软标记。

速度实测(2026 年 5 月)

实测环境:美国东岸住宅 940/40 Mbps:

文件大小上传转录总时长
30 分钟 MP3(192 kbps)41 MB9 秒28 秒37 秒
60 分钟 M4A(iPhone)28 MB6 秒52 秒58 秒
60 分钟 WAV(16 位单声道)110 MB23 秒51 秒74 秒
2 小时播客(FLAC)540 MB1 分 53 秒1 分 44 秒3 分 37 秒
4 小时会议 WAV1.4 GB4 分 51 秒3 分 28 秒8 分 19 秒

三条规律:大文件上传占总时长大头;文件体积比时长更重要(30 分钟高码率 WAV 比 90 分钟 M4A 还慢);AI 本身始终在大约 35–40 倍实时速度跑,跟输入格式基本无关。

在线 录音转文字 常见问题

不注册账号能在线转录吗?

可以。Atter AI 的 3 天免费试用允许在加付款方式之前上传转录。只需要邮箱接收下载链接,不要求绑卡。

浏览器单文件最大支持多大?

Atter AI 网页上传器接受单文件最大 5 GB,相当于 92 小时压缩 M4A 或 8 小时未压缩 24 位 WAV。2 GB 以上建议有线或 Wi-Fi 6 环境,避免大文件重试浪费时间。

哪种音频格式准确率最高?

WAV 16 位 16 kHz 以上单声道、FLAC 并列第一,干净普通话约 99% 准确率。iPhone 的 M4A 在实测中几乎打平(98.7%)。192 kbps 以上 MP3 略低一点。聊天软件的 OPUS 语音条因为发送端激进压缩,再低 1–3 个百分点。

Chromebook 或公司管控的 Chrome 上能用吗?

能,而且这是在线方案最有优势的场景。不需要扩展、不需要 Chrome flag、不需要管理员权限。学校禁止安装 Play 商店应用的 Chromebook 也能跑满速。

微信语音条可以在线转录吗?

可以。微信导出的 OPUS 文件直接拖进 Atter AI 上传器。微信压缩比较狠,准确率在 97–98% 之间;如果对方愿意,请他录完之后以「文件」形式发更高质量的录音过来。

1 小时音频在线转录要多久?

50 Mbps 以上上传,M4A 约 60–90 秒。大部分时间是上传不是 AI。1 小时未压缩 WAV(约 330 MB)总共要 2–3 分钟,因为文件大 10 倍。

MP4 视频要先转成音频再上传吗?

不必。Atter AI 直接接受 MP4、MOV、MKV、AVI、WebM,服务端剥离音频轨。但如果你上传带宽紧张,先转成音频能让上传快 30–50 倍,准确率没差别。

在线 录音转文字 我的音频会被用来训练 AI 吗?

不会。Atter AI 的合同硬约定:上传音频和生成的转录文本永不用于训练模型。源音频在转录交付 24 小时内从处理存储中删除;转录本身留在你账户里,由你自己删。