AI 转录

录音转文字后还不知道谁说了什么?AI 自动识别说话人的完整指南

手动打人名标签能让转文字时间翻倍。看 AI 说话人分离怎么在同一步识别 10+ 个声音——无需预录声纹,改一次名字全文同步。

快速回答

想让录音自动区分「谁说了什么」,你只需要打开带**说话人分离(speaker diarization)**功能的 AI 录音转文字——这一步会把一条混合音轨拆成「说话人 1 在几分几秒说了什么、说话人 2 又说了什么」。转写完成后,每段话已经按说话人分好了,你只要对每个标签改一次名字,整份文稿里这个人的所有发言就全部更新。五个人开了 60 分钟的会,从一堵谁说的都不知道的文字墙,变成干净有归属的对话记录,大概就是泡一杯咖啡的时间。

有两个前提要满足。音频得干净到能分辨出不同声音,AI 引擎得足够擅长处理最难那段——也就是两个人同时说话的串音。干净音频下,Atter AI 录音转文字准确率 98.7%,说话人识别在同一步完成,不用额外跑一遍分离流程。

编辑结论

说话人分离和说话人识别是两个不同的问题,但大多数人把它们混为一谈。分离回答的是「总共有几个声音、每个声音什么时候说话」——AI 全程自动完成,不需要任何预先信息。识别是把真实姓名和每个声音对应起来——这步还是要你来:你告诉它「说话人 2 是李明」,改一次就完事了。机器永远不"知道"那是李明,它只知道「声音 2 在整场会里是同一个人」。搞清楚这两件事的边界,就是区分「相信输出结果」和「被结果惊到」的关键。

「自动识别说话人」到底是怎么回事

很多人说想让 AI「知道是谁在说话」,其实同时在要求两件事。第一件是全自动的,第二件不是——假装它是全自动的,只会产生错误期待。

说话人分离是自动那部分。模型听音频波形,实时给每个不同的说话人建一个声纹,然后按此切分转写结果。不需要提前录样本。四个陌生人的录音扔进去,它能稳稳地把四个人分开,各自打上标签。

说话人识别——给每条声道贴上真实姓名——需要一次人工介入。你听说话人 2 第一次出场的那几秒,认出是谁,改个名字,完成。这之后,整份文稿里「说话人 2」的每一段都会换上这个名字。一场典型的多人会,你大概改两到六个标签,就全搞定了。

为什么这点很重要:没有任何通用 AI 录音转文字工具能单靠音频「神奇地知道」你同事叫什么,凡是声称能做到的,要么提前录了声纹(这是个隐私权衡),要么就是在猜。诚实的分离 + 30 秒改名,比这两个方案都快、都靠谱。

如果你刚开始接触 AI 处理会议录音,建议先看AI 会议录音转文字入门指南打好基础,再回来专门研究说话人这一层。

技术层面:分离流程是怎么跑的

说话人分离大概分三个阶段,搞清楚这三步,就知道错误从哪里冒出来了。

  1. 人声活动检测模型先判断哪段音频是语音,哪段是静音、背景音乐或键盘敲击声。这一步出问题,背景噪声就会被识别成一个幻影说话人。
  2. 声纹嵌入 + 聚类每段语音被转成数字声纹,声纹相近的片段被归入同一个聚类,每个聚类代表一个说话人。两个音高接近的男声,就是聚类最容易搞混的情况。
  3. 和转写文字对齐说话人时间线和逐字转写拼合在一起,每句话继承一个说话人标签。两个人同时说话的串音时刻最难处理,因为两个声纹同时激活。

研究里衡量分离质量的核心指标是说话人错误率(DER,Diarization Error Rate)——被错误归属的音频时间比例。干净的双人到四人音频上,现代系统的 DER 大概落在 5–10% 这个区间,说话人增多或音质变差,这个数字涨得很快。这给你一个直觉:即便是很好的系统,遇上杂乱的会议也会标错一些片段,所以过一遍人工核查还是值的。

决定识别效果的几个关键数字

说话人识别质量不是简单的「能用 / 不能用」,几个具体的数字基本决定了结果好不好。

10+
单场录音里说话人分离最多能处理的独立人数
约 13%
典型多人会议中属于串音的音频比例,也是最难识别的部分
98.7%
干净音频下的录音转文字准确率

还有几个实际用起来很重要的数字:

  • 2 到 4 个说话人是甜区,准确自动打标签基本不费力气。超过大约 8–10 个人,就得准备手动合并或拆分几个标签。
  • 麦克风距离是单个影响最大的变量。每人用自己的耳机分轨采集,比一只放在桌中央的会议室麦克风,说话人分离错误率低 4–6 倍
  • 串音——两个人同时说话——占典型多人会议大约 13% 的时间,也是大部分标注错误的来源。争论型会议比有序轮流发言的会议,事后标注明显更费力。
  • 改名一次,这个说话人在整份文稿里 100% 的片段都同步更新——改名的工作量不会随录音时长增加,只跟说话人数量有关。

最后这条是安静的大赢。15 分钟的会和 3 小时的会,如果都有 5 个说话人,你改名的工作量完全一样。Atter AI 没有时长和文件大小限制,3 小时的董事会全程当成一个文件传进去,一次跑完所有标签。

从原始录音到有名字的转写:完整操作流程

实际从头到尾是这样的。

  1. 从源头采集好音频能的话录分轨(Zoom、Teams、Webex 都支持按参会人分轨采集)。实在只有一只会议室麦克风,尽量放中间,跟大家说别抢着说——你未来的自己会感谢现在这点努力。
  2. 上传,等分离跑完把文件扔进去。转写回来时就已经按说话人 1、说话人 2……分好了,不用去找什么额外开关。
  3. 每个标签改一次名字点进每个说话人第一次出现的地方,听两秒,输入真实姓名,全文同步。
  4. 重点检查串音时刻跳到转写里快速来回切换的那几段,那里最容易出现某句话被归到错误的人名下。找到几处,手动修正。
  5. 带名字导出按说话人归属的文字、SRT/VTT 字幕,或者带标签的摘要——人名跟着导出一起走。

转写打好标签之后,说话人信息就开始发挥下游价值了。它能让 AI 摘要说「李明承诺在周五前确认规格」,而不是「有人提到了关于规格的事」。下一步提取带负责人的行动项,恰恰完全依赖说话人标签先打准确。

哪些情况会让自动打标签翻车(以及怎么救)

没有哪个分离系统是完美的。以下是你实际会碰到的四类失败,按出现频率排序。

自动打标签效果好的情况…

  • 每人用自己的麦克风或耳机
  • 2 到 6 个参会人,声音特征差异明显
  • 大家基本轮流发言,不怎么抢着说
  • 录音干净,没有空调噪声或咖啡馆背景

要做好人工清理准备的情况…

  • 所有人共用一只桌上的会议室麦克风
  • 10+ 个说话人,或几个人声音相近
  • 大量打断和插话
  • 某人只出现 20 秒,被合并进了别人名下

最常见的单一错误是幻影说话人:背景噪声、咳嗽或关门声被聚类成了一个独立的说话人,结果你多了一个只说了三个字的「说话人 6」。解决方法是两秒钟的合并操作——把那些孤立片段归到最近的真实说话人名下。

第二种是身份被拆分:一个人的声音被分成了两个标签,通常是因为同一个人在通话前段(平静)和后段(激动)声音差别太大,或者中途从耳机换成了免提扬声器。把两个标签合并,全文就对齐了。

老实说,这两种错误在你碰到之前听起来很严重,实际处理起来每次三到五秒就搞定,不用紧张。

为什么 30 秒改名值得做

很多人懒得改,觉得「说话人 1 说……」凑活能用。不要这样。多人转写的全部价值就在归属二字上。谁做的决定、谁给的承诺,一旦没有名字,就等于没有。

这是驱动所有下游工作的那一层。一份按说话人整理的会议摘要,读起来像真正的会议记录;没有名字的,读起来只是一堆文字的堆叠。决策日志、跟进邮件、责任追踪——全部建立在「谁说了什么」这个基础上。标签一次打准,从这份录音生成的每一份报告都继承这份准确性。

定价

说话人识别真正有价值,前提是你能在每场多人会上用,不只是正式会议——恰恰是那些「随便聊聊」的临时同步,最容易发生归属不清的情况。按分钟计费,恰好让人不愿意在这种会上用。

Atter AI 是统一定价:$6.99/周、$49.99/年,或 $129.99 终身买断,附带 3 天免费试用,没有按分钟也没有按录音条数的用量上限。说话人分离和 90+ 语言支持全部包含在内——一场会里英文、日文、西班牙语轮着说,每个声音的标签也全程跟着走。

常见问题

不提前录声纹样本,AI 也能识别说话人吗?

分离——这就是说话人分离,完全自动,不需要任何预先样本。但不能自动把真实姓名和声音对应起来,因为没有任何只靠音频的模型知道你同事叫什么。你改一次名字(一场典型的会改两到六个标签),名字就在全文同步了。凡是声称能完全不需要人工、直接从无名到有名的工具,要么提前录了声纹,要么就是在猜。

AI 能区分几个人说话?

可靠的自动分离能处理 10+ 个独立声音,但最舒服的区间是 2 到 4 个人,标注基本不费什么力气。超过大约 8–10 个说话人,或者几个人声音相近时,要准备手动合并或拆分几个标签。效果更多取决于麦克风方案,而不是纯粹的说话人数量。

说话人分离和说话人识别有什么区别?

分离是「总共有几个声音、每个声音什么时候说话」——自动完成,不需要任何预先知识。识别是「每个声音对应的真实人名」——那是你改名的那一步。AI 其实永远不”知道”那是谁;它只知道声音 2 在整场会里前后一致,而你把它标记成了张三。把这两件事分开理解,是建立合理期待的关键。

为什么转写里出现了一个几乎没说什么话的说话人?

那是幻影说话人——背景噪声、咳嗽或关门声被聚类成了一个独立的声道。这是最常见的分离错误。把那些孤立片段归到最近的真实说话人名下,人数就对了。更干净的音频和每人分轨采集,基本能预防这种情况。

说话人识别能跨语言工作吗?

可以。分离是基于声纹,不是词语,所以不管会议用韩语、葡萄牙语还是德语都一样有效——Atter AI 支持 90+ 种语言,包括同一场会里说话人随时切换语言的情况。每个声音的追踪不因语言切换而中断。

自动打标签的准确率有多高?

底层录音转文字在干净音频上准确率 98.7%,说话人归属在 2 到 4 个说话人、各用独立麦克风的情况下非常好。说话人增多、共用麦克风、串音增加,准确率会下降——这也是为什么在用这份记录做任何重要事项(比如决策日志)之前,花 30 秒检查一遍串音时刻是值的。

我上传的录音会保密吗?

会。Atter AI 不会用你上传的录音训练模型,它们只属于你的账户。分离过程建立的声纹仅用于分离同一份文件里的说话人,不会积累成永久的声纹数据库。涉及 HR、法律或医疗内容的录音,先走一遍你们组织的标准合规审查流程再说。