빠른 답변
녹음 속 화자를 자동으로 구분하려면 화자 분리(speaker diarization) 기능이 켜진 AI 전사 도구에 파일을 올리면 된다. 하나의 오디오 스트림을 “누가 언제 말했는지”로 쪼개는 단계다. 녹취록이 화자 1, 화자 2… 형태로 나오면, 각 레이블을 한 번씩 이름으로 바꿔주면 끝 — 그 이름이 파일 전체에 자동으로 반영된다. 5명이 참여한 60분짜리 통화도 커피 한 잔 만들 시간이면 깔끔한 대화록이 된다.
두 가지 조건이 갖춰져야 제대로 작동한다. 목소리가 구별될 만큼 음질이 괜찮아야 하고, 사람이 동시에 말하는 구간(겹침 발화)을 엔진이 잘 처리해야 한다. Atter AI는 깨끗한 음원에서 98.7% 정확도로 전사하면서 화자 분리도 같은 패스에 처리한다. 별도 단계를 따로 돌릴 필요가 없다.
편집자 노트
화자 분리와 화자 식별은 다른 문제다. 대부분의 사람이 이걸 헷갈린다. 분리는 "몇 명이 말했고 각각 언제 말했나" — AI가 아무 사전 정보 없이 자동으로 한다. 식별은 "그 목소리가 실제로 누구냐" — 이 부분은 사람이 한 번 개입한다. 화자 2가 박지수라는 걸 AI는 절대 모른다. 그냥 목소리 #2가 일관되다는 것만 안다. 이 구분을 이해하면, 결과물을 믿을 수 있는 경우와 의외의 오류가 튀어나오는 경우를 정확히 예측할 수 있다.
녹취록에서 화자를 “자동 식별”한다는 게 실제로 무슨 뜻인가
사람들이 “AI가 누가 말하는지 알아줬으면” 할 때, 사실 두 가지를 동시에 원하는 거다. 하나는 자동이고, 하나는 아직 아니다. 이걸 혼동하면 기대치가 처음부터 어긋난다.
화자 분리가 자동 처리되는 부분이다. 모델이 파형을 분석해서 각 화자의 음성 지문을 실시간으로 만들고, 거기에 맞춰 녹취록을 나눈다. 사전 음성 샘플 같은 건 필요 없다. 처음 만나는 네 사람의 녹음을 넣어도 네 개의 레이블로 안정적으로 분리된다.
화자 식별 — 각 트랙에 진짜 이름을 붙이는 것 — 은 사람 손이 한 번 필요하다. 화자 2가 처음 말하는 구간을 들어보고, 목소리를 알아보고, 이름을 입력한다. 그러면 파일 전체의 화자 2 구간에 그 이름이 적용된다. 보통 통화 하나에 두 번에서 여섯 번 정도 하면 끝이다.
왜 이게 중요하냐면: 오디오만으로 동료 이름을 마법처럼 아는 범용 AI 전사 도구는 없다. 그런 게 된다고 주장하는 도구는 사전에 음성 샘플을 등록했거나(프라이버시 트레이드오프) 그냥 추측하는 거다. 솔직한 분리 + 30초 이름 입력이 그 어떤 방식보다 빠르고 믿을 만하다.
AI 전사를 처음 써본다면, AI로 회의 녹취록 만드는 기초 가이드부터 보고 화자 레이어는 여기로 돌아오면 된다.
화자 분리가 내부에서 작동하는 방식
Diarization은 크게 세 단계로 돌아간다. 이걸 알면 오류가 어디서 생기는지 딱 집힌다.
- 음성 활동 감지(VAD)먼저 모델이 어느 구간이 말인지, 어느 구간이 침묵·음악·키보드 소리인지 판별한다. VAD가 허술하면 배경 소음이 유령 화자로 태깅된다.
- 임베딩 + 클러스터링각 발화 구간을 숫자 음성 지문으로 변환하고, 비슷한 지문끼리 묶는다. 각 묶음이 화자 하나가 된다. 비슷한 음역대의 남성 두 명처럼 목소리가 닮은 경우가 클러스터링이 가장 힘든 지점이다.
- 녹취록과 타임라인 정합화자 타임라인을 단어 단위 녹취록에 붙인다. 각 문장이 레이블을 상속받는다. 두 개의 음성 지문이 동시에 활성화되는 겹침 발화 구간이 가장 처리하기 까다롭다.
연구자들이 쓰는 핵심 지표는 DER(화자 오귀속 비율) — 잘못 태깅된 오디오 시간의 비중이다. 최신 시스템은 깨끗한 2~4인 오디오에서 DER 5~10% 수준이고, 화자가 늘거나 음질이 나빠질수록 이 수치는 빠르게 올라간다. 아무리 좋은 시스템도 지저분한 통화에서는 일부를 틀린다. 그래서 짧은 인간 검토가 여전히 값어치를 한다.
화자 자동 식별 녹취록의 성능을 결정하는 숫자들
화자 식별 품질은 단순한 예/아니오가 아니다. 몇 가지 구체적인 임계치가 결과의 거의 전부를 결정한다.
- 10+
- 하나의 녹음에서 화자 분리가 구별할 수 있는 최대 화자 수
- ~13%
- 일반적인 다자 통화 중 겹침 발화(동시 발화)가 차지하는 비율
- 98.7%
- 깨끗한 음원에서의 녹취록 전사 정확도
실전에서 더 체감되는 수치들도 있다.
- 2~4명이 스위트스폿이다. 이 범위에선 자동 레이블링이 거의 힘이 안 든다. 8~10명 이상이 되면 레이블 몇 개를 손으로 합치거나 분리해야 할 수 있다.
- 마이크 설정이 단일 최대 변수다. 참여자별 헤드셋 트랙(Zoom, Teams의 개별 녹음 기능)은 회의실 공용 마이크 대비 화자 분리 오류를 4~6배 줄인다.
- 겹침 발화 — 서로 끼어드는 구간 — 은 다자 통화 전체의 약 **13%**를 차지하며, 오귀속의 대부분이 여기서 발생한다. 격한 논쟁 회의가 차례대로 발언하는 보고 회의보다 레이블링이 어려운 이유다.
- 이름을 한 번만 입력하면 그 화자의 모든 구간에 100% 즉시 반영된다. 통화 길이가 길어도 작업량은 늘지 않는다. 화자 수만 변수다.
마지막 포인트가 조용한 승리다. 15분짜리 통화와 3시간짜리 통화, 화자 수가 같다면 이름 입력 작업도 같다. Atter AI는 녹음 길이·파일 크기 제한이 없어서 3시간짜리 이사회 회의도 파일 하나로 올리고 한 번에 레이블을 붙인다.
원본 오디오에서 이름 붙은 녹취록까지: 단계별 워크플로
실제 작업 흐름, 처음부터 끝까지다.
- 소스에서 녹음하라가능하면 참여자별 트랙으로 녹음한다. Zoom, Teams, Webex 모두 이 기능을 지원한다. 회의실 공용 마이크밖에 없다면 중앙에 놓고 참여자들에게 동시에 말하지 말도록 부탁한다. 미래의 내가 고마워한다.
- 업로드하고 분리 결과 받기파일을 올린다. 녹취록은 이미 화자 1, 화자 2로 분리된 형태로 돌아온다. 별도로 설정을 건드릴 필요 없다.
- 각 레이블에 이름 한 번 입력각 화자가 처음 나오는 구간을 찾아 2초 들어보고 실제 이름을 입력한다. 파일 전체에 바로 반영된다.
- 겹침 구간 빠르게 검수짧게 주거니받거니 하는 구간으로 이동한다. 거기서 틀린 귀속이 주로 튀어나온다. 발견되는 몇 개만 수정하면 된다.
- 레이블 포함해서 내보내기화자 이름이 붙은 텍스트, SRT/VTT 캡션, 요약 — 어떤 형태로 내보내도 이름이 따라간다.
녹취록에 이름이 제대로 붙으면, 그게 이후 모든 작업의 기반이 된다. “박지수가 금요일까지 스펙 마무리한다”는 AI 요약이 가능한 건 레이블이 정확하기 때문이다. 그 다음 단계인 담당자까지 연결된 액션 아이템 추출은 화자 레이블이 맞아야 비로소 작동한다.
자동 레이블링이 실패하는 케이스와 대처법
완벽한 diarization은 없다. 실제로 겪게 되는 실패 패턴 네 가지, 빈도순으로 정리했다.
자동 레이블링이 잘 되는 조건
- 참여자별 각자 마이크 또는 헤드셋
- 2~6명, 뚜렷하게 다른 목소리들
- 겹침보다 차례 발언 위주
- 깨끗한 음질, HVAC 소음이나 카페 배경음 없음
수동 정리가 필요한 조건
- 회의실 탁자 너머 공용 마이크 하나
- 화자 10명 이상, 또는 비슷한 목소리 여러 명
- 끼어들기·동시 발화가 잦은 회의
- 20초 게스트 참여로 다른 화자에 합쳐지는 경우
가장 흔한 단일 오류는 유령 화자다. 배경 소음, 기침, 문 닫히는 소리가 자체 목소리로 클러스터링되어 세 마디밖에 없는 “화자 6”이 생긴다. 처리법은 2초짜리 병합 — 그 고아 구간을 가장 가까운 실제 화자에게 재귀속시키면 된다.
두 번째는 분리된 동일인이다. 한 사람의 목소리가 두 개의 레이블로 나뉘는 경우. 통화 초반(차분함)과 후반(흥분)의 음성이 달랐거나, 중간에 헤드셋에서 스피커폰으로 바꿨을 때 주로 생긴다. 두 레이블을 합치면 녹취록 전체가 정렬된다.
30초짜리 이름 입력이 가치 있는 이유
“화자 1이 말했다…”로 그냥 두고 싶을 때가 있다. 하지 마라. 다자 통화 녹취록의 가치는 전부 귀속에 있다. 누가 결정했는지 모르면 결정은 힘이 없다. 누가 약속했는지 모르면 이행을 물을 수가 없다.
이 레이어가 그 다음 모든 것을 지탱한다. 화자별로 정리된 회의 요약은 회의록처럼 읽힌다. 귀속 없는 요약은 그냥 텍스트 더미다. 결정 로그, 후속 이메일, 책임 추적 — 이 모든 게 누가 뭘 말했는지 아는 것에 기댄다. 레이블을 한 번 제대로 잡아두면, 그 녹음에서 뽑아내는 모든 보고서가 정확도를 물려받는다.
결정 추적까지 엮고 싶다면 녹취록으로 회의 결정을 추적하는 법이 화자 레이블 위에서 어떻게 작동하는지 자세히 다룬다.
가격
화자 식별이 실제 효과를 내려면 모든 다자 통화에 돌릴 수 있어야 한다. 공식 회의만 고르면 안 된다. 어느 20분짜리 슬랙 허들에서 중요한 말이 나올지 아무도 모르니까. 분당 과금은 바로 그 습관에 벌을 준다.
Atter AI는 정액제다. 주 $6.99, 연 $49.99, 또는 평생 $129.99, 3일 무료 체험 제공. 분당·파일당 제한 없음. 화자 분리와 90개 이상의 언어 지원이 포함 — 한 통화에서 한국어·영어·일본어가 섞여도 각 목소리가 언어 전환 전후로 끊김 없이 추적된다.
FAQ
AI가 사전 음성 샘플 없이 화자를 식별할 수 있나요?
분리는 샘플 없이 된다. 완전 자동이다. 실제 이름 붙이기는 사람 개입이 한 번 필요하다. 오디오만으로는 동료 이름을 알 수 있는 모델이 없다. 탐지된 화자마다 한 번씩 이름을 입력하면(보통 2~6번 클릭) 파일 전체에 반영된다. 이름까지 완전 자동화된다고 주장하는 도구는 사전 등록된 음성 지문을 쓰거나 추측하는 거다.
하나의 녹음에서 화자를 몇 명까지 처리할 수 있나요?
자동 분리는 10명 이상도 가능하지만, 체감상 편한 범위는 24명이다. 그 범위에서는 레이블링이 거의 힘이 안 든다. 810명 이상이거나 목소리가 비슷한 경우가 여럿이면 레이블 하나둘을 손으로 합치거나 분리해야 한다. 품질은 화자 수 자체보다 마이크 설정에 훨씬 크게 달려 있다.
화자 분리와 화자 식별은 어떻게 다른가요?
분리는 “몇 명이 말했고 각각 언제 말했나” — 자동, 사전 지식 불필요. 식별은 “그 목소리가 실제로 누구냐” — 이름을 한 번 입력하는 단계다. AI는 그게 박지수라는 걸 절대 모른다. 목소리 #2가 일관적이고 당신이 박지수로 레이블링했다는 것만 안다. 이 두 개념을 분리해서 이해하는 게 기대치 조정의 핵심이다.
녹취록에 거의 말하지 않은 화자가 생긴 이유는 뭔가요?
유령 화자다. 배경 소음, 기침, 문 닫히는 소리가 별도 목소리로 클러스터링된 것이다. 가장 흔한 diarization 오류다. 그 고아 구간을 가장 가까운 실제 화자에게 재귀속시키면 화자 수가 정리된다. 깨끗한 음질과 참여자별 마이크가 이걸 대부분 막아준다.
여러 언어가 섞인 통화에서도 화자 식별이 되나요?
된다. 화자 분리는 단어가 아니라 음성 지문을 기반으로 하기 때문에, 통화가 한국어든 포르투갈어든 독일어든 같은 방식으로 작동한다. Atter AI는 90개 이상의 언어를 지원하고, 한 문장 안에서 언어를 바꿔도 각 목소리가 계속 추적된다.
자동 화자 레이블링의 정확도는 어느 정도인가요?
바탕 녹취록은 깨끗한 음원에서 98.7%로 돌아가고, 화자 귀속은 별도 마이크를 쓴 2~4인 녹음에서 매우 좋다. 참여자가 많아지거나 공용 마이크를 쓰거나 겹침 발화가 많아질수록 저하된다. 그래서 레이블이 실제로 중요한 데 쓰이기 전에 — 예를 들어 결정 로그 — 겹침 구간을 30초 정도 훑어보는 게 값어치를 한다.
업로드한 녹음은 비공개로 유지되나요?
네. Atter AI는 업로드된 녹음을 모델 학습에 사용하지 않으며, 파일은 계정 내에 비공개로 남는다. 화자 분리는 그 파일 안에서 목소리를 구별하기 위한 음성 지문만 만든다. 영구적인 신원 데이터베이스를 쌓는 게 아니다. HR, 법무, 의료 관련 민감한 녹음은 먼저 조직의 표준 컴플라이언스 검토를 거쳐라.