손으로 인터뷰를 받아쳐 본 적 있다면, 계산이 안 맞는다는 걸 이미 알 겁니다. 60분짜리 인터뷰 하나에 담긴 말은 대략 8,00010,000 단어. 이걸 직접 받아쓰면 하루에서 46시간이 그냥 날아갑니다. 참여자 20명짜리 연구에서 이걸 반복하면? 일주일의 절반을 타이핑에 갖다 바친 셈이죠. AI 녹취록은 바로 이 구멍을 메우려고 나온 겁니다. 같은 1시간짜리 음성을 몇 분 만에 화자까지 구분된 깔끔한 초안으로 바꿔주니까, 시간이 키보드 두드리기가 아니라 분석으로 흘러가게 됩니다.
이 글은 인터뷰 음성 속에서 사는 사람들을 위한 겁니다. 한 마디 인용을 쫓는 기자, 주제를 코딩하는 질적·UX 연구자, 좋은 문장을 뽑아내는 팟캐스터, 지원자 메모를 정리하는 채용 담당자. 네 부류의 작업 흐름은 대체로 같습니다. 흥미로워지는 건 판단의 순간이에요. 축어록이냐 정리본이냐, 이름은 어떻게 다룰까, 검수는 얼마나 빡세게 할까. 하나씩 짚어 봅시다.
AI 녹취록이 인터뷰 작업 방식을 바꾼 이유
얼마 전까지만 해도 전사는 직접 고생하거나 남에게 돈 주고 맡기는 일이었습니다. 사람이 하는 전사 서비스는 지금도 있고 일도 잘하지만, 보통 음성 1분당 1.001.50달러를 받고 1248시간 안에 돌려줍니다. 45분짜리 인터뷰면 4567달러에 다음 날 아침 도착. 한 번이면 괜찮죠. 그런데 인터뷰 1530개짜리 연구라면 청구서가 순식간에 불어납니다.
진짜로 바뀐 건 이겁니다. 병목이 이동했어요. 좋은 AI 전사 도구를 쓰면 느린 부분이 더 이상 글을 만드는 게 아니라 검수하는 일이 됩니다. 타자수에서 편집자로 넘어가는 거죠. 더 작고 더 똑똑한 일입니다. 아래 흐름을 처음부터 받아쓰기가 아니라 초안-검수 루프로 짠 이유가 바로 이것 때문이에요.
품질 쪽도 있습니다. 깨끗한 음성에서 요즘 좋은 엔진은 98.7% 정확도에 도달합니다. 1시간짜리 인터뷰가 수백 단어가 아니라 고작 수십 단어만 고치면 되는 상태로 돌아온다는 뜻이죠. 그래도 인용할 부분은 음성과 대조해 읽게 됩니다. 하지만 새로 짓는 게 아니라 다듬는 거예요.
인터뷰 녹취록 4단계 작업 흐름
무엇을 위해 받아쓰든, 같은 4단계가 통합니다. 디테일은 달라지죠. 기자는 인용을 더 빡세게 검수하고, 연구자는 익명화를 더 빡세게 합니다. 그래도 뼈대는 똑같아요.
- 깨끗하게 녹음하고 업로드조용한 방, 괜찮은 마이크 하나, 화자마다 가까이. 그다음 음성 파일을 전사 도구에 끌어다 놓으세요. Atter AI는 MP3, M4A, WAV, AAC 등을 받고, 단일 파일 5시간 또는 2GB까지, 월간 한도 없이 처리합니다. 긴 구술사 인터뷰도 끊지 않고 한 번에 들어가죠.
- 화자 구분 켜기다른 걸 하기 전에 엔진이 먼저 누가 말하는지 태그하게 두세요. 화자 1, 화자 2 식으로 나와서, 이름만 바꾸면 됩니다.
- 축어록이냐 정리된 축어록이냐 결정이건 미리 정하세요. 이후 모든 줄을 어떻게 편집할지가 바뀝니다. 차이는 아래에서.
- 검수, 라벨링, 익명화쓸 인용은 음성과 대조해 읽고, 화자를 실명이나 참여자 코드로 바꾸고, 규정상 필요하면 식별 정보를 지웁니다.
이 목록에서 빠진 게 뭔지 보이나요? 타이핑입니다. 그게 핵심이에요.
축어록 vs 정리된 축어록: 편집 전에 고르세요
사람들이 가장 자주 틀리는 결정입니다. 보통 의식적으로 결정을 안 해서 그래요. 두 가지 스타일, 전혀 다른 두 개의 녹취록.
**축어록(true verbatim)**은 전부 다 담습니다. 모든 “음”, 모든 다시 시작한 말, 모든 “무슨 말인지 알지”, 모든 [웃음]과 [긴 침묵]. 사람이 실제로 말하는 방식을 지저분하지만 정확하게 기록한 거죠. 대화 분석가에게 필요합니다. 일부 IRB 규정이 요구하고요. 법무·컴플라이언스 맥락에서도 자주 필요합니다. 축어록을 소리 내어 읽어 본 적 있다면, 거의 못 읽을 수준이란 걸 알 거예요. 그게 의도된 거지만.
정리된 축어록은 클린 리드백이라고도 하는데, 의미는 한 톨도 안 건드리고 군더더기와 명백한 실수만 걷어냅니다. “저, 음, 제 생각엔 그, 가장 중요한 건 신뢰였어요”가 “제 생각엔 가장 중요한 건 신뢰였어요”가 되는 식이죠. 언론은 대부분 이걸 씁니다. UX 연구도 대부분 이걸 쓰고요. 사람이 쓴 글처럼 읽혀서, 인용하거나 공유할 거라면 기본값이 됩니다.
여기 함정이 있습니다. 축어록을 정리본으로 깎아내는 건 쉽습니다. 반대 방향은 불가능해요. 군더더기를 한번 지우면, 다시 들어보지 않는 한 되살릴 수 없습니다. 그러니 축어록이 필요할 가능성이 조금이라도 있으면, 그걸 먼저 만들고 사본을 정리하세요. 오래된 조언인데, 여전히 맞습니다.
요즘 AI 엔진은 기본적으로 정리본보다 축어록에 가까운 초안을 줍니다. 거기서 다듬어 내려가면 돼요. 어떤 파일 형식이든 첫 초안을 뽑는 구체적인 방법은 오디오를 텍스트로 변환하는 가이드에서 지원 형식과 업로드 흐름을 처음부터 끝까지 다룹니다.
화자 라벨과 이름 익명화
두 사람 인터뷰는 쉬운 경우입니다. 엔진이 대부분 진행자와 참여자를 깔끔하게 갈라주죠. 문제는 패널, 포커스 그룹, 그리고 사람들이 서로 말을 겹치는 모든 대화에서 시작됩니다. 화자 구분은 겹치는 발화도 그럭저럭 처리하지만, 가끔 두 목소리를 한 라벨로 합치거나 한 사람을 둘로 쪼개기도 해요. 끼어들기가 심한 구간은 1분당 30초쯤 손질을 잡으세요. 적은 시간은 아니지만, 전체를 다시 듣는 것보단 낫습니다.
라벨이 맞으면 이름 바꾸기는 한 번에 끝나는 일입니다. 화자 1을 진행자로, 화자 2를 참여자로, 문서 전체에 한꺼번에 적용하면 되죠. 다인 세션을 자주 다룬다면 더 깊은 작동 원리, 그러니까 엔진이 한 화자가 끝나고 다음 화자가 시작되는 지점을 어떻게 판단하는지를 알아둘 만합니다. 자동 화자 식별 가이드가 그 부분을 다룹니다.
이제 연구자가 절대 건너뛸 수 없는 부분. 익명화입니다. UX와 학술 연구에서 실명을 가명이나 P07 같은 코드로 바꾸는 건 선택이 아니에요. 보통 동의서에 박혀 있는 윤리위원회 요건입니다. 깔끔하게 하는 법은 이렇습니다.
- 먼저 받아쓰고, 익명화는 그다음. 엔진이 아직 라벨링하는 중에 이름을 건드리지 마세요.
- 찾기-바꾸기로 각 실명을 코드나 가명으로, 일관되게, 녹취록 전체에서 교체합니다.
- 코드-신원 키는 별도의 안전한 파일에 보관하세요. 절대 녹취록 안에는 두지 말고요.
- 간접 식별자도 잡아야 합니다. 참여자의 직장, 고향, 흔치 않은 직함은 이름만큼이나 빠르게 정체를 드러낼 수 있어요.
솔직히 마지막 항목이 노련한 연구자도 자주 걸려 넘어지는 지점입니다. 이름은 뻔하죠. 그런데 “그 지방 항공사의 유일한 여성 조종사”는 안 뻔합니다. 그리고 이름만큼이나 정확하게 사람을 특정해요.
누가 받아쓰느냐에 따라 달라지는 것
작업 흐름은 직군이 달라도 유지되지만, 우선순위는 다릅니다. 각 그룹이 어디에 신경을 쏟아야 하는지 정리했습니다.
| 당신이 누구냐 | 보통의 스타일 | 집착해야 할 것 |
|---|---|---|
| 기자 | 정리된 축어록 | 한 글자도 안 틀린 인용, 팩트체크용 타임스탬프 |
| UX / 질적 연구자 | 정리된 축어록 (가끔 진짜 축어록) | 익명화, 일관된 화자 코드, 코딩 도구로 깔끔한 내보내기 |
| 팟캐스터 | 정리된 축어록 | 클립 찾기용 타임스탬프, 쇼노트에 바로 쓸 포맷 |
| 채용 담당자 | 전체 녹취록보다 깔끔한 요약 | 지원자 간 일관성, 공정한 비교, 메모의 프라이버시 |
연구자에게만 한마디. 잘 알려진 경험칙이 있죠. 주제 포화, 그러니까 새 인터뷰가 더 이상 새 주제를 끌어내지 않는 지점은 비교적 동질적인 표본에서 흔히 12개 인터뷰 안팎에서 옵니다. 그렇다고 딱 12개만 받아쓰란 뜻은 아니에요. 초안이 빠르게 돌아오니까, 일찍부터 가로질러 읽어보고 13번째 인터뷰가 아직 제 값을 하는지 판단할 수 있다는 뜻입니다. 빠른 전사는 분석에 얼마나 걸리는지뿐 아니라 언제 분석하는지를 바꿉니다.
그리고 자금 지원받는 연구자가 아니라 학생으로서 이걸 한다면, 예산과 동의 절차의 균형이 좀 달라집니다. 학생을 위한 AI 전사 가이드가 그 각도를 다룹니다.
조용히 일을 그르치는 몇 가지
이미 시간을 잡아먹은 뒤에야 드러나는, 인터뷰 특유의 함정들입니다.
전화와 원격 통화 음성. 전화선에서 뽑은 녹음은 압축되고 대역이 제한돼서, 룸 마이크에 비해 정확도가 떨어집니다. 인터뷰를 전화로 자주 한다면 전화 통화 받아쓰기를 따로 읽어둘 만해요. 여기선 전사 엔진보다 녹음 방식이 더 중요하거든요.
억양과 혼용 언어. 강한 지방 억양은 괜찮습니다. 문장 중간에 두 언어를 오가는 참여자는 어떤 엔진에게도 어렵죠. 90개 이상 언어 자동 감지는 단일 언어 인터뷰는 잘 처리합니다. 다만 끊임없는 코드 스위칭이라면 언어 경계에서 수작업 정리를 예상하세요.
검수 건너뛰기의 유혹. 초안이 깔끔해 보이면, 다시 듣기를 생략하고 싶어집니다. 하지 마세요. 적어도 인용에 대해서는요. AI 전사는 흔한 단어엔 탁월하지만, 정작 중요한 곳에서 가장 약합니다. 고유명사, 전문 용어, 숫자. “이천십오”인지 “2050”인지 같은 실수는 빠르게 훑어보면 살아남았다가 인쇄되고 나서 터집니다.
긴 세션. 구술사나 생애사 인터뷰는 몇 시간씩 갑니다. 단일 파일 5시간 또는 2GB까지는 쪼개지 않고 처리되고, 아껴 쓸 월간 한도도 없습니다. 다만 뭔가 하기 전에 원본 음성은 백업하세요. 무조건.
가격, 짧게
비용은 보통 직접 받아쓸지 서비스에 맡길지를 가르는 요소죠. 사람 전사는, 다시 말하지만, 분당 1.00~1.50달러쯤. AI 도구는 대신 구독으로 가격을 매기고, Atter AI는 3일 무료 체험 후 주 6.99달러, 연 49.99달러, 또는 평생 이용 129.99달러 플랜을 제공합니다. 인터뷰를 정기적으로 하는 사람이라면, 연구 진행 중인 연구자든 출입처를 도는 기자든, 평생 옵션은 분당 사람 단가와 비교하면 인터뷰 한 건당 반올림 오차 수준입니다.
이 결정에서 가격이 들어갈 자리는 여기뿐입니다. 나머지는 전부 작업 흐름이에요.
자주 묻는 질문
녹음한 인터뷰를 무료로 받아쓰는 방법이 있나요?
대부분의 도구는 완전 무료라기보다 무료 체험 기간을 줍니다. 유튜브 자동 자막이나 폰 기본 받아쓰기는 진짜 공짜인데, 두 사람이 나누는 대화에서는 정확도가 70~85% 정도에 그쳐요. 좀 더 깔끔한 초안이 필요하면 전용 도구가 보통 짧은 무료 체험을 제공합니다. Atter AI는 3일 체험을 주는데, 인터뷰 몇 개 받아쓰고 판단하기엔 충분하죠. 솔직히 말하면, 공짜 옵션은 있지만 아낀 돈만큼 교정에 시간을 쓰게 됩니다.
연구용 인터뷰는 어떻게 받아쓰는 게 가장 좋나요?
조용한 방에서 괜찮은 마이크 하나로 녹음하고, 화자 구분을 켠 채 AI 전사 도구에 파일을 넣은 다음, 인용할 부분만큼은 음성과 대조하며 검수하세요. 질적 코딩이 목적이라면 DOCX나 TXT로 내보내 NVivo, Atlas.ti, Dedoose에 바로 붙여넣을 수 있게 하면 됩니다. 사람들이 가장 자주 건너뛰는 게 검수인데, 나중에 연구 결과가 도전받을 때 당신을 지켜주는 건 바로 그 검수예요.
축어록과 정리된 축어록(intelligent verbatim)은 뭐가 다른가요?
축어록(true verbatim)은 모든 음, 말 더듬, 다시 시작한 말, [웃음]까지 들린 그대로 다 담습니다. 대화 분석, 법적 기록, 일부 IRB 규정에서 요구하죠. 정리된 축어록은 클린 리드백이라고도 하는데, 의미는 그대로 두고 군더더기와 명백한 실수만 걷어냅니다. 언론과 UX 연구는 대부분 정리된 축어록을 쓰는데, 읽기가 훨씬 편하기 때문이에요. 어느 쪽이 필요한지는 편집을 시작하기 전에 정하세요. 끝나고 나서가 아니라.
AI 녹취록이 누가 말했는지 표시해 주나요?
화자 구분 기능을 지원하는 도구라면 그렇습니다. 발화를 화자 1, 화자 2 식으로 태그해 주고, 그걸 한 번에 실제 참여자 이름으로 바꾸면 됩니다. 다만 사람들이 말을 겹쳐 할 때는 화자 라벨 정확도가 떨어지니, 끼어들기가 많은 인터뷰는 약간의 손질을 예상하세요. 작동 원리를 더 깊이 보려면 자동 화자 식별 가이드를 참고하면 됩니다.
인터뷰 녹취록에서 이름을 익명화하려면 어떻게 하나요?
먼저 받아쓴 다음, 찾기-바꾸기로 실명을 가명이나 P07(참여자 7) 같은 코드로 일괄 교체하세요. 코드와 실제 신원을 연결하는 키 파일은 별도로 안전하게 보관하고, 절대 녹취록 안에 함께 두지 마세요. UX와 학술 연구에서는 보통 IRB나 윤리위원회 요건이라, 녹취록이 기기를 벗어나거나 공동 연구자에게 공유되기 전에 끝내야 합니다.
1시간짜리 인터뷰 하나 받아쓰는 데 얼마나 걸리나요?
손으로 하면 음성 1시간당 46시간을 잡으세요. 축어록이거나 억양이 센 경우엔 더 걸립니다. AI 도구는 같은 60분 파일을 대략 47분 만에 초안으로 만들어 주고, 남는 일은 타이핑이 아니라 검수예요. 이게 전체 작업에서 가장 큰 시간 절약입니다. 받아쓰는 사람에서 편집하는 사람으로 역할이 바뀌는 거죠.
AI가 다른 언어 인터뷰도 받아쓸 수 있나요?
네. Atter AI는 자동 감지로 90개 이상 언어를 처리합니다. 다국어 현장 조사나 국경을 넘는 취재에 중요하죠. 다만 한 답변 안에서 영어와 중국어가 섞이는 식의 혼용 인터뷰는 어떤 엔진에게도 까다롭습니다. 참여자가 계속 언어를 바꾼다면 언어가 바뀌는 경계는 손으로 정리해야 한다고 보면 됩니다.
기밀 인터뷰를 전사 서비스에 업로드해도 안전한가요?
민감한 자료를 올리기 전에 제공업체의 데이터 정책을 먼저 확인하세요. 처리 후 음성이 삭제되는지, 녹음이 모델 학습에 쓰이는지, 데이터가 어디에 저장되는지를 보면 됩니다. Atter AI는 녹취록을 만든 뒤 원본 음성을 폐기하고, 녹음 사본 대신 녹취록과 참조 링크만 보관합니다. NDA나 IRB가 걸린 인터뷰라면 참여자 동의 조건과 함께 서면으로 확인해 두세요.