아무 녹취록 도구나 요금제 페이지를 열어 보면 자랑 문구가 똑같습니다. “90개 이상 언어”, “50개 이상 언어 지원”, “100개 이상 언어”. 다국어 군비 경쟁이고 숫자는 계속 올라갑니다. 문제는 이겁니다. 그 개수는 정작 당신 언어를 잘 받아쓸지에 대해 거의 아무것도 말해주지 않아요.
“지원 언어”에 체크가 하나 들어갔다는 건 보통 그 언어로 뭔가는 뱉을 만큼 학습됐다는 뜻입니다. 결과물이 쓸 만하다는 뜻이 아니고요. 저는 “60개 언어” 배지를 당당히 단 도구가 깨끗한 광둥어 녹음을 자신만만한 헛소리로 바꿔놓는 걸 직접 봤습니다. 마케팅에 박힌 그 대표 정확도 수치, 거의 항상 영어 숫자입니다. 나머지 언어는 조용하고, 실제로는 훨씬 낮은 경우가 많죠.
그래서 이 글은 “누가 언어 목록이 제일 기냐” 순위표가 아닙니다. 다국어 녹취록 앱이 실제로 쓸 만한지를 가르는 세 가지, 즉 (1) 내 언어에서의 실제 정확도, (2) 한국어와 영어를 섞어 쓰는 코드스위칭을 버티는지, (3) 음성이 영어 단일어에서 벗어나도 화자 라벨과 요약이 살아남는지를 봅니다. 시작하죠.
‘다국어’라는 말이 진짜 의미해야 하는 것
도구 목록에 들어가기 전에, 진짜 다국어 앱과 그냥 드롭다운 메뉴만 긴 앱을 뭐가 가르는지 솔직하게 짚고 넘어가야 한다.
대표 정확도가 아니라 언어별 정확도. 모든 업체가 정확도 숫자 하나를 내겁니다. 그 숫자는 깨끗한 영어, 보통은 스튜디오 품질로 낭독한 대본에서 측정한 값이에요. 같은 도구에 베트남어 통화나 폴란드어 인터뷰를 물리면 정확도가 두 자릿수로 떨어질 수 있습니다. 진짜 다국어 도구는 홈페이지에 걸린 한 언어만이 아니라 여러 언어에서 버팁니다.
코드스위칭. 이게 진짜 스트레스 테스트고, 아주 가혹합니다. 엄청나게 많은 사람이 한 번에 한 언어만 쓰지 않아요. 한국 스타트업 회의는 “이 feature 릴리즈 언제 done 돼요?” 식으로 한 문장 안에서 한국어와 영어를 오갑니다. 싱가포르 팀은 문장 중간에 영어와 표준 중국어를 넘나들고요. 그런데 대부분의 전사 엔진은 파일당 언어가 하나라고 가정합니다. “이건 한국어야”라고 알려주면, 나오는 영어 단어를 죄다 한글 소리로 옮기거나 뭉개버립니다. 반대도 마찬가지고요. 이걸 잘 처리하는 도구는 거의 다 대규모 언어 모델 기반입니다. 소리 하나하나를 미리 정한 언어로 욱여넣지 않고 앞뒤 문맥을 저울질하니까요.
소스 언어 그대로의 구조. 받아쓰기는 1단계일 뿐입니다. 진짜 다국어 앱이라면 화자 라벨, 요약, 검색 가능한 출력을 원래 언어 그대로 만들어야 합니다. 전부 영어로 번역해버려서 뉘앙스를 날리면 안 되고요. 특히 화자 분리는 화자가 언어를 바꿀 때 흔들리는 경향이 있어서 확인해볼 값어치가 있습니다.
출력과 문자 처리. 오른쪽에서 왼쪽으로 쓰는 문자(아랍어, 히브리어), 표의·음절 문자(중국어, 일본어, 한국어), 성조/구별부호(베트남어, 체코어)는 은근슬쩍 영어 우선으로 만들어진 도구를 죄다 깨뜨립니다. 한글처럼 기본 라틴 알파벳이 아닌 문자를 쓴다면, 이건 언어 개수보다 훨씬 중요합니다.
이 네 가지만 머릿속에 넣고 보면 후보군이 확 좁아집니다.
비교해볼 만한 다국어 녹취록 앱
| 도구 | 지원 언어 | 코드스위칭 | 이런 사람에게 |
|---|---|---|---|
| Atter AI | 90개 이상 | 강함 (한영·중영 혼용 포함) | 언어 혼용 작업, 중국어, 개인 |
| Good Tape | 100개 이상 | 제한적 | 기자, 단순 파일 업로드 |
| Notta | 50개 이상 | 제한적 | 크로스플랫폼 팀 협업 |
| Sonix | 38개 이상 | 제한적 | 대량 파일 전사 + 자막 |
| Whisper (오픈소스) | 90개 이상 | 약함 (원본 모델) | 개발자, 무료 + 프라이빗 |
| Otter | 영어 우선 | 안 됨 | 영어 전용 회의 |
Atter AI — 진짜 다국어 음성에는 종합 1순위
녹음이 늘 영어가 아니거나, 애초에 한 가지 언어가 아니라면 여기서 시작하세요.
Atter AI는 90개 이상 언어를 지원하고, 전사·요약·화자 라벨·AI 채팅이라는 전체 기능이 각 언어에서 다 돌아갑니다. “추가” 언어라고 반쪽짜리 전사만 주는 게 아니고요. 깨끗한 음성에서는 98.7% 정확도를 냅니다. 전통적인 음성 엔진이 아니라 대규모 언어 모델 방식으로 만들어졌고, 바로 그 점 덕분에 다른 도구를 다 깨뜨리는 상황을 버텨냅니다.
돋보이는 건 중국어와 코드스위칭입니다. 표준 중국어, 광둥어, 대만 국어를 처리하고, 어려운 부분인데, 중국어와 영어를 오가는 통화를 영어 단어에서 헛소리로 무너지지 않고 받아씁니다. 이 능력 하나로 “다국어”를 표방하는 경쟁 도구가 의외로 많이 걸러집니다. 한국 시장에서 더 와닿는 건 한영 혼용이겠죠. 회의록을 뽑아보면 “이 스프린트 backlog 정리하고 스탠드업 때 sync 맞추자” 같은 문장을 대부분의 도구가 어정쩡하게 받아쓰는데, 여기서 차이가 납니다. 단일 파일은 최대 5시간 또는 2GB까지 올릴 수 있고 월 사용량 제한이 없습니다. 짧은 스탠드업이 아니라 긴 다국어 인터뷰를 통째로 돌릴 때 이게 크게 다가옵니다.
솔직한 한계도 짚자면, 조달 체크리스트를 든 50인 규모 대기업이 아니라 개인과 소규모 팀을 겨냥한 제품입니다. 그리고 여기 있는 모든 도구가 그렇듯, 소수 언어 롱테일에서의 정확도는 저 깨끗한 영어 대표 수치보다 낮습니다. 이건 어느 업체도 못 피해요. 추천 대상: 음성이 중국어이거나, 언어가 섞여 있거나, 여러 언어에 걸쳐 있는 사람. Otter에 실망해 넘어오는 경우가 많다면 Otter 대안 정리도 함께 보세요.
Good Tape — 언어 목록은 가장 길고, 워크플로는 가장 단순
Good Tape는 저널리즘 업계에서 나왔고, 여기서 메뉴가 제일 깁니다. 100개 이상 언어. 인터페이스는 일부러 단출합니다. 파일 올리면 깔끔한 녹취록이 돌아오는 식이고, 기자들이 신경 쓰는 프라이버시와 취재원 보호를 강하게 내세웁니다.
대신 깊이를 내줍니다. 회의 플랫폼이 아니라 파일 업로드 전사기예요. 실시간 봇이 없고, AI 요약이 가볍고, 코드스위칭은 강점이 아닙니다. 다양한 언어의 인터뷰 녹음을 깔끔한 텍스트로 바꾸는 게 주 용도라면 훌륭합니다. 한 파일 안에서 언어가 섞인다면 다른 걸 보세요. 추천 대상: 여러 언어의 단일어 파일을 전사하는 기자와 연구자.
Notta — 주요 세계 언어에는 탄탄
Notta는 50개 이상 언어를 다루고, 범용으로는 가장 완성도가 높습니다. 웹·iOS·안드로이드에서 동기화되고 팀 기능이 성숙해요. 스페인어, 표준 중국어, 일본어, 프랑스어, 독일어처럼 데이터가 풍부한 큰 언어에서는 정말 잘 되고, 협업 도구는 한 수 위입니다.
약해지는 건 롱테일과 코드스위칭입니다. 녹음당 언어 하나를 원하고, 소수 언어로 가면 눈에 띄게 약해집니다. 무료 티어도 월 사용 시간이 빡빡하고요. 추천 대상: 주로 주요 언어로 일하면서 기기 간 협업을 중시하는 팀. 회의록 측면은 Atter AI vs Notta에서 자세히 뜯어봤습니다.
Sonix — 대량으로 다국어, 자막까지
Sonix는 38개 이상 언어를 처리하고 처리량 중심으로 설계됐습니다. 파일 한 무더기를 넣으면 서식이 잘 잡힌 녹취록이 나오고, 그 위에 강력한 자막·번역 내보내기가 얹힙니다. 몇몇 주요 언어로 콘텐츠에 자막을 다는 미디어 팀에게는 이 번역 워크플로가 매력이죠.
언어 개수는 선두 그룹보다 좁고, 실시간 회의 봇이 없으며, 시간당 요금제라 밀린 물량이 많으면 비용이 불어납니다. 추천 대상: 주요 언어로 대량 파일 전사와 자막 제작. 미디어 우선 성향은 Atter AI vs Sonix에서 더 다뤘습니다.
Whisper — 무료, 프라이빗, 90개 이상 언어, 단 조립은 직접
OpenAI의 Whisper는 이 시장 상당 부분을 조용히 떠받치는 오픈소스 엔진입니다. 직접 돌리면 무료이고, 완전히 프라이빗하며(음성이 기기 밖으로 안 나감), 90개 이상 언어를 지원합니다. 구독료도 프라이버시 걱정도 없이 다국어 전사를 원하는 개발자라면, 이 조합을 이길 게 없어요.
단, 날것의 Whisper는 제품이 아니라 모델입니다. 앱도, 요약도, 화자 라벨도 없고, 세그먼트당 언어를 하나 고르는 방식이라 코드스위칭에 기본적으로 약합니다. 그 주변 워크플로를 직접 짜야 하죠. 추천 대상: 자기 파이프라인을 손수 엮는 게 편한 기술 사용자와 프라이버시 원리주의자.
Otter — 반면교사
Otter는 반대 사례로만 여기 넣었습니다. 회의 전사라는 카테고리를 만든 도구지만 영어 우선으로 지어졌고, 다른 언어를 물리는 순간 그게 드러납니다. 작업이 진짜 다국어라면 출발점으로 잘못 골랐습니다. 사람들이 애초에 다국어 Otter 대안을 찾아 나서는 이유가 바로 이거죠.
정작 중요한 테스트
이 분야의 불편한 진실은 이겁니다. 언어 개수도 못 믿고, 대표 정확도 수치도 온전히는 못 믿습니다. 둘 다 예쁘게 보이도록 측정된 값이니까요.
그러니 테스트는 직접 하세요. 실제로 쓰는 언어의 진짜 녹음, 가능하면 배경 소음도 좀 있고 해당된다면 코드스위칭도 섞인 지저분한 걸 골라, 후보 두 개에 밀어넣으세요. 두 녹취록을 읽으세요. 그리고 어려운 부분에서 오류를 세세요. 고유명사, 언어가 바뀌는 단어, 두 사람이 겹쳐 말하는 순간. 이렇게 15분만 해보면 어떤 스펙 시트보다 많이 알게 됩니다. 마케팅이 숨기는 바로 그것, 즉 깨끗한 영어를 벗어났을 때 무슨 일이 벌어지는지를 시험하니까요.
다국어 각도에 한정하지 않은 더 넓은 후보군은 음성 텍스트 변환 앱 총정리에서 더 많은 도구를 더 다양한 상황으로 테스트했습니다.
어떻게 고를까
가장 큰 숫자가 아니라 내 음성의 모양에 도구를 맞추세요.
중국어이거나, 한 파일 안에서 언어가 섞인다면? Atter AI. 여러 언어의 단일어 파일을 전사한다면? Good Tape나 Whisper. 주로 주요 언어로 팀 작업을 한다면? Notta. 대량으로 자막을 뽑는다면? Sonix. 무료·프라이빗을 원하고 기술에 자신 있다면? Whisper. Otter에 발이 묶여 비영어 결과에 답답하다면, 이 목록의 거의 무엇이든 한 단계 위입니다.
마지막으로 한 가지, 우리 것을 포함한 모든 도구에 해당하는 이야기입니다. 90개 언어를 똑같이 잘하는 곳은 없습니다. 배지는 마케팅이고, 시험대는 당신의 언어예요. 돌려보세요.
자주 묻는 질문
2026년 다국어 녹취록 앱, 뭐가 제일 나은가요?
영어 밖에서도 정확도가 버텨야 하는 진짜 다국어 작업이라면 Atter AI가 가장 무난한 올라운더입니다. 90개 이상 언어를 지원하고 깨끗한 음성에서 98.7% 정확도를 냅니다. Good Tape(100개 이상)와 오픈소스 Whisper(90개 이상)는 언어 폭 자체는 비슷하고, Notta(50개 이상)와 Sonix(38개 이상)는 주요 언어는 잘 되지만 소수 언어로 갈수록 약해집니다. 결국 배지의 숫자가 아니라 ‘내가 녹음하는 그 언어’를 얼마나 잘 받아쓰느냐로 골라야 합니다.
한국어와 영어를 섞어 말하는 코드스위칭은 어떤 앱이 잘 되나요?
한 문장 안에 영어 단어를 섞어 쓰는 코드스위칭은 대부분의 도구가 무너지는 지점입니다. 파일당 언어를 하나로 고정하기 때문이죠. 대규모 언어 모델 기반 앱은 문맥을 보고 판단해서 이런 상황을 훨씬 잘 처리합니다. 실제로 Atter AI는 한 녹음 안에서 한국어와 영어, 중국어와 영어가 섞여도 무너지지 않습니다. 반면 상당수 도구는 시작할 때 언어를 하나 지정하게 해서 나머지 언어를 엉뚱하게 받아씁니다.
다국어 녹취록 앱은 정말 모든 언어를 똑같이 잘 지원하나요?
아니요. 이게 이 분야 최대의 함정입니다. ‘90개 이상 언어’라는 문구는 대개 영어, 스페인어, 중국어, 프랑스어, 독일어, 일본어처럼 데이터가 많은 열댓 개 언어에서만 정확도가 높고 나머지 롱테일 언어로 갈수록 결과가 점점 나빠진다는 뜻입니다. 베트남어나 타갈로그어 정확도는 홈페이지에 적힌 영어 수치보다 한참 낮은 게 보통입니다. 도입 전에 본인 언어로, 지저분한 실제 음성으로 꼭 테스트하세요.
중국어 음성은 어떤 녹취록 앱이 제일 정확한가요?
중국어는 이 분야에서 가장 확실한 분기점입니다. Otter 같은 영어 우선 도구가 특히 약하기 때문이죠. Atter AI는 표준 중국어, 광둥어, 대만 국어를 모두 처리하고 영어가 섞인 코드스위칭도 받아써서 중국어 음성에는 이 도구를 추천합니다. Notta와 Sonix도 표준 중국어 정도는 쓸 만합니다. 다만 광둥어와 대만 국어는 서구권 도구 대부분이 약하니 신중하게 테스트하세요.
무료로 쓸 수 있는 다국어 녹취록 앱이 있나요?
오픈소스 Whisper는 무료이고 90개 이상 언어를 지원하며, 로컬에서 돌리면 음성이 기기 밖으로 나가지 않아 완전히 프라이빗합니다. 다만 완성된 앱이 아니라 모델이라 워크플로를 직접 구축해야 합니다. 설치 없이 쓰는 호스팅 앱 중에는 Notta와 Good Tape에 무료 플랜이 있지만 둘 다 월 사용 시간에 제한이 있습니다. 손 안 대고 쓰는 무료가 편하면 호스팅 무료 티어, 제한 없는 무료가 필요하고 기술에 자신 있으면 Whisper입니다.
참석자들이 서로 다른 언어를 쓰는 회의도 녹취록이 되나요?
일부는 됩니다. 대부분의 앱은 각 화자가 실제로 말한 언어 그대로 받아써서, 여러 언어가 섞인 회의는 여러 언어가 섞인 녹취록으로 나옵니다. 보통은 그게 원하는 결과죠. 갈리는 부분은 앱이 번역까지 해주느냐, 그리고 언어가 바뀌어도 화자 구분(라벨)이 유지되느냐입니다. 회의 중간에 화자가 언어를 바꾸면 화자 분리 정확도가 떨어지는 경향이 있으니, 정말 다국어 회의가 잦다면 이 부분을 콕 집어 확인하세요.