AI 전사

브라우저 오디오 파일 녹취록: 설치 없이, 시간 제한 없이

MP3, M4A, WAV, FLAC, OGG를 브라우저에 드롭하면 검색 가능한 녹취록—업로드 한도 없음, 소프트웨어 없음, 90+ 언어.

브라우저 기반 녹취록 서비스가 2026 년 진짜 변곡점을 맞았습니다. 전 세계 음성→텍스트 변환 작업의 약 71% 가 웹 업로더를 통해 처리되고 있으며, 2023 년의 38% 에서 크게 늘었습니다. 이유는 명확합니다. Web Audio API, WebAssembly, 청크 업로드 기술이 이제야 성숙했고, 가정용 인터넷이 100Mbps 에서 기가비트로 전환되면서 브라우저가 몇 GB 규모의 오디오 파일을 데스크톱 앱과 거의 동등한 속도로 처리할 수 있게 됐기 때문입니다. 60 분 분량 MP3 가 2022 년에는 업로드와 전사를 합쳐 14 분 걸렸지만, 2026 년에는 약 90 초면 완료됩니다. 그중 대부분이 업로드 시간이고, AI 처리 시간은 그보다 훨씬 짧습니다.

이 가이드는 「설치 불필요」 온라인 녹취록 의 실전 매뉴얼입니다. 브라우저가 어떤 오디오 포맷을 실제로 받는지, 한 파일에 몇 GB 까지 현실적으로 통과시킬 수 있는지, 업로드부터 다운로드까지 단계별로, 그리고 AI 가 처리하기도 전에 정확도를 5–15 퍼센트포인트씩 깎아먹는 함정들—가변 비트레이트 MP3, 채팅 앱의 OPUS, 멀티채널 WAV—을 구체적으로 다룹니다.

2026 년의 “온라인 전사” 는 사실 세 가지

같은 단어로 묶이지만 내부 구조는 크게 다릅니다:

워크플로우브라우저에서 실행서버에서 실행
순수 클라우드업로드 + UI디코딩, ASR, 화자 분리, 요약
엣지 / WASM디코딩 + 소형 ASR없음
하이브리드(2026 주류)업로드, 디코딩, 음성 활동 감지풀 ASR + 후처리

순수 브라우저 WASM 은 프라이버시 측면에서 매력적으로 들리지만, 2026 년에도 깨끗한 영어 오디오에서 92% 정확도가 한계이고 지원 언어는 15 개 미만입니다. 풀사이즈 음성 모델이 브라우저 메모리에 들어가지 않기 때문입니다. 클라우드와 하이브리드 모드—Atter AI 를 포함한 주요 서비스 모두 이 경로—는 90+ 언어에서 98.7% 정확도를 유지하며, 오디오는 전 과정에서 TLS 1.3 으로 암호화된 채 전송됩니다.

브라우저가 업로드할 수 있는 오디오 포맷과, 실제로 정확하게 전사되는 포맷

<input type="file" accept="audio/*"> 요소는 OS 가 건네주는 거의 모든 것을 받지만, 정확도는 포맷에 따라 크게 갈립니다:

포맷컨테이너전형적 출처온라인 전사 정확도*
MP3(CBR 192 kbps+).mp3팟캐스트, 음악 앱98.5%
MP3(VBR 저비트레이트).mp3웹 추출, 옛 음성 메모94–96%
M4A / AAC.m4a, .mp4iPhone 음성 메모, Apple Podcasts98.7%
WAV(16비트, 16+ kHz 모노).wav스튜디오 마이크, USB 레코더99.0%
FLAC.flac무손실 아카이브98.9%
OGG / OPUS.ogg, .opus카카오톡, WhatsApp, Telegram, Discord97–98%
WebM (Opus).webm브라우저 MediaRecorder, OBS97.5%
AMR.amr구형 안드로이드 다이얼러 녹음88–92%
3GP.3gp피처폰 녹음86–90%

*2026 년 5 월, Atter AI 의 깨끗한 한국어 음성 측정 기준.

정확도를 조용히 떨어뜨리는 두 포맷: AMR(1990 년대 협대역 코덱, 일부 구형 안드로이드 다이얼러가 여전히 사용)과 카카오톡 · WhatsApp 이 약한 네트워크에서 「길게 눌러 녹음」을 6 kbps 로 강제 압축하는 OPUS 음성 메시지. 둘 다 녹취록 생성 자체는 가능하지만, 5–10 퍼센트포인트 정확도 손실은 클라우드 처리 능력으로도 완전히 만회할 수 없습니다. 녹음 단계를 통제할 수 있다면 M4A 나 WAV 를 선택하세요.

2026 년 현실적인 파일 크기 한계

브라우저 자체는 2021 년까지 Chrome 을 괴롭히던 2GB 한계를 이미 넘어섰습니다. 현재 Chrome, Edge, Safari 17+, Firefox 122+ 는 디스크에서 스트리밍 멀티파트 업로드를 지원하며, 원리적으로 한 번의 요청으로 64 GB 이상 보낼 수 있습니다. 실제 한계는 다른 세 곳에서 옵니다:

  • 서버 측 요청 한도. 주요 전사 서비스는 단일 파일을 500 MB–5 GB 사이로 제한합니다. Atter AI 의 온라인 업로더는 파일당 최대 5 GB 를 받으며, iPhone 기본 압축 품질 M4A 로 약 92 시간 분량입니다.
  • 모바일 네트워크 신뢰도. 500 MB 업로드는 LTE 에서 한 번에 73% 성공률, Wi-Fi 6 안정 환경에서 99.4%. Atter AI 의 재개 가능 업로드 프로토콜(5 MB 마다 체크포인트)이 이 격차를 거의 없앱니다.
  • 브라우저 메모리. RAM 4 GB 미만 PC 에서 전경 탭으로 3 시간 이상 WAV 를 트랜스코드하면 가끔 탭이 죽습니다. 클라우드에서 디코딩하는 방식이면 이 문제가 발생하지 않습니다.

실용적으로는 2 GB 가 편안한 경계입니다. 그보다 크면 ffmpeg -ss 00:00:00 -t 01:00:00 로 1 시간 단위 분할하는 게 무비용 · 더 안정적입니다.

단계별 절차: Atter AI 로 브라우저에서 녹취록 생성

https://transcription.atter-ai.com 접속 이후의 흐름:

  1. 웹 업로더 열기. 설치 불필요, 확장 프로그램 불필요, 첫 업로드 전 가입 강제 없음. Chrome, Edge, Safari, Firefox, Brave, Arc, Opera 의 현재 버전과 직전 메이저 버전 지원.
  2. 파일 드래그 또는 클릭 선택. 위의 오디오 포맷에 더해 동영상 컨테이너(.mp4, .mov, .mkv, .avi)도 받고, 서버가 자동으로 오디오 트랙만 추출합니다.
  3. 언어 선택 또는 「자동 감지」 유지. 자동 감지는 처음 30 초의 깨끗한 음성에서 92% 확률로 정확히 맞춥니다. 짧은 클립이나 잡음 많은 오디오는 수동 지정이 0.5–1.5 퍼센트포인트 정확도를 더해줍니다.
  4. 다중 화자면 화자 분리 켜기. 1 분 오디오당 약 10 초의 처리 시간 추가, 화자별 단락 분할 및 각 화자 이름 변경 가능.
  5. 제출. 60 분 M4A 가 일반 광대역에서 60–90 초에 완료—대부분이 업로드 시간입니다.
  6. 내보내기. PDF, DOCX, TXT, SRT, VTT, JSON. SRT/VTT 는 원본 오디오 타임스탬프를 그대로 사용해 영상 편집 도구나 YouTube 자막 업로더에 바로 투입할 수 있습니다.

3 일 무료 체험이 이 전체 흐름을 커버합니다. 파일당 · 분당 상한 없음. 유료 플랜은 $6.99/주, $49.99/년, $129.99 평생 — 무료 체험을 포함한 어느 플랜에도 시간 제한이 없습니다.

브라우저 버전과 데스크톱 앱의 차이

Atter AI 는 Mac/Windows 네이티브 앱과 브라우저 업로더를 모두 제공합니다. 온라인 방식의 진짜 장점 세 가지와 진짜 비용 두 가지:

장점

  • 설치 불필요. Chromebook, Linux, 학교 · 회사 관리 PC 에서도 동작.
  • 모든 OS 에서 동일 UI. Mac/Windows 버전 불일치 없음.
  • 빌린 PC, 도서관 PC 에서 써도 설치 흔적이 남지 않음.

비용

  • 업로드가 왕복—AI 가 시작하기 전에 대역폭을 써야 함. 네이티브 앱은 로컬 캐시 오디오에서 바로 시작 가능.
  • 한 번에 20 개 이상 파일 일괄 처리는 데스크톱 앱이 더 편함.

10 개 이하 파일, 업로드 대역폭 50 Mbps 이상이면 온라인이 종단간 더 빠릅니다. 대규모 배치만 데스크톱 앱을 고려하세요.

온라인 녹취록 작성 시 흔한 실수

업로드 전 재인코딩. Audacity 로 열어 「정규화」 한 다음 다른 포맷으로 내보내는 사람이 많은데, 재인코딩할 때마다 정보가 손실됩니다. 녹음을 기기에서 나온 그대로 업로드하세요.

무음 제거가 너무 공격적. Hindenburg, Auphonic 같은 일부 팟캐스트 플러그인은 0.5 초 이상의 모든 간격을 잘라냅니다. 잘린 오디오는 전사가 빠르지만, 화자 분리가 화자 전환을 판단하는 데 쓰는 자연스러운 포즈가 사라집니다. 화자 사이에 최소 1 초는 남겨두세요.

텍스트만 필요한데 동영상을 업로드. 1 시간 1080p MP4 는 1.5–3 GB; 같은 1 시간을 M4A 로 추출하면 30–60 MB. Atter AI 는 둘 다 받지만 오디오만 보내면 업로드가 30–50 배 빠릅니다. macOS 한 줄: ffmpeg -i input.mp4 -vn -c:a copy output.m4a.

다국어 녹음에 단일 언어를 수동 지정. 영한 혼합 회의는 「자동」 그대로가 결과가 더 좋습니다—AI 가 발화 단위로 언어를 전환합니다. 수동으로 한 언어를 고정하면 모든 내용을 그 언어로 끼워 맞추려다 정확도가 떨어집니다.

특정 출처 파일에 대해서는 플랫폼별 가이드가 더 깊이 다룹니다: iPhone 음성 메모 전사, 팟캐스트 AI 녹취록, 그리고 더 일반적인 오디오→텍스트 가이드 모두 웹 업로더를 공통 입구로 권장합니다.

프라이버시: 업로드한 파일은 어떻게 처리되나

2026 년 사용자가 가장 자주 묻는 질문입니다. 두루뭉술 말고 구체적으로 답해야 합니다. Atter AI 의 파이프라인:

  • 전송 중: TLS 1.3, HSTS 프리로드, Let’s Encrypt 발급 인증서.
  • 저장 중: AES-256 서버 측 암호화, 계정 지역에 맞춰 미국 · EU · APAC 중 하나에 고정.
  • 보존 기간: 업로드된 원본 오디오는 녹취록 전달 후 24 시간 이내에 임시 처리 저장소에서 삭제. 녹취록 텍스트 자체는 계정에 남아 사용자가 직접 보존 기간을 관리.
  • 학습: 업로드 오디오 및 생성된 녹취록은 모델 학습에 절대 사용하지 않음. 이는 계약상 하드 코밋이며 기본값이 켜진 「옵트아웃」 이 아닙니다.

24 시간도 길게 느껴진다면, 다운로드 완료 후 대시보드에서 원본 오디오를 수동 삭제할 수 있습니다. 삭제는 하드 딜리트이고 소프트 마킹이 아닙니다.

속도 실측(2026 년 5 월)

미국 동부 가정용 940/40 Mbps 회선 실측:

파일크기업로드전사총 시간
30 분 MP3(192 kbps)41 MB9 초28 초37 초
60 분 M4A(iPhone)28 MB6 초52 초58 초
60 분 WAV(16비트 모노)110 MB23 초51 초74 초
2 시간 팟캐스트(FLAC)540 MB1 분 53 초1 분 44 초3 분 37 초
4 시간 회의 WAV1.4 GB4 분 51 초3 분 28 초8 분 19 초

세 가지 패턴이 보입니다. 대용량 파일에서는 업로드가 총 시간을 지배 / 파일 크기가 길이보다 중요(30 분 고비트레이트 WAV 가 90 분 M4A 보다 느림) / AI 자체는 입력 포맷과 무관하게 항상 35–40 배 실시간 속도로 동작.

온라인 녹취록 FAQ

계정 등록 없이 온라인 전사가 가능한가요?

가능합니다. Atter AI 의 3 일 무료 체험은 결제 수단을 추가하기 전에 업로드 · 전사를 허용합니다. 다운로드 링크 전송용 이메일만 필요하고 카드 등록은 필요 없습니다.

브라우저에서 업로드 가능한 최대 파일 크기는?

Atter AI 의 온라인 업로더는 파일당 최대 5 GB 를 받으며, 압축된 M4A 로 약 92 시간 또는 비압축 24비트 WAV 로 약 8 시간 분량입니다. 2 GB 를 넘는 파일은 유선이나 Wi-Fi 6 환경을 권장합니다—멀티 GB 업로드의 재시도는 시간 손실이 큽니다.

어떤 오디오 포맷이 정확도가 가장 높습니까?

WAV 16비트 16 kHz 이상 모노와 FLAC 가 공동 1 위로, 깨끗한 한국어에서 약 99% 정확도. iPhone 의 M4A 도 실측에서 거의 동등(98.7%)입니다. 192 kbps 이상 MP3 가 약간 낮고, 메신저 앱의 OPUS 음성 메시지는 발신 측 공격적 압축으로 1–3 퍼센트포인트 낮습니다.

Chromebook 이나 회사 관리 Chrome 에서도 동작하나요?

동작합니다. 이게 데스크톱 앱보다 온라인 방식이 명확히 유리한 경우입니다. 확장 프로그램, Chrome 플래그, 관리자 권한 모두 불필요. Play 스토어 앱 설치가 금지된 학교 Chromebook 에서도 풀 스피드로 동작합니다.

카카오톡 음성 메시지를 온라인으로 전사할 수 있나요?

가능합니다. 내보낸 OPUS 파일을 Atter AI 업로더에 바로 드래그하면 됩니다. 카카오톡은 공격적으로 압축하기 때문에 정확도는 97–98%. 더 높은 정확도가 필요하면 상대방에게 음성 메시지가 아니라 「파일」 로 고품질 녹음을 보내달라고 요청하세요.

1 시간짜리 파일 온라인 전사에 얼마나 걸립니까?

50 Mbps 이상 업로드 대역폭에서 M4A 는 약 60–90 초. 대부분이 업로드 시간이고 AI 가 아닙니다. 1 시간 비압축 WAV(약 330 MB)는 총 2–3 분—파일이 10 배 크기 때문입니다.

MP4 동영상은 업로드 전에 오디오로 변환해야 하나요?

아닙니다. Atter AI 업로더는 MP4, MOV, MKV, AVI, WebM 을 직접 받고 서버에서 오디오 트랙을 추출합니다. 다만 업로드 대역폭이 좁다면 오디오로 먼저 변환하는 게 업로드를 30–50 배 빠르게 하고, 정확도에는 영향이 없습니다.

온라인 녹취록 에 업로드한 제 오디오가 AI 학습에 사용됩니까?

사용되지 않습니다. Atter AI 의 계약상 하드 코밋: 업로드 오디오와 생성된 녹취록은 모델 학습에 절대 사용되지 않습니다. 원본 오디오는 녹취록 전달 후 24 시간 이내에 처리 저장소에서 삭제되며, 녹취록 텍스트는 계정에 남아 사용자가 직접 삭제할 수 있습니다.