Verizon Media 조사에 따르면 모바일 영상 재생의 약 **83%**가 음소거 상태에서 이뤄지며, iOS 수치는 수년째 비슷한 수준을 유지하고 있습니다. 이 한 가지 사실이 영상 녹취록의 위치를 바꿨습니다. 2026년 영상 파일 녹취록에서 가장 많이 요청되는 산출물은 더 이상 “읽는 Word 문서”가 아니라, 화면 위에 얹어 음성을 선택 사항으로 만드는 .srt 또는 .vtt 자막 트랙입니다. 현재 영상 파일 녹취 작업의 약 **92%**가 일반 텍스트 외에 “타임코드가 포함된 자막 내보내기”를 함께 요청합니다.
이 가이드는 2026년 영상 파일 녹취록 실전 매뉴얼입니다. AI 엔진이 받아들이는 영상 컨테이너, 원본 영상을 직접 올릴지 vs. 오디오만 먼저 추출할지의 실제 트레이드오프, 화자 라벨이 붙은 프레임 정확도 SRT를 얻는 절차, 그리고 Final Cut Pro에서 시간당 110 GB짜리 4K ProRes 파일이 떨어졌을 때 대처법까지 다룹니다.
영상 녹취록과 음성 녹취록의 차이
음성 녹취록은 텍스트를 만듭니다. 영상 녹취록은 텍스트와 함께 “영상 타임라인과의 계약”을 만듭니다. 실무에서 결정적인 차이는 셋입니다.
- 프레임 정렬. SRT와 VTT 타임코드는 영상의 프레임레이트(23.976, 25, 29.97, 60 fps)에 맞춰야 합니다. 음성 녹취록에서는 아무도 알아채지 못할 200 ms 오차가 화면에서는 “자막이 반박자 늦게 뜬다”는 가시적 결함이 됩니다.
- 시각적 읽기 속도. 자막은 화면과 나란히 표시됩니다. 사람이 보면서 읽어낼 수 있는 상한은 초당 17
20자 정도(한글은 약 911자/초). 이를 넘는 큐는 잘라야 하며, 그렇지 않으면 다 읽기 전에 사라집니다. - 컨테이너 복잡도. MP3는 트랙이 하나지만, 카메라 MP4는 메인 오디오, 360도 마이크의 앰비소닉, 슬레이트 트랙, 감독 코멘트까지 동시에 담을 수 있어 AI가 어느 트랙을 옮길지 골라야 합니다.
Atter AI의 영상 파이프라인은 이 세 가지를 모두 처리합니다. 컨테이너 헤더에서 원본 프레임레이트를 읽어 SRT 큐를 정렬하고, 다중 트랙 파일에서는 사용자에게 트랙을 선택하게 합니다. 깨끗한 음성에서 적용되는 **녹취록 정확도 98.7%**와 90개 이상 언어 지원이 영상 음성에서도 그대로 적용됩니다.
녹취록이 지원하는 영상 포맷 (그리고 조용히 실패하는 한 가지)
HTML5 파일 선택기는 어떤 영상 MIME든 업로더로 넘기지만, 정작 중요한 건 백엔드입니다. 2026년 Atter AI가 받아들이는 영상 컨테이너는 8가지입니다.
| 컨테이너 | 주요 출처 | 비고 |
|---|---|---|
.mp4 (H.264 + AAC) | 웹/회의 영상의 약 85% | 기본. 모든 요금제에서 지원. |
.mp4 (HEVC / H.265) | iPhone 11 이상, 최근 Android | 같은 화질에서 H.264 대비 약 50% 작음. |
.mov (ProRes) | Final Cut Pro, ARRI, RED 워크플로우 | 4K ProRes 422 HQ는 시간당 110 GB. 오디오 먼저 추출 권장. |
.mkv | OBS 녹화, 자막 배포 | 다중 오디오 지원, 업로드 시 선택. |
.webm (VP9 / Opus) | Chrome 화면 녹화, Loom 내보내기 | 브라우저 네이티브 포맷, 업로드 빠름. |
.avi | 옛 Windows 캡처 | 동작하나 2010년 이후 소재는 MP4로 리뮤스 권장. |
.m4v | iTunes, QuickTime 내보내기 | .mp4와 동일 파이프라인. |
.wmv | Windows Media 내보내기 | 지원하지만 VC-1 디코딩에 약 10초의 전처리 추가. |
카카오톡으로 전달된 영상에는 함정이 있습니다. 확장자는 .mp4인데 moov atom 배치가 비표준이라 일부 오래된 녹취 파이프라인은 “디코드 실패”를 냅니다. Atter AI는 서버 측에서 atom을 수정한 뒤 처리하므로 문제가 없지만, 다른 서비스에서 이 오류를 만나면 확장자만 바꿔도 해결되지 않습니다. ffmpeg -i in.mp4 -c copy -movflags +faststart out.mp4로 리뮤스해야 합니다.
업로드 전에 오디오만 먼저 빼야 할까?
솔직히 말하면 판단 기준은 녹취록 품질이 아니라 업로드 대역폭입니다. 품질은 어느 방식이든 동일하며, 차이가 나는 것은 속도뿐입니다.
Zoom 녹화의 1시간짜리 1080p MP4는 보통 1.21.8 GB입니다. 같은 1시간을 M4A로 추출(오디오 트랙 복사, 재인코딩 없음)하면 2835 MB —— 약 40배 작습니다. 50 Mbps 업로드 회선에서는 “3분 업로드”와 “5초 업로드”의 차이로 직결됩니다.
2026년의 실용 기준:
- 500 MB 미만 또는 100 Mbps 이상 회선 —— 영상 직접 업로드. 편의가 이깁니다.
- 2 GB 초과 또는 느린/종량/모바일 회선 —— 오디오 먼저 추출.
ffmpeg -i in.mp4 -vn -c:a copy out.m4a에 60초를 쓰면 5~20분의 업로드를 아낍니다. - SRT/VTT 자막이 필요 —— 영상 직접 업로드. 파이프라인이 원본 프레임레이트에 맞춰 타임코드를 정렬하는데, 오디오만 올리면 이 정보가 사라집니다.
세 번째 규칙이 가장 중요합니다. 목표가 자막이라면 “오디오 추출 → 녹취 → SRT를 영상 프레임레이트에 수동 재정렬”의 왕복이 느린 업로드보다 더 오래 걸립니다.
오디오만 다루는 워크플로우는 온라인 오디오 파일 녹취록 가이드를 참고하세요. 플랫폼별 녹화의 경우 Zoom 회의 녹취록이 클라우드 MP4를, YouTube 영상 녹취록이 업로드를 건너뛰는 공개 URL 흐름을 다룹니다.
단계별: 영상에서 5분 안에 SRT까지
https://transcription.atter-ai.com에서의 실제 흐름:
- 업로더 열기. 브라우저든 데스크톱 앱이든 영상을 받습니다. 웹 흐름은 설치가 필요 없으며 Chromebook, 도서관 PC, 학교 관리 단말에서도 동작합니다.
- 영상 드래그. 업로더가 컨테이너를 검사해 길이, 프레임레이트, 오디오 트랙 수를 표시하고, 손상된 파일에는 경고를 띄웁니다.
- 다중 트랙이면 수동 선택. 듀얼 마이크 카메라, OBS 다중 트랙 내보내기, DAW 프리믹스는 모두 다중 트랙을 만듭니다. 기본 “트랙 1”이 맞는 경우가 약 95%.
- 내보내기 형식 미리 선택. SRT, VTT, ASS/SSA(스타일 자막), TXT, DOCX, PDF, 자막 번인 MP4. 번인을 고르면 녹취 후 렌더링 단계가 추가됩니다.
- 다인 대화면 화자 분리 켜기. 인터뷰, 좌담, 카메라 수록 팟캐스트에 유용. 각 큐에 화자 라벨이 붙습니다.
- 제출. 100 Mbps 업로드 회선에서 1시간 MP4는 종단 간 약 4분(업로드 약 2.5분, 녹취 약 90초). 자막 번인은 GPU 렌더링 60~90초를 추가합니다.
- 다운로드. SRT/VTT는 Premiere, Final Cut, DaVinci Resolve, CapCut, Descript, YouTube Studio에 바로 들어가며 재타이밍이 필요 없습니다.
3일 무료 체험은 자막 번인과 SRT 내보내기를 포함한 전 과정을 파일/분 제한 없이 사용할 수 있습니다. 유료 요금은 주 $6.99, 연 $49.99, 평생 $129.99이며, 모든 요금제에 길이 제한이 없습니다.
SRT, VTT, 번인 중 어느 것을 골라야 하나
세 가지 자막 출력은 해결하는 문제가 다릅니다.
- SRT는 범용 교환 포맷. 2001년에 등장, 일반 텍스트와 타임코드로 구성. Premiere, Final Cut, DaVinci, VLC, MX Player, YouTube, Vimeo —— 지금까지 출시된 플레이어의 약 99%가 인식합니다. 이후 자막을 편집하거나 편집자에게 넘길 가능성이 있다면 이걸로.
- VTT는 SRT에 스타일(위치, 색, 한국어 루비)을 더한 것. HTML5
<track>으로 브라우저 내장 자막을 띄우려면 필수. 다국어 또는 세로쓰기가 필요한 웹 플레이어에 적합. - **번인(오픈 캡션)**은 자막을 영상 픽셀에 그려 넣는 방식. 시청자가 끌 수 없습니다. SRT 사이드카를 벗기는 소셜(TikTok, Instagram Reels, X 영상)과 앞서 말한 83% 음소거 재생 사정으로, 이쪽 용도에 적합합니다.
가장 흔한 실수는 번인 자막을 YouTube에 올리는 것입니다. YouTube는 SRT를 그대로 받아 100개 이상 언어로 자동 번역하고 자막을 검색 가능하게 만들어 줍니다. 상대 플레이어가 사이드카를 벗기는 경우에만 번인하세요.
녹취록을 활용해 영상 편집 가속하기
자막 다음으로 2026년에 많이 쓰이는 용도는 “텍스트 기반 편집”입니다. 흐름은:
- 소재를 타임코드가 붙은 SRT로 녹취.
- 영상을 스크럽하는 대신 텍스트를 읽기.
- 텍스트에서 문장 삭제 → 편집기(Descript, Premiere의 텍스트 기반 편집, DaVinci Resolve의 Cut by Words)가 해당 영상 구간을 동시에 삭제.
전통 거친 편집으로 6시간 걸리던 60분 인터뷰가 텍스트 편집에서는 약 45분으로 단축됩니다 —— 2025년 Adobe가 412명의 편집자를 대상으로 한 조사에서 약 7배 가속입니다. SRT 타임코드가 프레임 정확도로 정렬되어 있을 때만 성립하므로, 편집이 목적이라면 영상을 직접 업로드해야 합니다(오디오 먼저 추출은 금물).
대용량 파일 다루기: 4K, ProRes, 카메라 원본
2026년 일반적인 워크플로우에서 가장 큰 영상은 카메라 직출이 아니라 중간 코덱입니다.
- **4K H.264 (45 Mbps)**는 시간당 약 20 GB. Atter AI 웹 업로더는 표준 요금제에서 파일당 10 GB까지 받으므로 30분 4K는 직접 업로드 가능.
- 4K ProRes 422 HQ는 시간당 약 110 GB. 오디오를 먼저 추출하세요. 110 GB를 올리든 30 MB를 올리든 음성 내용은 동일합니다.
- RED R3D와 ARRI ARRIRAW는 직접 지원되지 않습니다. 프록시 MP4를 내보내거나 음성을 WAV로 빼세요.
10 GB를 넘으면 ffmpeg -ss 00:00:00 -t 01:00:00 -c copy out.mp4로 챕터/씬 경계에서 분할하면 각 청크가 상한 안에 들고 재인코딩 없이 원본 품질이 유지됩니다.
개인정보: 영상 파일, 얼굴, 24시간 윈도우
영상에는 얼굴이 있습니다. 개인정보 모델은 이 사실을 반영해야 합니다.
- 전송 중: TLS 1.3, HSTS 프리로드.
- 저장 중: AES-256 서버측 암호화, 리전 고정 보관(미국, EU, APAC).
- 보존 기간: 업로드된 영상은 녹취록과 자막 전달 완료 후 24시간 이내에 임시 처리 저장소에서 삭제됩니다. 번인된 영상은 다운로드 후 삭제.
- 학습 용도: 영상 파일, 추출된 음성, 생성된 녹취록은 모델 학습에 사용되지 않습니다. 기본 ON 옵트아웃이 아니라 계약상 약속입니다.
HIPAA, GDPR 제9조, 또는 한국 개인정보보호법에 해당하는 워크플로우의 경우, 대시보드의 “즉시 삭제”는 하드 삭제입니다. 클릭 후 60초 이내에 원본 영상은 복구 불가가 됩니다.
영상 파일 녹취록 FAQ
업로드 전에 오디오를 추출해야 하나요?
업로드 대역폭이 병목이거나 타임코드 자막이 필요 없는 경우에만요. 품질은 어느 방식이든 동일하고, 변하는 것은 속도뿐입니다. 100 Mbps 이상 회선이라면 영상 직접 업로드가 더 편하고 SRT/VTT도 원본 프레임레이트에 정렬됩니다.
한 파일에 올릴 수 있는 최대 영상 크기는?
Atter AI 표준 요금제 기준 파일당 10 GB. 4K H.264 약 30분, 1080p Zoom 녹화 5~6시간, 4K ProRes 약 5분이 기준입니다. 더 큰 파일은 ffmpeg -ss로 챕터 분할.
사이드카 SRT 대신 자막이 번인된 영상을 직접 받을 수 있나요?
가능합니다. 업로더에 “자막을 영상에 번인” 토글이 있어 서버 측에서 MP4 픽셀에 렌더링합니다. 1시간 영상당 GPU 60~90초가 추가됩니다. 시청자가 끌 수 없으니 SRT 사이드카를 벗기는 TikTok, Reels, Shorts에 적합합니다.
화면 녹화도 녹취록이 되나요?
됩니다. Loom, OBS, QuickTime, Windows Game Bar, ShareX의 화면 녹화는 모두 표준 MP4 또는 WebM으로, 다른 영상과 동일한 98.7% 정확도로 처리됩니다. 화면 내용은 영향을 주지 않고 오디오 트랙만 대상입니다.
배경 음악이나 효과음이 있으면 정확도가 떨어지나요?
최신 녹취 파이프라인에는 “음악 억제” 단계가 있어, 순수 악기 BGM은 약 92% 효과로 제거됩니다. 음악이 깔린 음성의 정확도는 깨끗한 음성보다 2~4 포인트 정도 낮습니다. 튜토리얼 영상의 옅은 BGM은 체감 차이가 없고, 가창이 들어간 뮤직비디오는 품질이 크게 떨어져 본래 의도된 용도가 아닙니다.
1시간짜리 영상은 종단 간 얼마나 걸리나요?
100 Mbps 업로드 기준 1.5 GB 1080p MP4 업로드 약 2.5분, AI 녹취 약 90초, 번인(선택) 6090초. 60분 영상 총 45분.
4K, HDR, 60 fps는 차이가 있나요?
해상도, 다이내믹 레인지, 프레임레이트는 녹취 정확도에 영향을 주지 않습니다(대상은 음성뿐). 다만 업로드 시간에는 선형으로 영향을 줍니다. 4K는 1080p 대비 약 4배 바이트. SRT 타임코드는 원본 프레임레이트로 기록되므로 60 fps 자막도 정확한 프레임에 떨어집니다.
녹취록으로 정말 영상을 편집할 수 있나요?
가능합니다 —— 2026년 가장 일반적인 워크플로우 중 하나입니다. SRT를 내보내 Descript, Premiere 텍스트 기반 편집, DaVinci Resolve Cut by Words에 가져오면 텍스트를 편집하는 방식으로 영상을 편집할 수 있습니다. 60분 인터뷰의 거친 편집이 6시간 스크럽에서 45분 텍스트 편집으로 단축됩니다.