AI 转录

把 YouTube 视频文字扒下来的 5 种方法

从隐藏的字幕按钮到整频道批量导出——五种方法对比速度、成本、语言覆盖,哪种适合你。

YouTube 比互联网上任何其他档案库都收录了更多的人声录音——每月活跃用户 27 亿、每分钟新上传超过 500 小时视频——但平台自带的字幕工具藏得太深,多数观众根本不知道自己正在看的视频其实就有现成的文字稿。学生整理课堂笔记、研究者抓取引用、内容创作者复用长视频、无障碍团队制作本地化字幕,把 YouTube 转成干净文字早已不是偶尔的任务,而是日常工作流。

本文涵盖了从一个 YouTube 链接到一份可用文字稿的 5 条路径,包括在干净音频上达到 98.7% 准确率、覆盖 90+ 语言的 AI 录音转文字方案。同时也覆盖 YouTube 特有的边界场景——年龄限制视频、区域锁视频、音乐密集型内容、关闭字幕的频道——这些场景如果没提前规划,能悄悄吞掉好几个小时。

YouTube 自带哪些字幕能力

在动用任何第三方工具之前,先搞清楚 YouTube 本身能给你什么。大约 70% 的公开 YouTube 视频带有 Google 语音识别自动生成的字幕,但其中只有约 30% 经过上传者人工校对。

  • 自动字幕 — 13 种支持语言下大多数视频都会自动生成,包括英语、西班牙语、日语、韩语、葡萄牙语、法语、德语、意大利语、荷兰语、俄语、越南语、印尼语、土耳其语。日常英文对话准确率通常在 60% 到 85% 之间,遇到口音、专业术语、多人抢话时会大幅下降。
  • 人工字幕 — 由创作者上传。一旦存在,就是从 YouTube 取文字最干净的源头,并且可能含多语言。
  • 字幕面板 — 桌面视频页面右侧的侧边栏,显示带时间戳、可滚动的逐字稿。多数「YouTube 转文字」流程其实暗地都依赖这个面板。
  • 章节 — 创作者自己定义的时间戳,把视频分段。不是逐字稿,但当你只需要某一段的文字时很有用。

方法 1:用 YouTube 自带的字幕面板

从公开 YouTube 视频取文字最快、最合规的方法,就是平台自己的字幕面板。任何带字幕的视频——无论是自动生成还是人工——都可以用,30 秒就能搞定。

  1. 在桌面端 YouTube 网页打开视频(手机 App 不行,字幕面板没暴露在那)。
  2. 点视频下方的更多操作(三个点的菜单)→ 显示文字记录
  3. 文字记录会展开在右侧侧栏。最下方有切换按钮,可在带时间戳和连续文本视图间切换。
  4. 如果视频有多语言字幕轨道,点击语言下拉菜单切换。
  5. 选中文字、复制、粘贴到文档里。

99% 以上带字幕的公开视频都能这么做。两种失效场景:一是上传者主动关闭了字幕(少数情况——通常是音乐视频和直播),二是自动字幕任务还在排队中(新上传后头几小时常见)。

唯一的问题是准确率。YouTube 自动字幕在技术性内容上大约每 5 个词就错 1 个,专有名词错得更多。如果只是当原始笔记,没问题。但要发布——引用研究者的话、做本地化字幕、整理课程逐字稿——就需要一次真正的录音转文字。

方法 2:用 Atter AI 直接从 YouTube 链接转录

当自动字幕不够准、或者干脆没有时,最干净的流程是把 YouTube 链接喂给 AI 录音转文字服务,它会下载音频、跑专业语音识别,并返回带说话人标签、标点和段落结构的文字稿。

  1. 从地址栏或分享按钮复制 YouTube 视频链接。
  2. 在 Atter AI 中打开新建转录页面,把链接粘贴进从链接转录输入框。
  3. 选择源语言(或留在自动检测;引擎能识别 90+ 语言)。
  4. 开始转录

Atter AI 拉取音频轨道,跑一个针对 YouTube 真实音频环境(背景配乐、抢话、口音、专业术语)调优的录音转文字引擎,30 分钟视频通常在 2 到 4 分钟内就能在你的 dashboard 上看到 98.7% 准确率的文字稿。上传无时长限制,4 小时的播客或 12 小时的会议直播流走的是同一条管线,5 分钟的 Shorts 也一样。

价格在这里很关键,因为大部分免费的 YouTube 转文字工具都把单视频时长卡在 10 分钟、每月总额度卡在 30 分钟。Atter AI 免费 3 天试用没有时长限制,付费档位(详见下方对比表)里有一次性买断的终身方案,对任何「一年后每月还会转 2 个以上 YouTube 视频」的人来说最划算。

如果你想在选定方案前对比多个 AI 工具的底层引擎,可以看最佳语音转文字工具对比,里面有针对 YouTube 风格音频的准确率基准。

方法 3:先下载,再录音转文字

需要离线工作流时——网络不稳、做存档项目、想让文字稿能在 YouTube 未来下架后依然保留——先把音频下载下来再上传给录音转文字工具是最稳妥的路径。这也是 YouTube 链接流程被阻断时的唯一选择(年龄限制内容、你已获权限的会员专属视频、通过合法手段访问的区域受限上传)。

常见的开源工作流是 yt-dlp(支持包括 YouTube 在内的 1000+ 站点)拉取纯音频流:

yt-dlp -x --audio-format m4a "https://www.youtube.com/watch?v=VIDEO_ID"

得到的 .m4a 文件体积大约只有原视频的十分之一。上传到 Atter AI,选语言,得到的就是和方法 2 一样的高准确率文字稿。对于现成音频文件的录音转文字,音频转文字完整指南详细列出了所有支持格式。

不想用命令行的话,也有同款引擎的桌面 GUI 应用——但批量任务上命令行更快,因为可以一条命令处理整个播放列表。

方法 4:批量转录整个频道或播放列表

研究者建语料库、内容营销人员分析竞品频道、课程创作者复用多集系列视频,一个一个手动转完全不可行。最干净的方式是把 yt-dlp 的播放列表能力和 Atter AI 的批量上传结合起来。

  1. 拿到播放列表或频道链接。
  2. yt-dlp -x --audio-format m4a "PLAYLIST_OR_CHANNEL_URL",把每个视频的音频都拉到同一个文件夹。
  3. 在 Atter AI 把整个文件夹拖到上传区域。付费方案单批最多接受 100 个文件。
  4. dashboard 并行处理,给出每个视频独立的文字稿,并提供一键合并成单一文档的选项。

50 个视频的频道、平均时长 12 分钟(YouTube 非 Shorts 视频的平台平均值),在 Atter AI 标准处理档位下大概 90 分钟就能跑完。每份文字稿以视频标题和视频 ID 索引,可以反查回原始链接。

方法 5:浏览器扩展和书签栏脚本

很多浏览器扩展号称一键 YouTube 转文字。它们几乎都是通过抓 YouTube 字幕面板实现的——也就意味着它们继承了 YouTube 自动字幕 60% 到 85% 的准确率天花板,不是真正的录音转文字管线。日常浏览看个大概可以,但任何要发布、引用、交付的场景都不应该把它当主力流程。

例外是那些把链接转交给真实转录服务的扩展。如果你用这类扩展,验证一下背后做了什么:一个 30 分钟视频 5 秒内就出结果的扩展,必然是在读自动字幕,而不是在跑录音转文字。

YouTube 录音转文字常见坑

这些是 YouTube 特有的、不提前防范就会悄悄浪费时间的陷阱。

年龄限制和会员专属视频需要身份认证。YouTube 字幕面板在你登录的情况下可以处理;基于链接的 AI 工具通常不行,因为它们没有你的 YouTube cookie;这种情况下登录后用方法 3 下载音频,再手动上传。

**音乐密集型内容会摧毁绝大多数语音识别。**自动字幕直接跳过歌曲。Atter AI 这种真正的录音转文字引擎在口播部分依然能保持同样的准确率,但不会转写歌词——既因为歌词不是语音,也因为版权考量。

直播和首映结束后还需要等 YouTube 后处理完毕才有文字记录——通常是直播结束后 30 分钟到几小时。在此之前唯一的选择是实时字幕,但实时字幕无法导出。

区域锁视频基于链接的录音转文字服务在另一个区域无法访问。如果视频只对你所在的国家解锁,用方法 3(自己在该区域下载音频,再上传文件)。

Shorts(短视频)短于 60 秒会生成字幕,但 Shorts 播放器里隐藏了字幕面板。绕过的办法是把同一个视频用 youtube.com/watch?v=VIDEO_ID 长视频播放器打开——长视频播放器暴露了标准字幕控件。

**「显示文字记录」按钮不见了。**通常意味着:创作者关闭了字幕、视频太新(非英语音频的自动字幕可能要几小时才完成)、或者你在手机 App 上——手机 App 从不暴露字幕面板。

YouTube 自动字幕 vs Atter AI

能力 YouTube 自动字幕 Atter AI
干净音频准确率60–85%98.7%
语言覆盖13 种90+ 种
说话人分离
导出格式SBV、SRT(仅上传者可用)PDF、DOCX、TXT、SRT、VTT、JSON
AI 摘要 & 章节有限内置
跨视频搜索
价格免费3 天免费试用,之后 $6.99/周 / $49.99/年 / $129.99 终身

如果想横向对比适合内容创作者的录音转文字工具,参见最佳 AI 转录工具盘点

YouTube 录音转文字常见问题

转录别人的 YouTube 视频合法吗?

转录别人的 YouTube 视频用于自己使用——做笔记、研究、无障碍——在多数司法辖区属于合理使用。把文字稿当作自己的原创发表是版权问题。安全规则是:自用和研究可以随意转录,引用时清晰标注来源,发布完整文字稿前请向创作者申请许可。

YouTube 自动字幕到底准不准?

YouTube 官方文档承认在受支持语言的日常对话上准确率大约 60% 到 85%,遇到口音、专业内容、含背景音乐的音频会进一步下降。Atter AI 在 90+ 种语言的干净音频上都能保持最高一档的准确率,YouTube 自动字幕崩得最厉害的口音和多语言场景,差距最明显。

能转录私密 YouTube 视频吗?

如果你有访问权限,可以。用方法 3(在有权限的账号登录状态下自己下载音频,然后上传文件),因为基于链接的工具一般无法登录认证。无论来源如何,Atter AI 处理上传文件的方式都一样。

能转录最长多长的 YouTube 视频?

YouTube 平台单次上传上限是 12 小时。Atter AI 上传无时长限制,所以一个 12 小时的直播录像可以一次性转录——视音频时长,处理时间通常在 25 到 50 分钟之间。

为什么有些视频没有「显示文字记录」按钮?

三种原因:创作者关闭了字幕、自动字幕任务还没跑完(非英语音频的新上传可能要等几小时)、或者你在手机 App 上(永远不会显示字幕面板)。换桌面端再看一次。

能转录 YouTube Shorts 吗?

可以,但 Shorts 播放器里隐藏了字幕面板。用 youtube.com/watch?v=VIDEO_ID 长视频播放器打开同一个视频,使用标准字幕面板;或者把链接发给 Atter AI 拿更高准确率。

Atter AI 会下载 YouTube 视频吗?

Atter AI 只抓取产生文字稿所需的音频轨道,处理完后丢弃源文件。dashboard 里保留的是文字稿和原始链接的引用,而不是视频本身的副本。

转录一个 1 小时的 YouTube 视频要多久?

Atter AI 标准档位下,60 分钟视频通常在 3 到 6 分钟内完成。其中大部分时间是从 YouTube 下载音频;录音转文字本身比实时还快。

手机能转录 YouTube 视频吗?

可以。YouTube 手机 App 隐藏了字幕面板,但 Atter AI 移动端流程支持粘贴 YouTube 链接,转录结果会出现在和桌面端同一个 dashboard 里。