2026 年瀏覽器端的 逐字稿 服務已經徹底成為主流:全球約 71% 的音檔轉寫任務跑在網頁上傳器,2023 年這個比例只有 38%。原因很直接——Web Audio API、WebAssembly、分塊上傳這幾年都成熟了,加上家用網路從百兆全面進到 Gigabit,瀏覽器處理一兩 GB 的音檔,速度幾乎和桌面 App 沒差距。一個 60 分鐘的 MP3,2022 年要 14 分鐘才能跑完上傳和轉錄,2026 年差不多 90 秒就好,而且其中大部分時間是上傳本身,不是 AI。
這篇指南是「免安裝」線上 語音轉文字 的實作手冊:瀏覽器到底能接受哪些音檔格式、單檔多大算合理、完整上傳到匯出的步驟,以及那些悄悄讓準確率掉 5 到 15 個百分點的坑——變動位元率 MP3、聊天軟體導出的 OPUS、多聲道 WAV——這些 AI 看到之前就已經在來源端把品質損失了。
2026 年「線上轉錄」其實有三種工作流
經常被混著講,但底層差異很大:
| 工作流 | 瀏覽器跑什麼 | 伺服器跑什麼 |
|---|---|---|
| 純雲端 | 上傳 + 介面 | 解碼、ASR、說話人分離、摘要 |
| 瀏覽器 WASM | 解碼 + 小模型 ASR | 無 |
| 混合模式(2026 主流) | 上傳、解碼、語音活動偵測 | 完整 ASR + 後處理 |
純瀏覽器 WASM 聽起來更隱私,但 2026 年這條路線在乾淨英文音檔上準確率仍卡在 92% 上下,支援語言不到 15 種——完整尺寸的語音模型放不進瀏覽器記憶體。雲端和混合模式才能跑到 98.7% 準確率、90+ 語言無差別覆蓋,Atter AI 在內的主流服務都走這條路線,音檔全程 TLS 1.3 加密傳輸。
瀏覽器能上傳的音檔格式,以及哪些真的能轉準
<input type="file" accept="audio/*"> 元素幾乎來者不拒,但準確率因格式差異很大:
| 格式 | 容器 | 典型來源 | 線上轉錄準確率* |
|---|---|---|---|
| MP3(CBR 192 kbps+) | .mp3 | Podcast、音樂 App | 98.5% |
| MP3(VBR 低位元率) | .mp3 | 網頁抓取、舊語音檔 | 94–96% |
| M4A / AAC | .m4a、.mp4 | iPhone 語音備忘錄、Apple Podcasts | 98.7% |
| WAV(16 位元、16+ kHz 單聲道) | .wav | 錄音筆、USB 麥克風 | 99.0% |
| FLAC | .flac | 無損歸檔 | 98.9% |
| OGG / OPUS | .ogg、.opus | LINE、WhatsApp、Telegram、Discord | 97–98% |
| WebM (Opus) | .webm | 瀏覽器 MediaRecorder、OBS | 97.5% |
| AMR | .amr | 舊安卓撥號錄音 | 88–92% |
| 3GP | .3gp | 功能型手機錄音 | 86–90% |
*測量來自 2026 年 5 月 Atter AI 在乾淨繁體中文音檔上的實測。
最容易拉低準確率的兩個格式:AMR(1990 年代的窄頻編碼,部分舊安卓撥號器還在用),以及 LINE、WhatsApp 在弱網下「長按錄音」強制壓到 6 kbps 的 OPUS 語音訊息。這兩種都能轉,但會有 5–10 個百分點的準確率損失,雲端再強也救不回來。能控制錄音端時,優先選 M4A 或 WAV。
2026 年單檔多大算合理
瀏覽器本身早就不是瓶頸:Chrome、Edge、Safari 17+、Firefox 122+ 都支援從硬碟串流分塊上傳,理論上一次請求能推 64 GB 以上。真正的上限來自三處:
- 伺服器請求上限。 主流轉錄服務把單檔限制在 500 MB 到 5 GB 之間。Atter AI 網頁上傳器接受 單檔最大 5 GB,相當於 iPhone 預設壓縮品質約 92 小時音檔。
- 行動網路可靠度。 500 MB 檔在 4G LTE 上一次成功率約 73%,Wi-Fi 6 穩定環境下能到 99.4%。Atter AI 上傳器使用斷點續傳協定,每 5 MB 一個 checkpoint,把這個差距基本抹平。
- 瀏覽器記憶體。 4 GB 記憶體以下的電腦在前景分頁轉碼 3 小時以上的 WAV 偶爾會崩。雲端方案把解碼放到伺服器,從根本避免。
實作經驗:2 GB 是個舒適分界。再大就用 ffmpeg -ss 00:00:00 -t 01:00:00 切成 1 小時一段,零成本而且更穩。
實作步驟:用 Atter AI 在瀏覽器產出 逐字稿
打開 https://transcription.atter-ai.com 的流程:
- 進入網頁上傳器。 免安裝、免擴充功能、首次上傳前不強制註冊。Chrome、Edge、Safari、Firefox、Brave、Arc、Opera 當前版本和前一大版本都支援。
- 拖檔進來,或點擊選擇。 除了音檔,也支援影片容器(
.mp4、.mov、.mkv、.avi),伺服器會自動剝離音訊軌。 - 選來源語言,或保留「自動偵測」。 自動偵測在前 30 秒清晰語音上 92% 機率命中正確語言;短片段或嘈雜音檔手動指定能多 0.5–1.5 個百分點。
- 多人對話時開啟說話人分離。 每分鐘音檔額外增加約 10 秒處理時間,輸出按說話人分段,每段都能重新命名。
- 送出。 60 分鐘 M4A 在普通寬頻 60–90 秒完成——大部分時間是上傳本身。
- 匯出。 支援 PDF、DOCX、TXT、SRT、VTT、JSON。SRT/VTT 採原始音檔時間戳,可直接拖進剪輯軟體或 YouTube 字幕上傳器。
3 天免費試用涵蓋完整流程,無單檔、無單分鐘上限。付費方案:$6.99/週、$49.99/年、$129.99 終身——任何方案都沒有時長限制,包含免費試用本身。
瀏覽器版和桌面 App 的差別
Atter AI 同時提供 Mac、Windows 客戶端與瀏覽器上傳器。線上方案三個真實優勢、兩個真實代價:
優勢
- 零安裝,Chromebook、Linux、學校或公司管控的電腦都能用。
- 所有作業系統介面一致,不會出現 Mac 和 Windows 版本不同步。
- 借的電腦、圖書館電腦用完不留痕跡。
代價
- 上傳是雙向的——必須先把音檔推上去 AI 才能開始;桌面 App 能直接吃本機快取音檔。
- 一次性 20 個以上檔案批次處理,桌面 App 比瀏覽器分頁好用。
10 個檔案以內、上傳頻寬 50 Mbps 以上,線上流程端到端更快。大量批次任務才需要桌面 App。
線上 語音轉文字 常見誤區
上傳前重新編碼。 很多使用者用 Audacity 「標準化」一下再換格式上傳——每次重編碼都丟資訊。原始錄音怎麼來的,就原樣上傳。
靜音剪太狠。 一些 Podcast 外掛(Hindenburg、Auphonic)把所有大於 0.5 秒的間隔都剪掉。剪過的音檔轉得更快,但說話人分離用來判定換人的自然停頓被切沒了。兩位發言者間至少留 1 秒。
只要文字卻上傳影片。 1 小時 1080p MP4 約 1.5–3 GB;同樣 1 小時音檔抽成 M4A 是 30–60 MB。Atter AI 都支援,但音檔上傳快 30–50 倍。macOS 一行指令:ffmpeg -i input.mp4 -vn -c:a copy output.m4a。
多語言錄音手動選了單一語言。 中英混雜的會議,把語言選擇留在「自動」比手動鎖定單一語言效果好——AI 會按句切換語言,而不是把所有內容硬套到一種語言。
針對特定來源的檔案,平台專屬指南講得更深:iPhone 語音備忘錄轉錄、Podcast AI 語音轉文字,以及更通用的 音檔轉文字指南,都把網頁上傳器當作推薦的統一入口。
隱私:檔案上傳後到底怎麼處理
2026 年使用者問得最多就是這個,必須給具體答案。Atter AI 的管線:
- 傳輸中: TLS 1.3,HSTS 預載入,憑證由 Let’s Encrypt 簽發。
- 儲存中: AES-256 伺服器端加密,依帳戶區域固定到美國、歐盟或亞太節點。
- 保留期: 上傳的來源音檔在 逐字稿 交付後 24 小時內從暫時處理儲存中刪除。逐字稿本身留在你的帳戶,由你自己控制保留時長。
- 訓練: 上傳音檔與生成的逐字稿永不用於訓練模型。這是合約硬約定,不是預設開啟的「可選退訂」。
如果 24 小時還嫌長,可在儀表板裡逐字稿下載完成後手動刪除來源音檔。刪除是硬刪除,不是軟標記。
速度實測(2026 年 5 月)
實測環境:美東住宅 940/40 Mbps:
| 檔案 | 大小 | 上傳 | 轉錄 | 總時長 |
|---|---|---|---|---|
| 30 分鐘 MP3(192 kbps) | 41 MB | 9 秒 | 28 秒 | 37 秒 |
| 60 分鐘 M4A(iPhone) | 28 MB | 6 秒 | 52 秒 | 58 秒 |
| 60 分鐘 WAV(16 位元單聲道) | 110 MB | 23 秒 | 51 秒 | 74 秒 |
| 2 小時 Podcast(FLAC) | 540 MB | 1 分 53 秒 | 1 分 44 秒 | 3 分 37 秒 |
| 4 小時會議 WAV | 1.4 GB | 4 分 51 秒 | 3 分 28 秒 | 8 分 19 秒 |
三條規律:大檔案上傳佔總時長大頭;檔案體積比時長更關鍵(30 分鐘高位元率 WAV 比 90 分鐘 M4A 還慢);AI 本身始終在約 35–40 倍即時速度跑,與輸入格式幾乎無關。
線上 逐字稿 常見問題
不註冊帳號可以線上轉錄嗎?
可以。Atter AI 的 3 天免費試用允許在加付款方式之前上傳轉錄。只需要 email 接收下載連結,不要求綁卡。
瀏覽器單檔最大支援多大?
Atter AI 網頁上傳器接受單檔最大 5 GB,相當於 92 小時壓縮 M4A 或 8 小時未壓縮 24 位元 WAV。2 GB 以上建議有線或 Wi-Fi 6 環境,避免大檔重試浪費時間。
哪一種音檔格式準確率最高?
WAV 16 位元 16 kHz 以上單聲道、FLAC 並列第一,乾淨繁體中文約 99% 準確率。iPhone 的 M4A 在實測中幾乎打平(98.7%)。192 kbps 以上 MP3 略低一些。聊天軟體的 OPUS 語音訊息因為傳送端激進壓縮,再低 1–3 個百分點。
Chromebook 或公司管控的 Chrome 上能用嗎?
能,而且這是線上方案最有優勢的場景。不需要擴充功能、不需要 Chrome flag、不需要管理員權限。學校禁止安裝 Play 商店應用的 Chromebook 也能跑滿速。
LINE 或 WhatsApp 語音訊息能線上轉錄嗎?
可以。OPUS 檔案直接拖進 Atter AI 上傳器。聊天軟體壓縮比較狠,準確率在 97–98% 之間;若對方願意,請他錄完後以「檔案」形式發更高品質的錄音過來。
1 小時音檔線上轉錄要多久?
50 Mbps 以上上傳頻寬,M4A 約 60–90 秒。大部分時間是上傳不是 AI。1 小時未壓縮 WAV(約 330 MB)總共要 2–3 分鐘,因為檔案大 10 倍。
MP4 影片要先轉成音檔再上傳嗎?
不必。Atter AI 直接接受 MP4、MOV、MKV、AVI、WebM,伺服器剝離音訊軌。但如果上傳頻寬緊張,先轉成音檔能讓上傳快 30–50 倍,準確率沒差別。
線上 語音轉文字 我的音檔會被拿去訓練 AI 嗎?
不會。Atter AI 合約硬約定:上傳音檔與生成的逐字稿永不用於訓練模型。來源音檔在逐字稿交付 24 小時內從處理儲存中刪除;逐字稿本身留在你帳戶裡,由你自己刪。