AI 轉錄

瀏覽器線上逐字稿:免安裝、無時長上限

把 MP3、M4A、WAV、FLAC、OGG 拖進瀏覽器就能拿到可搜尋的逐字稿——不需上傳額度、不裝軟體、支援 90+ 語言。

2026 年瀏覽器端的 逐字稿 服務已經徹底成為主流:全球約 71% 的音檔轉寫任務跑在網頁上傳器,2023 年這個比例只有 38%。原因很直接——Web Audio API、WebAssembly、分塊上傳這幾年都成熟了,加上家用網路從百兆全面進到 Gigabit,瀏覽器處理一兩 GB 的音檔,速度幾乎和桌面 App 沒差距。一個 60 分鐘的 MP3,2022 年要 14 分鐘才能跑完上傳和轉錄,2026 年差不多 90 秒就好,而且其中大部分時間是上傳本身,不是 AI。

這篇指南是「免安裝」線上 語音轉文字 的實作手冊:瀏覽器到底能接受哪些音檔格式、單檔多大算合理、完整上傳到匯出的步驟,以及那些悄悄讓準確率掉 5 到 15 個百分點的坑——變動位元率 MP3、聊天軟體導出的 OPUS、多聲道 WAV——這些 AI 看到之前就已經在來源端把品質損失了。

2026 年「線上轉錄」其實有三種工作流

經常被混著講,但底層差異很大:

工作流瀏覽器跑什麼伺服器跑什麼
純雲端上傳 + 介面解碼、ASR、說話人分離、摘要
瀏覽器 WASM解碼 + 小模型 ASR
混合模式(2026 主流)上傳、解碼、語音活動偵測完整 ASR + 後處理

純瀏覽器 WASM 聽起來更隱私,但 2026 年這條路線在乾淨英文音檔上準確率仍卡在 92% 上下,支援語言不到 15 種——完整尺寸的語音模型放不進瀏覽器記憶體。雲端和混合模式才能跑到 98.7% 準確率、90+ 語言無差別覆蓋,Atter AI 在內的主流服務都走這條路線,音檔全程 TLS 1.3 加密傳輸。

瀏覽器能上傳的音檔格式,以及哪些真的能轉準

<input type="file" accept="audio/*"> 元素幾乎來者不拒,但準確率因格式差異很大:

格式容器典型來源線上轉錄準確率*
MP3(CBR 192 kbps+).mp3Podcast、音樂 App98.5%
MP3(VBR 低位元率).mp3網頁抓取、舊語音檔94–96%
M4A / AAC.m4a、.mp4iPhone 語音備忘錄、Apple Podcasts98.7%
WAV(16 位元、16+ kHz 單聲道).wav錄音筆、USB 麥克風99.0%
FLAC.flac無損歸檔98.9%
OGG / OPUS.ogg、.opusLINE、WhatsApp、Telegram、Discord97–98%
WebM (Opus).webm瀏覽器 MediaRecorder、OBS97.5%
AMR.amr舊安卓撥號錄音88–92%
3GP.3gp功能型手機錄音86–90%

*測量來自 2026 年 5 月 Atter AI 在乾淨繁體中文音檔上的實測。

最容易拉低準確率的兩個格式:AMR(1990 年代的窄頻編碼,部分舊安卓撥號器還在用),以及 LINE、WhatsApp 在弱網下「長按錄音」強制壓到 6 kbps 的 OPUS 語音訊息。這兩種都能轉,但會有 5–10 個百分點的準確率損失,雲端再強也救不回來。能控制錄音端時,優先選 M4A 或 WAV。

2026 年單檔多大算合理

瀏覽器本身早就不是瓶頸:Chrome、Edge、Safari 17+、Firefox 122+ 都支援從硬碟串流分塊上傳,理論上一次請求能推 64 GB 以上。真正的上限來自三處:

  • 伺服器請求上限。 主流轉錄服務把單檔限制在 500 MB 到 5 GB 之間。Atter AI 網頁上傳器接受 單檔最大 5 GB,相當於 iPhone 預設壓縮品質約 92 小時音檔。
  • 行動網路可靠度。 500 MB 檔在 4G LTE 上一次成功率約 73%,Wi-Fi 6 穩定環境下能到 99.4%。Atter AI 上傳器使用斷點續傳協定,每 5 MB 一個 checkpoint,把這個差距基本抹平。
  • 瀏覽器記憶體。 4 GB 記憶體以下的電腦在前景分頁轉碼 3 小時以上的 WAV 偶爾會崩。雲端方案把解碼放到伺服器,從根本避免。

實作經驗:2 GB 是個舒適分界。再大就用 ffmpeg -ss 00:00:00 -t 01:00:00 切成 1 小時一段,零成本而且更穩。

實作步驟:用 Atter AI 在瀏覽器產出 逐字稿

打開 https://transcription.atter-ai.com 的流程:

  1. 進入網頁上傳器。 免安裝、免擴充功能、首次上傳前不強制註冊。Chrome、Edge、Safari、Firefox、Brave、Arc、Opera 當前版本和前一大版本都支援。
  2. 拖檔進來,或點擊選擇。 除了音檔,也支援影片容器(.mp4.mov.mkv.avi),伺服器會自動剝離音訊軌。
  3. 選來源語言,或保留「自動偵測」。 自動偵測在前 30 秒清晰語音上 92% 機率命中正確語言;短片段或嘈雜音檔手動指定能多 0.5–1.5 個百分點。
  4. 多人對話時開啟說話人分離。 每分鐘音檔額外增加約 10 秒處理時間,輸出按說話人分段,每段都能重新命名。
  5. 送出。 60 分鐘 M4A 在普通寬頻 60–90 秒完成——大部分時間是上傳本身。
  6. 匯出。 支援 PDF、DOCX、TXT、SRT、VTT、JSON。SRT/VTT 採原始音檔時間戳,可直接拖進剪輯軟體或 YouTube 字幕上傳器。

3 天免費試用涵蓋完整流程,無單檔、無單分鐘上限。付費方案:$6.99/週、$49.99/年、$129.99 終身——任何方案都沒有時長限制,包含免費試用本身。

瀏覽器版和桌面 App 的差別

Atter AI 同時提供 Mac、Windows 客戶端與瀏覽器上傳器。線上方案三個真實優勢、兩個真實代價:

優勢

  • 零安裝,Chromebook、Linux、學校或公司管控的電腦都能用。
  • 所有作業系統介面一致,不會出現 Mac 和 Windows 版本不同步。
  • 借的電腦、圖書館電腦用完不留痕跡。

代價

  • 上傳是雙向的——必須先把音檔推上去 AI 才能開始;桌面 App 能直接吃本機快取音檔。
  • 一次性 20 個以上檔案批次處理,桌面 App 比瀏覽器分頁好用。

10 個檔案以內、上傳頻寬 50 Mbps 以上,線上流程端到端更快。大量批次任務才需要桌面 App。

線上 語音轉文字 常見誤區

上傳前重新編碼。 很多使用者用 Audacity 「標準化」一下再換格式上傳——每次重編碼都丟資訊。原始錄音怎麼來的,就原樣上傳。

靜音剪太狠。 一些 Podcast 外掛(Hindenburg、Auphonic)把所有大於 0.5 秒的間隔都剪掉。剪過的音檔轉得更快,但說話人分離用來判定換人的自然停頓被切沒了。兩位發言者間至少留 1 秒。

只要文字卻上傳影片。 1 小時 1080p MP4 約 1.5–3 GB;同樣 1 小時音檔抽成 M4A 是 30–60 MB。Atter AI 都支援,但音檔上傳快 30–50 倍。macOS 一行指令:ffmpeg -i input.mp4 -vn -c:a copy output.m4a

多語言錄音手動選了單一語言。 中英混雜的會議,把語言選擇留在「自動」比手動鎖定單一語言效果好——AI 會按句切換語言,而不是把所有內容硬套到一種語言。

針對特定來源的檔案,平台專屬指南講得更深:iPhone 語音備忘錄轉錄Podcast AI 語音轉文字,以及更通用的 音檔轉文字指南,都把網頁上傳器當作推薦的統一入口。

隱私:檔案上傳後到底怎麼處理

2026 年使用者問得最多就是這個,必須給具體答案。Atter AI 的管線:

  • 傳輸中: TLS 1.3,HSTS 預載入,憑證由 Let’s Encrypt 簽發。
  • 儲存中: AES-256 伺服器端加密,依帳戶區域固定到美國、歐盟或亞太節點。
  • 保留期: 上傳的來源音檔在 逐字稿 交付後 24 小時內從暫時處理儲存中刪除。逐字稿本身留在你的帳戶,由你自己控制保留時長。
  • 訓練: 上傳音檔與生成的逐字稿永不用於訓練模型。這是合約硬約定,不是預設開啟的「可選退訂」。

如果 24 小時還嫌長,可在儀表板裡逐字稿下載完成後手動刪除來源音檔。刪除是硬刪除,不是軟標記。

速度實測(2026 年 5 月)

實測環境:美東住宅 940/40 Mbps:

檔案大小上傳轉錄總時長
30 分鐘 MP3(192 kbps)41 MB9 秒28 秒37 秒
60 分鐘 M4A(iPhone)28 MB6 秒52 秒58 秒
60 分鐘 WAV(16 位元單聲道)110 MB23 秒51 秒74 秒
2 小時 Podcast(FLAC)540 MB1 分 53 秒1 分 44 秒3 分 37 秒
4 小時會議 WAV1.4 GB4 分 51 秒3 分 28 秒8 分 19 秒

三條規律:大檔案上傳佔總時長大頭;檔案體積比時長更關鍵(30 分鐘高位元率 WAV 比 90 分鐘 M4A 還慢);AI 本身始終在約 35–40 倍即時速度跑,與輸入格式幾乎無關。

線上 逐字稿 常見問題

不註冊帳號可以線上轉錄嗎?

可以。Atter AI 的 3 天免費試用允許在加付款方式之前上傳轉錄。只需要 email 接收下載連結,不要求綁卡。

瀏覽器單檔最大支援多大?

Atter AI 網頁上傳器接受單檔最大 5 GB,相當於 92 小時壓縮 M4A 或 8 小時未壓縮 24 位元 WAV。2 GB 以上建議有線或 Wi-Fi 6 環境,避免大檔重試浪費時間。

哪一種音檔格式準確率最高?

WAV 16 位元 16 kHz 以上單聲道、FLAC 並列第一,乾淨繁體中文約 99% 準確率。iPhone 的 M4A 在實測中幾乎打平(98.7%)。192 kbps 以上 MP3 略低一些。聊天軟體的 OPUS 語音訊息因為傳送端激進壓縮,再低 1–3 個百分點。

Chromebook 或公司管控的 Chrome 上能用嗎?

能,而且這是線上方案最有優勢的場景。不需要擴充功能、不需要 Chrome flag、不需要管理員權限。學校禁止安裝 Play 商店應用的 Chromebook 也能跑滿速。

LINE 或 WhatsApp 語音訊息能線上轉錄嗎?

可以。OPUS 檔案直接拖進 Atter AI 上傳器。聊天軟體壓縮比較狠,準確率在 97–98% 之間;若對方願意,請他錄完後以「檔案」形式發更高品質的錄音過來。

1 小時音檔線上轉錄要多久?

50 Mbps 以上上傳頻寬,M4A 約 60–90 秒。大部分時間是上傳不是 AI。1 小時未壓縮 WAV(約 330 MB)總共要 2–3 分鐘,因為檔案大 10 倍。

MP4 影片要先轉成音檔再上傳嗎?

不必。Atter AI 直接接受 MP4、MOV、MKV、AVI、WebM,伺服器剝離音訊軌。但如果上傳頻寬緊張,先轉成音檔能讓上傳快 30–50 倍,準確率沒差別。

線上 語音轉文字 我的音檔會被拿去訓練 AI 嗎?

不會。Atter AI 合約硬約定:上傳音檔與生成的逐字稿永不用於訓練模型。來源音檔在逐字稿交付 24 小時內從處理儲存中刪除;逐字稿本身留在你帳戶裡,由你自己刪。