線上音檔逐字稿 AI(2026)

2026 年瀏覽器端的 逐字稿 服務已經徹底成為主流：全球約 71% 的音檔轉寫任務跑在網頁上傳器，2023 年這個比例只有 38%。原因很直接——Web Audio API、WebAssembly、分塊上傳這幾年都成熟了，加上家用網路從百兆全面進到 Gigabit，瀏覽器處理一兩 GB 的音檔，速度幾乎和桌面 App 沒差距。一個 60 分鐘的 MP3，2022 年要 14 分鐘才能跑完上傳和轉錄，2026 年差不多 90 秒就好，而且其中大部分時間是上傳本身，不是 AI。

這篇指南是「免安裝」線上 語音轉文字 的實作手冊：瀏覽器到底能接受哪些音檔格式、單檔多大算合理、完整上傳到匯出的步驟，以及那些悄悄讓準確率掉 5 到 15 個百分點的坑——變動位元率 MP3、聊天軟體導出的 OPUS、多聲道 WAV——這些 AI 看到之前就已經在來源端把品質損失了。

2026 年「線上轉錄」其實有三種工作流

經常被混著講，但底層差異很大：

工作流	瀏覽器跑什麼	伺服器跑什麼
純雲端	上傳 + 介面	解碼、ASR、說話人分離、摘要
瀏覽器 WASM	解碼 + 小模型 ASR	無
混合模式（2026 主流）	上傳、解碼、語音活動偵測	完整 ASR + 後處理

純瀏覽器 WASM 聽起來更隱私，但 2026 年這條路線在乾淨英文音檔上準確率仍卡在 92% 上下，支援語言不到 15 種——完整尺寸的語音模型放不進瀏覽器記憶體。雲端和混合模式才能跑到 98.7% 準確率、90+ 語言無差別覆蓋，Atter AI 在內的主流服務都走這條路線，音檔全程 TLS 1.3 加密傳輸。

瀏覽器能上傳的音檔格式，以及哪些真的能轉準

<input type="file" accept="audio/*"> 元素幾乎來者不拒，但準確率因格式差異很大：

格式	容器	典型來源	線上轉錄準確率*
MP3（CBR 192 kbps+）	.mp3	Podcast、音樂 App	98.5%
MP3（VBR 低位元率）	.mp3	網頁抓取、舊語音檔	94–96%
M4A / AAC	.m4a、.mp4	iPhone 語音備忘錄、Apple Podcasts	98.7%
WAV（16 位元、16+ kHz 單聲道）	.wav	錄音筆、USB 麥克風	99.0%
FLAC	.flac	無損歸檔	98.9%
OGG / OPUS	.ogg、.opus	LINE、WhatsApp、Telegram、Discord	97–98%
WebM (Opus)	.webm	瀏覽器 MediaRecorder、OBS	97.5%
AMR	.amr	舊安卓撥號錄音	88–92%
3GP	.3gp	功能型手機錄音	86–90%

*測量來自 2026 年 5 月 Atter AI 在乾淨繁體中文音檔上的實測。

最容易拉低準確率的兩個格式：AMR（1990 年代的窄頻編碼，部分舊安卓撥號器還在用），以及 LINE、WhatsApp 在弱網下「長按錄音」強制壓到 6 kbps 的 OPUS 語音訊息。這兩種都能轉，但會有 5–10 個百分點的準確率損失，雲端再強也救不回來。能控制錄音端時，優先選 M4A 或 WAV。

2026 年單檔多大算合理

瀏覽器本身早就不是瓶頸：Chrome、Edge、Safari 17+、Firefox 122+ 都支援從硬碟串流分塊上傳，理論上一次請求能推 64 GB 以上。真正的上限來自三處：

伺服器請求上限。 主流轉錄服務把單檔限制在 500 MB 到 5 GB 之間。Atter AI 網頁上傳器接受 單檔最大 5 GB，相當於 iPhone 預設壓縮品質約 92 小時音檔。
行動網路可靠度。 500 MB 檔在 4G LTE 上一次成功率約 73%，Wi-Fi 6 穩定環境下能到 99.4%。Atter AI 上傳器使用斷點續傳協定，每 5 MB 一個 checkpoint，把這個差距基本抹平。
瀏覽器記憶體。 4 GB 記憶體以下的電腦在前景分頁轉碼 3 小時以上的 WAV 偶爾會崩。雲端方案把解碼放到伺服器，從根本避免。

實作經驗：2 GB 是個舒適分界。再大就用 ffmpeg -ss 00:00:00 -t 01:00:00 切成 1 小時一段，零成本而且更穩。

實作步驟：用 Atter AI 在瀏覽器產出逐字稿

打開 https://transcription.atter-ai.com 的流程：

進入網頁上傳器。 免安裝、免擴充功能、首次上傳前不強制註冊。Chrome、Edge、Safari、Firefox、Brave、Arc、Opera 當前版本和前一大版本都支援。
拖檔進來，或點擊選擇。 除了音檔，也支援影片容器（.mp4、.mov、.mkv、.avi），伺服器會自動剝離音訊軌。
選來源語言，或保留「自動偵測」。 自動偵測在前 30 秒清晰語音上 92% 機率命中正確語言；短片段或嘈雜音檔手動指定能多 0.5–1.5 個百分點。
多人對話時開啟說話人分離。 每分鐘音檔額外增加約 10 秒處理時間，輸出按說話人分段，每段都能重新命名。
送出。 60 分鐘 M4A 在普通寬頻 60–90 秒完成——大部分時間是上傳本身。
匯出。 支援 PDF、DOCX、TXT、SRT、VTT、JSON。SRT/VTT 採原始音檔時間戳，可直接拖進剪輯軟體或 YouTube 字幕上傳器。

3 天免費試用涵蓋完整流程。付費方案：$6.99/週、$49.99/年、$129.99 終身——任何方案都沒有每月用量限制，單一檔案上限為 5 小時或 2GB。

瀏覽器版和桌面 App 的差別

Atter AI 同時提供 Mac、Windows 客戶端與瀏覽器上傳器。線上方案三個真實優勢、兩個真實代價：

優勢

零安裝，Chromebook、Linux、學校或公司管控的電腦都能用。
所有作業系統介面一致，不會出現 Mac 和 Windows 版本不同步。
借的電腦、圖書館電腦用完不留痕跡。

代價

上傳是雙向的——必須先把音檔推上去 AI 才能開始；桌面 App 能直接吃本機快取音檔。
一次性 20 個以上檔案批次處理，桌面 App 比瀏覽器分頁好用。

10 個檔案以內、上傳頻寬 50 Mbps 以上，線上流程端到端更快。大量批次任務才需要桌面 App。

線上語音轉文字常見誤區

上傳前重新編碼。 很多使用者用 Audacity 「標準化」一下再換格式上傳——每次重編碼都丟資訊。原始錄音怎麼來的，就原樣上傳。

靜音剪太狠。 一些 Podcast 外掛（Hindenburg、Auphonic）把所有大於 0.5 秒的間隔都剪掉。剪過的音檔轉得更快，但說話人分離用來判定換人的自然停頓被切沒了。兩位發言者間至少留 1 秒。

只要文字卻上傳影片。 1 小時 1080p MP4 約 1.5–3 GB；同樣 1 小時音檔抽成 M4A 是 30–60 MB。Atter AI 都支援，但音檔上傳快 30–50 倍。macOS 一行指令：ffmpeg -i input.mp4 -vn -c:a copy output.m4a。

多語言錄音手動選了單一語言。 中英混雜的會議，把語言選擇留在「自動」比手動鎖定單一語言效果好——AI 會按句切換語言，而不是把所有內容硬套到一種語言。

針對特定來源的檔案，平台專屬指南講得更深：iPhone 語音備忘錄轉錄、Podcast AI 語音轉文字，以及更通用的音檔轉文字指南，都把網頁上傳器當作推薦的統一入口。

隱私：檔案上傳後到底怎麼處理

2026 年使用者問得最多就是這個，必須給具體答案。Atter AI 的管線：

傳輸中： TLS 1.3，HSTS 預載入，憑證由 Let’s Encrypt 簽發。
儲存中： AES-256 伺服器端加密，依帳戶區域固定到美國、歐盟或亞太節點。
保留期： 上傳的來源音檔在 逐字稿 交付後 24 小時內從暫時處理儲存中刪除。逐字稿本身留在你的帳戶，由你自己控制保留時長。
訓練： 上傳音檔與生成的逐字稿永不用於訓練模型。這是合約硬約定，不是預設開啟的「可選退訂」。

如果 24 小時還嫌長，可在儀表板裡逐字稿下載完成後手動刪除來源音檔。刪除是硬刪除，不是軟標記。

速度實測（2026 年 5 月）

實測環境：美東住宅 940/40 Mbps：

檔案	大小	上傳	轉錄	總時長
30 分鐘 MP3（192 kbps）	41 MB	9 秒	28 秒	37 秒
60 分鐘 M4A（iPhone）	28 MB	6 秒	52 秒	58 秒
60 分鐘 WAV（16 位元單聲道）	110 MB	23 秒	51 秒	74 秒
2 小時 Podcast（FLAC）	540 MB	1 分 53 秒	1 分 44 秒	3 分 37 秒
4 小時會議 WAV	1.4 GB	4 分 51 秒	3 分 28 秒	8 分 19 秒

三條規律：大檔案上傳佔總時長大頭；檔案體積比時長更關鍵（30 分鐘高位元率 WAV 比 90 分鐘 M4A 還慢）；AI 本身始終在約 35–40 倍即時速度跑，與輸入格式幾乎無關。

線上逐字稿常見問題

不註冊帳號可以線上轉錄嗎？

可以。Atter AI 的 3 天免費試用允許在加付款方式之前上傳轉錄。只需要 email 接收下載連結，不要求綁卡。

瀏覽器單檔最大支援多大？

Atter AI 網頁上傳器接受單檔最大 5 GB，相當於 92 小時壓縮 M4A 或 8 小時未壓縮 24 位元 WAV。2 GB 以上建議有線或 Wi-Fi 6 環境，避免大檔重試浪費時間。

哪一種音檔格式準確率最高？

WAV 16 位元 16 kHz 以上單聲道、FLAC 並列第一，乾淨繁體中文約 99% 準確率。iPhone 的 M4A 在實測中幾乎打平（98.7%）。192 kbps 以上 MP3 略低一些。聊天軟體的 OPUS 語音訊息因為傳送端激進壓縮，再低 1–3 個百分點。

Chromebook 或公司管控的 Chrome 上能用嗎？

能，而且這是線上方案最有優勢的場景。不需要擴充功能、不需要 Chrome flag、不需要管理員權限。學校禁止安裝 Play 商店應用的 Chromebook 也能跑滿速。

LINE 或 WhatsApp 語音訊息能線上轉錄嗎？

可以。OPUS 檔案直接拖進 Atter AI 上傳器。聊天軟體壓縮比較狠，準確率在 97–98% 之間；若對方願意，請他錄完後以「檔案」形式發更高品質的錄音過來。

1 小時音檔線上轉錄要多久？

50 Mbps 以上上傳頻寬，M4A 約 60–90 秒。大部分時間是上傳不是 AI。1 小時未壓縮 WAV（約 330 MB）總共要 2–3 分鐘，因為檔案大 10 倍。

MP4 影片要先轉成音檔再上傳嗎？

不必。Atter AI 直接接受 MP4、MOV、MKV、AVI、WebM，伺服器剝離音訊軌。但如果上傳頻寬緊張，先轉成音檔能讓上傳快 30–50 倍，準確率沒差別。

線上 語音轉文字 我的音檔會被拿去訓練 AI 嗎？

不會。Atter AI 合約硬約定：上傳音檔與生成的逐字稿永不用於訓練模型。來源音檔在逐字稿交付 24 小時內從處理儲存中刪除；逐字稿本身留在你帳戶裡，由你自己刪。

瀏覽器線上逐字稿：免安裝、無時長上限

2026 年「線上轉錄」其實有三種工作流

瀏覽器能上傳的音檔格式，以及哪些真的能轉準

2026 年單檔多大算合理

實作步驟：用 Atter AI 在瀏覽器產出 逐字稿

瀏覽器版和桌面 App 的差別

線上 語音轉文字 常見誤區

隱私：檔案上傳後到底怎麼處理

速度實測（2026 年 5 月）

線上 逐字稿 常見問題

繼續閱讀

Atter AI vs Happy Scribe：字幕真人稿，還是會議逐字稿？

Atter AI vs TurboScribe：無限上傳，還是會議逐字稿？

Atter AI vs Granola：兩種不派機器人的會議逐字稿做法

實作步驟：用 Atter AI 在瀏覽器產出逐字稿

線上語音轉文字常見誤區

線上逐字稿常見問題