Education

オンライン講座の動画を文字起こしする方法:再生バーを行き来するより速く要点に届く

MOOCの修了率は10%未満、講座動画は6分で見られなくなる。文字起こしでCoursera・Udemy・edXの動画を検索でき暗記できるテキストに変える方法。

結論から

オンライン講座の動画を文字にする手順はシンプルです。音声を録音または取り込み、文字起こしにかけ、98.7%の精度のテキストを受け取る——検索でき、要約でき、ノートにできる。一度だけ聞いた肝心の一文をもう一度探そうと、再生バーを行ったり来たりする必要はもうありません。4時間の講座はおよそ3万6千語の話し言葉。誰もそれを最初から見直したりしない。でも、誰かがテキストを渡してくれたら、本当に試験に出る1割だけは喜んで読むはずです。

そこを文字起こしが埋めます。動画は直線的で遅い。テキストは検索でき、速い。この記事ではCoursera・Udemy・edXといったプラットフォームからどうテキストを取り出すか、そしてもっと大事な——取り出したあとそれで何をするかを扱います。

編集後記

多くのオンライン講座が身につかない理由は、中身ではなく形式にあります。動画は講師のペース・講師の順番で見ることを強い、ざっと読み飛ばす手段もない。テキストはその三つを全部ひっくり返す。自分のペース、自分の順番、飛ばし読みできる。講座をやり切れる人は、意志が強いというより、動画を90分かけて見直すのではなく90秒で振り返れる何かに変えていることが多い。文字起こしは、その変換のいちばん安い手段です。

なぜオンライン講座の動画はこれほど定着しないのか

オンライン講座には修了率の問題があり、しかも遠回しでもなんでもありません。主要なMOOCプラットフォームの修了率はおおむね10%未満、無料登録に絞れば平均5〜6%と見る分析もある。登録して、2モジュール見て、そのまま消えていく。

一部はモチベーションの問題。でも大きな塊は機械的なもので、その塊こそ文字起こしが直せる部分です。690万回の動画視聴セッションを分析した有名な研究では、動画の長さに関係なく、講座動画への集中はおよそ6分で急落するとわかった。つまり40分の講義は多くの視聴者を6分目で失い、残り34分のどこを見落としたか講師は知らない。あなた自身も——小テストの瞬間まで知らない。

そして「探し直し」の面倒。講師が大事なことを言っていた、たとえば正則化について——でもどこ?どの動画、何分目?動画で探すなら再生バーをこする。テキストで探すならCtrl+F。

10%未満
MOOC登録者の典型的な修了率
6分
講座動画への集中が急落する境目
約3.6万語
4時間の動画講座に含まれる話し言葉の量
90以上
文字起こしが対応する言語数

Udemy一社だけで25万を超える講座を抱え、Coursera は登録学習者1億4200万超、edX も8000万超を数える。誰も見直しきれない膨大なコンテンツの山です。そこから価値を引き出せるのは、「動画を見終える」ことを成果物だと思うのをやめた人たちだけ。

講座動画がどこにあるかで、取り込み方を変える

音声の取り込みは、ファイルをダウンロードできるか、ストリーミング限定か、ライブのコホートに参加中かで変わります。でも文字起こしの工程は毎回同じ。

  1. 動画や音声をダウンロードできる場合多くのプラットフォーム(Udemyアプリ、一部のCoursera講座、たいていの企業LMSエクスポート)は講義ファイルを直接ダウンロードできます。そのファイルをAtter AIにアップすれば画質・音質の劣化を全部回避——元の音声を文字起こしできる。時間の上限はなく、3時間のマスタークラスも12分のレッスンと同じようにアップできます。
  2. ストリーミング限定の場合再生しながら音声を録る——システム音声をオンにして画面収録するか、音声を録音ツールに通す。出来は再生音声次第ですが、部屋のマイク収録ではなくデジタル信号なので、たいていクリーンです。
  3. ライブのコホートやウェビナーの場合あらゆる会議と同じようにセッションを録音し、あとで文字起こし。ライブのコホートは複数の話者がいるので、ここでこそ話者ラベルが効いてきます。
  4. アーカイブせず、圧縮するその日のうちにテキストをアウトライン・重要語リスト・暗記カードに変える。二度と開かない文字起こしは、作るのにかけた2分の価値もありません。

YouTubeにも一言。今や「オンライン学習」の半分はそこで起きているからです。チュートリアル系チャンネル、カンファレンス講演、公開された大学講義——これらも講座コンテンツ。YouTube動画の文字起こしガイドが公開URLからのテキスト抽出を解説していて、同じ理屈はダウンロード済みの動画ファイルにもそのまま当てはまります。

講座の文字起こしを手にしたら、結局それで何をするか

ここが「とりあえず文字起こし」の助言が黙る場所です。生の文字起こしは原鉱。それを何に精錬するかは、講座の組み立て方——そして試験があるなら、どう問われるか——次第。

講座のタイプ 文字起こしを変える先 理由
技術・プログラミング講座 コマンド+概念のチートシート あとで正確な構文を参照する。文字起こしに講師の正確な言い回しがある
資格対策(PMP、AWSなど) 暗記カード+重要用語集 試験は定義や略語を一字一句の想起で問う
ソフトスキル・ビジネス講座 アクションのチェックリスト 価値は応用の手順にあり、暗記すべき事実ではない
語学講座 対訳の文字起こし 自分のペースで対象言語を読むほうがリアルタイムで聞くより効く

いちばん大きな見返りは復習時に来ます。数週間にわたる講座が終わると、文字起こしの山が手元に残る——期末前に12時間の動画を見直す代わりに、山全体に問いかける。「講師がL1とL2の正則化の違いを説明したところ全部」。それがAIチャットで文字起こしを検索するということで、進めながら文字起こししていた場合にだけ効きます。

正直な限界を一つ。画面に書かれたもの——表示されるだけのコード、図、数式——は音声チャンネルに乗りません。「学習率を0.01に設定して」はきれいに起こせるが、数式だらけのスライドは起こせない。視覚中心の講座では、文字起こしが説明を捉え、記号はスクリーンショットで補う。どちらか一方ではなく、両方。

文字起こしの精度:講座音声は易しいケース

たまには良い知らせ。講座動画はたいてい、文字起こしが相手にする講義や会議の音声より「クリーン」です。講師はまともなマイクで、静かな部屋で、しばしば台本どおりに録っている。300人ホールの残響もなければ、かぶり発話も、空調のうなりもない。

これが効くのは、文字起こしがクリーンな音声で98.7%の精度を保つからで、クリーンこそ大半の講座動画が与えてくれるもの。誤りが集まるのは依然として固有名詞、ライブラリ名、専門用語、そして非母語の用語を読むときの講師の訛り。当日に重要語をざっと5分見直せば、効いてくるものは拾える。言語を切り替える講座や第二言語で行われる講座でも、90以上の言語に対応——文中で言語が混ざるケースも含み、これは国際的なプログラムでよくあります。

講座と自分で録った学習セッションやモジュール間のメモを混ぜて使うなら、iPhoneボイスメモの文字起こしが細々したものを引き受け、学習者向けの全体ワークフローは学生のための文字起こしで詳しく扱っています。

たくさん受講する人にとっての費用

分単位の課金は独学者には拷問です。Udemyの講座を三つとCourseraのスペシャライゼーションを並行すれば、月に余裕で30〜40時間の動画。分単位で課金する、あるいは無料枠が月30〜60分で頭打ちのツールでは、これが予算管理の作業になる——どの講義が文字起こしに「値する」かを切り詰め始め、切り詰めた時点で意味は消える。

定額制はその計算ごと取り払います。Atter AI は $6.99/週、$49.99/年、または $129.99 買い切りで、3日間の無料トライアルでまず自分の講座音声で試せる——しかも1ファイルの時間上限がなく、6時間のブートキャンプ録音も8分の導入レッスンと同じく追加料金なし。トライアルでいま受けている講座のレッスンを2本まわしてみてください。精度を左右するのはあなたの音源であって、ベンチマークではありません。

よくある質問

CourseraやUdemyの講座動画を文字起こしできますか?

できますが、分かれ道が一つ。プラットフォームが講義のダウンロードを許していれば(Udemyアプリは多くの講座で可、一部のCoursera講座も可)、そのファイルを直接アップするのがいちばんクリーン。ストリーミング限定なら、再生しながら音声を録ってそれを文字起こし。どちらでも検索可能なテキストが手に入ります。自分の学習用にとどめてください——有料講座の文字起こしの再配布はプラットフォーム規約と講師の著作権に抵触します。

お金を払ったオンライン講座を文字起こしするのは合法ですか?

個人の学習用なら、正規に受講したコンテンツの文字起こしはおおむね問題ありません——ノートを取るのと同じです。越えてはいけない線は配布:有料講座の文字起こしを販売・共有・公開することは規約と著作権の両方に違反します。自分で録り、自分で持つ。迷ったらプラットフォームの利用規約を確認を。たいてい個人利用のコピーについて明記されています。

文字起こしは講座動画でどれくらい正確ですか?

他の多くの音声より正確です。講座動画はたいていクリーンだから——良いマイク、静かな部屋、しばしば台本あり。文字起こしはクリーンな音声で98.7%の精度を保ち、大半の講座コンテンツが該当します。誤りは専門用語、ライブラリや製品名、専門語の訛った発音に集中する——当日に重要語を5分見直せば、理解に響くものは拾えます。

別の言語の講座はどうなりますか?

対応しています——90以上の言語、文中で言語が切り替わるものも含めて。第二言語で講座を受ける人にとって、文字起こしは本物のアップグレード:読むなら自分のペースで進め、一文を読み返せる。リアルタイムの聞き取りは一度きり。対訳の文字起こしは、語学講座を学ぶ最も効果的な方法の一つです。

画面に映ったコードや数式は文字起こしされますか?

いいえ——視覚的に表示されるだけのものは音声チャンネルに乗りません。口頭の説明は完全に起こせます(「import pandas as pd、それからread_csvを呼ぶ」)が、コードの画面や数式のブロックはテキストに現れない。視覚中心の技術講座では、文字起こしが講師の論理を捉え、記号は画面のスクリーンショットで補う。二つ合わせれば、どちらか単独より強いです。

3万6千語の講座文字起こしから、溺れずに学ぶには?

文字起こしから学ばない——それを圧縮したものから学ぶ。文字起こしした当日に10分かけて、講座に合う形式に変える:プログラミング講座ならチートシート、資格講座なら暗記カード、ビジネス講座ならアクションのチェックリスト。完全な文字起こしは、正確な説明を探したいときの検索可能なアーカイブとして残す。文字起こしは参考図書館で、圧縮こそが学習です。