Whisperは、ChatGPTで知られるOpenAIによって開発された非常に正確な音声認識モデルで、会話の音声をテキストに書き起こしてくれる。 100万時間以上のデータでトレーニングされた最新のAIモデルだが、驚くべきことにオープンソースで公開されているため、誰でも、無料で、簡単に利用することができる。 有料の音声書き起こしサービス・議事録書き起こしサービスは数多くあるが、実は無料のWhisperを使えば十分だ。 むしろ、Whisperの方が殆どの音声認識ソフトより精度が高いだろう。 とはいえ、プログラミングの知識がない人にとっては、少し利用するハードルがある。 そこで、Whisperの最新モデル(Whisper v3)を、簡単に使える小さなWebアプリにしてみたので、この記事で使い方を紹介する。 Whisperを、Google ColabというGoogleアカウントを持っている人なら誰
OpenAIが開発している「Whisper」は、あらゆる言語で人間の会話音声を文字起こしできる高性能なSpeech-to-textモデルだ。 Whisperはオープンソース化されており、モデルをダウンロードすれば、無料で、誰でも利用できる。 しかし、実用上の大きな問題がある。 それは、文字起こしには相当なGPUパワーを要し、一般的なPCでは時間がかかりすぎるという点だ。 そこで当ブログでは、Google Colaboratoryの無料のGPUインスタンスで、Whisperを利用するノートブックを公開している。しかし、Google Colabの無料プランで使えるGPUでは超高速とはいかず、数十分の音声を日常的に文字起こしするような場合、やはり実行速度がストレスになる。 そんなスピード重視だが精度を落としたくない、という人におすすめなのが、OpenAIが提供するAPIを経由して、Whisper
ChatGPT,使っていますか? ChatGPTは文章を要約したり、プログラム作ってくれたり、一緒にブレストしてくれたりして本当に便利なのですが、社内情報などの独自データに関する情報については回答してくれません。 プロンプトに情報を記述して、そこに書かれている情報から回答してもらう方法もありますが、最大トークン4000の壁がありますので、限界があるかと思います。 この課題についてなんとかならないかと考えて色々と調べて見たところ、解決する方法が見つかり、いろいろと検証をして見ましたのでその結果をシェアしたいと思います。 サンプルコード(GoogleColab) 百聞は一見にしかずということで、実際に試したサンプルは以下にありますので、まずは動かしてみることをお勧めします。 このコードを上から順番に動かすと、実際にインターネット上から取得したPDFファイルに関する内容をChatGPTが回答して
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く