現状のwhisper、whisper.cpp、faster-whiperを比較してみたいと思います。 openai/whisperに、2022年12月にlarge-v2モデルが追加されたり、色々バージョンアップしていたりと公開からいろいろと進化しているようです。 CPU向けにC/C++で書かれたバージョンです。Core ML supportだそうですので、Mac向け感が強いです。 CTranslate2でWhisperモデルの書き直して、オリジナルと同等の精度で4倍速く、メモリ使用量も少ないそうです。 以降、すべてGoogle Colabで実行しています。 サンプルは、アナウンスの音声(WAV)の場合(48秒)を試しました。 結果 faster-whisperのGPUは噂通り爆速でした。 本家whisperはCPUが速いです。GPUでも初期に比べて85.62s → 23.9sに高速化してま
superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。 基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。 特徴 Whisperの認識精度が高い かなり早く喋っても認識してくれる 日本語も認識してくれるモデルがある 日本語で喋って英語に翻訳してくれる機能もある オフライン対応 有料: サブスク と 買い切り の2種類のプランがある 無料で15分のトライアル、その後は選べるモデルが制限される 公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。 大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり
Blazor WebAssembly で作った Web アプリ "snow catch" ゲームを、🎙️ボイスコマンド (音声認識) で操作できるようにするBlazor "snow catch" ゲームとは "snow catch" ゲームとは、画面下の雪だるまをキーボードの左右の矢印キーで操作して、上から降ってくる雪を捕まえよう、っていう只それだけの Web アプリです。 時間制限もゲームオーバーもありません😊 年々の Blazor Advent Calendar の題材として、この "snow cach" ゲームを Blazor WebAssembly で実装し、.NET 5 から 6 へ更新したり、ゲームパッド (ジョイスティック) 対応したりしてきました。過去記事へのリンク一覧を以下に貼ります。 Blazor WebAssembly で "snow catch" ゲームを作って
OpenAIの音声認識モデルであるWhisperの高速推論版であるwhisper.cppが、いつのまにか [1] Core ML対応していた。 Core ML対応したということは、macOS/iOSデバイス(Mac, iPhone, etc...)に搭載されているNeural Engine、GPUを利用して推論処理を行うようになった、ということを意味する。[2] さっそくREADMEの手順をなぞりつつ手元のMBPで動かしてみたメモ。 なお、実行環境は以下の通り: MacBook Pro M1 Max 64GB macOS Ventura 13.3.1 Core MLモデルの生成手順 依存パッケージのインストール whisper.cppのCore MLモデルの作成に必要なパッケージをインストールする。
こんにちは!逆瀬川 ( @gyakuse ) です! 今日は最近作った議事録文字起こしアプリに話者分離機能をくっつけたものを作っていきたいと思います。 ChatGPT APIの使い方、Whisper APIの使い方、Hugging Face Spacesへのデプロイ方法等を知りたい場合は以下の記事をぜひ! できたもの openai_keyにOpenAIのAPIキーを入れる メイン音声ファイルに会話音声 (wav, 25MB以内) を入れる 話者 (1) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (1) の名前を入れる 話者 (2) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (2) の名前を入れる 上記を行って送信ボタンを押すと処理が開始されます。なお、参考音声は10秒程度で大丈夫です。実装全体は以下で確認できます。 話者分離 (S
はじめに お気に入りキャラクターとおしゃべりできるものを作りました。 このようなシステムは他の人がTwitterでも作っていて二番煎じなのですがどんなものを組み合わせて作ってるのかだったりを書こうと思います。 使用技術など デバイス Looking Glass Portrait 裸眼立体視ディスプレイです。(公式サイト) このディスプレイがなくても対話システムは作れます。でも裸眼立体視ってロマンがあって、女の子をいろんな方向から見れるのは嬉しいですよね! アセットなど DynamicBone 髪の毛や胸が揺れるアセットです。(アセットストアページ) 髪の毛が揺れるのは嬉しいことなので使います。 OVRLipsync Oculusが作ったオーディオデータから口パクを作るアセットです。(公式サイト) 対話するのに口が動かないのは致命的なので使います。 DictationRecognizer 音
ChatGPT APIの使い方 実際にChatGPT APIを使ってみましょう。 openai-pythonのインストール 今回はOpenAIのPython用ライブラリであるopenai-pythonを使います。pipを用いて、openai-pythonをインストールしましょう。 pip install openai APIリクエスト ChatCompletion.createで対話を生成できます。たとえば、以下のようなコードになります。 import openai openai.api_key = "sk-..." # APIキー completion = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": "こんにちは!"}] ) print(complet
ChatGPTに、OpenAI Whisperを使用するサンプルプログラムを聞いて、実際に実行させてみる →ChatGPTの回答だけではうまくいかなかった例初心者自然言語処理whisperChatGPT記事投稿キャンペーン_ChatGPT はじめに ChatGPTに、OpenAI Whisper(Pythonライブラリ)を使用するサンプルプログラムを作ってもらい、実際にそれをGoogle Colab Notebooks上で実行させて、うまく動作するかを試してみました。 まとめ ChatGPTが作成したサンプルプログラムと回答内容に従って、実際にうまく動作するかを試してみたところ: 今回は、ChatGPTの回答だけでは、サンプルプログラムの実行が成功せず。 ChatGPTが作成したサンプルプログラムの手順冒頭にあった「pip install whisper」は、同名の全く違うwhisperラ
この記事はSafie Engineers' Blog! Advent Calendar 8日目の記事です。 はじめに 映像から取得できる1時間程度の映像(ムービークリップ)を文字起こししたいという要望があったので、文字起こしシステムを作ってみました。 備忘録も兼ねて実施したことをまとめておこうと思います。whisperはOpenAI社が公開している高精度の文字起こしが可能なモデルになります。 文字起こしにwhipsperを使った決め手は以下です。 AWS Transcribeより高精度 pythonで素早く試せる MITライセンス AWS Transcribeで可能な話者分離ができないことが懸念でしたが、話者分離も別のモデルを組み合わせれば実現可能と思いwhipserに決めました。 アーキテクチャ whisper単体では処理の限界があったので、いくつか工夫を加えた結果上記のようなアーキテク
【機械学習で音声認識や音声分析をしたい人におすすめ】 音声特徴量であるMFCCを理解するために重要だった「声の生成の仕組み」 図をたくさん自分で作ってわかりやすく説明してみたので 是非読んでいただきたいです🙇♀️ 音声特徴量の理解に役に立つ、声の生成の仕組み https://t.co/b2UwUj9znP #Qiita — あんはる@準優勝 アプリ甲子園 (@_anharu) November 8, 2020 現在、男性と女性の音声を分類するという研究をしています。 MFCC(メル周波数ケプストラム係数)を用いて学習させるとうまくいきました。 しかし、MFCCとはなんなのだろうか、どうやって"人の聴覚特性を考慮している特徴量"が作られているのだろうかというのが知りませんでした。 それを調べたところ、声の生成の仕組みが密接に関わっているので取り上げていきたいと思います。 音声分析の方法
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く