人間が喋った声を機械が文字に直すこと。
ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理のこと。キーボードからの入力に代わる文字入力方法として注目を集めている。
音声認識に関連が深い技術として、あらかじめ記録しておいた音声パターンと比較して個人認証等をおこなう、話者認識がある。
パソコンの場合、文章を入力する用途では音声入力またはディクテーション、アプリケーションの操作は音声操作と呼ばれる。
音声認識システムを使うとき、無音部分までデータを送るのは料金だったりリソースの無駄になりがち。 それに、無音や雑音を音声認識させると、何かと変な結果が返ってきがち。 そこで前々から気になっていたのがVAD(Voice Activity Detection、発話区間検出)。 中でもSilero VADは精度が高いらしいけど、 ・ストリーミングで発話区間を検出して ・ソースコードがコンパクトで ・全体の音声データをWAV形式で保存して ・発話部分だけを切り出して、これもWAV形式で保存して ・発話ごとのラベル情報を記録して といったサンプルが見つからなかったので、自分で作ってみました。 もちろん、…
こんにちは!エキサイト株式会社、SaaS・DX事業部エンジニアの岩田史門です! エキサイトHDアドベントカレンダー7日目を担当させていただきます! はじめに 自動音声認識 (ASR: Automatic Speech Recognition) と話者分離 (SD: Speaker Diarization) は、カスタマーサポート、自動議事録作成、音声インタフェースの改善など、さまざまな分野で活用されています。 現在開発に携わっている、FanGrowthというプロダクトでも、ウェビナーレポートという機能で活用しています! www.fangrowth.biz 本記事では、OpenAIのWhispe…
漢字が書けなくても、ひらがなで書いて変換。音声認識が誤変換しても、あとから再変換。 しゃべったことがどんどん文字になっていく音声認識メモに、 手書き文字認識機能も追加しました。 apps.microsoft.com torazaemon2016.hatenablog.jp 認識された文字を「TextBox」にハイライトで表示していますが、 このことで、MS IME をONにして、SPACEキーで変換すると、かな漢字変換が可能になっています。 ひらがなを書いて、ひらがなを文字認識 ハイライト状態でSPACEキーを押してかな漢字変換 また、音声認識した結果の文字列も、誤変換により漢字が違っていた場…
音声&手書き文字認識メモ (Ver.2) しゃべったことがどんどん文字になっていくメモ(簡易エディタ)アプリに手書き文字認識機能も追加しました。 apps.microsoft.com 日本語向けの機能として、簡便な句読点処理が組み込まれており、自動で句点を付けたり、句読点ごとに改行するなどが可能です。 音声認識 画面にペンによって手書きした文字を認識してテキストにする機能もあります。 手書き文字認識 左右矢印キー、Delキーで編集したり、Spaceキー、Enterキーで確定させるなど、簡単に文を修正可能です。 また、Windows10のPCでも動作可能です。 注意点: 音声認識エンジン関係 W…
日本語教育で参考になる研究者を紹介します。 髙橋 麻衣子 (Maiko Takahashi) - マイポータル - researchmap の人はなぜ音読をするのか 音声と文字の認知を考えるうえで重要。 小森 和子 (Kazuko Komori) - MISC - researchmap 中国語話者の日本語学習を中心に。 第一言語と第二言語における正書法深度の相違が第二言語としての日本語の単語認知と文章理解に及ぼす影響 | 学術機関リポジトリデータベース も参考になる。 山本 忠行 (Tadayuki Yamamoto) - マイポータル - researchmap 日本語教育や言語政策のあり…
歳を取ったのだろう,電車の車内放送を聞き逃すことがある。アナウンスの順番はいつも同じなので,注意していればいいはずなのだが,なぜかその車内放送だけはいつも肝心な情報を聞き漏らすのである。 電車の中で筆者の気を引くものといえば,トレインチャンネルの情報である。テレビ世代なので,天井近くの画面で表示させる動画についつい目が行ってしまう。トレインチャンネルは音がない分,かなり集中してしまう。それで,車内放送の肝心な部分を聞き逃してしまうようである。 そこで,Androidのボイスレコーダーアプリを使って,いつも聞き逃すタイミングの車内放送を録音することを考えた。 Windows PCなら,結構よく使…
Whisper.app お盆で暇なので以前から個人的にやってみたいと思っていた音声認識をやってみた。 OpenAIのWhisperの認識精度が高いらしいので使ってみようかと思ったが、オープンソースのバージョンも有るというのを見つけたのでオープンソースの方で試してみた。 利用するのはWhisper.cpp https://github.com/ggerganov/whisper.cpp Whisperの高速板らしい? 音声認識に利用するサンプルデータは以下のものを利用する。 https://pro-video.jp/voice/announce/ 使ってみた感じだとLargeモデルの精度は良いが…
筆者のカーナビ更新への挑戦は,これまでも何回か紹介してきた。以下3話が2024年におこなった実験とその結果である。 ・クルマでのスマホは,ナビもメールも電話もやはり無理--タッチパネルより物理ボタンがいいという調査結果 - jeyseni's diary (hatenablog.com) (2024/3/20) ・Organic Maps:オフラインマップOsmAndの対抗馬--地図がシンプルで広告なしと海外でも高評価 - jeyseni's diary (hatenablog.com) (2024/5/21) ・個人的にはカーナビ推し--ディスプレイオーディオにちょっと失望【追記】 - je…
「がっちりマンデー」:おしゃべりビジネスで儲ける!シニア向け、翻訳、音声認識の新潮流 「おしゃべりビジネス」の重要性と成長 現代社会では、デジタル化が進む一方で、人との直接の対話が見直されています。「おしゃべりビジネス」は、その需要を捉えた新たなビジネスモデルとして注目されています。「がっちりマンデー」では、AgeWellJapan、ポケトーク、アドバンスト・メディアという3つの企業が紹介され、それぞれの革新的な取り組みと成功要因について取り上げられました。 AgeWellJapan:シニアを元気にするおしゃべりサービス AgeWellJapan(東京・渋谷区)は、シニア向けのおしゃべりサービ…
現在使っているカーナビは,2014年版DVDを最後に更新されない地図を使っている。最初に導入したナビで,地図が見やすいのが一番の理由なのだが,画面サイズは7インチ。その他,音声操作も何もできない。しかし,1dinサイズで,インダッシュでモニターを収納できるというスグレモノである。 もう1dinには最初FM/AM,CDドライブを装着していたが,やがて振動が原因で動かなくなった。その代替として,SDカードで音楽を流せるFM/AM/SD/Bluetoothの音楽プレーヤーを取り付けていた。スマホともBluetoothでつながり,スマホ側で音楽を流すこともできた。 この音楽プレーヤーが突然,動かなくな…
2024年エンタメ総決算! 漫画・アニメ・映画・小説…話題作を徹底解説 2024年も残すところわずかとなりました。今年はどんなエンタメ作品が私たちを熱狂の渦に巻き込み、心を揺さぶったのでしょうか? 本記事では、漫画、アニメ、映画、小説、ドラマなど、様々なジャンルの話題作を振り返り、その傾向と魅力を徹底解説いたします。 週刊少年ジャンプで連載開始と同時に爆発的な人気を獲得し、社会現象とまでなった作品から、静かな感動を呼んだ作品、そして新たな才能の登場を予感させる作品まで、実に多種多様な作品が誕生した2024年。 さあ、2024年のエンタメシーンを一緒に振り返り、来る2025年に思いを馳せましょう…
この記事は 食べログアドベントカレンダー2024 の24日目の記事です🎅🎄 食べログ開発本部 技術部のデータサイエンスチームに所属する河村です。 データサイエンスチームは、データとAIを活用してビジネス成長に貢献することをミッションとしており、生成AI技術のサービス活用や業務活用に取り組んでいます。 その1つとして、生成AIを用いた音声対話についても注目しています。 2024年10月にOpenAIがリリースしたRealtime APIを用いて、GPT-4oの音声対話の仕組みを紐解きましたが、調べる前に思っていたことと違っている点もいくつかありました。 ユーザが話す音声をずっとAIが考えながら応…
【週末息子と見る映画】のKONMA08がお送りする自己満足ブログ 【08映画缶】 間もなく開演です!! No.1257 【大脱出2】(2018年作品) 今回はチラシです。 《解説》 【ロッキー】【ランボー】【エクス・ペンダブルズ】に続く、 ステローン主演で贈る 新たなシリーズ代表作! 世界唯一の脱獄のプロフェッショナルプレスリン。彼が大海原に浮かぶ監獄要塞《墓場》を攻略して数年が経過し現在は一流のスタッフを集めた警備会社を新設、第一線からは距離をおいていた。そんなある日…従兄弟のユシェンの警備にあたっていたスタッフの一人シューが姿を消す。足取りを追うプレスリンであったが全容が謎に包まれた《ハデ…
トヨタが、ワゴン「カローラツーリング」のフルモデルチェンジを予定しています。 新世代となり性能をアップする新型カローラツーリングについて、スペック、価格などを最新情報からご紹介します。
今年も行った! www.xrkaigi.com 去年の bibinbaleo.hatenablog.com 今年も90ブース ★は個人的に刺さったもの ハシラス★ QONOQ(MiRZA) MiRZA TactSuit MRデバイスを装着していないパソコン側でも、リアルタイムにMR空間を認識・制御できる技術 ほぼ日アースボール★ トビデル 中継を止めるな Xreal XrealOne XREAL Air 2 Ultra★ ウルトラリープ( 空中ハプティクス) 3D Systems 社製 ハプティクス デバイス★ MKペン Project:Catch 人体分裂VR PalanAR Ad-Virt…
フィリピンで使われている言葉といえば、フィリピン語(タガログ語)と英語を思い浮かべる方が多いでしょう。 しかし、実際には100種以上の言語が使われていることをご存じでしょうか。 使われている言語は、フィリピン語や英語の他に、セブアノ語、イロカノ語、イロンゴ語など数え上げればきりがありません。 そこでこの記事では、フィリピンで使われている数多くの言語から、知っていると最も便利で現地の方と親しく話せるタガログ語を紹介します。 フィリピン留学や旅行へ行く予定のある方は、ぜひ参考にしてください。 フィリピンの言葉について 公用語はフィリピン語(タガログ語)と英語 フィリピン語(タガログ語)はカジュアル…
汎用人工知能(AGI: Artificial General Intelligence)とは、特定のタスクに最適化された「狭い人工知能(Narrow AI)」を超え、人間が持つ知能の多様な側面――学習、推論、問題解決、抽象化、創造性、意思決定など――を総合的に実現しようとする概念です。専門家の視点からは、「複数の認知機能を統合し、未知の状況にも適応できる汎用的な知能を備えたシステム」として定義されることが多いです。 1. AGIの本質と大きな課題 1.1 既存のAIとの違い • 狭い人工知能(Narrow AI): ディープラーニングによる画像認識や自然言語処理など、限定されたドメインで高精度…
この記事はGROOVE X Advent Calendar 2024の23日目の記事です。 こんにちは、あずこと斎藤@aznhe21です。スチーム式の加湿器を買ったらカルキの溜まり方がエグくて笑いました。 さて、LOVOT 3.0では画像認識にDeepStreamを採用しています。 DeepStreamはNVIDIA製画像・音声認識ツールキットで、GStreamer上に構築されています。 画像認識部分にはRust言語を使う方針であったためRustからGStreamerを使う必要があったわけですが、 GStreamerはなんと公式でRust用バインディングとしてgstreamer-rsを提供して…