人間の知の創造・伝達の多くは、音声によるコミュニケーションによって行われています。 本分野では、人間どうしがやりとりを行う音声メディアを分析し、自動認識・理解した上で、インタラクションを行えるシステムの実現をめざします。 具体的には、会議や講演のような自然な話し言葉音声をテキスト化するシステム、複数の話者や音源などからなる音環境(や音楽)を解析するシステム、非言語情報も統合しながら自然な対話が行える人間型ロボットなどの研究に取り組みます。 研究室紹介 (PDF カラー1ページ) 研究室紹介 (PDF モノクロ1ページ) 話し言葉の音声認識・理解 深層学習によるEnd-to-Endモデル...日本音響学会誌2018年7月号 (PDFファイル) 大規模事前学習モデルに基づく音声認識...日本音響学会誌2023年9月号 (PDFファイル) 音声認識による講演・講義の字幕付与...日本音響学会誌2