[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6720520B2 - 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム - Google Patents

感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム Download PDF

Info

Publication number
JP6720520B2
JP6720520B2 JP2015247885A JP2015247885A JP6720520B2 JP 6720520 B2 JP6720520 B2 JP 6720520B2 JP 2015247885 A JP2015247885 A JP 2015247885A JP 2015247885 A JP2015247885 A JP 2015247885A JP 6720520 B2 JP6720520 B2 JP 6720520B2
Authority
JP
Japan
Prior art keywords
emotion
voice
section
change pattern
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015247885A
Other languages
English (en)
Other versions
JP2017111760A (ja
Inventor
浩一 中込
浩一 中込
佐藤 勝彦
勝彦 佐藤
崇史 山谷
崇史 山谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2015247885A priority Critical patent/JP6720520B2/ja
Publication of JP2017111760A publication Critical patent/JP2017111760A/ja
Application granted granted Critical
Publication of JP6720520B2 publication Critical patent/JP6720520B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラムに関する。
感情をラベリングした音声データ群を教師データとして機械学習により生成された感情推定装置を用いて、発話者の感情を推定する技術の開発が進められている。例えば、特許文献1は、音声の強度、音声のテンポ、音声の抑揚のそれぞれの変化量を求め、求めた変化量に基づいて発話者の感情を推定する技術を開示している。
特開2002−91482号公報
一般に、興奮した状態で発話すると、通常の発話時よりも話し方が早くなり、声が高くなる傾向がある。また、落胆した状態で発話すると、通常の発話時よりも話し方が遅くなり、声が低くなる傾向がある。このように、発話時の発話者の感情と音声の特徴量とは相関性がある。特許文献1は、このような音声データの特徴量の変化を解析することにより、発話者の感情を推定する技術を開示している。
ところで、通常の感情状態で発話された音声の特徴量と怒った感情状態で発話された音声の特徴量とを比較した場合、短い言葉と長い言葉とでは特徴量の変化の傾向が異なる場合がある。例えば、発話しやすい短い言葉は、発話時の感情状態によって音声の特徴量の変化が大きい場合が多い。これに対して、早口言葉のように発話しにくい長い言葉は、発話時の感情状態によって音声の特徴量の変化が小さい場合がある。特許文献1が開示する技術は、このように発話時の感情状態によって音声の特徴量に変化が少ない言葉と変化が大きい言葉とを一律にして発話者の感情推定を行うので、推定精度が上がりにくいという問題があった。
本発明は、このような状況を鑑みてなされたものであり、音声データから発話者の感情を推定する推定精度を向上することができる感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラムを提供することを目的とする。
上記目的を達成するため、本発明の第1の観点に係る感情推定器生成方法は、
教師データの元となる複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定ステップと、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定ステップと、
前記感情ごとに対応する前記特徴量の変化パターンごとに分類された音声データを教師データとして、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成ステップと、
を含むことを特徴とする。
また、本発明の第2の観点に係る感情推定器生成装置は、
教師データの元となる複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定手段と、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段と、
前記感情ごとに対応する前記特徴量の変化パターンごとに分類された音声データを教師データとして、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成手段と、
を含むことを特徴とする。
また、本発明の第3の観点に係るプログラムは、
コンピュータを
教師データの元となる複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定手段、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段、
前記感情ごとに対応する前記特徴量の変化パターンごとに分類された音声データを教師データとして、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成手段、
として機能させることを特徴とする。
また、本発明の第4の観点に係る感情推定方法は、
解析対象とする複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定ステップと、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定ステップと、
前記感情ごとに対応する前記特徴量の変化パターンごとに、前記特徴量の変化パターンと同じ特徴量の変化パターンを有する教師データに基づいて生成された、音声を発話したときの発話者の感情を推定する感情推定器を用いて、前記解析区間の音声を発話した時の発話者の感情を推定する感情推定ステップと、
を含むことを特徴とする。
また、本発明の第5の観点に係る感情推定装置は、
解析対象とする複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定手段と、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段と、
前記感情ごとに対応する前記特徴量の変化パターンごとに、前記特徴量の変化パターンと同じ特徴量の変化パターンを有する教師データに基づいて生成された、音声を発話したときの発話者の感情を推定する感情推定器を用いて、前記解析区間の音声を発話した時の発話者の感情を推定する感情推定手段と、
を備えることを特徴とする。
本発明によれば、音声データから発話者の感情を推定する推定精度を向上することができる。
本発明の実施形態1に係る感情推定器生成装置の物理構成を示すブロック図である。 本発明の実施形態1に係る感情推定器生成装置の機能構成を示すブロック図である。 形態素について説明するための図である。 モーラ区間について説明するための図である。 特徴量の解析方法について説明するための図である。 特徴量の解析方法について説明するための図である。 クラス分けについて説明するための図である。 生成された感情推定装置の識別閾値のイメージについて説明するための図である。 感情推定装置の機能構成を示すブロック図である。 感情推定器の生成処理について説明するためのフローチャートである。 感情推定処理について説明するためのフローチャートである。 変形例1に係る特徴量の解析区間について説明するための図である。 変形例1に係る特徴量の解析方法について説明するための図である。 変形例2に係る音声の強度による特徴量の解析について説明するための図である。 変形例5に係る複数の感情の度合いを推定する技術について説明するための図である。
以下、本発明の実施形態に係る感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラムについて、図面を参照しながら説明する。なお、図中同一又は相当する部分には同一符号を付す。
(実施形態1)
本実施形態では、音声データから発話者の感情を推定する感情推定器を生成する感情推定器生成装置について説明した後、音声を発話した時の発話者の感情を推定する感情推定装置について説明する。本実施形態では、感情推定装置が、発話者の感情を悲しんでいる状態(悲しみ)、退屈している状態(退屈)、怒っている状態(怒り)、驚いている状態(驚き)、落胆している状態(落胆)、嫌悪感を抱いている状態(嫌悪)、喜んでいる状態(喜び)、の基本的な7種類の感情状態のいずれかであると推定する場合について説明する。
なお、以下の実施形態では、音声データの特徴量の変化パターンをアクセント型と称する。
実施形態1に係る感情推定器生成装置100は、物理的には、図1に示すように、制御部1と、記憶部2と、入出力部3と、バス4と、を備える。
制御部1は、ROM(Read Only Memory)と、RAM(Random Access Memory)と、CPU(Central Processing Unit)と、を備える。ROMは、本実施形態に係る感情推定器生成プログラム、及び、各種初期設定、ハードウェアの検査、プログラムのロード等を行うための初期プログラム等を記憶する。RAMは、CPUが実行する各種ソフトウェアプログラム、これらのソフトウェアプログラムの実行に必要なデータ等を一時的に記憶するワークエリアとして機能する。CPUは、各種ソフトウェアプログラムを実行することにより、様々な処理及び演算を実行する中央演算処理部である。
記憶部2は、ハードディスクドライブ、フラッシュメモリ等の不揮発性メモリを備える。記憶部2は、教師データとする音声データ等を記憶する。
入出力部3は、教師データとする音声データを取得するための音声入力装置、CD(Compact Disc)ドライブ、USB(Universal Serial Bus)インタフェースを備える。入出力部3は、教師データとする音声データを取得する。また、入出力部3は、生成した感情推定器をプログラムもしくは感情推定器の特性を決めるパラメータを外部装置に出力する。
バス4は、制御部1と、記憶部2と、入出力部3と、を接続する。
感情推定器生成装置100は、機能的には、図2に示すように、音声データ取得部110と、解析区間設定部120と、アクセント型決定部130と、特徴量抽出部140と、感情推定器生成部150と、を含む。また、解析区間設定部120は、形態素解析部121とアクセント句抽出部122と、を含む。また、アクセント型決定部130は、モーラ区間抽出部131と、アクセント型抽出部132と、を含む。
音声データ取得部110は、入出力部3を介して感情推定器を生成するために教師データとして使用する音声データを取得する。教師データは、例えば、悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、の7種類の感情状態で発話された音声から構成される。また、教師データは、十分に多くの種類の語句を含む音声データで構成される。教師データを発話する人数及び教師データに含まれるアクセント句の種類は多い方が好ましい。アクセント句とは、名詞と助詞、もしくは動詞と助動詞を結合した音声データを区分する単位である。例えば、教師データとして、500人程度の多人数が7種類の感情状態で発話した、1000種類以上のアクセント句を含む音声データを準備する。
解析区間設定部120は、教師データとする音声データの特徴を解析する単位である解析区間を設定する。そのために、解析区間設定部120は、形態素解析部121とアクセント句抽出部122とを備える。
形態素解析部121は、取得した音声データを形態素に分割する。形態素とは、言語としての意味を有する最小単位である。例えば、「坊主が屏風に上手に坊主の絵を描いた」という音声は、図3に示すように、「坊主」、「が」、「屏風」、「に」、「上手」、「に」、「坊主」、「の」、「絵」、「を」、「描い」、「た」の12個の形態素に分割される。
アクセント句抽出部122は、取得した音声データからアクセント句を抽出する。アクセント句とは、形態素に分割した名詞又は動詞に、それに続く助詞又は助動詞を結合した区間である。上述の例では、アクセント句は、「坊主が」、「屏風に」、「上手に」、「坊主の」、「絵を」、「描いた」となる。本実施形態では、このアクセント句の単位で音声データの特徴を解析する場合について説明する。アクセント句の単位で音声データを解析する理由は、アクセント句の単位で発話者の感情状態が変化する場合が多いからである。
アクセント型決定部130は、アクセント句のアクセント型を決定する。アクセント型とは、アクセント句を構成する音節が発話されている区間であるモーラ区間ごとに、音声の特徴量が平均特徴量に対して大きい場合には「H」、小さい場合には「L」を付与して得られる「H」と「L」の組み合わせのパターンである。アクセント型を決定するために、アクセント型決定部130は、モーラ区間抽出部131とアクセント型抽出部132とを備える。
モーラ区間抽出部131は、図4に示すように、解析対象のアクセント句区間の音声データから、モーラ区間を抽出する。モーラ区間は1つの音節が発話されている区間である。アクセント句「坊主が」の場合で説明すると、「ボ」、「ウ」、「ズ」、「ガ」のそれぞれの音節がモーラ区間である。
アクセント型抽出部132は、モーラ区間のそれぞれが「H」もしくは「L」のいずれに該当するかを判別し、アクセント句のアクセント型を抽出する。アクセント型の抽出方法には、音声の強度、音声のピッチ、音素の発話時間長等の特徴量を使用する方法がある。ここでは、音声のピッチに着目した抽出方法について、図5と図6を参照しながら説明する。
アクセント型抽出部132は、図5に示すように、モーラ区間をさらに細分する所定時間の時間窓を設定する。1つのモーラ区間に対して、窓1を設定し、その窓内の音声データをFFT(Fast Fourier Transform)変換する。次に、窓1を所定時間dtずらした窓2内の音声データをFFT変換する。以下、同様に窓n内の音声データをFFT変換する。時間窓の設定方法は、例えば、モーラ区間内に10以上の時間窓を構成するように時間窓とずらす時間幅dtを設定する。時間窓の数が少なすぎると、計算精度が低下するからである。
図6は、上記のFFT変換により得られた各窓内の音声データのスペクトル分布を示した例である。横軸は周波数であり、縦軸はスペクトルの強度である。このスペクトルの中で最も低い周波数領域に存在するピーク周波数をf0とする。このf0は、その窓区間の音声データから得られた発話者固有の基本周波数を示す。窓1から得られたf0をf0_1、窓2から得られたf0をf0_2、とする。同様にして、窓nから得られたf0をf0_nとする。そして、アクセント型抽出部132は、f0_1からf0_nまでの平均値を計算し、第1モーラ区間の平均基本周波数1_f0とする。
アクセント型抽出部132は、アクセント句に含まれる全てのモーラ区間について同様の計算をする。第mモーラ区間の平均基本周波数m_f0は、式1を用いて算出することができる。
m_f0=1/n・Σf0_n (式1)
次に、アクセント型抽出部132は、アクセント句区間における平均基本周波数m_thを式2を用いて求める。
m_th={max(1_f0,・・・,n_f0)−min(1_f0,・・・,n_f0)}/2 (式2)
次に、アクセント型抽出部132は、モーラ区間の平均基本周波数m_f0とアクセント句区間の平均基本周波数m_thとを比較し、m_f0≧m_thであれば「H」、m_f0<m_thであれば「L」をそれぞれのモーラ区間に付与する。アクセント型抽出部132は、このようにアクセント句を構成するモーラ区間ごとに「H」と「L」を付与することにより、HとLの組み合わせで構成されるアクセント型を抽出する。
アクセント型決定部130は、教師データから生成されたアクセント句の全てについて、この処理を行う。図7に示すアクセント型の例は、大量の教師データから得られたアクセント型の中で発生頻度が高い順に20種類のアクセント型を選択した、モーラ区間数が6以下の例である。解析対象のアクセント句に含まれるモーラ区間の数が6以下である場合、この20種類のアクセント型に対して順にクラス1からクラス20までのクラス名を付与する。アクセント型とクラスとは1対1に対応している。アクセント型決定部130は、教師データとするアクセント句単位の音声データとアクセント型(クラス)とを対応付けて記憶部2に記憶する。なお、この20種類のアクセント型に該当しなかったアクセント句は、教師データから除外する。以後、本実施形態では、解析対象とするアクセント句に含まれるモーラ区間数が6以下である場合について説明する。
ここで、アクセント句に含まれるモーラ区間数が6以下の場合における20種類のアクセント型の選択方法は、7種類の感情で発話された大量の日本語を統計処理した実験結果に基づいて、発生頻度が高い順に20種類のアクセント型を選択する。アクセント型のクラス数を減らすと、アクセント型に該当しない教師データの頻度が高くなり、生成された感情推定器を内蔵した感情推定装置の推定精度が低下することになる。一方、アクセント型のクラス数を増やすと、生成する感情推定器の種類が増えるので感情推定装置の製造コストが高くなることになる。したがって、この2つの兼ね合いでアクセント型のクラス数を決定する。なお、アクセント型を20種類としたのはアクセント句に含まれるモーラ区間数が6以下の場合である日本語の場合の例である。アクセント句に含まれるモーラ区間数が7以上である場合、もしくは他の言語の場合は、アクセント型の発生頻度についてさらに統計処理して決める必要がある。
図2に戻って、特徴量抽出部140は、アクセント句ごとの音声の特徴量を抽出する。音声の特徴量とは、音声の大きさ、音声のピッチ、音素の発話時間長等である。そして、抽出した特徴量にアクセント型決定部130で決定したクラス1からクラス20のクラス名を付与し、教師データとして記憶部2に記憶する。
感情推定器生成部150は、教師データをクラスごとに記憶部2から取得し、それぞれのクラスに適応した感情推定器を生成する。具体的には、感情推定器生成部150は、クラス1に分類された教師データを取得し、その教師データの発話時の感情状態を、7種類の感情状態である悲しんでいる状態(悲しみ)、退屈している状態(退屈)、怒っている状態(怒り)、驚いている状態(驚き)、落胆している状態(落胆)、嫌悪感を抱いている状態(嫌悪)、喜んでいる状態(喜び)、に分類するクラス1用の感情推定器を生成する。図8は、7種類の感情に識別する識別閾値を2次元で表現したイメージ図である。教師データに基づいて感情推定器を生成する方法には公知の技術を用いることができる。次に、感情推定器生成部150は、クラス2に分類された教師データを取得し、その教師データの発話時の感情状態を、7種類の感情状態である悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、に分類するクラス2用の感情推定器を生成する。同様にして、感情推定器生成部150は、クラス20までの感情推定器を生成する。
次に、上記の説明により生成した20種類の感情推定器を内蔵する感情推定装置200の構成について、図9を参照しながら説明する。感情推定装置200は、物理的には、図1に示す構成と同じである。
制御部1が備えるROMは、本実施形態に係る感情推定器生成装置100で生成された感情推定プログラムを記憶する。記憶部2は、解析対象とする音声データ等を記憶する。入出力部3は、解析対象とする音声データを取得するための音声入力装置、CDドライブ、USBインタフェースを備える。また、入出力部3は、感情推定器生成装置100で生成された感情推定器の特性を決定するパラメータを取得するようにしてもよい。また、入出力部3は、感情を推定した結果を出力するための表示装置もしくは音声出力装置を備える。
感情推定装置200は、図9に示すように、音声データ取得部210と、話者分割部220と、解析区間設定部230と、アクセント型決定部240と、選択部250と、特徴量抽出部260と、感情推定部270と、統合部280と、の機能を含む。また、解析区間設定部230は、形態素解析部231とアクセント句抽出部232との機能を含む。また、アクセント型決定部240は、モーラ区間抽出部241とアクセント型抽出部242との機能を含む。
音声データ取得部210は、ユーザが発話した解析対象とする音声を取得する。音声データ取得部210は、マイク等の音声取得装置から構成される。また、音声データ取得部210は、CDドライブ、USBインタフェースを備え、音声データとしてユーザの音声を取得することもできる。
話者分割部220は、取得した解析対象の音声データを話者ごとに分割する。音声データの中に複数人の音声データが存在する場合、1人の話者が発話した文ごとに発話者の感情を推定するためである。音声データを話者ごとに分割する方法は、公知の技術を用いて行う。例えば、音声の強度、音声のピッチ、音素の発話時間長等の相関性に基づいて分割することができる。
解析区間設定部230、アクセント型決定部240は、感情推定器の生成時と同じ条件下で解析対象の音声データを解析するために、感情推定器生成装置100と同じ構成を有している。つまり、解析区間設定部230は、音声データからアクセント句を抽出し、アクセント型決定部240は、アクセント句ごとにアクセント型(クラス)を決定する。
選択部250は、クラス分けされたアクセント句ごとに、該当するクラスに対応する感情推定器を選択する。具体的には、感情推定装置200に内蔵している20種類の感情推定器の中から、解析対象のアクセント句のクラスに対応する感情推定器を選択する。
特徴量抽出部260は、感情推定器生成装置100と同じ構成を有しており、同じ条件下で音声データから特徴量を抽出する。そして、特徴量抽出部260は、抽出した特徴量とアクセント型を示すクラス名とを対応付けて記憶部2に記憶する。
感情推定部270は、選択部250が選択した感情推定器を用いて、アクセント句ごとに発話者の感情を推定する。具体的には、感情推定部270は、クラス1に分類されたアクセント句の感情を推定する場合には、クラス1用の感情推定器を選択して発話者の感情を推定する。感情推定部270は、クラスnに分類されたアクセント句の感情を推定する場合には、クラスn用の感情推定器を選択して発話者の感情を推定する。そして、感情推定部270は、解析対象のアクセント句を発話したときの発話者の感情状態が、悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、のいずれの感情状態に該当するかを推定する。
統合部280は、発話者の感情を音声データの文単位で推定する。具体的には、統合部280は、1文の中で最も多かった感情をその文を発話した発話者の感情として推定する。例えば、「坊主が」、「屏風に」、「上手に」、「坊主の」、「絵を」、「描い」、「た」の7つのアクセント句から構成される「坊主が屏風に上手に坊主の絵を描いた」という文において、「喜び」と判別されたアクセント句の数が4であり、「怒り」と判別されたアクセント句の数が2であり、「驚き」と判別されたアクセント句の数が1であった場合、一番多い「喜び」をこの「坊主が屏風に上手に坊主の絵を描いた」を発話したときの発話者の感情として推定する。
次に、以上の構成を有する感情推定器生成装置100が感情推定器を生成する処理について、図10を参照しながら説明する。教師データとして使用する悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、の7種類の感情状態で発話された音声データは、予め記憶部2に記憶されているものとする。解析対象の音声データに含まれるアクセント句のモーラ区間数は6以下であると仮定する。感情推定器を生成する担当者が、感情推定器生成装置100に予めインストールされている感情推定器生成プログラムを起動することにより、図10に示すフローチャートは開始される。
制御部1は、感情推定器生成プログラムが起動されると、記憶部2に記憶されている教師データを音声データ取得部110に取得する(ステップS11)。そして、形態素解析部121は、取得した音声データを形態素の単位で分割する(ステップS12)。次に、アクセント句抽出部122は、音声データの特徴を解析する単位であるアクセント句を抽出し、音声データをアクセント句に分割する(ステップS13)。
次に、モーラ区間抽出部131は、アクセント句に含まれるモーラ区間を抽出する(ステップS14)。そして、アクセント型抽出部132は、アクセント句のアクセント型を抽出する(ステップS15)。具体的には、アクセント型抽出部132は、図7を用いて説明したように、教師データとして使用するアクセント句を20のクラスに分類する(ステップS16)。アクセント型抽出部132は、その分類をするために、図5と図6を用いて説明したように、モーラ区間ごとの平均基本周波数m_f0とアクセント句区間の平均基本周波数m_thとを比較し、m_f0≧m_thであれば「H」、m_f0<m_thであれば「L」をそれぞれのモーラ区間に付与する。アクセント型抽出部132は、このようにして教師データとして使用するアクセント句に対して、アクセント句を構成するモーラ区間ごとにHとLを付与し、HとLのパターンによりアクセント型を抽出する。そして、アクセント型決定部130は、教師データのアクセント型を図7に示す20のアクセント型(クラス)の何れかに決定する。
次に、特徴量抽出部140は、教師データとする音声データの特徴量をアクセント句ごとに抽出し、抽出した特徴量のデータと分類されたクラスとを対応付けて教師データとして記憶部2に記憶する(ステップS17)。
感情推定器生成部150は、アクセント型(クラス)ごとに分類された教師データに基づいて、それぞれのクラスごとに感情推定器を生成する(ステップS18)。具体的には、感情推定器生成部150は、クラス1に分類された教師データ(アクセント句)を取得して、その教師データの発話時の感情状態を、7種類の感情状態である悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、に分類することが可能な感情推定器を生成する。より具体的には、図8に示すよな7種類の感情に分類するための識別閾値(分類器を構成する数式のパラメータ)を生成する。次に、感情推定器生成部150は、クラス2に分類された教師データ(アクセント句)を取得して、その教師データの発話時の感情状態を、7種類の感情状態である悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、に分類することが可能な2つめの感情推定器を生成する。感情推定器生成部150は、このように20種類の感情推定器を生成する。以上で、感情推定器生成装置100の感情推定器生成処理の説明を終了する。
次に、感情推定器生成装置100が生成した20種類の感情推定器を内蔵する感情推定装置200が発話者の感情を推定する感情推定処理について、図11を参照しながら説明する。ユーザが、感情推定装置200に予めインストールされている感情推定プログラムを起動し、解析対象とする音声データを感情推定装置200に入力することにより、図11に示すフローチャートは開始される。
制御部1は、感情推定プログラムが起動され、ユーザが解析対象の音声データを感情推定装置200に入力すると、話者分割部220は、取得した音声データを話者ごとに分割して記憶部2に記憶する。次に、解析区間設定部230は、話者ごとに音声データを記憶部2から取得する(ステップS31)。次に、形態素解析部231は、任意の話者の音声データを形態素に分解し(ステップS32)、アクセント句抽出部232は、解析単位であるアクセント句を決定する(ステップS33)。
次に、アクセント型決定部240は、感情推定器生成装置100の動作説明と同様に、アクセント句ごとにアクセント型(クラス)を決定する。具体的には、モーラ区間抽出部241が、該当するアクセント句に含まれるモーラ区間を抽出し(ステップS34)、アクセント型抽出部242が、そのアクセント句のアクセント型を抽出する(ステップS35)。そして、アクセント型決定部240は、抽出したアクセント型からそのアクセント句が属するクラスを決定する。そして、選択部250は、該当するアクセント句を発話したときの発話者の感情を推定するために使用する感情推定器として、同じアクセント型(クラス)の教師データに基づいて感情推定器生成装置100が生成した感情推定器を選択する(ステップS36)。
一方、特徴量抽出部260は、解析対象のアクセント句の音声の強度、音声のピッチ、音素の継続時間長といった音声の特徴量を抽出し、抽出した特徴量と判別したクラスとを対応付けて記憶部2に記憶する(ステップS37)。
次に、感情推定部270は、選択部250が選択した感情推定器を用いて、該当するアクセント句を発話したときの発話者の感情を推定する(ステップS38)。
アクセント句の1つについて感情推定が完了すると、感情推定装置200は、まだ解析が完了していないアクセント句が存在するか否かを判別する(ステップS39)。解析が完了していないアクセント句が存在する場合(ステップS39:No)、解析が完了していない他のアクセント句を抽出し(ステップS40)、そのアクセント句に該当する感情を推定する。
すべてのアクセント句の解析が完了している場合(ステップS39:Yes)、感情推定装置200は、解析した文単位で統合処理を行う(ステップS41)。具体的には、統合部280は、解析対象の文に含まれるアクセント句ごとの感情推定結果に基づいて、最も多かった感情をその文を発話したときの発話者の感情として推定する。
次に、感情推定装置200は、最初に取得した任意の人が発話したすべての文について解析が完了したか否かを判別する(ステップS42)。すべての文について解析が完了していない場合は(ステップS42:No)、他の文を抽出し(ステップS43)、他の文について感情推定処理を継続する。
一方、感情推定装置200は、すべての文について解析が完了している場合は(ステップS42:Yes)、音声データに含まれているすべての人について感情推定が完了しているか否かを判別する(ステップS44)。すべての人について解析が完了していない場合は(ステップS44:No)、他の人の音声データを抽出して感情推定処理を継続する(ステップS45)。すべての人について解析処理が完了している場合は(ステップS44:Yes)、感情推定処理を終了する。
以上に説明したように感情推定器生成装置100は、アクセント型ごとに分類した教師データに基づいて、アクセント型ごとに感情推定器を生成する。そして、感情推定装置200は、アクセント型ごとに生成された感情推定器を使用して、発話者の感情を推定する。具体的には、感情推定装置200は、解析対象の音声データをアクセント型ごとに分類し、同じアクセント型を有する教師データに基づいて生成された感情推定器を用いて発話者の感情を推定する。これにより、音声データから発話者の感情を推定する推定精度を向上することができる。
また、アクセント型抽出部132は、モーラ区間の単位で音声の特徴量の変化を抽出するので、感情推定器生成装置100は、発話者の感情をより細かく解析することが可能な感情推定器を生成することができる。
また、アクセント型抽出部132は、音声の基本周波数の変化に基づいてアクセント型を抽出する。発話時の感情状態により音声の基本周波数は変化する傾向がある。したがって、感情推定器生成装置100は、発話者の感情をより正確に推定することが可能な感情推定器を生成することができる。また、同じ理由により、感情推定装置200は、発話者の感情をより正確に推定することができる。
解析区間設定手段120は、形態素の単位で音声を解析するので、感情推定器生成装置100は、発話者の感情をより正確に解析することが可能な感情推定器を生成することができる。
感情推定器生成装置100は、発話者の発話時の感情を、悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、に分類する感情推定器を生成する。この推定器を内蔵する感情推定装置200は、発話者の発話時の感情状態を、悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、に分類することができる。
(変形例1)
実施形態1では、アクセント型を判別するために特徴量をモーラ区間の単位で解析する説明をした。変形例1では、モーラ区間の中の母音区間に限定して特徴量を解析する説明を行う。具体的には、図12に示すように、母音区間のみの音声データを取り出して、図13に示すように特徴量の解析を行う。基本周波数の解析方法は実施形態1の説明と同じである。
母音区間にのみ着目する理由は、子音区間よりも母音区間の方が音素の継続時間長が長く、含まれる音声のエネルギーも大きいので、感情の変化による特徴量の変化は、子音区間よりも母音区間の方に顕著に現れるからである。
このように、変形例1に係る感情推定装置200は、母音区間に限定して特徴量の解析を行うことにより、感情推定の推定精度を向上することができる。
(変形例2)
実施形態1の説明では、アクセント型抽出部132が、音声の特徴量として音声のピッチ情報(音声の基本周波数)を利用する場合について説明した。変形例2では、音声の特徴量として音声の強度情報を利用する場合について説明する。ここでは、発話時の感情状態によって母音の発話区間における音声のエネルギー分布が変化することに着目した技術について説明する。
具体的には、アクセント型抽出部132は、図14に点線の丸印で示した音声のエネルギーのピークが、母音区間の前半に存在するか後半に存在するかを判別する。例えば、前半にピークが存在した場合には「H」を付与し、後半にピークが存在した場合には「L」を付与する。これにより、アクセント型決定部130は、アクセント型を決定する。音声の強度によりアクセント型を分類する場合は、実験データに基づいてクラス分けの仕方を検討する必要がある。その他の説明は実施形態1の説明と同じである。
なお、変形例2の説明では、音声エネルギーのピーク点の時間位置の変化に着目する解析方法を説明したが、音声の強度の変化を用いてアクセント型を抽出することもできる。怒った状態で発話すると音声の強度は高くなる傾向があり、悲しい状態で発話すると音声の強度は低くなる傾向があるので、この傾向を利用するものである。この場合、例えば、アクセント句区間に含まれるモーラ区間ごとの音声のピーク強度を計測して、アクセント句区間の平均ピーク強度を求める。そして、モーラ区間の音声のピーク強度と平均ピーク強度とを比較して、モーラ区間ごとに「H」又は「L」を付与することにより、アクセント型を抽出することもできる。
このように、変形例2に係る感情推定装置200は、音声の発話時の感情状態を音声の強度の変化情報を利用して解析するので、感情推定の推定精度を向上することができる。
(変形例3)
変形例3では、音声の特徴量として音素の継続時間長を利用する場合について説明する。怒ったり喜んだりした状態で発話すると音素の継続時間長は短くなる傾向があり、退屈な状態や悲しい状態で発話すると音素の継続時間長が長くなる傾向があるので、この傾向を利用するものである。
具体的には、アクセント型抽出部132は、モーラ区間に含まれる母音の継続時間長と、教師データに含まれる同じ母音の平均継続時間長とを比較し、モーラ区間に含まれる母音の継続時間長が平均継続時間長よりも長い場合は「H」を、短い場合は「L]を付与する。これにより、アクセント型決定部130は、アクセント型を決定する。
実施形態1、変形例1、変形例2の説明では、解析区間であるアクセント句の区間における音声の特徴量の平均値とモーラ区間の平均値とを比較した。しかし、音素の継続時間長で比較する場合、感情推定器生成装置100のアクセント型抽出部132は、平均継続時間長を解析区間内の音声データの平均ではなく、教師データ全体の平均継続時間長と比較する。母音によって継続時間長は異なるので、異なる母音の継続時間長と比較することはできない。アクセント句に含まれる同じ母音の数が少ないため、平均継続時間長のバラツキが大きくなり、誤判定の要因となるので、教師データ全体の平均をとることが好ましい。
一方、感情推定装置200のアクセント型抽出部242は、話者分類部220が分類した話者ごとの音声データについて、母音ごとに平均継続時間長を計算することが好ましい。
音素の継続時間長によりアクセント型を分類する場合は、実験データに基づいてクラス分けの仕方を検討する必要がある。その他の説明は実施形態1の説明と同じである。
このように、変形例3に係る感情推定装置200は、音声の発話時の感情状態を音素の発話時間長の変化情報を利用して解析するので、感情推定の推定精度を向上することができる。
(変形例4)
実施形態1と変形例1では、音声の特徴量として音声のピッチ情報を利用してアクセント型を抽出する技術の説明をした。また、変形例2では、音声の強度情報を利用してアクセント型を抽出する技術を紹介し、変形例3では、音素の継続時間長を利用してアクセント型を抽出する技術を紹介した。アクセント型を抽出する場合、これらの技術を単独で使用することもできるが、音声のピッチ情報と音声の強度情報のように2つ以上の技術を組み合わせてアクセント型を抽出することもできる。2つ以上の情報を組み合わせるとアクセント型の種類が増えることになるが、感情推定の精度を向上させることができる。
なお、上記の説明では、音声の特徴量として、音声の強度、音声のピッチ、音素の継続時間長を例にして説明したが、これに限定する必要はない。例えば、音声の強度の変化量、音声のピッチの変化量、音素の継続時間長の変化量等を抽出してアクセント型を決定することもできる。
(変形例5)
実施形態1の説明では、解析対象の文に含まれるアクセント句ごとの感情推定結果に基づいて、最も多かった感情をその文を発話したときの発話者の感情として推定する技術について説明を行った。しかし、統合処理の仕方はこれに限定する必要は無い。例えば、「少し驚きを伴った喜び」のように、複数の感情を含む推定を行うこともできる。感情推定器を構成する分類器では、特徴量をベクトルとして取得し、そのベクトルと識別閾値との距離に基づいて、いずれの感情に分類するかを決める場合が多い。例えば、「坊主が」、「屏風に」、「上手に」、「坊主の」、「絵を」、「描いた」の7つのアクセント句に対応する特徴量を、図15に示す1から7に示す位置ベクトルで表し、7つの位置ベクトルを合成した平均ベクトルが、図15に「平均」で示した位置ベクトルであったとする。この場合、位置ベクトル「平均」は、喜びの領域に属しているが、喜びと驚きの境界に近い位置に存在する。このような場合には、「少し驚きの感情が混在している可能性がある」というニュアンスを含めた感情推定結果を出力するようにしてもよい。
図8と図15とは、7次元の識別空間を2次元でイメージ表現した図であるので、複雑な例を表現することは困難である。しかし、感情推定器を構成する分類器の中では、それぞれの識別境界との距離を数値で計算することが可能である。したがって、「怒りと悲しみ」、「怒りと落胆」のように、複数の感情の組み合わせと、その感情の度合い(識別境界との距離)を数値計算することが可能である。さらに、複数の閾値を設定することにより、「怒り、悲しみ、落胆」のように2つ以上の感情を含めた感情推定も可能である。また、複数の感情の複合度合いも推定することができる。
変形例5で説明した構成および処理を設けることにより、感情推定器生成装置100は、複数の感情の度合いを推定可能な感情推定器を生成することが可能となる。また、複数の感情の度合いを推定可能な感情推定器を内蔵する感情推定装置200は、発話者の複数の感情度合いを推定することができる。
なお、実施形態1の説明では、発話者の感情状態を悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、の7種類に分類する説明をしたが、感情の分類方法はこれに限定する必要はない。例えば、喜、怒、哀、楽の4種類に分類してもよい。
また、実施形態1の説明では、発話者の発話時の感情状態を、悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、の7つの感情状態の何れかに分類する場合について説明し、いずれにも該当しない教師データは除外する説明をした。しかし、発話者の感情として、「普通」という感情状態を設け、7つの感情に分類できなかった教師データを感情「普通」に分類するようにしてもよい。これにより、感情推定器生成装置100は、発話者の感情を7つの感情に「普通」を加えた8つの感情に推定可能な感情推定器を生成することができる。また、感情推定装置200は、発話者の感情を7つの感情に「普通」を加えた8つの感情に推定することができる。
また、実施形態1の説明では、解析区間をアクセント句の区間単位とする説明をしたが、解析区間はこれに限定する必要はない。例えば、解析区間を単語の発話区間としてもよいし、息継ぎ区間である呼気段落区間としてもよいし、文の発話区間としてもよい。解析区間を文の発話区間とした場合には、統合部280は、文単位で発話者の感情を推定してもよいし、さらに複数の文をまとめた単位で発話者の感情を推定するようにしてもよい。
また、式1の説明では、平均値を用いてその区間の特徴量を代表する処理について説明したが、平均値の代わりに中央値を用いて処理を行ってもよい。また、最も低い周波数を代表値として処理を行うようにしてもよい。
また、式2の説明では、中央値を用いてその区間の特徴量を代表する処理について説明したが、中央値の代わりに平均値を用いて処理を行ってもよい。
また、本発明に係る機能を実現するための構成を予め備えた感情推定器生成装置100、感情推定装置200として提供できることはもとより、プログラムの適用により、既存のパーソナルコンピュータや情報端末機器等を、本発明に係る感情推定器生成装置100、感情推定装置200として機能させることもできる。すなわち、上記実施形態で例示した感情推定器生成装置100、感情推定装置200による各機能構成を実現させるためのプログラムを、既存のパーソナルコンピュータや情報端末機器等を制御するCPU等が実行できるように適用することで、本発明に係る感情推定器生成装置100、感情推定装置200として機能させることができる。また、本発明に係る感情推定器生成方法及び感情推定方法は、感情推定器生成装置100、感情推定装置200を用いて実施できる。
また、このようなプログラムの適用方法は任意である。プログラムを、例えば、コンピュータが読取可能な記録媒体(CD−ROM(Compact Disc Read-Only Memory)、DVD(Digital Versatile Disc)、MO(Magneto Optical disc)等)に格納して適用できる他、インターネット等のネットワーク上のストレージにプログラムを格納しておき、これをダウンロードさせることにより適用することもできる。
以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
(付記1)
教師データの元となる音声データの特徴量を解析する解析区間を設定する解析区間設定ステップと、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数のクラスに分類された変化パターンに基づいて、前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定ステップと、
前記特徴量の変化パターンごとに分類された音声データを教師データとして、前記特徴量の変化パターンごとに、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成ステップと、
を含む感情推定器生成方法。
(付記2)
前記変化パターン決定ステップは、
前記解析区間に含まれる音声データを、音節の単位であるモーラ区間に分割するモーラ区間抽出ステップと、
前記解析区間における音声データの特徴量の平均値と、前記モーラ区間における音声データの特徴量の平均値と、をモーラ区間ごとに比較した比較結果に基づいて、前記解析区間の音声データを発話したときのモーラ区間ごとに変化する音声の特徴量の変化パターンを抽出する変化パターン抽出ステップと、
を含むことを特徴とする付記1に記載の感情推定器生成方法。
(付記3)
前記変化パターン抽出ステップでは、音声の特徴量として音声データから抽出した音声の基本周波数を用い、前記解析区間における音声の平均基本周波数と、前記モーラ区間における音声の平均基本周波数と、をモーラ区間ごとに比較し、モーラ区間の音声の平均基本周波数が解析区間の音声の平均基本周波数よりも高い場合にはHighを、低い場合にはLowを付与し、モーラ区間ごとにHighとLowに変化する音声の特徴量の変化パターンを抽出する、
ことを特徴とする付記2に記載の感情推定器生成方法。
(付記4)
前記変化パターン抽出ステップでは、音声の特徴量として音声データから抽出した音声の強度を用い、前記解析区間における音声の平均強度と、前記モーラ区間における音声の平均強度と、をモーラ区間ごとに比較し、モーラ区間の音声の平均強度が解析区間の音声の平均強度よりも高い場合にはHighを、低い場合にはLowを付与し、モーラ区間ごとにHighとLowに変化する音声の特徴量の変化パターンを抽出する、
ことを特徴とする付記2に記載の感情推定器生成方法。
(付記5)
前記変化パターン抽出ステップでは、音声の特徴量として音声データから抽出した音素の継続時間長を用い、前記解析区間における音素の平均継続時間長と、前記モーラ区間における音素の平均継続時間長と、をモーラ区間ごとに比較し、モーラ区間の音素の平均継続時間長が解析区間の音素の平均継続時間長よりも長い場合にはHighを、短い場合にはLowを付与し、モーラ区間ごとにHighとLowに変化する音声の特徴量の変化パターンを抽出する、
ことを特徴とする付記2に記載の感情推定器生成方法。
(付記6)
前記変化パターン抽出ステップでは、音声の特徴量として、音声の基本周波数、音声の強度、音素の継続時間長の少なくとも何れか1つを使用して音声の特徴量の変化パターンを抽出する、
ことを特徴とする付記2から5の何れか一つに記載の感情推定器生成方法。
(付記7)
前記解析区間設定ステップでは、音声データを、言語の意味を持つ最小の単位である形態素に分割し、当該形態素の後で発話された助詞又は助動詞と結合したアクセント句の区間を前記解析区間として設定する、
ことを特徴とする付記1から6の何れか一つに記載の感情推定器生成方法。
(付記8)
前記モーラ区間抽出ステップでは、音声データをテキスト表示した場合に、仮名文字1文字を1モーラ区間とし、小書きの仮名文字はその前の仮名文字と一緒にして1モーラ区間とし、長音は独立して1モーラ区間とする、
ことを特徴とする付記2に記載の感情推定器生成方法。
(付記9)
前記感情推定器は、発話者の発話時の感情を、悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、の何れかの感情であると推定する、
ことを特徴とする付記1から8の何れか一つに記載の感情推定器生成方法。
(付記10)
前記複数のクラスに分類された変化パターンを設定する変化パターン設定ステップを含む、
ことを特徴とする付記1から9の何れか一つに記載の感情推定器生成方法。
(付記11)
教師データの元となる音声データの特徴量を解析する解析区間を設定する解析区間設定手段と、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数のクラスに分類された変化パターンに基づいて、前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段と、
前記特徴量の変化パターンごとに分類された音声データを教師データとして、前記特徴量の変化パターンごとに、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成手段と、
を含む感情推定器生成装置。
(付記12)
コンピュータを
教師データの元となる音声データの特徴量を解析する解析区間を設定する解析区間設定手段、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数のクラスに分類された変化パターンに基づいて、前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段、
前記特徴量の変化パターンごとに分類された音声データを教師データとして、前記特徴量の変化パターンごとに、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成手段、
として機能させるためのプログラム。
(付記13)
解析対象とする音声データの特徴量を解析する解析区間を設定する解析区間設定ステップと、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数のクラスに分類された変化パターンに基づいて、前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定ステップと、
前記特徴量の変化パターンごとに、同じ特徴量の変化パターンを有する教師データに基づいて生成された感情推定器を用いて、前記解析区間の音声を発話した時の発話者の感情を推定する感情推定ステップと、
を含む感情推定方法。
(付記14)
解析対象とする音声データの特徴量を解析する解析区間を設定する解析区間設定手段と、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数のクラスに分類された変化パターンに基づいて、前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段と、
前記特徴量の変化パターンごとに、同じ特徴量の変化パターンを有する教師データに基づいて生成された感情推定器を用いて、前記解析区間の音声を発話した時の発話者の感情を推定する感情推定手段と、
を備えた感情推定装置。
1…制御部、2…記憶部、3…入出力部、4…バス、100…感情推定器生成装置、110、210…音声データ取得部、120、230…解析区間設定部、121、231…形態素解析部、122、232…アクセント句抽出部、130、240…アクセント型決定部、131、241…モーラ区間抽出部、132、242…アクセント型抽出部、140、260…特徴量抽出部、150…感情推定器生成部、200…感情推定装置、220…話者分割部、250…選択部、270…感情推定部、280…統合部

Claims (14)

  1. 教師データの元となる複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定ステップと、
    前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定ステップと、
    前記感情ごとに対応する前記特徴量の変化パターンごとに分類された音声データを教師データとして、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成ステップと、
    を含む感情推定器生成方法。
  2. 前記変化パターン決定ステップは、
    前記解析区間に含まれる音声データを、音節の単位であるモーラ区間に分割するモーラ区間抽出ステップと、
    前記解析区間における音声データの特徴量の平均値と、前記モーラ区間における音声データの特徴量の平均値と、をモーラ区間ごとに比較した比較結果に基づいて、前記解析区間の音声データを発話したときのモーラ区間ごとに変化する音声の特徴量の変化パターンを抽出する変化パターン抽出ステップと、
    を含むことを特徴とする請求項1に記載の感情推定器生成方法。
  3. 前記変化パターン抽出ステップでは、音声の特徴量として音声データから抽出した音声の基本周波数を用い、前記解析区間における音声の平均基本周波数と、前記モーラ区間における音声の平均基本周波数と、をモーラ区間ごとに比較し、モーラ区間の音声の平均基本周波数が解析区間の音声の平均基本周波数よりも高い場合にはHighを、低い場合にはLowを付与し、モーラ区間ごとにHighとLowに変化する音声の特徴量の変化パターンを抽出する、
    ことを特徴とする請求項2に記載の感情推定器生成方法。
  4. 前記変化パターン抽出ステップでは、音声の特徴量として音声データから抽出した音声の強度を用い、前記解析区間における音声の平均強度と、前記モーラ区間における音声の平均強度と、をモーラ区間ごとに比較し、モーラ区間の音声の平均強度が解析区間の音声の平均強度よりも高い場合にはHighを、低い場合にはLowを付与し、モーラ区間ごとにHighとLowに変化する音声の特徴量の変化パターンを抽出する、
    ことを特徴とする請求項2に記載の感情推定器生成方法。
  5. 前記変化パターン抽出ステップでは、音声の特徴量として音声データから抽出した音素の継続時間長を用い、前記解析区間における音素の平均継続時間長と、前記モーラ区間における音素の平均継続時間長と、をモーラ区間ごとに比較し、モーラ区間の音素の平均継続時間長が解析区間の音素の平均継続時間長よりも長い場合にはHighを、短い場合にはLowを付与し、モーラ区間ごとにHighとLowに変化する音声の特徴量の変化パターンを抽出する、
    ことを特徴とする請求項2に記載の感情推定器生成方法。
  6. 前記変化パターン抽出ステップでは、音声の特徴量として、音声の基本周波数、音声の強度、音素の継続時間長の少なくとも何れか1つを使用して音声の特徴量の変化パターンを抽出する、
    ことを特徴とする請求項2から5の何れか一項に記載の感情推定器生成方法。
  7. 前記解析区間設定ステップでは、音声データを、言語の意味を持つ最小の単位である形態素に分割し、当該形態素の後で発話された助詞又は助動詞と結合したアクセント句の区間を前記解析区間として設定する、
    ことを特徴とする請求項1から6の何れか一項に記載の感情推定器生成方法。
  8. 前記モーラ区間抽出ステップでは、音声データをテキスト表示した場合に、仮名文字1文字を1モーラ区間とし、小書きの仮名文字はその前の仮名文字と一緒にして1モーラ区間とし、長音は独立して1モーラ区間とする、
    ことを特徴とする請求項2に記載の感情推定器生成方法。
  9. 前記感情推定器は、発話者の発話時の感情を、悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、の何れかの感情であると推定する、
    ことを特徴とする請求項1から8の何れか一項に記載の感情推定器生成方法。
  10. 前記複数の感情のクラスに分類された変化パターンを設定する変化パターン設定ステップを含む、
    ことを特徴とする請求項1から9の何れか一項に記載の感情推定器生成方法。
  11. 教師データの元となる複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定手段と、
    前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段と、
    前記感情ごとに対応する前記特徴量の変化パターンごとに分類された音声データを教師データとして、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成手段と、
    を含む感情推定器生成装置。
  12. コンピュータを
    教師データの元となる複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定手段、
    前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段、
    前記感情ごとに対応する前記特徴量の変化パターンごとに分類された音声データを教師データとして、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成手段、
    として機能させるためのプログラム。
  13. 解析対象とする複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定ステップと、
    前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定ステップと、
    前記感情ごとに対応する前記特徴量の変化パターンごとに、前記特徴量の変化パターンと同じ特徴量の変化パターンを有する教師データに基づいて生成された、音声を発話したときの発話者の感情を推定する感情推定器を用いて、前記解析区間の音声を発話した時の発話者の感情を推定する感情推定ステップと、
    を含む感情推定方法。
  14. 解析対象とする複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定手段と、
    前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段と、
    前記感情ごとに対応する前記特徴量の変化パターンごとに、前記特徴量の変化パターンと同じ特徴量の変化パターンを有する教師データに基づいて生成された、音声を発話したときの発話者の感情を推定する感情推定器を用いて、前記解析区間の音声を発話した時の発話者の感情を推定する感情推定手段と、
    を備えた感情推定装置。
JP2015247885A 2015-12-18 2015-12-18 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム Active JP6720520B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015247885A JP6720520B2 (ja) 2015-12-18 2015-12-18 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015247885A JP6720520B2 (ja) 2015-12-18 2015-12-18 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020104161A Division JP7001126B2 (ja) 2020-06-17 2020-06-17 感情推定装置、感情推定方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2017111760A JP2017111760A (ja) 2017-06-22
JP6720520B2 true JP6720520B2 (ja) 2020-07-08

Family

ID=59080241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015247885A Active JP6720520B2 (ja) 2015-12-18 2015-12-18 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6720520B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6613290B2 (ja) 2017-11-28 2019-11-27 株式会社Subaru 運転アドバイス装置及び運転アドバイス方法
JP7017755B2 (ja) * 2018-01-24 2022-02-09 株式会社見果てぬ夢 放送波受信装置、放送受信方法、及び、放送受信プログラム
JP6909733B2 (ja) * 2018-01-26 2021-07-28 株式会社日立製作所 音声分析装置および音声分析方法
JP7159655B2 (ja) 2018-07-09 2022-10-25 富士フイルムビジネスイノベーション株式会社 感情推定システムおよびプログラム
CN109587554B (zh) * 2018-10-29 2021-08-03 百度在线网络技术(北京)有限公司 视频数据的处理方法、装置及可读存储介质
JP7230545B2 (ja) 2019-02-04 2023-03-01 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
KR102195246B1 (ko) * 2019-03-15 2020-12-24 숭실대학교산학협력단 음성 신호를 이용한 감정 분류 방법, 이를 수행하기 위한 기록 매체 및 장치
KR102163862B1 (ko) * 2019-03-25 2020-10-12 한국과학기술원 멀티스케일 음성 감정 인식을 위한 전자 장치 및 그의 동작 방법
CN112489682B (zh) * 2020-11-25 2023-05-23 平安科技(深圳)有限公司 音频处理方法、装置、电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4456537B2 (ja) * 2004-09-14 2010-04-28 本田技研工業株式会社 情報伝達装置
WO2007148493A1 (ja) * 2006-06-23 2007-12-27 Panasonic Corporation 感情認識装置
JP2009182433A (ja) * 2008-01-29 2009-08-13 Seiko Epson Corp コールセンターの情報提供システム、情報提供装置、情報提供方法及び情報提供プログラム

Also Published As

Publication number Publication date
JP2017111760A (ja) 2017-06-22

Similar Documents

Publication Publication Date Title
JP6720520B2 (ja) 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム
JP7280386B2 (ja) 多言語音声合成およびクロスランゲージボイスクローニング
US7809572B2 (en) Voice quality change portion locating apparatus
Arias et al. Shape-based modeling of the fundamental frequency contour for emotion detection in speech
JP6523893B2 (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
Koolagudi et al. Speech emotion recognition using segmental level prosodic analysis
JP6908045B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP6370749B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
Martinez et al. Prosodic features and formant modeling for an ivector-based language recognition system
Tóth et al. Speech emotion perception by human and machine
JP2007219286A (ja) 音声のスタイル検出装置、その方法およびそのプログラム
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
KR20210059581A (ko) 말하기의 자동 유창성 평가 방법 및 그 장치
JP2002041084A (ja) 対話処理システム
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP7001126B2 (ja) 感情推定装置、感情推定方法及びプログラム
Abdelmalek et al. High quality Arabic text-to-speech synthesis using unit selection
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
JP7159655B2 (ja) 感情推定システムおよびプログラム
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP6748607B2 (ja) 音声合成学習装置、音声合成装置、これらの方法及びプログラム
Jauk et al. Prosodic and spectral ivectors for expressive speech synthesis
JP6370732B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
Khan et al. detection of questions in Arabic audio monologues using prosodic features

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200601

R150 Certificate of patent or registration of utility model

Ref document number: 6720520

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150