[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2003099084A - 音声による感情合成方法及び装置 - Google Patents

音声による感情合成方法及び装置

Info

Publication number
JP2003099084A
JP2003099084A JP2002206011A JP2002206011A JP2003099084A JP 2003099084 A JP2003099084 A JP 2003099084A JP 2002206011 A JP2002206011 A JP 2002206011A JP 2002206011 A JP2002206011 A JP 2002206011A JP 2003099084 A JP2003099084 A JP 2003099084A
Authority
JP
Japan
Prior art keywords
low
signal
audio signal
sequence
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002206011A
Other languages
English (en)
Other versions
JP4458321B2 (ja
Inventor
Pierre Yves Oudeyer
イブス オードイェ ピエール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony France SA
Original Assignee
Sony France SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony France SA filed Critical Sony France SA
Publication of JP2003099084A publication Critical patent/JP2003099084A/ja
Application granted granted Critical
Publication of JP4458321B2 publication Critical patent/JP4458321B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Manipulator (AREA)
  • Toys (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Image Processing (AREA)

Abstract

(57)【要約】 (修正有) 【課題】短い発声や、音響的に悪い環境での発話であっ
ても、軽い作業負荷で感情を正確率よく識別できる方法
と装置の提供。 【解決手段】感情認識は、音声信号に由来する少なくと
も1つの特徴からなるセットを抽出(70)し、抽出さ
れた特徴のセットを処理(84,90)して、そこから
感情を検出することによって行われる。また、上記セッ
ト内の少なくとも1つの特徴を抽出する前に、音声信号
をローパスフィルタ処理するステップをさらに有する。
ローパスフィルタ処理のカットオフ周波数は、典型的に
は250Hz周辺である。また、上記特徴は、例えばサ
ンプリングされた上記音声信号の強度又はピッチから抽
出された統計的特徴である。

Description

【発明の詳細な説明】
【0001】本発明は、感情認識の分野に関し、より詳
細には、音声信号から感情を検出する方法及び装置に関
する。今日では、例えばマンマシンインターフェースの
コミュニケーション手法をより自然且つ直観的なものに
するためなど、人間の(又は合成された又は動物の)音
声により伝達される感情を検出する技術的手段が必要と
なるアプリケーションが非常に増えてきている。例え
ば、ペット型ロボットやヒューマノイドの行動は、実際
の生物のそれに非常に近づいている。この観点から、ロ
ボットに対して、何らかの基本感情、例えば「平静(ca
lm)」、「喜び(happiness)」、「悲しみ(sadnes
s)」、「怒り(anger)」などを伴った発声を識別する
ことを要求するのは自然なことである。また、その他の
アプリケーションとしては、教育、訓練、スピーチ療法
や、装置、乗り物、道具等の人間による制御が挙げられ
る。
【0002】現在までこの感情認識分野でなされている
研究の殆ど(全てではない)は、人間によって読まれた
テキストにおける感情を検出することに傾注しており、
そのテキストは短い発声というよりは一般的にパラグラ
フというべきものである。また、その発声(recitatio
n)は、防音室のようなよい環境下でなされたものであ
る。
【0003】ところで、近年、個人用ロボットの開発が
非常に発展してきており、新たな教育技術(Druin A.,H
endler J. (2000) "Robots for Kids: Exploring new t
echnologies for learning", Morgan Kauffman Publish
ers 参照)や、純粋なエンターテイメント(Fujita M.,
Kitano H. (1998) "Development of an autonomous qua
druped robot for robot entertainment", Autonomous
Robots, 5; Kusahara.M. (2000) "The art of creating
subjective reality: an analysis of Japanese digit
al pets, in Boudreau E.,ed., in Artificial Life 7
Workshop Proceedings, pp.141-144 参照)の用途に用
いられている。
【0004】特に、これらのロボットは、犬や猫等の馴
染み深いペットを模していたり(ソニー株式会社のAI
BOを参照)、時には人間型のSDR3−X(ソニー株
式会社)のように、人間の子供を模していたりする。
【0005】これらの装置とのインタラクションは、人
間が従来のコンピュータに対して行ってきたものとは著
しく異なる。従来、人間は、非常に不自然な規則や、キ
ーボード、ダイアログウィンドウといった手段を学習す
る必要があり、コンピュータを動作させるために膨大な
知識を身につけなければならなかった。
【0006】このような個人用ロボットに必要な機能の
うち、最も基本的なものの1つとして、人間の感情を捉
えることが挙げられ(Picard R. (1997) "Affective Co
mputing", MIT Press 参照)、特に人間の感情を認識す
ると共に自身の感情を表現することが必要となる。尤
も、人間を理解する際には感情以外も重要であるが、感
情は社会規範の中心であり(Halliday M. (1975) "Lear
ning hou to mean: explorations in the development
of language, Elsevier, NY 参照)、特に会話の流れを
左右する中心である(orality and gestuality)。
【0007】ここで、言葉によるものを除けば、人間は
主として2つの方法で感情を表現することができる。す
なわち、顔の表情の変化と(Ekman,P. (1982) "Emotion
s inthe human face", Cambridge University Press, C
ambridge 参照)、声のイントネーションの変化とであ
る(Banse,R. and Sherer,K.R., (1996) "Acoustic Pro
files in Vocal Emotion Expression, Journal of Pers
onality and Social Psychology, 70(3): 614-636 参
照)。
【0008】顔の表情に表れる感情を自動で認識する研
究は、現在非常に多くなされているが(A.Samal,P.Iyen
ger (1992) "Automatic recognition and analysis of
himan faces and facial expression: A survay". Patt
ern Recognition, 25(1):65--77 参照)、自動で生成し
機械で認識するための会話のモダリティに関連する研究
は、最近になってなされるようになった(Bosh L.T. (2
000) "Emotions: whatis possible in the ASR framewo
rk ?", in Proceedings of the ISCA Workshop on Spee
ch and Emotion 参照)。
【0009】この研究の出発点は、感情と、対応する音
声信号の音響特性に対するその感情の効果との間の音響
的相関を調べるものである(Fairbanks 1940, Burkhard
andSendlemeier 2000, Bense and Sherer 1996 参
照)。
【0010】これらの報告によると、発話は心理学的な
条件や幾つかの基本的な情動クラスとの相関があること
が判っている。また逆に驚きと怖れ、退屈と悲しみなど
のある特定の感情に関しては違いを見つけることが難し
いことなども報告されている。実際、特定の情動がある
身体的な状態と結びついていることはよくあり(Picard
1997 前掲参照)、機械的な(したがって予測可能な)
影響を発話に対してもたらす。この影響は、特にピッチ
(基本周波数F0)、タイミング、そして声質に対して
もたらされる。例えば、ある人が怒りや怖れや喜びを覚
えたときは交感神経系が興奮し、心拍数や血圧が上昇
し、口内は乾き、時には筋肉に震えが起こる。こうした
ときには発話は大きく速くなり、高周波成分に強いエネ
ルギーを持つことになる。またある人が退屈や悲しみを
感じているときは、副交感神経系が興奮し、心拍数や血
圧が減少し、唾液が多く分泌される。この結果、発話は
ゆっくりとしたピッチの遅いものになり、高周波成分の
エネルギーは弱くなる(Breazal,C. (2000) Sociable M
achines: "Expressive social exchange between human
s and robots", PhD Thesis, MIT AI Lab. 参照)。
【0011】さらに、これらの身体的影響は万国共通で
あるために、基本的な情動と発話の音響的な特性の間に
は民族や文化に寄らない相関関係が存在すると考えられ
ている。このことは、例えば文献「Abelin A, Allwood
J., (2000) "Cross-linguistic interpretation of emo
tional prosody", in Proceedings of the ISCA Worksh
op on Speech and Emotion」や、文献「Tickle A. (200
0) "English and Japanese speaker's emotion vocalis
ations and recognition: a comparison highlighting
vowel quality", ISCA Workshop on Speech and Emotio
n, Belfast 2000」において詳しく調査されている。こ
れらの研究では、例えばアメリカ人に対して音響的な情
報のみ(発話は意味がないため、意味的な情報はない)
によって他のアメリカ人や日本人の感情を理解させる実
験が行われた。
【0012】同様に、日本人も、他の日本人やアメリカ
人がどのような感情を伝えようとしているかを言い当て
させられた。この結果から、以下の2つの点が明らかに
されている。すなわち、1)同じ言語を話す人か異なる
言語を話す人かによって、伝えられる感情の認識率に変
化はなく、このことは日本人の被験者についてもアメリ
カ人の被験者についてもあてはまる。そして、2)被験
者の認識結果は芳しくなく、最高でも60%程度であっ
た(なお、この結果は、被験者が非常に不自然な意味の
ない言葉を発するように言われていた事実からある程度
は説明がつくが、意味的には中立であるが意味のある文
を発するようにした研究によっても、この結果は裏付け
られている(Burkhart F., Sendlemeier W.,(2000) "Ve
rification of acoustical correlates of emotional s
peech using formant-systhesis", in Proceedings of
the ISCA Workshop in speech and Emotion 参照))。
【0013】1つ目の結果は、無意味語によって機械に
感情を表現させ、様々な文化的背景を持つ人にその感情
を正確に伝達させるという目標が理論的に可能であるこ
とを示している。また、2つ目の結果は、完璧な結果は
期待し得ず、機械の成果を人間の成果と関連させて比較
すべきでないことを示している。人間がそれほどよく理
解できないという事実は、主として、幾つかの感情が心
理学的に非常に相関しているため、音響的にも相関する
という事実による。現実の状況では、人間は発話文の内
容、及び/又はその他のモダリティによって、その曖昧
さを解決している。実際、幾つかの実験によって、情動
表現のマルチモーダルな性質により感情のマガーク(Mc
Gurk)効果が得られることや(Massaro D., (2000) "Mu
ltimodalemotion perception : analogous to speech p
rocesses", ISCA Workshop on Speech and Emotion, Be
lfast 2000 参照)、内容が異なれば、人間はそれぞれ
の内容について同じイントネーションであっても異なる
感情を表すと解釈する(Cauldwell R. (2000) "Where d
id the anger go ? The role of context in interpret
img emotions in speech" ISCA Workshop on Speech an
d Emotion 参照)ということが示されている。これらの
発見は、機械がより識別可能な言葉を発する必要がない
ことを示している。したがって、最も基本的は情動につ
いてのみ調べればよい。
【0014】ところで、コンピュータ技術を用いた音声
処理の実験の多くは、音声のどの特徴が感情を最も正確
に反映しているかを調べるものであった(Murray E. an
d Arnott J.L. (1993) "Towards a simulation of emot
ion in synthetic speech",Speech Communication, 16
(4), pp.1097-1108; Banse R. and Scherer K.R. (199
6) "Acoustic profiles in vocal emotion expressio
n", Journal of Personality and Social Psycology, 7
0(3):616-636; Burkhardt and Sendlmeier (2000)"Veri
fication of acoustical correlate of emotinal speec
h using Formant-synthesis", Proceedings of the ISC
A Workshop in Speech and Emotion; Williams U. and
Stevens K.N. (1972) "Emotions in speech: some acou
stical correlates", JASA 52, 1228-1250 参照)。基
本的には、最も重要な特徴は、例えばピッチ(f0)及
び輪郭(contour)や、強さの輪郭や、発声のタイミン
グなど、韻律に関係するものであるとして一致してい
る。より最近の研究では、声質(Gobl C. and Chasaide
A.N. (2000) "Testing affective correlates of voic
e quality through analysis and resynthesis", in Pr
oceedings of the ISCAWorkshop on Emotion and Speec
h 参照)や、ある種の共発声(co-articulatory)現象
(Kienast M. and Sendlmeier W. (2000) "Acoustical
analysis of spectral and temporal changes in emoti
onal speech", Proceedings of the ISCAWorkshop on E
motion and Speech 参照)も、ある種の感情とよく相関
していることが示されている。
【0015】人間の感情の検出に関していえば、人間は
一般的に内容とモダリティの全てを用いて感情を検出し
ている。すなわち、言語学的な内容から顔の表情やイン
トネーションまで全てを用いているが、このような完全
なアプローチは、管理されていない環境下の装置では現
実的でない。例えば、そのような状況下でのロバストな
音声認識は今日のシステムでは到底無理なものであり、
また、顔の表情の認識にはコンピュータリソース及び映
像装置が必要となるが、ロボット生物はこれらを有して
いないことが多い。
【0016】このような理由から、本件出願人は、音声
の韻律情報のみを用いて、どのように感情検出が実現さ
れるかを調査した。さらに、関心を持っている発話は、
日々の会話でなされるようなもの、すなわち短いくだけ
た発話であり、用意されたテキスト、例えば新聞の段落
を感情を込めて読むように言われた場合における発話と
は異なるものである。なお、4つの基本的な情動クラ
ス、すなわち「喜び(joy/pleasure)」、「悲しみ(so
rrow/sadness/grief)」、「怒り(anger)」及び「平
静(calm/neutral)」について研究を行った。
【0017】ここで、顔の表情により感情を自動で認識
する研究(Samal A. and Iyengar P. "Automatic recog
nition and analysis of human faces and facial expr
ession: a survey", Pattern Recognition, 25(1):65-7
7 参照)とは異なり、発話のモダリティを用いる研究は
まだ歴史の浅いものである(Bosh L.T. (2000) "Emotio
ns: what is possible in the ASR framework ?", Proc
eedings of the ISCAWorkshop on Speech and Emotion,
Belfast 2000 参照)。最初になされた研究(Murray a
nd Arnott (1993) "Towards a simulation of emotion
in syntheticspeech: a review on the literature of
human vocal emotion",JASA 93(2),pp.1097-1108, 199
3; Williams U. and Stevens K.N. (1972) "Emotions a
nd speech: some acoustical correlates", JASA 52, 1
238-1250 参照)は、効率的な機械認識装置を作製しよ
うというよりは、寧ろ発話における感情の一般的な質的
音響相関(qualitative acoustic correlates)を研究
するものであった(例えば、「喜び」は「平静」の文章
よりも発話の平均ピッチが高くなるなど)。より最近で
は、感情を計算することに産業上の有用性があることが
次第に知られるようになったことから(Picard, 199
7)、発話における感情を自動で認識する性能を求める
研究が始められてきている(Bosh, 2000)。
【0018】しかしながら、データマイニング(data m
ining)及び機械学習において発達した近代的なツール
を用いて大規模な研究を行った例はない。実際、多くの
場合には、1つか2つの学習スキームを試すのみであっ
たり(例えば Polzin T., Waibel A. (2000) "Emotion-
sensitive Human-computer Interface", in Proceeding
s of the ISCA Workshop on Speech and Emotion; Slan
ey M., McRoberts G.(1998) "Baby Ears: a recognitio
n system for affective vocalization, in Proceeding
s of ICASSP 1998)、非常に少数且つ単純な特徴のみを
用いるものであったり(Polzin and Waibel 2000, Slan
ey and McRoberts 1998, Breazal 2000, Whiteside 199
7)、小規模なデータベース(各話者につき100サン
プル以下)を用いるものであったりし(Breazeal; L. A
ryananda (2000) "Recognitionof affective communica
tive intent in robot-directed speech", in proceedi
ngs of the Humanoids conference, 2000; McGilloway
S. et al. (2000) "Aproaching aoutomatic recognitio
n of emotion from voice: a rough benchmark", in Pr
oceedings of the ISCA Workshop on Speech and Emoti
on; Slaney M.,McRoberts G. (1998) "Baby Ears: a re
cognition system for affective vocalisation, in Pr
oceedings of ICASSP 1998)、統計的な学習スキームの
有効性を見落としているかのようであった。
【0019】唯一、前掲した文献「McGilloway S. et a
l. (2000)」において、残りの文献で用いられているよ
うな伝統的/標準的な特徴群以上のものを用いて体系的
なデータマイニングを行おうとしている。すなわち、こ
の文献では、ピッチ及び強度分布、並びに音素若しくは
音節又はピッチ上昇の長さについての平均値、最大値、
最小値、最大値−最小値、分散を用いている。
【0020】しかしながら、この研究は実験的な基礎を
著しく欠いている。すなわち、1)この研究では3種類
の学習手法(サポートベクターマシン、混合ガウス(Ga
ussian mixtures)、線形判別(linear discriminant
s))しか用いられていない。これらは、無関係な特徴
が多く存在する可能性のあるデータを扱うには決して最
適とは言えず、特に少数の特徴群を最適な効率で抽出す
ることができない。そして、2)この研究は、1つの学
習手法を選択してこの特徴群を調査し、クラス分類に有
用でない特徴を繰り返し除いていくものであった。これ
は、一方には非常に独特の学習スキーム及び選択手順と
関連しているため、特定問題(ad hoc)というべきもの
であるが、他方には適切な特徴群を検出することができ
ない。また、彼らの研究は、被験者が新聞のテキストを
感情を込めて読むように言われてなされた発話に基づく
ものであり、本発明におけるような制約に対応するもの
ではない。
【0021】今日まで、日常的な発話を自動認識する装
置を開発しようとしてきたのは2つの研究グループのみ
である(Breazal 2000 and Slaney et al. 1998 前
掲)。しかし、これらのグループは、非常に小規模なデ
ータベースと非常に少数且つ単純な特徴と2つの学習ア
ルゴリズムしか利用することができなかった。このた
め、この研究のコーパス(corpus)に対する一般的な見
解は、たとえ4種類の基本情動についてのみであって
も、話者が数人いる場合には60パーセントを超える認
識率は不可能に近いというものである。なお、話者によ
って大きく差があることは、例えば前掲した文献「Slan
ey et al. 1998」に記載されている。
【0022】そこで、本発明は、感情を正解率よく識別
する一方で作業負荷が重くなく、ペット型ロボットやヒ
ューマノイド等の小さなシステムにでも実装可能であ
る、発話に基づく感情認識方法及び装置を提供すること
を目的とする。
【0023】本発明の他の目的は、短い発声によって伝
達される感情を識別可能とすることである。
【0024】本発明のさらなる目的は、ノイズが多く及
び/又は音響的に悪い環境で発話がなされるような、実
際の生活の状況においても処理可能とすることである。
【0025】特に第1の側面によれば、本発明は、−音
声信号に由来する少なくとも1つの特徴からなるセット
を抽出し、−抽出された特徴の上記セットを処理してそ
の感情を検出するステップを有し、上記音声信号によっ
て伝達される感情を検出する方法に関連し、上記音声信
号から上記セットの少なくとも1つの特徴を抽出する前
に、上記音声信号をローパスフィルタで処理するステッ
プを有するものである。
【0026】このローパスフィルタ処理ステップは、好
ましくは、基本的に150乃至400Hzの範囲である
カットオフ周波数(Fco)で上記音声信号の強度をフ
ィルタリングするものである。このカットオフ周波数
(Fco)は、好ましくは250乃至300Hzの範囲
であり、好ましいカットオフ周波数(Fco)は250
Hzである。
【0027】さらに、特徴抽出ステップは、以下のパラ
メータI、II及びIII、すなわち −パラメータI: i)ローパスフィルタ処理ステップ後の信号強度、 ii)ローパスフィルタ処理を行わない場合の信号強度、 iii)ローパスフィルタ処理を行わない場合の信号のピ
ッチ、及び iv)ローパスフィルタ処理ステップ後の信号のピッチ −パラメータII(音声信号の継続時間に亘って得られた
パラメータIの数値列から): 1)極小値に対応する数値列の値からなる局所極小値の
系列、 2)極大値に対応する数値列の値からなる局所極大値の
系列、 3)局所的な(隣接する)極値を分離する時間値からな
る継続時間長(時間間隔)の系列、及び 4)数値列の全ての連続するサンプル値からなる系列、
そして、 −パラメータIII(パラメータIIの系列から計算され
る) 1)平均値 2)最大値(すなわち全体で最も大きな値) 3)最小値(すなわち全体で最も大きな値) 4)最大値と最小値との差 5)分散 6)中間値 7)第1の四分位数 8)第3の四分位数 9)第3の四分位数と第1の四分位数との差で定義され
る四分位数間範囲 10)局所微分の絶対値の平均値 の組み合わせで得られた160個の特徴から、1以上の
特徴を選択的に抽出するステップを有することが有用で
ある。
【0028】なお、少なくとも1つの特徴は、パラメー
タIのi)ローパスフィルタ処理ステップ後の信号強
度、又はiv)ローパスフィルタ処理ステップ後の信号の
ピッチに由来する。
【0029】より具体的には、上記パラメータIは、以
下の特徴、 i)ローパスフィルタ処理ステップ後の信号強度、 ii)ローパスフィルタ処理を行わない場合の信号強度、
及び iii)ローパスフィルタ処理を行わない場合の信号のピ
ッチ からなることが好ましい。
【0030】これにより、組み合わせによって合計で1
20個の特徴が得られる。
【0031】なお、少なくとも1つの特徴は、パラメー
タIのi)ローパスフィルタ処理ステップ後の信号強度
に由来する。
【0032】また、より具体的には、上記パラメータII
Iは、以下の5つのパラメータ、すなわち、 2)最大値(すなわち全体で最も大きな値) 3)最小値(すなわち全体で最も大きな値) 6)中間値 7)第1の四分位数 8)第3の四分位数 からなることが好ましい。
【0033】また、上記特徴抽出ステップでは、以下の
特徴、 −最大値(すなわち全体で最も大きな値) −最小値(すなわち全体で最も大きな値) −中間値 −第1の四分位数 −第3の四分位数 の少なくとも1つを抽出するのが有益である。
【0034】これらは、以下の系列、すなわち −音声信号をローパスフィルタで処理した後における信
号の強度値の系列、 −音声信号をローパスフィルタで処理しない場合におけ
る信号強度の極小値の系列、 −音声信号をローパスフィルタで処理した場合における
信号のピッチ値の系列、及び −音声信号をローパスフィルタで処理しない場合におけ
る信号のピッチ値の系列 から計算される。
【0035】なお、この特徴抽出ステップでは、ローパ
スフィルタ処理ステップ後の音声信号とローパスフィル
タ処理を行わない場合の音声信号との両方に由来する特
徴を抽出することも可能である。
【0036】また、ローパスフィルタ処理ステップ後の
音声信号からのみ特徴を抽出するようにしても構わな
い。
【0037】ここで、上記特徴セットには、 1:音声信号をローパスフィルタで処理した後における
信号強度の中間値、 2:音声信号をローパスフィルタで処理した後における
信号強度の平均値、 3:音声信号をローパスフィルタで処理した後における
信号強度の第3の四分位数、 4:音声信号をローパスフィルタで処理した後における
信号強度の第1の四分位数、 5:音声信号をローパスフィルタで処理した後における
信号強度の最大値、及び 6:音声信号をローパスフィルタで処理した後における
信号強度の系列の最大値 の少なくとも1つが含まれる。
【0038】本発明の方法は、上記特徴抽出ステップの
前に、上記音声信号から抽出された信号を平滑化するス
テップを有してもよい。
【0039】実施例では、本方法は、さらに教師アルゴ
リズムを用いて感情検出アルゴリズムを生成するステッ
プを有する。この教師アルゴリズムは、ローパスフィル
タ処理後の音声信号から抽出された特徴の少なくとも1
つを利用する。
【0040】また、本方法は、オフライン感情検出アル
ゴリズム及び/又はオンライン感情検出アルゴリズムを
用いて、感情検出装置をプログラムするステップを有し
てもよく、これらのアルゴリズムは、ローパスフィルタ
処理後の音声信号から抽出された特徴の少なくとも1つ
を利用する。
【0041】次に、第2の側面によれば、本発明は、 −上記信号に由来する少なくとも1つ特徴からなるセッ
トを抽出する抽出手段、及び −抽出された特徴の上記セットを処理してその感情を検
出する処理手段を備え、音声信号によって伝達される感
情を検出する装置に関連し、音声信号から上記セットの
少なくとも1つの特徴を抽出する前に、上記音声信号を
ローパスフィルタで処理する手段を備えるものである。
【0042】上述した本発明の方法における付加的な特
徴は、必要に応じて変更を加えて上述の装置に適用する
ことができるが、簡単のため繰り返して説明しない。
【0043】続いて、第3の側面によれば、本発明は、
第2の側面における装置に用いられる(又は第1の側面
における方法の実現に用いられる)音声信号処理装置に
関連し、上記特徴抽出手段にローパスフィルタ処理後の
音声信号を供給するためのローパスフィルタ処理手段を
備える。
【0044】本発明及びその利点は、以下に説明する好
ましい実施例と添付図面とにより一層明らかにされるで
あろう。なお、この実施例は、本発明を限定するもので
はない。
【0045】ところで、本発明の好ましい実施例は、感
情認識のプロセスを話者依存としたものである。これは
産業上の観点から必ずしも欠点ではない。すなわち、例
えば実施例がペット型ロボットを対象としている場合、
ロボットは飼い主(minder)としか交流しない場合があ
る。また、ロボットが飼い主のみしか認識できないとい
う事実も、ロボットと飼い主との協調関係(complicit
y)の源となることから、寧ろ利点となり得る。但し、
本発明の原理は、さらに概要が説明されるように、話者
非依存のアプローチであっても適用可能であることは勿
論である。
【0046】本実施例は、ペット型ロボットへの応用に
基づくものであり、このロボットは、人間の声における
4つの基本情動、すなわちi)「平静(calm)」、ii)
「悲しみ(sad)」、iii)「怒り(angry)」及びiv)
「喜び(happy)」を検出する。
【0047】Fig.1は、上述した各感情が「感情空
間」のどこに位置するのかを示したものである。この感
情空間では、「力価(valence)」及び「奮起(excitem
ent)」のパラメータがそれぞれ垂直軸2及び水平軸4
に沿って表されている。力価の軸は、ネガティブな値か
らポジティブな値まで有し、奮起の軸は、低い値から高
い値まで有する。また、交点Oは、図の中心にあたり、
「平静(calm)/中立(neutral)」の感情に対応す
る。そして、その点から4つの領域が定義され、それぞ
れが以下に示す感情状態を含む。すなわち、「喜び(ha
ppy)/賞賛(praising)」(四分円Q1)は、力価が
ポジティブであり奮起度が高いとして特徴付けられ、
「落ち着き(comfort)/鎮静(soothing)」(四分円
Q2)は、力価がポジティブであり奮起度が低いとして
特徴付けられる。また、「悲しみ(sad)」(四分円Q
3)は、力価がネガティブであり奮起度が低いとして特
徴付けられ、「怒り(angry)/警告(admonishing)」
(四分円Q4)は、力価がネガティブであり奮起度が高
いとして特徴付けられる。
【0048】ここで、本実施例における制約は、以下の
ように、 −人間はペット型ロボットに対して非常に自由に話しか
け、 −人間は例えば「アイボ!お前は本当に手に負えないロ
ボットだ!」といったような非常に短い文章で発話し、 −その発話をノイズの多い環境下で検出しなければなら
ず、そして、 −数人がロボットと交流する場合には、話者依存か話者
非依存かを選択しなければならない といったものであった。
【0049】これらの制約の一部は、発話が幼児に対す
るようなものに制限されることを意味している。
【0050】最初の段階では、これらの目的に最も沿う
ために、研究戦略が決定された。この戦略を要約すれ
ば、 i)単純な特徴、単純なアルゴリズム、そして小規模な
データベースを用いて実験し、 ii)話者依存のケースについて、特徴と学習アルゴリズ
ムとを体系的に調査し、 a)一方が男性で他方が女性である2人の話者のサンプ
ルについてのデータベースを用いて、多数の例につい
て、 b)上述の2人の話者のデータベースを用いて、数例に
ついてのみ、そして、 iii)流暢に話すような実際の生活における状況下で実
験を行う というものである。
【0051】研究のデータベース 2人の話者によるくだけた短い感情語からなる非常に大
規模なデータベースを用いて研究が行われた。なお、全
ての実験は無料で利用でき、標準的なデータマイニング
技術を満たすデータマイニングソフトウェアであるWe
kaを用いて行われた。このWekaについての情報
は、ウェブページ(http://www.cs/waikato.ac.nz/〜ml
/)で入手可能である。
【0052】十分に大規模なデータベースを持つために
妥協しなければならない点が幾つかあった(Skaney et
al. 1998 或いは Breazal 2000 に記載されている録音
条件は悪く非実用的なものである)。このため、実験的
な研究に用いたデータベースでは、2人のプロフェッシ
ョナルな話者(男声及び女性)を用意した。彼らは2人
とも、多くのラジオ/TVコマーシャルや、映画の日本
語吹き替えやアニメーションで働く声優であった。彼ら
は、短い文或いはフレーズで、例えば「ううん、分かり
ません」、「その通り」、「見て」、「こんにちは」、
「分かりました」、「ご機嫌いかがですか?」、「どん
な食べ物が好きですか?」といったような日常的な発話
を真似るように言われた。また、発声毎にそのフレーズ
を発するような状況を想像しなければならず、その発話
は4つの情動クラス、すなわち、「喜び(joy/pleasur
e)」、「悲しみ(sorrow/sadness/grief)」、「怒り
(anger)」及び「平静(calm/neutral)」の何れかに
対応するものであった。なお、その文章の意味が幾つか
の感情に合うものであれば、各フレーズを対応する感情
で発声することができた。これにより得られたデータベ
ースは、各話者の各感情について200サンプル、合計
で2000サンプルからなるものであった。
【0053】なお、このデータベースは、サンプルの音
声録音を構成するデジタル形式で保管されたため、任意
のときに各サンプルにアクセスして再生することができ
た。
【0054】ここで、上述した全ての研究と同様に、イ
ントネーションに関して測定された2つの主要な特徴は
ピッチと強度とである。
【0055】Fig.2a−2cは、2つの物理的なパ
ラメータであるピッチと強度とが、どのように音声信号
に由来するかを示したものである。音声信号は、Fi
g.2aに波形エンベロープとして図示されており、こ
れは、マイクロホンの出力から直接、又は音声サンプル
を再生して得られる。この波形は、信号振幅(縦軸)が
時間(横軸)の経過に従って変動したものである。図で
は、信号強度の中間位置が零に相当し、その位置から負
の値(低振幅)又は正の値(高振幅)をとる。
【0056】ピッチは、音声の主要な性質であり、これ
により音階や音声スペクトルでの位置が決定される。こ
のピッチは、特定の強度を有する純粋なトーンの周波数
として測定され、この場合、通常の耳には、音階や音声
スペクトルにおいて同じ位置にあるように聞こえる。F
ig.2bにピッチの時間変化を図示する。ここで、ピ
ッチは、特定の時間値における周波数(縦軸)として測
定される。
【0057】一方、強度は、与えられた周波数スペクト
ルを統合した信号のエネルギーを測定したものである。
Fig.2cに強度の時間変化を図示する。ここで、強
度は、デシベル(dB)で測定される。
【0058】さらに、本発明の特徴に従い、上記発話を
伝えるローパスフィルタ処理後の電気信号(以下、音声
信号という)の測定が行われた。
【0059】ここで、Fig.3は、音声信号をローパ
スフィルタ処理する可能性がある場合における感情検出
の性能を評価するシステム1を概略的に示したものであ
る。
【0060】音声信号は、マイクロホン6から直接、又
は上述した録音した発話についてのデータベース8から
得られる。後者の場合、各サンプルは例えばハードディ
スクドライブからオーディオフォーマットで選択的に読
み出し可能とされており、オーディオ出力端子10から
対応する発話のオーディオ信号を得ることができる。マ
イクロホン6又はデータベースのオーディオ出力端子1
0からの信号は、オーディオ増幅ユニット14のオーデ
ィオ入力端子12に供給され、インピーダンス整合、前
置増幅、ゲイン制御処理が行われる。このように処理さ
れたオーディオ信号は、オーディオ出力端子14に送ら
れ、そこからローパスフィルタ18に供給される。シス
テム1では、ローパスフィルタ18のカットオフ周波数
Fcoを調節することができ、その値はカットオフ周波
数選択ユニット20によって選択される。
【0061】Fig.4は、ローパスフィルタ18の典
型的な周波数特性を示す図であり、曲線22は、周波数
範囲に亘って一定の振幅を有する入力について、周波数
に対する伝送されるオーディオ信号レベルの種々の例を
示したものである。ここで、カットオフ周波数Fco
は、半分に減衰する周波数軸上の点として表される。理
想的なカットオフ周波数は、その周波数値を超えたとき
にローパスフィルタが信号を通さなくなるような周波数
である。なお、そのシャープさは、理想的なローパス反
応に近づけるための、例えばフィルタの次元などのフィ
ルタ特性に依存する。
【0062】また、Fig.5は、カットオフ周波数選
択ユニット20によって選択されたカットオフ周波数F
coに従って、周波数特性がどのように変化するかを示
した図である。3つの曲線22a、22b、22cは、
それぞれFcoの値が200Hz、250Hz、320
Hzに対応する。反応曲線の形状は基本的に同じであ
る。Fig.3に示すシステムでは、ローパスフィルタ
のカットオフ周波数は、良いレベルとなるように絶えず
調節可能とされている。なお、カットオフ周波数選択ユ
ニット20は、フィルタ構成、例えば1個或いは数個の
可変容量ダイオードを変化させるために電気的に制御さ
れる。
【0063】ここで、ローパスフィルタ18は、演算増
幅器に基づくアナログ回路として構成される。このよう
なカットオフ周波数を調節可能なローパスフィルタは、
本技術分野においてよく知られており、ここでは簡単の
ため説明しない。勿論、例えばデジタルシグナルプロセ
ッサを用いたデジタルフィルタ技術により、ローパスフ
ィルタ機能を得ることも可能であり、これも本技術分野
においてよく知られている。この場合には、入力オーデ
ィオ信号は、フィルタエレクトロニクスで処理するため
にデジタル化される。このフィルタエレクトロニクスで
は、適切にデジタル化された形式で反応曲線22を生成
する。
【0064】ローパスフィルタ18からの出力は、特徴
測定ステーション30におけるオーディオインターフェ
ース28の第1の入力端子28aに供給される。この特
徴測定ステーション30は、PCベース制御ユニット3
2と協調して動作する機能ユニットとして表されてい
る。
【0065】また、オーディオ出力端子16から特徴測
定ステーション30におけるオーディオインターフェー
ス28の第2の入力端子28bに直接入力する場合もあ
る。この2つの入力端子28a、28bによって、分離
された入力チャンネルが形成され、これにより特徴測定
ステーション30は、ローパスフィルタで処理されたオ
ーディオ信号とフィルタ処理されていないオーディオ信
号とを選択的に扱うことができる。
【0066】PCベース制御ユニット32は、本システ
ムのインターフェースを形成するモニタ34及びキーボ
ード36と、処理、ドライブ及びデータ格納のためのP
Cタイプコンピュータ38とから構成される。ここで、
特徴測定ステーション30は、信号入力端子28に与え
られる信号から種々の特徴を抽出するためにプログラム
可能とされている。ここで、特徴測定ステーション30
における特徴抽出は、デジタル処理技術に基づくため、
信号入力端子28は、内部のアナログデジタル変換器
(ADC)40に接続される。フィルタ処理されたオー
ディオ信号は、その後所望の特徴を抽出するため、後述
するように2進ワードとして処理される。
【0067】特徴測定ステーション30によって生成さ
れた種々の特徴についての測定値は、データロガー(da
ta logger)42に格納され、感情認識アルゴリズムで
処理を行う機能ユニット44によってアクセスされる。
このアルゴリズムは、特徴測定ステーション30によっ
て抽出された信号特徴に基づいて、音声信号で表現され
ている感情を識別するものである。典型的には、ユニッ
ト44で評価されるアルゴリズムによって、識別された
感情(平静、喜びなど)と内部パラメータとが示され
る。認識ユニット44は、種々の感情認識アルゴリズム
を実行し、それぞれの結果と内部パラメータとを生成す
ることができる。
【0068】この情報は、結果解析ユニット46に供給
され、様々なアルゴリズム及び/又は特徴の選択が比較
され、最適な選択が決定される。
【0069】なお、特徴測定ステーション30、データ
ロガー42、感情認識アルゴリズム実行ユニット44及
び結果解析ユニット46は、図にジグザグに描かれた両
方向矢印で示されるように、PCベース制御ユニット3
2によって物理的に実現することができる。
【0070】さらにシステムは、得られた最適な結果に
基づいて種々の感情認識システムをプログラムするプロ
グラムユニットPUを有する。このため、このプログラ
ムユニットPUは、PCベース制御ユニット32やその
他のユニットと共に結果解析ユニット46にも接続され
ており、全てのアルゴリズム、パラメータ設定、抽出す
る特徴、その他の最適条件を記録することができる。こ
こで、この情報は、所定のプロトコルに従って記録さ
れ、プログラムデータがペット型ロボットのような感情
感応性システムの適切なプログラミングインターフェー
スにダウンロード可能とされている。プログラムユニッ
トPUは、システムの他の部分から分離可能とし、その
場でプログラミングするために持ち運びできるように構
成され、及び/又はディスクや半導体メモリといった携
帯型記録媒体上にプログラミングデータを生成するのに
適する。
【0071】ここで、特徴測定ステーション30による
測定は、ローパスフィルタ18から得られたローパスフ
ィルタ処理後の音声信号の強度に基づくものであった
(ハイパスフィルタを用いたハイパス処理後の音声信号
についても独立した実験を行った)。
【0072】ローパスフィルタ処理では、信号を純粋な
韻律成分と純粋なケプストラム成分とに分離するため
に、カットオフ周波数が典型的には250Hz(この特
定値は厳密なものではない)に設定された。
【0073】そして、データベース8からのサンプルが
特徴測定ステーション30で様々に測定された。心理音
響学的な測定によれば、最も重要な情報は韻律(イント
ネーション)であり、特にピッチ曲線(f0)(Fi
g.2b参照)と強度(I0)(Fig.2c参照)とで
あった。
【0074】評価を行う際には、以下の3つの信号、す
なわち i)ローパスフィルタ処理後の信号強度、 ii)ローパスフィルタ処理を行わない場合の信号強度、
及び iii)ローパスフィルタ処理を行わない場合の信号のピ
ッチ が特徴測定ステーション30で処理された。
【0075】なお、最初の信号i)は、特徴測定ステー
ション30の入力端子28aから与えられたものであ
り、後の2つの信号は、入力端子28bから与えられた
ものである。
【0076】ここで、フィルタ処理を行わない信号ii
i)の代わりに、又はそれに加えて(この場合、評価さ
れる信号は合計で4つとなる)、ローパスフィルタ処理
後の信号のピッチを測定することも可能である。しかし
ながら、実験では、ローパスフィルタ処理後の信号につ
いてピッチ解析を行って得られる情報は、フィルタ処理
を行わない信号のピッチから得られる情報とそれほど変
わらなかった。したがって、信号i)乃至iii)のみが
評価に用いられた。
【0077】ローパスフィルタ処理後には、得られた信
号i)の強度曲線が、フィルタ処理を行わない場合と同
様の手法で測定された。
【0078】そして、完全を期すために、最初の10次
元のMFCC(メル周波数ケプストラム成分)の絶対ベ
クトル導関数のノルム(norm)から計算された信号iv)
について、ケプストラムが測定された。ここで、音声認
識では、各時間ステップでケプストラムが測定されるこ
とが多い。このケプストラムは、蝸牛内の神経群の興奮
と等価なパラメータである。これらは、信号の種々のケ
プストラム係数に相当する。測定の際には、ケプストラ
ムのベクトル導関数の局所的な傾きの平均値が求められ
る。典型的には、この測定により、時間変化する10個
の値を有する10個の係数が得られ、連続するベクトル
間の差分からベクトルのノルムが得られる。
【0079】上述したi)乃至iv)の全ての測定は、
“Praatソフトウェア”という名称の無料で利用で
きる信号処理ツールキットを用いて、0.01秒の時間
フレーム毎に行われた。このPraatソフトウェアに
ついての情報は、ウェブページ(http://www.praat.or
g)で入手可能である。
【0080】特に、ピッチは、文献「Boersma P. (199
3) "Accurate short-term analysisof the fundamental
frequency and the harmonics-to-noise ratio of a s
ampled sound", in Proceedings of the Institute of
Phonetic Sciences of the University of Amsterdam,
17, 97-110, 1993」に記載され、非常に正確であると知
られているアルゴリズムを用いて計算された。
【0081】以下では、ケプストラムを測定した信号
(iv)も評価の際に考慮する。但し、測定に用いられる
のは信号i)乃至iii)のみである。
【0082】これらの測定により、データの異なる観点
を与えるように変換された一連の値が得られる。
【0083】この一連の値を得る手順は、以下の通りで
ある。データベース8から得られた、典型的には短いフ
レーズに対応する音声サンプルについて、特徴測定ステ
ーション30は、入力端子(信号i)、ii)又はiii)
に依存してチャネル28a又は28b)に与えられた対
応する音声信号を記憶する。この信号は、予め10Hz
で平滑化される。
【0084】そして、この記憶され10Hzで平滑化さ
れた信号から、上述の時間変化する3つの信号i)乃至
iii)が計算される。
【0085】このように計算された信号i)乃至iii)
のそれぞれは、例えば0.01秒間隔でデジタル的にサ
ンプリングされる。なお、各サンプリングでは、強度
(信号i)及びii))又はピッチ(信号iii))の瞬間
絶対値が得られる。
【0086】このようにして、サンプリングされた信号
のそれぞれについて、連続したサンプル値が得られる。
フレーズが数秒間ある場合、このサンプル値は数百とな
る。その連続したサンプル値は、その信号の最初の部分
の値から始まって、時間軸に亘って記憶される。したが
って、連続したサンプル値により信号i)、ii)又はii
i)の時間変化が表される。
【0087】そして、各信号につき以下に示す4つの系
列を生成するために、時間軸上の値のシーケンスが解析
される。 1)局所極小値の系列。これは、そのシーケンスのうち
極小値に対応する値を決定し、シーケンスの極小値のみ
からなる系列を構成することによる。その系列は、その
信号の最初の極小値から始まって、時間軸に亘って記憶
される。なお、シーケンスの極小値は、そのシーケンス
内においてその直前直後の値よりも小さな値として特定
される。 2)局所極大値の系列。これは、そのシーケンスのうち
極大値に対応する値を決定し、シーケンスの極大値のみ
からなる系列を構成することによる。その系列は、その
信号の最初の極大値から始まって、時間軸に亘って記憶
される。なお、シーケンスの極大値は、そのシーケンス
内においてその直前直後の値よりも大きな値として特定
される。 3)局所的な(隣接する)極値間の継続時間長(時間間
隔)の系列(これは信号のリズムの様子をモデル化す
る)。ここで、極値とは極小値又は極大値である。これ
は、先ず上述の系列1)、2)のように隣接する値を比
較して、極小値又は極大値に対応する値をシーケンス内
で特定することによる。そして、特定された極値の時間
位置が解析され、連続した極値の時間間隔が決定され
る。これらの時間間隔は、その信号の最初の極値と次の
極値との間隔から始まって、連続して求められ、時間間
隔の系列が得られる。 4)系列自身。これは単純に、サンプリングされた信号
の最初から始まって、シーケンスの連続したサンプル値
全てから系列を構成することによる。
【0088】Fig.6は、この4つの系列が測定して
いる信号からどのようにして得られるかを図示したもの
である。
【0089】ここで、上述した信号i)乃至iii)のそ
れぞれについて、上述した値の4つの系列が抽出され、
データベースの1つのオーディオサンプルにつき12系
列得られる。
【0090】最後に、この12系列のそれぞれについ
て、以下の10個の統計的特徴、すなわち、 1)平均値 2)最大値(すなわち全体で最も大きな値) 3)最小値(すなわち全体で最も大きな値) 4)最大値と最小値との差 5)分散 6)中間値 7)第1の四分位数 8)第3の四分位数 9)第3の四分位数と第1の四分位数との差で定義され
る四分位数間範囲 10)局所微分の絶対値の平均値 が計算される。
【0091】なお、これらの統計的特徴を計算する前
に、全てのデータは予め正規化されている。
【0092】4系列とこれらの10個の特徴とを組み合
わせることで、3*4*10=120個の特徴が得られ
る。
【0093】学習アルゴリズム 各信号についてこれらの値の全てが得られると、次に種
々の自動学習方法を用いて実験が行われた。この自動学
習方法は、所定数のサンプル例を学習し、般化できるも
のである。なお、そのような方法としては数多く知られ
ているが、それぞれ利点もあれば欠点もある。本アプロ
ーチでは、これらの種々のアルゴリズムを非常に数多く
用いている。
【0094】テストされた各学習アルゴリズムについ
て、サンプル例の基本セットが入力される。そして、各
基本セットについて、他の基本セットに対する性能がチ
ェックされる。これにより、各学習アルゴリズムで正し
く般化できたパーセンテージが求められる。
【0095】ここで、この20年で多くの学習スキーム
が開発されているが(例えば Witten I., Frank E. (20
00) "Data Mining", Morgan Kaufflan Publishers)、
それらの内容は様々である。すなわち、あるタイプの分
類を他のタイプよりも効率よく行うものもあれば、多く
の無関係な特徴(以下説明するように、本件の場合に当
てはまる)を扱うのに適したものや、構造化された特徴
セット(重要な特徴値の“統語的な(syntactic)”組
み合わせ)を扱うのに適したものもある。データの構造
及び/又は特徴の関係性(無関係性)は、当然のことな
がら分からないため、数少ない学習スキームのみを用い
て問題を論じるのは誤りである。したがって、ニューラ
ルネットワークから規則帰納(rule induction)や回帰
による分類(classification by regression)に至るま
で、代表的な学習スキームのセットが選択された。ま
た、最もよいメタ学習スキームの1つであるAdaBoostM1
(Witten and Frank, 2000 前掲)と呼ばれるメタ学習
スキームも使用された。このAdaBoostM1は、決定木(de
cision trees)のような不安定な学習スキームの般化性
能を著しく向上させる(不安定な学習スキームでは、学
習データベースが僅かに変化しただけで認識マシンが大
きく変わることがある)。Wekaソフトウェアを選択
した理由の1つは、そのコードと実行可能プログラムと
が自由に利用可能であり、大規模ではあるがその実験を
容易に再現可能であるためである。また、このソフトウ
ェアにより、自動クロス確認のような手段が得られ、又
は後述するように例えば遺伝的アルゴリズムを用いて特
徴空間を探索することができる。以下の表1に全ての学
習アルゴリズムを示す。
【0096】
【表1】
【0097】これらのアルゴリズムについての詳細は、
前掲した「Witten and Frank, 2000」から得ることがで
きる。
【0098】最初の実験では、全てのアルゴリズムが全
ての(正規化された)特徴に対して適用されて評価が行
われた。ここで、データベースの90パーセントを用い
て訓練が行われ、残りの10パーセントを用いてテスト
が行われた。そして、これが10回繰り返され、各回毎
に90/10パーセントの分け方が変えられた(これに
より10分割クロス確認が行われる)。
【0099】以下の表2は、種々のアルゴリズムを用い
た場合において、10分割クロス確認で正しく分類され
た平均のパーセンテージを示したものである。
【0100】
【表2】
【0101】この結果から非常に高い成功率(92乃至
97パーセント)が得られていることが分かる。これ
は、特定のアルゴリズムを用いた他のいかなる文献に記
載された結果よりも高いものである。しかしながら、ア
ルゴリズム間の差は著しい。すなわち、最もよい結果は
“Adaboost”の決定木及び決定則(decision rules)で
あったが、それよりも10パーセント低いものや(例え
ば最近傍識別(nearestneighbor)、RBFニューラル
ネット又はサポートベクターマシン。これらは他の研究
でよく用いられている。)、20パーセント低いもの
(パーセプトロン群(Committees of perceptrons))
もあった。このことは、前提知識或いは直観的な知識が
ないような問題を解決する場合には、多くの学習スキー
ムを用いるべきであることを示している。
【0102】特徴選択 この最初の実験が終了すると、次のステップはどのよう
にして特徴セットを減らすかということである。これ
は、以下の3つの理由、すなわち、 1)特徴セットが小さいと般化性能がよくなると考えら
れる(前掲した「Witten and Frank, 2000」参照) 2)計算する特徴が少ない場合にはコンピュータを簡易
化できる 3)もし機械学習アルゴリズムで最も重要な特徴が伝統
的に心理音響学の文献で出されているものであれば興味
のあることである という理由による。
【0103】特徴を探索する第1の方法は、決定則(P
ART)のような学習スキームの結果を見ることであ
る。これは、知識発見(knowledge discovery)装置と
してよく用いられている。
【0104】本件出願人が作成しテストした特定のルー
ル選択及びパラメータは、以下のようなものである。 例1 If MEDIANINTENSITYLOW>0.48 且つ MINMINIMASPITCH<=0.07 且つ THIRDQUARTINTENSITY>0.42 ==>平静 ELSE If MEANINTENSITYLOW<=0.58 且つ MEDIANINTENSITYLOW<=0.29 ==>怒り ELSE If THIRDQUARTINTENSITYLOW>0.48 ==>悲しみ ELSE ==>喜び (記号“<=”は、未満又はイコールを意味する)
【0105】なお、全ての数値は正規化されている。
【0106】上述のアルゴリズムで表された変数の定義
は、以下の通りである。 −MEDIANINTENSITYLOW:ローパスフィルタ処理後の信号
の強度値の系列における中間値 −MINMINIMASPITCH:ローパスフィルタ処理を行ってい
ない信号のピッチの最小値の系列における値が最も小さ
な最小値 −THIRDQUARTINTENSITY:ローパスフィルタ処理を行っ
ていない信号の強度値の系列における第3の四分位数値 −MEANINTENSITYLOW:ローパスフィルタ処理後の信号の
強度値の系列における平均値 −THIRDQUARTINTENSITYLOW:ローパスフィルタ処理後の
信号の強度値の系列における第3の四分位数値
【0107】これらの4つの極めて単純な規則により、
話者2のデータベースについて般化による分類で94パ
ーセントという非常に高いパーセンテージが得られてい
る。驚くべき事実として、ローパスフィルタ処理された
信号の強度に関連する特徴が繰り返し用いられている。
【0108】異なる話者/言語について最適の性能を得
るために、違ったルールセットを適用することも可能で
ある。与えられた話者/言語について適切なルールセッ
トは、実験的に選択される。
【0109】特徴セットの他の観点は、視覚的に得るこ
とができる。そのような視覚化の一例をFIG.7a−
7cに示す。このFIG.7a−7cは、それぞれ上述
した160個の特徴から選ばれた特徴i,j,kについ
て測定を行った例を示したものである。それぞれのライ
ンには長方形のボックス48a−48c内の空間が定義
されており、その内部に数多くの点がプロットされてい
る。プロットされた各点は、データベース8の音声サン
プルに対応する。また、その点の位置は、その特徴につ
いての関連する測定値に対応する(水平方向に変化す
る)。さらに、プロットされたサンプルに対応する感情
は、点が「平静」、×印が「悲しみ」、棒線が「怒
り」、丸印が「喜び」を表す記号として表されている。
なお、完全な実験では、各特徴につき1つずつで合計1
60個のラインが生成される。
【0110】FIG.7aでは、特定された感情サンプ
ルが全くでたらめに分布しており、生成された特徴i
は、感情を識別する指標となり得ない。このような分布
は、ローパスフィルタ処理されていない音声信号から抽
出された特徴の場合によく見られる。
【0111】FIG.7bでは、特定された感情サンプ
ルがより集合して分布しており、生成された特徴は、感
情を識別する指標になる可能性がある。しかしながら、
隣接する集合が若干オーバーラップしている。このよう
な分布は、ローパスフィルタ処理された音声信号から抽
出された特徴の場合によく見られる。なお、この実験に
おけるカットオフ周波数(f0)は、250Hzであ
る。
【0112】最後にFIG.7cでは、特定された感情
サンプルがよく集合しているのみならず、それらが空の
領域によって分離されている。このような結果は、その
強度がローパスフィルタ処理されたような音声信号から
抽出された特徴の場合に得られる。
【0113】なお、雑然となるのを避けるために、図で
は代表的な音声サンプルのみをプロットしている。
【0114】強度がローパスフィルタ処理された音声信
号について得られた結果は、異なる話者についても確認
された。
【0115】実験では、感情サンプルをよく集合させ、
それを少なくとも何らかの空領域で隔てるような6個の
特徴が特徴グループから選択された。
【0116】一般的には、強度がローパスフィルタ処理
された音声信号について、以下の特徴、すなわち、 −四分位数、特に第1及び第3の四分位数、 −最大値、 −最小値、及び −平均値 を考慮することで、最もよい結果が得られる。
【0117】反対に、ローパスフィルタ処理された音声
信号の傾きの分散或いは平均値といった特徴では、最も
確実でない結果しか得られなかった。
【0118】強度をローパスフィルタ処理することが感
情の区別に非常に重要であるという本件出願人の直感を
確認するために、データベース8のサンプルからの特定
された感情をプロットした図をFIG.8a及び8bに
示す。これらのプロットでは、感情をよく識別すること
のできる2つの特徴が、直交する軸のそれぞれで表され
ている。すなわち、強度についての第1の四分位数が垂
直な(縦座標)軸に分布し、強度についての第3の四分
位数が水平な軸(横座標)に分布している。ここで、4
つの感情を表すための記号は、FIG.7a−7cと同
様である。また、同様にに雑然となるのを避けるため
に、代表的な音声サンプルのみをプロットしている。
【0119】FIG.8aのプロットは、データベース
の音声サンプルからローパスフィルタ処理を行わないで
生成されたものである。一方、FIG.8bのプロット
は、同じ音声サンプルではあるが、FIG.3のローパ
スフィルタ18を用いて、250Hzのカットオフ周波
数でローパスフィルタ処理を行って生成されたものであ
る。どちらの場合の音声サンプルも同じ話者(話者2)
から得られている。なお、同様の際だった効果が第1の
話者についても得られているが、面白いことに、その集
合は同じ場所に位置していない(「怒り」と「喜び」
は、90度回転している)。これは、当初予測していた
通り、話者によって非常に差異があることを示したもの
である。しかしながら、いくつかの特徴については、各
話者で非常に安定している。
【0120】ここで、個々の特徴の相関や寄与を定量化
するために、予測される情報ゲイン、又はクラスと寄与
との間の相互情報という、データマイニングの文献でよ
く用いられている測定値がある。これは、エントロピー
H(クラス)とエントロピーH(クラス|寄与)との差
に相当する。以下の表3は、最も寄与が大きかった20
個を情報ゲインに従って並べたものである。
【0121】
【表3】
【0122】この表から、ローパスフィルタ処理された
信号の強度分布についての最初の6個のセットに関する
特徴が大きな値を示していることが確認できる。また、
他の驚くべき点も示されている。すなわち、それぞれ有
益な20個の特徴のうち、心理音響学の研究(Murray
E., Arnott J.L., (1995) "Implementation and testin
g of a system for producing emotion-by-rule in syn
thetic speech", Speech Communication, 16(4), pp.36
9-390; Sendlmeier and Burkhardt 2000 前掲;Stevens
and Williams 1972 前掲)で提案されていた標準セット
に含まれていたもの、又は実用研究(Slaney et al. 19
98 前掲、Breazal 2000 前掲)で用いられていたもの
は、3個(表における特徴12,16,20)のみであ
った。
【0123】それにも関わらず、特徴の個々の顕著性は
それほど興味のあることではない。特徴の組み合わせに
よって上手くいくことが少なくないからである。したが
って、最初の実験において、本件出願人は、ローパスフ
ィルタ処理された信号の強度に関連する特徴1乃至6の
みを含む特徴セット(LPF)を、文献「Breazal 200
0」又は文献「Slaney et al. 1998」で用いられている
標準特徴(SF)、すなわち、 1)平均値、 2)最小値、 3)最大値、 4)最大値−最小値、 5)ローパスフィルタ処理されていない信号のピッチの
分散、 6)ローパスフィルタ処理されていない信号の強度、及
び 7)音節要素の平均長 で構成される特徴セットと比較した。(時々用いられる
ことがあるように、震え(jitter and tremor)を加え
ると、結果は同様なものである。)
【0124】以下の表4は、これらの実験をまとめたも
のである(各数値は、10分割クロス確認で正しく分類
された平均のパーセンテージに対応する)。
【0125】
【表4】
【0126】上述の略号は、以下の通りである。すなわ
ち、(LPF)sp.1は、話者1の音声サンプルをローパスフ
ィルタ処理した信号を示し、(LPF)sp.2は、話者2の音
声サンプルをローパスフィルタ処理した信号を示す。ま
た、(SF)sp.1は、話者1の音声サンプルをローパスフィ
ルタ処理していない標準的な信号を示し、(SF)sp.2は、
話者2の音声サンプルをローパスフィルタ処理していな
い標準的な信号を示す。
【0127】この表から分かるように、強度をローパス
フィルタで処理した信号の四分位数を用いるのみで、従
来用いられてきた特徴の組み合わせよりも性能がよくな
る。
【0128】また、本件出願人は、非常の効率的な小さ
な特徴セットを見つけるために、遺伝的アルゴリズムの
使用に基づく自動探索方法を実行した。すなわち、特徴
集合(30個までに限定される)を生成し、適応度とし
て2つのアルゴリズム、すなわちナイーブベイズ法(Na
ive Bayes)及び5最近傍識別(主として訓練が容易で
あるために選択した)を用いて10分割クロス確認を行
った。なお、遺伝的アルゴリズムは、正確には文献「Go
ldberg,D.E. (1989) "Genetic algorithms insearch,op
timization and machine learning",MA: Addison-Wesle
y」に記載されている単純なものである。
【0129】この実験の結果は、明白なものではなかっ
た。つまり、選択された特徴セットの中には、ローパス
フィルタ処理した信号の強度の四分位数に関連する特徴
やピッチの四分位数に関連する特徴もあれば、比較的個
々の情報ゲインが小さい特徴、すなわちローパスフィル
タ処理されていない平滑化された強度曲線の極小値の四
分位数に関連する特徴もあった。
【0130】また、機械学習アルゴリズムでは、どのよ
うに測定しても、分布の分散や範囲に関連する特徴が常
に無視される傾向にある。
【0131】最後に、全ての学習アルゴリズムについて
これらの15個の特徴を用いた実験が行われた(ローパ
スフィルタ処理した信号の強度の最大値、最小値、中間
値、第3の四分位数及び第1の四分位数、ローパスフィ
ルタ処理していない信号のピッチ及び最小値)。
【0132】この結果を以下の表5に示す。
【0133】
【表5】
【0134】表から分かるように、得られた結果は、最
初に得られた最もよい結果と非常に似たものであるが、
10分の1以下の特徴しか用いていない。さらに面白い
ことに、学習スキーム間の差は、あまり重要でなく、以
前に結果の悪かった最近傍識別やナイーブベイズのよう
なアルゴリズムも、今回は満足のいく結果が得られてい
る。
【0135】僅かなサンプル例しか入手できない場合 前節では、大規模な訓練用データベースを用いており、
これは特徴及びアルゴリズム空間を探索するのに最適で
ある。しかしながら、話者依存タスクを扱っている場
合、これを現実世界の例えばペット型ロボットに直接適
用することはできない。実際、人間の幼児や現実のペッ
トの場合には起こり得ることであるが、そのようなペッ
ト型ロボットの飼い主が数百もの教師サンプルを与え、
基本感情表現を認識する方法を教えるような状況は想像
し得ない。実際、人間は、それほどの長い時間、ペット
型ロボットと共に過ごそうとはしない。
【0136】したがって、僅かな訓練サンプルしかない
場合にどのような結果になるのかという疑問は自然なも
のである。
【0137】このため、本件出願人は、先に与えられた
“最適な”特徴セットを用いるものの、各アルゴリズム
に対して各クラスにつき12個のサンプルのみを用いて
実験を行った。なお、データベースの残りのアイテムで
アルゴリズムのテストが行われた。
【0138】この実験は、それぞれ別の12サンプルを
用いて30回繰り返され、その結果は平均化された(標
準偏差はかなり低く、典型的には1.1程度であっ
た)。
【0139】以下の表6は、この実験をまとめたもので
ある。
【0140】
【表6】
【0141】表から分かるように、アルゴリズムの中に
は、ある程度の性能(一般的に約85パーセント)を維
持しているものもある。例えば、非常に簡易なアルゴリ
ズムである1最近傍識別やナイーブベイズである。これ
らの結果は、前掲した文献「Breazal,2000」に記載され
ている結果に匹敵する(実際、僅かに優れている)もの
である。しかしながら、この場合の学習は、数人の女性
の話者による大規模なデータベースを用いたオフライン
でのものであった。重要なことは、Breazalが、ペット
型ロボットと相互作用するにはこのレベルの成功率で十
分であるということを実験を行って示したことである。
また、Breazalは、現実世界で動くような大きな認識ア
ークテクチャに組み込まれた場合に、どのようにしてこ
の結果を向上させるかを示した。例えば、この認識モジ
ュールをある種の感情慣性(2分の1秒で「喜び」から
「怒り」に変化することは非常に稀である)のあるよう
な人工的な辺縁系(lymbic)/感情システムと接続する
と、何らかの追加情報が得られるか、又は結果に不確か
さがあることをシステムが知ることができる。この結
果、ロボットは、例えば何が起こっているのか分からな
いということを示す態度を示す。これにより、人間は、
より誇張されたイントネーションで発声を繰り返すよう
になる。
【0142】研究全体の結論 上述の記載より、“現実の状況”のロボットの場合にそ
うであるように、僅かなサンプルしか与えられない場合
であっても、正しい特徴セットを用いれば適度な性能が
得られることが分かる。
【0143】そこで、目的となるのは、適切な性能レベ
ル、可能であればそれ以上を維持しながら、測定数を減
らすことである。実際、学習アルゴリズムの中には、特
に相関がない場合など、多数の測定を行うのに適さない
ものもある。また、学習アルゴリズムの中には、構成タ
イプ(constructive type)のものもある。それらは、
感情分類を行う開発者が読むことのできる所定数の規則
を生成することができるため、興味のあるものである。
例えば、1つ又は2つのデータベースを用いて、単に選
択された4つの値についてのみテストを行った多数の測
定により、満足いく程度の結果が得られる学習アルゴリ
ズムも存在する。
【0144】これにより、重要と思われるものを所定数
識別することができる。これらは、典型的にはローパス
フィルタ処理された信号と結びつけられた信号の値であ
る。より具体的には、それは、その信号の強度の中間値
が所定値(例えば25.75dB)よりも大きいか否か
を示すものである。
【0145】ローパスフィルタ処理された信号の強度の
種々の四分位数を学習アルゴリズムに与えるのみで実験
が繰り返された。測定の結果、最もよい学習アルゴリズ
ムの成功率は、典型的には80乃至85%であった(完
全な分析における90乃至95%に匹敵する)。但し、
ピッチ分析を行っていないことから、その計算は非常に
簡略化されている。
【0146】また、基礎となるデータとして、伝統的に
文献で用いられている値を用いて、全ての値又はローパ
スフィルタ処理された信号強度と比較して実験が行われ
た。この結果、既知の選択値である同じ基礎データを用
いた場合の成功率は、70乃至75%である。これは、
単にローパスフィルタ処理後の信号強度を用いる場合の
結果よりも、10%前後低いものである。
【0147】また、測定数を少なくすることと、その結
果との最善の折衷案を求めるために、所定数の実験が行
われた。この実験は、例えば遺伝的アルゴリズムを用い
て多数の測定グループを生成し、空間を解析するもので
あった。結論としては、ローパスフィルタ処理後の信号
強度の四分位数と、ピッチの四分位数と、通常の(ロー
パスフィルタ処理していない)信号の極小値の四分位数
との組み合わせで得られる15個のパラメータにより、
最もよい結果が得られた。これらの成功率は、90乃至
97%の範囲内にあり、120個のパラメータを一緒に
用いた場合の成功率と同程度であった。
【0148】次の問題は、比較的少数の初期サンプルか
ら、ロボットが比較的よく般化を行うことができるか否
かを知ることである。このため、各クラス12個のサン
プル(合計48サンプル)のみをアルゴリズムに与え、
どの程度結果が変化するかを調べるために実験が行われ
た。この結果、学習アルゴリズム間の差異は、より明白
なものとなった。しかしながら、依然として85乃至9
0%の成功率を維持している学習アルゴリズムも幾つか
存在する。
【0149】ここで、研究の一般的な結果をFIG.9
からFIG.13の棒グラフに示す。これらは、感情を
正しく分類できるかという観点から、引用した全ての学
習アルゴリズムを比較するものである。なお、各アルゴ
リズムについて、データベース8の2人の話者に対応す
る2つの結果が示されている。より具体的には、以下の
通りである。
【0150】すなわち、FIG.9は、ローパスフィル
タ処理された信号の強度のみを用いて、初期サンプルか
ら般化により正しく分類する性能を示したものである。
用いた特徴は、ローパスフィルタ処理(カットオフ周波
数250Hz)された信号の強度である。
【0151】また、FIG.10は、いわゆる“Kisme
t”特徴(KismetはMITで開発されたシステムであ
る)、すなわちピッチ+強度+長さ要素についての性能
を示したものである。
【0152】また、FIG.11は、特徴の最もよい組
み合わせ、すなわちローパスフィルタ処理された信号の
強度+ピッチ+強度の最小値についての性能を示したも
のである。
【0153】また、FIG.12は、僅かなサンプルし
か利用できない場合に、12個/クラスの訓練サンプル
に基づいて、般化により正しく分類する性能を示したも
のである。用いた特徴は、ローパスフィルタ処理された
信号の強度+ピッチ+強度の最小値である。
【0154】そして、FIG.13は、上述した図のそ
れぞれについて、実験毎の最高スコアをまとめたもので
ある。
【0155】実用的な実装 FIG.14は、本発明の発見をどのようにして感情感
応性システム60に実装するかを概念的に示した図であ
る。この感情感応性システム60は、ペット型ロボッ
ト、ヒューマノイド、或いはインタラクティブコンピュ
ータ等の一部とすることができる。典型的には、このシ
ステムは、感情認識処理に必要となる全ての処理、デー
タ格納、インターフェース機能を有するマイクロコンピ
ュータの中心となる。これらのユニットはそれぞれ知ら
れたものであり、当業者であればアプリケーションの必
要性に応じて容易に適用することができるため、簡単の
ために図示を省略する。
【0156】システム60は、感情を検出するための音
声データを受けとる音響入力部を有する。この音声デー
タは、2つのソースから得ることができる。すなわち、
現実の状況のように、周囲の音声を集音し、感情検出を
行う近くの人物の発声を検出する内蔵マイクロホン62
と、オーディオ接続器64を介してシステム60と接続
されるデータベースとである。このデータベースは、F
IG.3と同じものとすることもでき、それを適用させ
たものとすることもできる。このようにして、システム
は予め訓練され、調整され、特徴付けられる。なお、こ
の接続可能性は、ローパスフィルタ特性を含む、全ての
内部音声処理パラメータを調整する際に有用である。
【0157】2つのソース62又はソース8からの音声
信号は、音響増幅処理ユニット66に供給され、ここで
信号レベルがシステムの電子機器に適応したものにな
る。また、音響増幅処理ユニット66は、マイクロホン
62を用いた場合に、暗騒音を最小とするノイズ削減段
階を含んでもよい。音響増幅処理ユニット66の音響出
力端子68は、第1及び第2の経路P1及びP2に沿っ
て、特徴抽出ユニット70の2つのチャンネル入力端子
IC1及びIC2とそれぞれ接続される。
【0158】ここで、第1の経路P1には、音響出力端
子68と第1のチャンネル入力端子IC1との間に第1
のデジタルアナログ変換器(DAC)72が存在する。
第1のチャンネル入力端子IC1は、増幅され前処理さ
れたデジタル形式の音声信号を単純に入力する。
【0159】一方、第2の経路P2には、ローパスフィ
ルタ74が存在し、その入力端子が音響出力端子68と
接続されている。本具体例では、このローパスフィルタ
は、適切なカットオフ周波数を有する限り、FIG.3
と同じものとすることができる。典型的には、カットオ
フ周波数(Fco)は、0乃至250Hzの範囲の周波
数を通過させ、それ以降では急速に減衰するような値に
デフォルトで設定される。このカットオフ周波数は、カ
ットオフ周波数選択器76によって様々な値に設定する
ことも可能である。カットオフ周波数選択器76は、異
なったカットオフ周波数を生成するためにスライダーに
よって手動で制御可能とされ、及び/又は特徴化フェー
ズの間、最適な結果を得るための例えばフィードバック
システム内の内部制御回路によって電気的に調整され
る。なお、システム60を異なる話者、言語、環境、検
出する種々の感情等に最適化するためには、このカット
オフ周波数の調整が必要となる。
【0160】また、ローパスフィルタ74は、さらに減
衰変化制御装置78を有する。この減衰変化制御装置7
8は、周波数反応曲線(FIG.4参照)の傾きを、例
えばフィルタの次数を変えることによって変更し、ロー
パスフィルタ特性の最適化にさらなる自由度を与える。
【0161】しかしながら、ローパスフィルタ74は可
変でなくてもよく、傾きを調整できなくてもよい。単純
な実施例は、所定のカットオフ周波数、例えば250H
zに固定されたローパスフィルタで実現することができ
る。
【0162】FIG.3のシステムについて言えば、ロ
ーパスフィルタ74は、アナログ回路(受動的又は能動
的)で、又はデジタルフィルタとして実現することがで
きる。後者の場合、DAC80は必ずしも必要でない
が、デジタルローパスフィルタが独自のデジタルアナロ
グ変換段階を有していない限り、同様のDACが入力部
に設けられる。実用的な実装では、ローパスフィルタ7
4及びその制御ユニット76及び78は、典型的には完
全にデジタルなものであり、カットオフ周波数の選択を
含むフィルタ特性の制御は、システム60の中心にある
PCベース制御ユニットのインターフェースを介して行
われる。
【0163】ローパスフィルタ74から出力されたロー
パスフィルタ処理後の音声信号(図ではアナログ)は、
第2のアナログデジタル変換器80に供給され、このア
ナログデジタル変換器80により、適切にデジタル化さ
れたローパスフィルタ処理後の信号が、特徴抽出ユニッ
ト70の第2のチャンネル入力端子IC2に供給され
る。
【0164】この特徴抽出ユニット70は、入力した音
声信号により伝達される感情を検出する処理回路の第1
のリンクを構成する。
【0165】処理回路の第1の部分は特徴抽出ユニット
70を有し、この特徴抽出ユニット70は、デジタル化
された信号から選択した特徴を抽出するようにプログラ
ムされている。なお、特徴の一部は、本発明に従って、
ローパスフィルタ処理後の音声信号(チャンネル入力端
子IC2)から抽出される。
【0166】特徴抽出ユニット70は、FIG.3の特
徴測定ステーション30と同様の方法で処理を行う。特
に、特徴抽出ユニット70は、上述した120個の特徴
から特徴セットを選択して抽出する。すなわち、 i)ローパスフィルタ処理後の信号強度(チャンネル入
力端子IC2の信号に由来する)、 ii)ローパスフィルタ処理を行わない場合の信号強度
(チャンネル入力端子IC1の信号に由来する)、及び iii)ローパスフィルタ処理を行わない場合の信号のピ
ッチ(チャンネル入力端子IC1の信号に由来する)の
組み合わせから特徴セットを選択して抽出する。
【0167】なお、上述した信号は、10Hzで平滑化
されている。
【0168】そして、この記憶され10Hzで平滑化さ
れた信号から、上述の時間変化する3つの信号i)乃至
iii)が計算される。
【0169】このように計算された信号i)乃至iii)
のそれぞれは、例えば0.01秒間隔でデジタル的にサ
ンプリングされる。なお、各サンプリングでは、強度
(信号i)及びii))又はピッチ(信号iii))の瞬間
絶対値が得られる。
【0170】このようにして、サンプリングされた信号
のそれぞれについて、連続したサンプル値が得られる。
フレーズが数秒間ある場合、このサンプル値は数百とな
る。その連続したサンプル値は、その信号の最初の部分
の値から始まって、時間軸に亘って記憶される。したが
って、連続したサンプル値により信号i)、ii)又はii
i)の時間変化が表される。
【0171】そして、これらの3つ信号のそれぞれから
得られた各シーケンス、すなわちローパスフィルタ処理
後の強度、ローパスフィルタ処理を行わない場合の強
度、及びローパスフィルタ処理を行わない場合のピッチ
について、特徴抽出ユニット70は、FIG.3の特徴
測定ステーション30に関連して、上述した値の4つの
系列、すなわち、 1)局所極小値の系列。これは、そのシーケンスのうち
極小値に対応する値を決定し、シーケンスの極小値のみ
からなる系列を構成することによる。その系列は、その
信号の最初の極小値から始まって、時間軸に亘って記憶
される。なお、シーケンスの極小値は、そのシーケンス
内においてその直前直後の値よりも小さな値として特定
される。 2)局所極大値の系列。これは、そのシーケンスのうち
極大値に対応する値を決定し、シーケンスの極大値のみ
からなる系列を構成することによる。その系列は、その
信号の最初の極大値から始まって、時間軸に亘って記憶
される。なお、シーケンスの極大値は、そのシーケンス
内においてその直前直後の値よりも大きな値として特定
される。 3)局所的な(隣接する)極値(極小値又は極大値)間
の継続時間長(時間間隔)の系列(これは信号のリズム
の様子をモデル化する)。これは、シーケンス内で極小
値又は極大値に対応する値を特定することによる。すな
わち、先ず上述の系列1)、2)のように隣接する値を
比較する。そして、特定された極値の時間位置を解析
し、連続した極値の時間間隔を決定する。これらの時間
間隔は、その信号の最初の極値と次の極値との間隔から
始まって、連続して求められ、時間間隔の系列が得られ
る。 4)系列自身。これは、サンプリングされた信号の最初
から始まって、シーケンスの連続したサンプル値全てか
ら系列を構成することによる。を計算することができ
る。
【0172】そして、特徴抽出ユニットは、得られた3
×4(=12)個の系列について対応する特徴を生成す
るために、以下の10種類、すなわち、 1)平均値 2)最大値(すなわち全体で最も大きな値) 3)最小値(すなわち全体で最も大きな値) 4)最大値と最小値との差 5)分散 6)中間値 7)第1の四分位数 8)第3の四分位数 9)第3の四分位数と第1の四分位数との差で定義され
る四分位数間範囲 10)局所微分の絶対値の平均値 の統計処理を行う。
【0173】通常、上述した統計的特徴の中には、特に
第1の四分位数、中間値及び第3の四分位数を求めるた
めに、時間軸上の系列を昇順の系列へと、系列の値を並
べ替えるものもある。
【0174】なお、これらの統計的特徴を計算する前
に、全てのデータは予め正規化されている。
【0175】この120個の特徴のどれを抽出するか
は、用いるアルゴリズムに依存し、これはプログラム可
能である。実施例では、特徴抽出ユニット70は、要求
に応じて任意の数の特徴を抽出できるようにプログラム
されている。なお、少なくとも1つの特徴は、感情認識
を行う音声信号をローパスフィルタ処理した後の強度に
由来する。
【0176】具体例として、上述した10種類の統計的
特徴の中から以下の5種類の統計的特徴、すなわち、 −第1の四分位数、 −中間値、 −第3の四分位数、 −最大値、及び −最小値 の少なくとも1つを抽出するように、特徴抽出ユニット
70をプログラムすることができる。
【0177】ここで、上述した信号i)、ii)及びii
i)の少なくとも1つ又はその組み合わせから上述の抽
出が行われ、感情を検出する各音声信号について、特徴
抽出ユニット70によって最大15個の特徴が抽出され
る。なお、少なくとも1つの特徴は、ローパスフィルタ
処理された信号の強度から抽出される。
【0178】また、特徴抽出ユニット70が、ローパス
フィルタ処理後の音声信号から抽出されたピッチ信号か
ら、上述の1乃至10の任意の特徴を抽出できるよう
に、追加的にプログラムすることも可能である。この場
合、ローパスフィルタ処理後のピッチについて、上述と
同様の1乃至4の系列が得られ、それぞれから上述の1
乃至10の統計的特徴が得られる。このように、特徴抽
出ユニット70は、ローパスフィルタ74によるローパ
スフィルタ処理後のピッチ信号から、最大で4×10=
40個の任意の数の統計的特徴を抽出するように、さら
にプログラムすることができる。
【0179】また、特徴抽出ユニット70は、例えば上
述した表3の最初の6つの特徴の少なくとも1つに対応
する少数の統計的特徴、すなわち、 1:サンプリングされたローパスフィルタ処理後の信号
強度の中間値、 2:ローパスフィルタ処理後の信号強度の平均値、 3:サンプリングされたローパスフィルタ処理後の信号
強度の系列の第3の四分位数、 4:サンプリングされたローパスフィルタ処理後の信号
強度の系列の第1の四分位数、 5:サンプリングされたローパスフィルタ処理後の信号
強度の系列の最大値、及び 6:サンプリングされたローパスフィルタ処理後の信号
強度の系列の最小値を抽出するようにプログラムするこ
とも可能である。
【0180】さらに、上述した信号i)、ii)及びii
i)、及び場合によってはローパスフィルタ処理後のピ
ッチ信号が、それぞれ例えば10Hz(又は他の値)で
平滑化されるようにプログラムすることもできる。な
お、平滑化を行わなくても構わない。
【0181】抽出された特徴は、データロガー82に一
時的に格納され、他の機能ユニットがその特徴にアクセ
スする。
【0182】ここで、感情感応性システム60は、2種
類のモード、すなわちオフライン訓練感情認識及びオン
ライン訓練感情認識の何れかを選択して処理するように
設計することができる。
【0183】オフライン訓練モードでは、例えばFI
G.3の評価システムを用いて、装置外で感情を検出す
る訓練が行われる。この場合、FIG.3のプログラム
ユニットPUによって、すぐに用いることのできる完全
な感情検出アルゴリズムが準備される。この感情認識で
は、そのパラメータ及びプログラムを固定としてもよく
(閉じたアルゴリズム)、また、誤りを修正するため、
又は感情認識をコーチするためのユーザのフィードバッ
クに基づいて、パラメータ及びプラグラムをある程度更
新可能としてもよい。
【0184】一方、オンライン訓練モードでは、感情認
識アルゴリズムの初期設定は存在しない。その代わり、
特徴抽出ユニット70及びユーザのフィードバックから
抽出された特徴を解析する教師アルゴリズム、又は検出
すべき感情を示すユーザの指示が与えられる。この入力
から、教師アルゴリズムは、特定のオンライン感情認識
アルゴリズムを作成し、ユーザの入力及びフィードバッ
クが増加するにつれて、それが随時変更され、更新さ
れ、改善される。
【0185】FIG.14では、これら2つのモードの
それぞれについて機能ユニットを辿る経路が存在する。
すなわち、オフラインモード及びオンラインモードにつ
いて、それぞれOFF−L及びON−Lが存在する。
【0186】オフラインモードについては、上述したオ
フライン感情認識アルゴリズムユニット84が存在す
る。このオフライン感情認識アルゴリズムユニット84
は、特徴抽出ユニット70により抽出され、パラメータ
及びプログラムに従ってデータロガー82に存在する特
徴を入力し、所定の設定に従って、これらの抽出された
特徴から感情を検出する。なお、このモードでは、音声
信号は、通常マイクロホン62のみから供給される。
【0187】一方、オンライン訓練モードについては、
先ず抽出した特徴を格納するデータベース86が存在
し、学習アルゴリズムユニット88によって、このデー
タベース86から様々な特徴が選択される。このため、
データベース86はデータロガー82と接続され、抽出
された特徴全てを格納し、抽出された特徴の集合を生成
することが可能とされている。また、学習アルゴリズム
ユニット86から特徴抽出ユニット70へのフィードバ
ック(ループFL1)によって、特徴抽出ユニット70
は、最適な感情検出アルゴリズムを得るための新たな要
求を満たすために、新たな特徴に変え、又は新たな特徴
を選択することできるようになる。なお、教師アルゴリ
ズムユニット88は、種々の感情を伴った音声メッセー
ジをユーザに入力可能とするプログラムを有してもよ
く、例えばデータベース8といった音声データベースか
ら受け取ったデータと結びつけられていてもよい。
【0188】ここで、教師アルゴリズムユニット86が
要求されたオンライン感情認識アルゴリズムを作成する
と、そのオンライン感情認識アルゴリズムは、オンライ
ン感情認識アルゴリズムユニット90にロードされる。
そして、オンライン感情認識アルゴリズムユニット90
は、オフライン感情認識アルゴリズムユニット84と同
様の感情認識処理を実行する。但し、その感情認識処理
は、内部的に生成され、ユーザといった特定の話者に特
に適合したものである。
【0189】感情検出アルゴリズムユニット84,90
の何れかで検出される感情タイプは、前述した通り、
「平静」、「悲しみ」、「喜び」、「怒り」である。な
お、他の感情に対応させてもよいことは勿論である。
【0190】オフライン処理を行うかオンライン処理を
行うかの選択は、選択器92が行う。この選択器92
は、感情検出アルゴリズム84又は感情検出アルゴリズ
ム90の何れから検出された感情を取り出すかを選択す
る。なお、この選択は、外部からのユーザ入力信号94
を介して行われる。
【0191】ここで、通常、以下のような変更が可能で
ある。すなわち、−システム60は、オフライン感情認
識アルゴリズム84のみを有する。このオフライン感情
認識アルゴリズム84は、完全に固定であり、又はフィ
ードバックに対応してある程度適応化できる。−システ
ムは、オンライン感情アルゴリズムシステムのみを有す
る。このオンライン感情アルゴリズムシステムは、教師
アルゴリズムと、後者(ユニット86乃至90)によっ
て作成されたオンライン感情認識アルゴリズムとで構成
される。
【0192】FIG.3のプログラムユニットPUは、
要求された情報及びコードを種々の機能ユニットに供給
することができる。このことは、プログラミングインタ
ーフェースPIを介して実現される。特に、プログラム
ユニットPU及びそのインターフェースPIは、追加サ
ンプル又は相補データとするためにデータベース86に
特徴を供給すると共に、特徴抽出ユニット70をプログ
ラムし、オフライン感情認識アルゴリズム(ユニット8
4)及び/又は教師アルゴリズム(ユニット88)をロ
ードさせる。
【0193】オフライン感情認識アルゴリズムユニット
84又はオンライン感情認識アルゴリズムユニット90
の一方又は他方からの出力は、検出感情入力ユニット9
4に供給され、ここで認識された感情が確認される。そ
して、全ての感情反応を制御するために、検出された感
情は、検出感情入力ユニット94から感情反応ユニット
96に供給される。例えばペット型ロボットの場合に
は、この感情反応ユニット96は、適切な反応を模すた
めに、種々の電気機械アクチュエータ、光及び音響装置
の処理を制御する。
【0194】また、反応の1つとしては、人間のユーザ
98、又は制御する人間若しくは装置に検出した情報を
示すために、フィードバックを行うことが挙げられる。
これは、検出された感情を示す視覚的、聴覚的、電気的
又は機械的な信号を伝達する検出感情指示器100によ
って実現することができる。これにより、正しく同定で
きたか否かをチェックし、適切に修正測定を行うことが
可能となる。
【0195】特に、これにより、ユーザ98は、フィー
ドバック反応ユニット102にフィードバック反応を返
すことができる。このフィードバック反応ユニット10
2は、関連する種々のユニット、例えばオフライン感情
認識アルゴリズムユニット84(柔軟性がある場合)、
教師アルゴリズムユニット88及びオンライン感情認識
アルゴリズムユニット90に対する適切なフィードバッ
クメッセージを生成する。
【0196】以上の記載より、信号から抽出され、その
少なくとも1つがローパスフィルタ処理後の信号から抽
出された特徴の種々の組み合わせによって、本発明が実
現されることは明らかである。
【0197】これらの特徴に基づく感情アルゴリズム
は、実験的な基礎の下に選択される。この明細書で引用
したアルゴリズムは、その目的に沿う多くのアルゴリズ
ムの1つである。したがって、教師アルゴリズムと感情
検出アルゴリズムとについて、他のアルゴリズムを用い
ても本発明を実現することができる。
【図面の簡単な説明】
【図1】FIG.1は、力価及び奮起を表す直角軸にお
いて基本感情が何処に位置するかを示す図である。
【図2】FIG.2a,2b及び2cは、音声信号(F
IG.2a)、ピッチ(FIG.2b)及び強度(FI
G.2c)の間の関係を示す信号波形の図である。
【図3】FIG.3は、感情を検出する音響信号のロー
パスフィルタ処理を用いた本発明に係る感情検出アプロ
ーチを評価し、特徴付け、最適化するシステムを示すブ
ロック図である。
【図4】FIG.4は、ローパスフィルタ反応曲線の典
型的な曲線及び理想的な曲線を示す図である。
【図5】FIG.5は、FIG.3のシステムで用いられ
る調整可能なカットオフ周波数の反応を示す曲線群を表
す図である。
【図6】FIG.6は、考慮した信号特徴がどのように
由来しているかを示すサンプル信号波形(信号強度対時
間)を表す図である。
【図7】FIG.7a,7b及び7cは、感情検出のた
めに種々に抽出された信号特徴に関して分析した場合に
おける音声サンプルの分布を示す図であり、それぞれ情
報性の悪い特徴、よい特徴、及びさらによい特徴を用い
た場合を示す。
【図8】FIG.8a及び8bは、データ点のグループ
特性の観点で正しく感情が検出された度合いを示す、第
1及び第3の四分位数によって検出された感情の分布を
示す図であり、それぞれローパスフィルタ処理していな
い信号についての結果とカットオフ周波数250Hzで
ローパスフィルタ処理された信号についての結果とを示
す。
【図9】FIG.9は、種々の状況下で信号特徴を様々
に選択して感情検出を行った複数のアルゴリズムの性能
を示す図である。
【図10】FIG.10は、種々の状況下で信号特徴を
様々に選択して感情検出を行った複数のアルゴリズムの
性能を示す図である。
【図11】FIG.11は、種々の状況下で信号特徴を
様々に選択して感情検出を行った複数のアルゴリズムの
性能を示す図である。
【図12】FIG.12は、種々の状況下で信号特徴を
様々に選択して感情検出を行った複数のアルゴリズムの
性能を示す図である。
【図13】FIG.13は、種々の状況下で信号特徴を
様々に選択して感情検出を行った複数のアルゴリズムの
性能を示す図である。
【図14】FIG.14は、本発明に従って音声信号の
ローパスフィルタ処理を行う感情感応性システムを示す
ブロック図である。

Claims (26)

    【特許請求の範囲】
  1. 【請求項1】 音声信号に由来する少なくとも1つの特
    徴からなるセットを抽出(70)するステップと、抽出
    された特徴の上記セットを処理(84,90)してその
    感情を検出するステップとを有し、上記音声信号によっ
    て伝達される感情を検出する方法であって、 上記音声信号から上記セットの少なくとも1つの特徴を
    抽出する前に、上記音声信号をローパスフィルタで処理
    (74)するステップを有することを特徴とする前記方
    法。
  2. 【請求項2】 請求項1記載の方法において、 上記ローパスフィルタ処理ステップでは、上記音声信号
    の強度が150乃至400Hzの範囲のカットオフ周波
    数(Fco)でフィルタリング処理(74)されること
    を特徴とする前記方法。
  3. 【請求項3】 請求項2記載の方法において、 上記カットオフ周波数(Fco)が250乃至300H
    zの範囲内であることを特徴とする前記方法。
  4. 【請求項4】 請求項3記載の方法において、 上記カットオフ周波数(Fco)が250Hzに等しい
    ことを特徴とする前記方法。
  5. 【請求項5】 請求項1乃至請求項4のいずれか1項記
    載の方法において、 上記特徴抽出ステップは、以下のパラメータI、II及び
    III、すなわち、 −パラメータI: i)上記ローパスフィルタ処理ステップ(74)後の信
    号強度、 ii)ローパスフィルタ処理を行わない場合の信号強度、 iii)ローパスフィルタ処理を行わない場合の信号のピ
    ッチ、及び iv)上記ローパスフィルタ処理ステップ(74)後の信
    号のピッチ −パラメータII(上記音声信号の継続時間に亘って得ら
    れたパラメータIの数値列から): 1)極小値に対応する上記数値列の値からなる局所極小
    値の系列、 2)極大値に対応する上記数値列の値からなる局所極大
    値の系列、 3)局所的な(隣接する)極値を分離する時間値からな
    る継続時間長(時間間隔)の系列、及び 4)上記数値列の全ての連続するサンプル値からなる系
    列、そして、 −パラメータIII(パラメータIIの系列から計算され
    る): 1)平均値 2)最大値(すなわち全体で最も大きな値) 3)最小値(すなわち全体で最も大きな値) 4)最大値と最小値との差 5)分散 6)中間値 7)第1の四分位数 8)第3の四分位数 9)第3の四分位数と第1の四分位数との差で定義され
    る四分位数間範囲 10)局所微分の絶対値の平均値 の組み合わせで得られた160個の特徴から、1以上の
    特徴を選択的に抽出するステップを有し、 少なくとも1つの上記特徴は、パラメータIのi)ロー
    パスフィルタ処理ステップ(74)後の信号強度、又は
    iv)ローパスフィルタ処理ステップ(74)後の信号の
    ピッチに由来することを特徴とする前記方法。
  6. 【請求項6】 請求項5記載の方法において、 上記パラメータIは、 i)ローパスフィルタ処理ステップ(74)後の信号強
    度、 ii)ローパスフィルタ処理を行わない場合の信号強度、
    及び iii)ローパスフィルタ処理を行わない場合の信号のピ
    ッチ からなり、上記組み合わせによって合計で120個の特
    徴を生成し、 少なくとも1つの上記特徴は、パラメータIのi)ロー
    パスフィルタ処理ステップ(74)後の信号強度に由来
    することを特徴とする前記方法。
  7. 【請求項7】 請求項5又は請求項6記載の方法におい
    て、 上記パラメータIIIは、 2)最大値(すなわち全体で最も大きな値) 3)最小値(すなわち全体で最も大きな値) 6)中間値 7)第1の四分位数 8)第3の四分位数 からなり、上記組み合わせによって請求項5では合計で
    80個、請求項6では合計で50個の特徴を生成するこ
    とを特徴とする前記方法。
  8. 【請求項8】 請求項7記載の方法において、 上記特徴抽出ステップでは、以下の特徴、 −最大値(すなわち全体で最も大きな値) −最小値(すなわち全体で最も大きな値) −中間値 −第1の四分位数 −第3の四分位数 の少なくとも1つが抽出され、 −上記音声信号をローパスフィルタで処理した後におけ
    る信号の強度値の系列、 −上記音声信号をローパスフィルタで処理しない場合に
    おける信号の強度の最小値の系列、 −上記音声信号をローパスフィルタで処理した場合にお
    ける信号のピッチ値の系列、及び −上記音声信号をローパスフィルタで処理しない場合に
    おける信号のピッチ値の系列 から計算されることを特徴とする前記方法。
  9. 【請求項9】 請求項1乃至請求項8のいずれか1項記
    載の方法において、 上記特徴抽出ステップでは、ローパスフィルタ処理ステ
    ップ(74)後の音声信号とローパスフィルタ処理を行
    わない場合の音声信号との両方に由来する特徴が抽出さ
    れることを特徴とする前記方法。
  10. 【請求項10】 請求項1乃至請求項8のいずれか1項
    記載の方法において、 上記特徴抽出ステップでは、ローパスフィルタ処理ステ
    ップ(74)後の音声信号からのみ特徴が抽出されるこ
    とを特徴とする前記方法。
  11. 【請求項11】 請求項1乃至請求項10のいずれか1
    項記載の方法において、 上記特徴セットには、 1:上記音声信号をローパスフィルタで処理した後にお
    ける信号強度の中間値、 2:上記音声信号をローパスフィルタで処理した後にお
    ける信号強度の平均値、 3:上記音声信号をローパスフィルタで処理した後にお
    ける信号強度の第3の四分位数、 4:上記音声信号をローパスフィルタで処理した後にお
    ける信号強度の第1の四分位数、 5:上記音声信号をローパスフィルタで処理した後にお
    ける信号強度の最大値、及び 6:上記音声信号をローパスフィルタで処理した後にお
    ける信号強度の系列の最大値 の少なくとも1つが含まれることを特徴とする前記方
    法。
  12. 【請求項12】 請求項1乃至請求項11のいずれか1
    項記載の方法において、 上記特徴抽出ステップの前に、上記音声信号から抽出さ
    れた信号を平滑化するステップをさらに有することを特
    徴とする前記方法。
  13. 【請求項13】 請求項1乃至請求項12のいずれか1
    項記載の方法において、 教師アルゴリズムを用いて感
    情検出アルゴリズムを生成するステップをさらに有し、 上記教師アルゴリズムは、ローパスフィルタ処理後の音
    声信号から抽出された特徴の少なくとも1つを利用する
    ことを特徴とする前記方法。
  14. 【請求項14】 請求項13記載の方法において、 オフライン感情検出アルゴリズム(84)及び/又はオ
    ンライン感情検出アルゴリズム(90)により感情検出
    装置(60)をプログラム(PU)するステップを有
    し、 上記アルゴリズムは、ローパスフィルタ処理後の音声信
    号から抽出された特徴の少なくとも1つを利用すること
    を特徴とする前記方法。
  15. 【請求項15】 音声信号に由来する少なくとも1つ特
    徴からなるセットを抽出する抽出手段(70)と、抽出
    された特徴の上記セットを処理してその感情を検出する
    処理手段(84,90)とを備え、上記音声信号によっ
    て伝達される感情を検出する装置であって、 上記音声信号から上記セットの少なくとも1つの特徴を
    抽出する前に、上記音声信号をローパスフィルタで処理
    するローパスフィルタ処理手段(74)を備えることを
    特徴とする前記装置。
  16. 【請求項16】 請求項15記載の装置において、 上記ローパスフィルタ処理手段(74)は、150乃至
    400Hzの範囲のカットオフ周波数(Fco)を有す
    ることを特徴とする前記装置。
  17. 【請求項17】 請求項16記載の装置において、 上記カットオフ周波数(Fco)が250乃至300H
    zの範囲内であることを特徴とする前記装置。
  18. 【請求項18】 請求項17記載の装置において、 上記カットオフ周波数(Fco)が250Hzに等しい
    ことを特徴とする前記装置。
  19. 【請求項19】 請求項15乃至請求項18のいずれか
    1項記載の装置において、 上記特徴抽出手段(70)は、以下のパラメータI、II
    及びIII、すなわち −パラメータI: i)上記ローパスフィルタ処理ステップ(74)後の信
    号強度、 ii)ローパスフィルタ処理を行わない場合の信号強度、 iii)ローパスフィルタ処理を行わない場合の信号のピ
    ッチ、及び iv)上記ローパスフィルタ処理ステップ(74)後の信
    号のピッチ −パラメータII(上記音声信号の継続時間に亘って得ら
    れたパラメータIの数値列から): 1)最小値に対応する上記数値列の値からなる局所最小
    値の系列、 2)最大値に対応する上記数値列の値からなる局所最大
    値の系列、 3)局所的な(隣接する)極値を分離する時間値からな
    る継続時間長(時間間隔)の系列、及び 4)上記数値列の全ての連続するサンプル値からなる系
    列、そして、 −パラメータIII(パラメータIIの系列から計算され
    る) 1)平均値 2)最大値(すなわち全体で最も大きな値) 3)最小値(すなわち全体で最も大きな値) 4)最大値と最小値との差 5)分散 6)中間値 7)第1の四分位数 8)第3の四分位数 9)第3の四分位数と第1の四分位数との差で定義され
    る四分位数間範囲 10)局所微分の絶対値の平均値 の組み合わせで得られた160個の特徴から、1以上の
    特徴を選択的に抽出する手段を有し、 少なくとも1つの上記特徴は、パラメータIのi)ロー
    パスフィルタ処理ステップ(74)後の信号強度、又は
    iv)ローパスフィルタ処理ステップ(74)後の信号の
    ピッチに由来することを特徴とする前記装置。
  20. 【請求項20】 請求項15乃至請求項19のいずれか
    1項記載の装置において、 上記特徴抽出手段(70)は、ローパスフィルタ処理手
    段(74)後の音声信号とローパスフィルタ処理を行わ
    ない場合の音声信号との両方に由来する特徴を抽出する
    ように設定されていることを特徴とする前記装置。
  21. 【請求項21】 請求項15乃至請求項19のいずれか
    1項記載の装置において、 上記特徴抽出手段(70)は、ローパスフィルタ処理手
    段(74)後の音声信号からのみ特徴を抽出するように
    設定されていることを特徴とする前記装置。
  22. 【請求項22】 請求項15乃至請求項21のいずれか
    1項記載の装置において、 上記特徴セットには、 1:上記音声信号をローパスフィルタで処理した後にお
    ける信号強度の中間値、 2:上記音声信号をローパスフィルタで処理した後にお
    ける信号強度の平均値、 3:上記音声信号をローパスフィルタで処理した後にお
    ける信号強度の第3の四分位数、 4:上記音声信号をローパスフィルタで処理した後にお
    ける信号強度の第1の四分位数、 5:上記音声信号をローパスフィルタで処理した後にお
    ける信号強度の最大値、及び 6:上記音声信号をローパスフィルタで処理した後にお
    ける信号強度の系列の最大値 の少なくとも1つが含まれることを特徴とする前記装
    置。
  23. 【請求項23】 請求項15乃至請求項22のいずれか
    1項記載の装置において、 上記特徴抽出手段の前段に、上記音声信号から抽出され
    た信号を平滑化する手段をさらに備えることを特徴とす
    る前記装置。
  24. 【請求項24】 請求項15乃至請求項23のいずれか
    1項記載の装置において、 上記処理手段は、プログラム化されたアルゴリズムを含
    むオフライン感情認識アルゴリズムユニット(84)を
    有することを特徴とする前記装置。
  25. 【請求項25】 請求項15乃至請求項24のいずれか
    1項記載の装置において、 上記処理手段は、オンライン感情認識アルゴリズムユニ
    ット(90)を有し、 当該装置は、上記特徴抽出手段(70)の生成した信号
    に対応して感情認識アルゴリズムを生成する教師アルゴ
    リズムユニット(88)をさらに備えることを特徴とす
    る前記装置。
  26. 【請求項26】 請求項15乃至請求項25のいずれか
    1項記載の装置に適合する音声信号処理装置であって、 上記特徴抽出手段(70)にローパスフィルタ処理後の
    音声信号を供給するためのローパスフィルタ処理手段
    (74)を備えることを特徴とする前記装置。
JP2002206011A 2001-07-13 2002-07-15 感情認識方法および感情認識装置 Expired - Fee Related JP4458321B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01401879.0 2001-07-13
EP01401879A EP1256937B1 (en) 2001-05-11 2001-07-13 Emotion recognition method and device

Publications (2)

Publication Number Publication Date
JP2003099084A true JP2003099084A (ja) 2003-04-04
JP4458321B2 JP4458321B2 (ja) 2010-04-28

Family

ID=8182804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002206011A Expired - Fee Related JP4458321B2 (ja) 2001-07-13 2002-07-15 感情認識方法および感情認識装置

Country Status (3)

Country Link
US (1) US7451079B2 (ja)
EP (1) EP1256937B1 (ja)
JP (1) JP4458321B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005346471A (ja) * 2004-06-03 2005-12-15 Canon Inc 情報処理方法、情報処理装置
WO2008032787A1 (fr) * 2006-09-13 2008-03-20 Nippon Telegraph And Telephone Corporation ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d'enregistrement contenant le programme
US8204747B2 (en) 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
JP2012168296A (ja) * 2011-02-10 2012-09-06 Fujitsu Ltd 音声による抑圧状態検出装置およびプログラム
CN102779510A (zh) * 2012-07-19 2012-11-14 东南大学 基于特征空间自适应投影的语音情感识别方法
CN103531198A (zh) * 2013-11-01 2014-01-22 东南大学 一种基于伪说话人聚类的语音情感特征规整化方法
CN103971673A (zh) * 2013-02-05 2014-08-06 财团法人交大思源基金会 韵律结构分析装置与语音合成的装置及方法
US9099088B2 (en) 2010-04-22 2015-08-04 Fujitsu Limited Utterance state detection device and utterance state detection method
KR101560833B1 (ko) * 2009-01-30 2015-10-15 삼성전자주식회사 음성 신호를 이용한 감정 인식 장치 및 방법
KR101560834B1 (ko) * 2009-02-18 2015-10-15 삼성전자주식회사 음성 신호를 이용한 감정 인식 장치 및 방법
JP2020008730A (ja) * 2018-07-09 2020-01-16 富士ゼロックス株式会社 感情推定システムおよびプログラム
WO2020071015A1 (ja) * 2018-10-02 2020-04-09 パナソニックIpマネジメント株式会社 音データ学習システム、音データ学習方法および音データ学習装置

Families Citing this family (112)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8001067B2 (en) * 2004-01-06 2011-08-16 Neuric Technologies, Llc Method for substituting an electronic emulation of the human brain into an application to replace a human
US7925492B2 (en) 2004-01-06 2011-04-12 Neuric Technologies, L.L.C. Method for determining relationships through use of an ordered list between processing nodes in an emulated human brain
US20070156625A1 (en) * 2004-01-06 2007-07-05 Neuric Technologies, Llc Method for movie animation
US7089218B1 (en) * 2004-01-06 2006-08-08 Neuric Technologies, Llc Method for inclusion of psychological temperament in an electronic emulation of the human brain
US7113636B2 (en) * 2002-08-30 2006-09-26 Lockheed Martin Corporation Method and computer program product for generating training data for a new class in a pattern recognition classifier
JP4204839B2 (ja) * 2002-10-04 2009-01-07 株式会社エイ・ジー・アイ 発想モデル装置、自発感情モデル装置、発想のシミュレーション方法、自発感情のシミュレーション方法、およびプログラム
DE10254612A1 (de) * 2002-11-22 2004-06-17 Humboldt-Universität Zu Berlin Verfahren zur Ermittlung spezifisch relevanter akustischer Merkmale von Schallsignalen für die Analyse unbekannter Schallsignale einer Schallerzeugung
US7260519B2 (en) * 2003-03-13 2007-08-21 Fuji Xerox Co., Ltd. Systems and methods for dynamically determining the attitude of a natural language speaker
US7013005B2 (en) 2004-02-11 2006-03-14 Hewlett-Packard Development Company, L.P. System and method for prioritizing contacts
DE102004011426B3 (de) * 2004-03-09 2005-05-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum Erkennen einer in einem Sprachsignal enthaltenen Emotion und Verfahren zum Erkennen einer in einem Sprachsignal enthaltenen Emotion
EP1582965A1 (en) 2004-04-01 2005-10-05 Sony Deutschland Gmbh Emotion controlled system for processing multimedia data
US8687792B2 (en) 2004-04-22 2014-04-01 Hewlett-Packard Development Company, L.P. System and method for dialog management within a call handling system
US20050289582A1 (en) * 2004-06-24 2005-12-29 Hitachi, Ltd. System and method for capturing and using biometrics to review a product, service, creative work or thing
US7788104B2 (en) * 2004-09-10 2010-08-31 Panasonic Corporation Information processing terminal for notification of emotion
US7914468B2 (en) * 2004-09-22 2011-03-29 Svip 4 Llc Systems and methods for monitoring and modifying behavior
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US8473449B2 (en) * 2005-01-06 2013-06-25 Neuric Technologies, Llc Process of dialogue and discussion
CA2611259C (en) * 2005-06-09 2016-03-22 A.G.I. Inc. Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program
US7912720B1 (en) * 2005-07-20 2011-03-22 At&T Intellectual Property Ii, L.P. System and method for building emotional machines
WO2007017853A1 (en) * 2005-08-08 2007-02-15 Nice Systems Ltd. Apparatus and methods for the detection of emotions in audio interactions
US8078470B2 (en) * 2005-12-22 2011-12-13 Exaudios Technologies Ltd. System for indicating emotional attitudes through intonation analysis and methods thereof
US8032375B2 (en) * 2006-03-17 2011-10-04 Microsoft Corporation Using generic predictive models for slot values in language modeling
US7571101B2 (en) * 2006-05-25 2009-08-04 Charles Humble Quantifying psychological stress levels using voice patterns
US8340956B2 (en) * 2006-05-26 2012-12-25 Nec Corporation Information provision system, information provision method, information provision program, and information provision program recording medium
US7974738B2 (en) * 2006-07-05 2011-07-05 Battelle Energy Alliance, Llc Robotics virtual rail system and method
US7587260B2 (en) * 2006-07-05 2009-09-08 Battelle Energy Alliance, Llc Autonomous navigation system and method
US8073564B2 (en) * 2006-07-05 2011-12-06 Battelle Energy Alliance, Llc Multi-robot control interface
US7668621B2 (en) * 2006-07-05 2010-02-23 The United States Of America As Represented By The United States Department Of Energy Robotic guarded motion system and method
US8271132B2 (en) * 2008-03-13 2012-09-18 Battelle Energy Alliance, Llc System and method for seamless task-directed autonomy for robots
US8355818B2 (en) 2009-09-03 2013-01-15 Battelle Energy Alliance, Llc Robots, systems, and methods for hazard evaluation and visualization
US8965578B2 (en) 2006-07-05 2015-02-24 Battelle Energy Alliance, Llc Real time explosive hazard information sensing, processing, and communication for autonomous operation
US7584020B2 (en) * 2006-07-05 2009-09-01 Battelle Energy Alliance, Llc Occupancy change detection system and method
US7620477B2 (en) * 2006-07-05 2009-11-17 Battelle Energy Alliance, Llc Robotic intelligence kernel
US7801644B2 (en) * 2006-07-05 2010-09-21 Battelle Energy Alliance, Llc Generic robot architecture
US7752043B2 (en) 2006-09-29 2010-07-06 Verint Americas Inc. Multi-pass speech analytics
US20080096532A1 (en) * 2006-10-24 2008-04-24 International Business Machines Corporation Emotional state integrated messaging
US20080115063A1 (en) * 2006-11-13 2008-05-15 Flagpath Venture Vii, Llc Media assembly
US8571853B2 (en) * 2007-02-11 2013-10-29 Nice Systems Ltd. Method and system for laughter detection
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
US8166109B2 (en) * 2007-06-21 2012-04-24 Cisco Technology, Inc. Linking recognized emotions to non-visual representations
US7953279B2 (en) 2007-06-28 2011-05-31 Microsoft Corporation Combining online and offline recognizers in a handwriting recognition system
US8721554B2 (en) 2007-07-12 2014-05-13 University Of Florida Research Foundation, Inc. Random body movement cancellation for non-contact vital sign detection
US8180780B2 (en) * 2007-12-06 2012-05-15 International Business Machines Corporation Collaborative program development method and system
US8195460B2 (en) 2008-06-17 2012-06-05 Voicesense Ltd. Speaker characterization through speech analysis
US8719016B1 (en) 2009-04-07 2014-05-06 Verint Americas Inc. Speech analytics system and system and method for determining structured speech
WO2011011413A2 (en) * 2009-07-20 2011-01-27 University Of Florida Research Foundation, Inc. Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data
TWI396105B (zh) * 2009-07-21 2013-05-11 Univ Nat Taiwan 用於模擬個體差異之個人化資訊檢索之數位資料處理方法及其電腦裝置可讀式資訊儲存媒體與資訊檢索系統
US8595005B2 (en) 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
US11393133B2 (en) * 2010-06-07 2022-07-19 Affectiva, Inc. Emoji manipulation using machine learning
WO2012003523A1 (en) 2010-07-06 2012-01-12 Rmit University Emotional and/or psychiatric state detection
GB2481992A (en) * 2010-07-13 2012-01-18 Sony Europe Ltd Updating text-to-speech converter for broadcast signal receiver
US8731932B2 (en) 2010-08-06 2014-05-20 At&T Intellectual Property I, L.P. System and method for synthetic voice generation and modification
EP2418643A1 (en) * 2010-08-11 2012-02-15 Software AG Computer-implemented method and system for analysing digital speech data
CN102479291A (zh) * 2010-11-30 2012-05-30 国际商业机器公司 情感描述生成与体验方法和设备以及情感交互系统
WO2012089906A1 (en) * 2010-12-30 2012-07-05 Nokia Corporation Method, apparatus and computer program product for emotion detection
CN102637433B (zh) * 2011-02-09 2015-11-25 富士通株式会社 识别语音信号中所承载的情感状态的方法和系统
EP2551846B1 (en) * 2011-07-26 2022-01-19 AKG Acoustics GmbH Noise reducing sound reproduction
US9491537B2 (en) * 2011-07-26 2016-11-08 Harman Becker Automotive Systems Gmbh Noise reducing sound reproduction system
GB2494104A (en) * 2011-08-19 2013-03-06 Simon Mark Adam Bell Recognizing the emotional effect a speaker is having on a listener by analyzing the sound of his or her voice
KR101901417B1 (ko) * 2011-08-29 2018-09-27 한국전자통신연구원 감성기반 안전운전 자동차 서비스 시스템, 안전운전 서비스를 위한 감성인지 처리 장치 및 안전운전 서비스 장치, 감성기반 차량용 안전운전 서비스 방법
US20130174018A1 (en) * 2011-09-13 2013-07-04 Cellpy Com. Ltd. Pyramid representation over a network
KR20130055429A (ko) * 2011-11-18 2013-05-28 삼성전자주식회사 감정 세그먼트 기반의 감정 인식 장치 및 방법
TWI473080B (zh) * 2012-04-10 2015-02-11 Nat Univ Chung Cheng The use of phonological emotions or excitement to assist in resolving the gender or age of speech signals
US9002768B2 (en) * 2012-05-12 2015-04-07 Mikhail Fedorov Human-computer interface system
US8984065B2 (en) 2012-08-01 2015-03-17 Eharmony, Inc. Systems and methods for online matching using non-self-identified data
US20140188552A1 (en) * 2013-01-02 2014-07-03 Lap Chan Methods and systems to reach target customers at the right time via personal and professional mood analysis
US9472207B2 (en) 2013-06-20 2016-10-18 Suhas Gondi Portable assistive device for combating autism spectrum disorders
IN2013CH04602A (ja) * 2013-10-10 2015-10-09 3Gs Wellness Pvt Ltd
US10561361B2 (en) * 2013-10-20 2020-02-18 Massachusetts Institute Of Technology Using correlation structure of speech dynamics to detect neurological changes
KR102191306B1 (ko) * 2014-01-22 2020-12-15 삼성전자주식회사 음성 감정 인식 시스템 및 방법
JP2017508188A (ja) 2014-01-28 2017-03-23 シンプル エモーション, インコーポレイテッドSimple Emotion, Inc. 適応型音声対話のための方法
US9892556B2 (en) 2014-03-11 2018-02-13 Amazon Technologies, Inc. Real-time exploration of video content
US9894405B2 (en) 2014-03-11 2018-02-13 Amazon Technologies, Inc. Object discovery and exploration in video content
US10375434B2 (en) 2014-03-11 2019-08-06 Amazon Technologies, Inc. Real-time rendering of targeted video content
US9747727B2 (en) 2014-03-11 2017-08-29 Amazon Technologies, Inc. Object customization and accessorization in video content
US10939175B2 (en) 2014-03-11 2021-03-02 Amazon Technologies, Inc. Generating new video content from pre-recorded video
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
US10092833B2 (en) 2014-06-27 2018-10-09 Amazon Technologies, Inc. Game session sharing
US9409083B2 (en) 2014-06-27 2016-08-09 Amazon Technologies, Inc. Spawning new timelines during game session replay
US9393486B2 (en) 2014-06-27 2016-07-19 Amazon Technologies, Inc. Character simulation and playback notification in game session replay
WO2016047494A1 (ja) * 2014-09-22 2016-03-31 株式会社 東芝 生体情報測定装置及びシステム
US9667786B1 (en) 2014-10-07 2017-05-30 Ipsoft, Inc. Distributed coordinated system and process which transforms data into useful information to help a user with resolving issues
WO2016057781A1 (en) 2014-10-08 2016-04-14 The University Of Florida Research Foundation, Inc. Method and apparatus for non-contact fast vital sign acquisition based on radar signal
US9269374B1 (en) * 2014-10-27 2016-02-23 Mattersight Corporation Predictive video analytics system and methods
US9585616B2 (en) 2014-11-17 2017-03-07 Elwha Llc Determining treatment compliance using speech patterns passively captured from a patient environment
US10430557B2 (en) 2014-11-17 2019-10-01 Elwha Llc Monitoring treatment compliance using patient activity patterns
US9589107B2 (en) 2014-11-17 2017-03-07 Elwha Llc Monitoring treatment compliance using speech patterns passively captured from a patient environment
US9786299B2 (en) 2014-12-04 2017-10-10 Microsoft Technology Licensing, Llc Emotion type classification for interactive dialog system
US9833200B2 (en) 2015-05-14 2017-12-05 University Of Florida Research Foundation, Inc. Low IF architectures for noncontact vital sign detection
US10300394B1 (en) 2015-06-05 2019-05-28 Amazon Technologies, Inc. Spectator audio analysis in online gaming environments
US10293260B1 (en) 2015-06-05 2019-05-21 Amazon Technologies, Inc. Player audio analysis in online gaming environments
CN104851422A (zh) * 2015-06-09 2015-08-19 张维秀 一种语音信号处理方法及系统
US10970843B1 (en) 2015-06-24 2021-04-06 Amazon Technologies, Inc. Generating interactive content using a media universe database
US10864447B1 (en) 2015-06-29 2020-12-15 Amazon Technologies, Inc. Highlight presentation interface in a game spectating system
US10363488B1 (en) 2015-06-29 2019-07-30 Amazon Technologies, Inc. Determining highlights in a game spectating system
US10390064B2 (en) 2015-06-30 2019-08-20 Amazon Technologies, Inc. Participant rewards in a spectating system
US10484439B2 (en) 2015-06-30 2019-11-19 Amazon Technologies, Inc. Spectating data service for a spectating system
US10345897B2 (en) 2015-06-30 2019-07-09 Amazon Technologies, Inc. Spectator interactions with games in a specatating system
US10376795B2 (en) 2015-06-30 2019-08-13 Amazon Technologies, Inc. Game effects from spectating community inputs
US10632372B2 (en) 2015-06-30 2020-04-28 Amazon Technologies, Inc. Game content interface in a spectating system
US11071919B2 (en) 2015-06-30 2021-07-27 Amazon Technologies, Inc. Joining games from a spectating system
KR102437689B1 (ko) 2015-09-16 2022-08-30 삼성전자주식회사 음성 인식 서버 및 그 제어 방법
CN105575404A (zh) * 2016-01-25 2016-05-11 薛明博 一种基于语音识别的心理检测方法及系统
JP6726388B2 (ja) * 2016-03-16 2020-07-22 富士ゼロックス株式会社 ロボット制御システム
US10244113B2 (en) * 2016-04-26 2019-03-26 Fmr Llc Determining customer service quality through digitized voice characteristic measurement and filtering
US10176793B2 (en) * 2017-02-14 2019-01-08 Mediatek Inc. Method, active noise control circuit, and portable electronic device for adaptively performing active noise control operation upon target zone
CN108806667B (zh) * 2018-05-29 2020-04-17 重庆大学 基于神经网络的语音与情绪的同步识别方法
CN110826358B (zh) * 2018-08-08 2022-12-06 杭州海康威视数字技术股份有限公司 动物情绪的识别方法、装置及存储介质
TWI704555B (zh) * 2018-11-27 2020-09-11 誠屏科技股份有限公司 情緒辨識裝置與方法
CN111179965A (zh) * 2020-03-20 2020-05-19 万不知 一种宠物情绪识别方法及系统
CN112220479A (zh) * 2020-09-04 2021-01-15 陈婉婷 基于遗传算法的被审讯单体情绪判断方法、装置和设备
CN112837702A (zh) * 2020-12-31 2021-05-25 萨孚凯信息系统(无锡)有限公司 一种语音情绪分布式系统及语音信号处理方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3855416A (en) * 1972-12-01 1974-12-17 F Fuller Method and apparatus for phonation analysis leading to valid truth/lie decisions by fundamental speech-energy weighted vibratto component assessment
US4093821A (en) * 1977-06-14 1978-06-06 John Decatur Williamson Speech analyzer for analyzing pitch or frequency perturbations in individual speech pattern to determine the emotional state of the person
EP0029048B1 (en) * 1979-05-28 1985-05-29 The University Of Melbourne Speech processor
US4532930A (en) * 1983-04-11 1985-08-06 Commonwealth Of Australia, Dept. Of Science & Technology Cochlear implant system for an auditory prosthesis
US5918222A (en) * 1995-03-17 1999-06-29 Kabushiki Kaisha Toshiba Information disclosing apparatus and multi-modal information input/output system
US6109923A (en) * 1995-05-24 2000-08-29 Syracuase Language Systems Method and apparatus for teaching prosodic features of speech
US6577998B1 (en) * 1998-09-01 2003-06-10 Image Link Co., Ltd Systems and methods for communicating through computer animated images
US6006188A (en) * 1997-03-19 1999-12-21 Dendrite, Inc. Speech signal processing for determining psychological or physiological characteristics using a knowledge base
KR100291584B1 (ko) * 1997-12-12 2001-06-01 이봉훈 피치 구간별 fo/f1률의 유사성에 의한 음성파형 압축방법
US7590538B2 (en) * 1999-08-31 2009-09-15 Accenture Llp Voice recognition system for navigating on the internet
US6697457B2 (en) * 1999-08-31 2004-02-24 Accenture Llp Voice messaging system that organizes voice messages based on detected emotion
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
JP2001154681A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4641389B2 (ja) * 2004-06-03 2011-03-02 キヤノン株式会社 情報処理方法、情報処理装置
JP2005346471A (ja) * 2004-06-03 2005-12-15 Canon Inc 情報処理方法、情報処理装置
US8204747B2 (en) 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
WO2008032787A1 (fr) * 2006-09-13 2008-03-20 Nippon Telegraph And Telephone Corporation ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d'enregistrement contenant le programme
US8386257B2 (en) 2006-09-13 2013-02-26 Nippon Telegraph And Telephone Corporation Emotion detecting method, emotion detecting apparatus, emotion detecting program that implements the same method, and storage medium that stores the same program
KR101560833B1 (ko) * 2009-01-30 2015-10-15 삼성전자주식회사 음성 신호를 이용한 감정 인식 장치 및 방법
KR101560834B1 (ko) * 2009-02-18 2015-10-15 삼성전자주식회사 음성 신호를 이용한 감정 인식 장치 및 방법
US9099088B2 (en) 2010-04-22 2015-08-04 Fujitsu Limited Utterance state detection device and utterance state detection method
JP2012168296A (ja) * 2011-02-10 2012-09-06 Fujitsu Ltd 音声による抑圧状態検出装置およびプログラム
US8935168B2 (en) 2011-02-10 2015-01-13 Fujitsu Limited State detecting device and storage medium storing a state detecting program
CN102779510A (zh) * 2012-07-19 2012-11-14 东南大学 基于特征空间自适应投影的语音情感识别方法
CN103971673A (zh) * 2013-02-05 2014-08-06 财团法人交大思源基金会 韵律结构分析装置与语音合成的装置及方法
CN103531198A (zh) * 2013-11-01 2014-01-22 东南大学 一种基于伪说话人聚类的语音情感特征规整化方法
CN103531198B (zh) * 2013-11-01 2016-03-23 东南大学 一种基于伪说话人聚类的语音情感特征规整化方法
JP2020008730A (ja) * 2018-07-09 2020-01-16 富士ゼロックス株式会社 感情推定システムおよびプログラム
CN110706689A (zh) * 2018-07-09 2020-01-17 富士施乐株式会社 感情推测系统以及计算机可读介质
US11355140B2 (en) 2018-07-09 2022-06-07 Fujifilm Business Innovation Corp. Emotion estimation system and non-transitory computer readable medium
JP7159655B2 (ja) 2018-07-09 2022-10-25 富士フイルムビジネスイノベーション株式会社 感情推定システムおよびプログラム
WO2020071015A1 (ja) * 2018-10-02 2020-04-09 パナソニックIpマネジメント株式会社 音データ学習システム、音データ学習方法および音データ学習装置

Also Published As

Publication number Publication date
JP4458321B2 (ja) 2010-04-28
EP1256937A3 (en) 2004-09-29
EP1256937B1 (en) 2006-11-02
EP1256937A2 (en) 2002-11-13
US20030055654A1 (en) 2003-03-20
US7451079B2 (en) 2008-11-11

Similar Documents

Publication Publication Date Title
JP4458321B2 (ja) 感情認識方法および感情認識装置
Pierre-Yves The production and recognition of emotions in speech: features and algorithms
US20220148566A1 (en) Text-to-Speech Adapted by Machine Learning
EP0974141B1 (en) Extensible speech recognition system that provides a user with audio feedback
US7720683B1 (en) Method and apparatus of specifying and performing speech recognition operations
US20030093280A1 (en) Method and apparatus for synthesising an emotion conveyed on a sound
DE60124225T2 (de) Verfahren und Vorrichtung zur Erkennung von Emotionen
US20100036660A1 (en) Emotion Detection Device and Method for Use in Distributed Systems
CN106688034A (zh) 具有情感内容的文字至语音转换
CA2432324A1 (en) Apparatus for determining dog's emotions by vocal analysis of barking sounds and method for the same
Gudmalwar et al. Improving the performance of the speaker emotion recognition based on low dimension prosody features vector
Oudeyer Novel useful features and algorithms for the recognition of emotions in human speech
Shome et al. Speaker Recognition through Deep Learning Techniques: A Comprehensive Review and Research Challenges
Joo et al. Effective emotion transplantation in an end-to-end text-to-speech system
JP2003515768A (ja) 特定の人間の音声をテンプレート化するためのシステムおよび方法
US20040181407A1 (en) Method and system for creating speech vocabularies in an automated manner
US11250852B2 (en) Generation of trigger recognition models for robot
CN117219046A (zh) 一种交互语音情感控制方法及系统
KR102599480B1 (ko) 키워드 음성인식을 위한 자동 학습 시스템 및 방법
KR102277205B1 (ko) 오디오 변환 장치 및 방법
Meddeb et al. Intelligent remote control for TV program based on emotion in Arabic speech
EP1256932B1 (en) Method and apparatus for synthesising an emotion conveyed on a sound
JP2001188788A (ja) 会話処理装置および方法、並びに記録媒体
Dwivedi et al. Analysing the Impact of LSTM and MFCC on Speech Emotion Recognition Accuracy
JPH02304493A (ja) 音声合成システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050708

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060331

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081202

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090226

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090303

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090507

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090908

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100203

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130219

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees