以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書及び図面において、実質的に同一または類似の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する。ただし、実質的に同一または類似の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
(0.概要)
前記特許文献1には、表情の時系列画像に基づき、計算機により表情の測定を行い表情の機械認識を行う表情認識装置が提案されている。
前記特許文献1を含め、ある1台のカメラ(撮像装置)によって撮像されたヒトの顔画像(または身体画像)から、その顔の表情(または行動しぐさ)の種別や感情表出強度を推定する技術(以下「表情推定」技術)が既存に知られている。特に、近年では深層学習(Deep Learning)の登場により、その推定(識別)精度が向上してきた。
一方で、実環境(In the Wild環境)での画像認識においては、理想的な実験室統制環境と比較して、表情推定処理における外乱要因、たとえばカメラと被写体間の位置関係性に基づく見えの変化、照明変動、オクルージョン等により、表情推定の精度が下がってしまうという課題がある。
さらに近年、遠隔環境において、離れた拠点に備えられた複数のカメラ映像を常時共有することにより、離れていてもあたかも一緒に働いているかのような協働環境を実現させるテレワークシステムが開発されている(非特許文献1:徳満昌之・野中雅人、超臨場感テレワークシステムの開発、OKIテクニカルレビュー、Vol.84(1)、pp.32-35、2017)。遠隔環境では同室環境と比較して離れた相手の状況、たとえば「感情」が把握し難く感じられる問題があるが(非特許文献2:有本泰子ほか、オンラインコミュニケーションにおけるモダリティ統制下の情動理解、日本音響学会2014年秋季研究発表会講演論文集、pp.385-386、2014)、前記の「表情推定技術」を利用し、表情の推定情報を生成して遠隔地の相手に情報提示することで、その問題も軽減できると考えられる。
しかしながら、実環境のオフィスでは前記の照明変動や各種室内設備のカメラ内映り込みによるオクルージョンが高確率で発生し、推定感情情報の精度を低下させる。そこで、前記テレワークシステムが備える複数のカメラを利用することで、当該課題の解決を試みる。
本実施形態は、複数のカメラと、顔画像から表情推定処理を行うサーバと、を備えた「複数視点映像による顔表情推定システム」であって、前記サーバは、複数のカメラ画像間で推定対象の撮像データまたは抽出データの対応付けを行う「感情人物照合部」、複数のカメラそれぞれの撮影条件を比較し複数の推定感情情報それぞれの評価値を算出する「撮像条件比較部」、複数の推定感情情報それぞれの評価値から最終的な推定感情情報を算出する「総合感情推定部」を備える。複数視点のカメラによる多重の表情推定処理を実現できることにより、従来の単一のカメラ画像に基づく表情推定技術と比較して、高精度の表情推定を実現できる。
(1.第1の実施形態)
続いて、図1を参照して、本発明の実施形態に係る情報通信システム(感情推定システム)の概略的な構成を説明する。
図1は、本実施形態に係る情報通信システムの概略的な構成の一例を示す説明図である。図1を参照すると、本情報通信システムは、感情推定サーバ(感情推定装置)100、複数のカメラ200、情報提示端末(情報提示装置)300及びLAN50を含み、その一部(たとえば複数のカメラ200)はオフィス400内に存在しても構わない。また、オフィス400内には本情報通信システムの一部の他に、一例としてユーザー900、障害物500及び照明600が存在している。複数のカメラ200の撮影範囲は互いに重複していても構わない。
図2は、本実施形態に係る感情推定サーバ100、カメラ200、情報提示端末300(以下、感情推定サーバ100、カメラ200及び情報提示端末300それぞれを区別せずに「本実施形態に係る装置」と言う場合がある。)のハードウェア構成の一例を示すブロック図である。なお、前記の各装置のすべてに下記のハードウェア構成のすべてが備えられている必要はなく(たとえば感情推定サーバ100に直接的にセンサが備えられている必要はない)、後述する各装置の機能構成を実現できるハードウェアモジュールが適宜限定して備えられてもよい。
図2を参照すると、本実施形態に係る装置は、バス801、CPU(Central Processing Unit)803、ROM(Read Only Memory)805、RAM(Random Access Memory)807、記憶装置809、通信インタフェース811、センサ813、入力装置815、表示装置817、スピーカ819を備える。CPU803は、本実施形態に係る装置における様々な処理を実行する。また、ROM805は、本実施形態に係る装置における処理をCPU803に実行させるためのプログラム及びデータを記憶する。また、RAM807は、CPU803の処理の実行時に、プログラム及びデータを一時的に記憶する。
バス801は、CPU803、ROM805及びRAM807を相互に接続する。バス801には、さらに、記憶装置809、通信インタフェース811、センサ813、入力装置815、表示装置817及びスピーカ819が接続される。バス801は、例えば、複数の種類のバスを含む。一例として、バス801は、CPU803、ROM805及びRAM807を接続する高速バスと、前記高速バスよりも低速の1つ以上の別のバスを含む。
記憶装置809は、本実施形態に係る装置内で一時的または恒久的に保存すべきデータを記憶する。記憶装置809は、例えば、ハードディスク(Hard Disk)等の磁気記憶装置であってもよく、または、EEPROM(Electrically Erasable and Programmable Read
Only Memory)、フラッシュメモリ(flash memory)、MRAM(Magnetoresistive Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)及びPRAM(Phase change Random Access Memory)等の不揮発性メモリ(nonvolatile memory)であってもよい。
通信インタフェース811は、本実施形態に係る装置が備える通信手段であり、ネットワークを介して(あるいは直接的に)外部装置と通信する。通信インタフェース811は、無線通信用のインタフェースであってもよく、この場合に、例えば、通信アンテナ、RF回路及びその他の通信処理用の回路を含んでもよい。また、通信インタフェース811は、有線通信用のインタフェースであってもよく、この場合に、例えば、LAN端子、伝送回路及びその他の通信処理用の回路を含んでもよい。
センサ813は、たとえばカメラ、マイクロフォン、生体センサ、その他のセンサまたはそれらの複合である。カメラは、被写体を撮像するもので、例えば光学系、撮像素子及び画像処理回路を含む。マイクロフォンは、周囲の音を収音するもので、前記音を電気信号へ変換し前記電気信号をデジタルデータに変換する。
入力装置815は、タッチパネル、マウス、視線検出装置等である。表示装置817は、本実施形態に係る装置からの出力画像(すなわち表示画面)を表示するもので、例えば液晶、有機EL(Organic Light-Emitting Diode)、CRT(Cathode Ray Tube)等を用いて実現され得る。スピーカ819は、音声を出力するもので、デジタルデータを電気信号に変換し前記電気信号を音声に変換する。
次に、図3を参照して、本実施形態に係る「カメラ200」の機能構成の一例を説明する。カメラ200は、実世界の計測データを生成する機能を有し、ユーザー900を含むオフィス400内の撮像画像(動画像であってもよく、画像には映像が含まれ得る)や、ユーザー900の各種行動・生理反応等(表情、身振り、音声等を含む)を外的に計測して、取得したセンサデータを後述する感情推定サーバ100へ送信する。
図3は、本実施形態に係るカメラ200の機能構成の一例を示すブロック図である。図3を参照すると、カメラ200は、通信部210、計測部220及び制御部230を備える。なお、図3には図示していないが、カメラ200は、計測データを保存するための記憶部や、内部動作状況をユーザーに示すための表示部等をさらに備えていてもよい。
通信部210は、他の装置と通信する。たとえば、通信部210は、LAN50に直接的に接続され、感情推定サーバ100と通信する。また、他のカメラ200と通信してもよい。なお、通信部210は、通信インタフェース811により実装され得る。
計測部220は、実世界の計測データ(たとえばオフィス400内の俯瞰的画角の撮映像)や、ユーザー900の行動や生理反応を外的に計測してデータを取得する。前記行動や生体反応のデータは、たとえば、カメラにより計測されるオフィス400内移動行動、顔表情や身体姿勢の状態内容を含む画像データ、マイクロフォンにより計測される音声データである。さらには、人体の撮像データにおける肌の色の微細な変化から推定する脈拍データ、眼の撮像データから推定する視線運動データや瞳孔径データ、前記カメラに赤外線サーモグラフィ機能が備えられていれば計測できる皮膚温分布データ等、ユーザーの自律神経系活動情報を反映する高次の生理指標データであってもよい。
前記推定の処理は、後述する制御部230によりカメラ200内で行われてもよいし、カメラ200から後述する感情推定サーバ100へ生の測定データを送信し感情推定サーバ100内で行われてもよい。なお、計測部220は、センサ813により実装され得る。
制御部230は、カメラ200の様々な機能を提供する。制御部230は、前記計測データを、後述する計測対象のユーザー900の位置情報のデータや、計測データを計測した時刻情報のデータと紐づけ、通信部210を介して感情推定サーバ100へ送信してもよい。カメラ200は、計測だけでなく、前処理、特徴抽出処理、推定を含む解析処理までを実施してもよく、その場合の各種演算処理を制御部230が行ってもよい。なお、制御部230は、CPU803、ROM805及びRAM807により実装され得る。
カメラ200は、撮像範囲内に含まれるユーザー900の位置を推定する機能を有していてもよい。たとえば、カメラ200にレーザレンジファインダの機能も搭載されており、撮像範囲の3次元計測機能を有していてもよい。また、カメラ200が汎用的な単眼カメラであっても、撮像対象人物の3次元実空間における存在位置を推定する方法は既存に複数あり、公知の方法である(たとえば、非特許文献3:大澤達哉ほか、映像モニタリングのための人物追跡技術、NTT技術ジャーナル、19(8)、pp.17-20、2007)。
本発明の実施形態では、カメラ200は、たとえばオフィス内の固定設置利用であってもよく、その場合、カメラの内部または外部パラメータの情報(カメラの3次元空間内位置、姿勢、撮像方向、画角、撮像範囲等の情報を含む)に係るデータは既知として、前記カメラパラメータのデータをカメラ200や感情推定サーバ100が予め記憶部に有しており、前記データを撮像対象人物の位置推定に利用してもよい(すなわち、前記データ及びカメラ200からの取得データに基づいて撮像対象人物の位置が推定されてもよい)。
さらに、カメラ200は、たとえば自動車に設置された車載カメラであってもよい。この場合も、カメラ200は自動車周囲環境の撮像データや前記自動車の位置(GPS(Global Positioning System)、デッドレコニング、高精度地図、SLAM(Simultaneous Localization And Mapping)等で算出されてもよい)や姿勢の情報をリアルタイムに取得し、前記カメラの外部パラメータの情報を生成してもよい。また、複数のカメラ200は複数の自動車にそれぞれ設置されたカメラであって、前記複数のカメラ200は複数の自動車間の車々間通信によってお互いの位置関係情報を生成してもよい。
次に、図4を参照して、本実施形態に係る「感情推定サーバ100」の機能構成の一例を説明する。図4は、本実施形態に係る感情推定サーバ100の機能構成の一例を示すブロック図である。図4を参照すると、感情推定サーバ100は、通信部110、記憶部120及び制御部130を備える。
通信部110は、他の装置と通信する。たとえば、通信部110は、LAN50に直接的に接続され、カメラ200や情報提示端末300と通信する。なお、通信部110は、通信インタフェース811により実装され得る。
記憶部120は、感情推定サーバ100の動作のためのプログラム及びデータを記憶する。記憶部120は、感情推定辞書DB121及び感情人物位置DB122を含む。
前記データには、センサデータ(本実施形態では、たとえばユーザー900を含む画像のデータ)からユーザーの感情(感情には表情やしぐさの種別や強度も含まれ得る)を推定(識別)処理するための学習済の感情推定モデル(感情認識辞書)のデータが含まれる。前記感情推定モデルは、予め取得されたセンサデータ(たとえば多数の人物の顔表情を含む画像)と、前記センサデータ取得時の撮像対象人物の感情の正解情報のデータとを紐づけて学習処理し生成される。前記感情の正解情報は、学習処理フェーズにおいて前記人物から質問紙法等により計測されても構わない。また、感情推定モデルはユーザー900の各個人毎、所定期間毎、ユーザー900の行動種別毎等でデータを分類および分割しそれぞれ学習処理させることで生成され、条件に応じた複数の感情推定モデルが存在しても構わない。
なお、センサデータから人物の個人感情を推定する方法は公知(たとえば特開2012-59107号公報)であるため、本稿ではこれ以上の説明は省略する。前記感情推定モデルは感情推定辞書DB121に記憶される。後述する感情人物位置DB122には、後述するユーザー900の推定感情情報と前記ユーザー900のオフィス400内の位置情報が対応付けて記憶される。なお、記憶部120は、記憶装置809により実装され得る。
制御部130は、感情推定サーバ100の様々な機能を提供する。制御部130は、顔検出部131、感情推定部133、感情人物照合部135、撮影条件比較部137及び総合感情推定部139を含む。なお、制御部130は、CPU803、ROM805及びRAM807により実装され得る。
顔検出部131は、各カメラ200の撮像画像から、顔検出技術によりユーザー900の顔画像の領域を特定し、切り出して(抽出して)記憶部120に記憶する。顔画像は、前記撮像画像のユーザー900の顔が写る領域であり、人物の身体が写る領域の画像(人物領域画像)の一例に相当する。この時、後述する感情人物照合部135が、顔画像とそのユーザー900の位置情報を対応付けて記憶部120の感情人物位置DB122に記憶させても構わない。なお、顔検出技術は公知の方法が既存に複数あるため説明を省略する(たとえば、非特許文献4:山下隆義ほか、顔の検出・表情の認識技術、映像情報メディア学会誌、62(5)、pp.708-713、2008)。
感情推定部133は、ユーザー900からカメラ200及び通信部110を介して取得した行動の画像データや生体反応の計測データ(センサデータ)に基づいて、ユーザー900毎の個人感情の推定モデルデータおよびそれにより推定(識別)された推定感情情報を生成する。また、感情推定部133は、前記生成した推定モデルデータと推定感情情報を記憶部120に記憶させる機能を有する。また、前記推定感情情報の生成処理はカメラ200で行われてもよく、感情推定サーバ100はカメラ200から前記画像データではなく推定感情情報を受信しても構わない。
ここで、個人感情とその推定方法について説明を補足する。個人感情は、一例として「人が心的過程の中で行うさまざまな情報処理のうちで、人、物、出来事、環境についてする評価的な反応」(Ortony et al.,1988;大平,2010)と定義される。感情の具体的な種類としては、心理学者Paul Ekmanによる表情に対応する基本感情ベースの離散型モデル上での幸福、驚き、恐れ、怒り、嫌悪、悲しみや、心理学者James A. Russellによる快度及び覚醒度の感情次元ベースの連続型モデルにおける喜怒哀楽の象限などが知られている。他の連続型モデルとしては、Watsonによるポジティブまたはネガティブ感情、Wundtによる3軸モデル(快度、興奮度、緊張度)、Plutchikによる4軸のモデルなどもある。その他、応用的・複合的な感情としては、困惑度、関心度、メンタルストレス、集中度、疲労感、多忙度、創造性、リラックス/緊張度、モチベーション、共感度、信頼度などが挙げられる。さらに、業務活動において集団の雰囲気として体感されるイキイキ感なども高次な感情の一種といえる。本発明における感情の定義の有効範囲は、前述の基本感情よりも広く、ユーザーのあらゆる内部「状態」やユーザーの周囲環境や文脈等の影響も加味した「状況」も含むものである。一例として、ポジティブ感情やその度合いは、快度そのものや、快度と覚醒度を合わせたもの、基本感情における幸福の強度の大きさ、もしくは恐れ、怒り、嫌悪、悲しみ等の強度の小ささ等を指標としてあらわされてもよい。
ある人物がどのような感情とどの程度にあるかは、たとえば質問紙法を用いることで、前記人物の文字、文章、記号による言語的報告によって求めることができる。前記質問紙としては“Affect Grid”や“SAM scale”などがよく知られている。しかしながら、質問紙を用いた計測方法では回答作業が必要になるため、業務など何か別の作業を行っている日常生活においては計測それ自体が本来の目的作業に支障を及ぼしてしまう可能性がある。
そこで、本情報通信システムにおいて、感情推定部133は、前述のカメラ200や情報提示端末300により計測される行動や生体反応のデータに基づいて(質問紙法等で求めた)感情を機械的に推定処理する。前記推定処理を行うためには、予め学習処理によって生成された感情推定モデルのデータが必要となる。感情推定モデルは、たとえば、ある時点・状況における前記行動や生体反応のデータと前記質問紙の回答データからなる訓練データとを対応づけたデータの群から生成される。たとえば、オフィスに埋め込まれた無数のカメラやマイクロフォン、ウェアラブル活動量計から計測されたユーザーの顔表情、音声、心拍活動、皮膚電気活動等の行動・生体データと、前記ユーザーの主観的感情を質問紙回答した正解データとが対応づけられて訓練データとされる。前記行動・生体データは、センサからの計測値が変換された学習処理用の特徴量データであってもよい。
特徴量データは、顔の代表的特徴点の位置や各2点間を結ぶ直線の距離や成す角度であってもよい。あるいは、特徴量データは、音声の基本周波数、パワー、平均発話速度、一次ケプストラム係数の最高値と標準偏差であってもよい。あるいは、特徴量データは、心拍数や拍動間隔の平均値や標準偏差、心拍変動性であってもよい。あるいは、特徴量データは、皮膚コンダクタンス水準の平均値や標準偏差や増減低下率などであってもよい。これらの特徴量データはどのように使用されてもよく、ある時点における絶対値として使用されてもよいし、2時点間の相対的な変化率として使用されてもよい。
前記訓練データを用いた感情推定モデルの生成には、学習の手法として、たとえば既知のSVM(Support Vector Machine)や深層学習(Deep Learning)法が用いられてもよいし、単純に回帰分析法が利用されてもよい。また、学習モデルはユーザー個人毎に生成されてもよいし、複数のユーザーの訓練データを用いて人間に共通的なモデルが生成されてもよい。感情推定部133は、得られた感情推定モデルのデータを用いることで、ある人物の行動・生体データから個人感情を推定できるようになる。
感情推定サーバ100(たとえば、感情推定部133)は、上述の個人感情推定処理のための訓練データや感情の推定モデル自体を生成する機能を有していてもよい。さらに、訓練データのための前述の特徴量データの生成は、感情推定サーバ100ではなくカメラ200や情報提示端末300の方で行い、カメラ200や情報提示端末300が、前記特徴量データを感情推定サーバ100へ送信するようにしてもよい。本実施形態では特に、前述の特許文献1のように、人物(ユーザー900)の顔画像を入力としその表情(Ekmanの6基本表情等)の識別結果の推定感情情報を出力とするような感情推定方法を主に想定している。
感情人物照合部135は、複数のカメラ200から取得されたユーザー900の複数視点からの顔画像同士を対応付ける処理を行う対応付け処理部として機能する。この時、あるユーザー900個人を基準とした対応付けを行いたいため、たとえばオフィス400内に2名のユーザー900Aとユーザー900Bがいた場合には、前記ユーザー900Aとユーザー900Bそれぞれの顔画像(抽出画像)を互いに対応付けないことが必要である(ユーザー900Aとユーザー900Bの個人感情は互いに異なるため)。感情人物照合部135は、対応付けられた顔画像(抽出画像)同士の関係性の情報を記憶部120に記憶させてもよい。なお、顔画像同士の対応付けには、顔画像同士が直接的に対応付けられる場合だけではなく、複数の顔画像それぞれから得られる推定感情情報同士が直接対応付けられる場合も含められ得る。
オフィス400にユーザーが900Aと900Bの2名おり、両名を撮像範囲内に捉えるカメラが200Aと200Bの2台あった場合、ユーザー900Aの顔画像はカメラ200Aと200Bそれぞれで撮られた2視点分ある。このとき、たとえばカメラ200Aとカメラ200Bとによって撮像されたユーザー900Aの顔画像をそれぞれ、顔画像900A-200A、顔画像900A-200Bとする。同様に、ユーザー900Bの顔画像としても、顔画像900B-200A、顔画像900B-200Bの2視点分が得られる。この時、顔画像900A-200Aと顔画像900A-200Bを対応付け、顔画像900B-200Aと顔画像900B-200Bを対応付けるのが正しい処理となる。それ以外の撮像・推定対象人物が異なる組み合わせ、たとえば顔画像900A-200Aと顔画像900B-200Bを対応付ける処理は、本実施形態においては誤りであり、これを避ける必要がある。
前記顔画像の正しい対応付けを行うため、感情人物照合部135はユーザー900の位置情報を利用してもよい。すなわち、感情人物照合部135は、複数の顔画像それぞれに写るユーザーの空間における位置情報に基づいて、複数の顔画像を対応付けてもよい。たとえば、感情人物照合部135は、複数の顔画像それぞれに写るユーザーの位置同士が所定の範囲内に収まる場合に複数の顔画像を対応付けてもよい前述のように、オフィス400内に設置された各カメラ200は、撮像範囲内に含まれるユーザー900の位置を推定する機能を有していてもよい。物理空間内のある3次元位置に複数の人物が重なって存在することはできないため、ある3次元位置に存在するユーザー900は一意に定まる。感情人物照合部135は、ユーザー900毎に顔画像と位置情報とを対応付けて感情人物位置DB122に記憶させてもよい。なお、前記位置情報は3次元以外、たとえば水平面等上の2次元位置の情報でも構わない。
たとえば、前述の顔画像900A-200Aと顔画像900A-200Bが位置情報A(例:X=0、Y=0、Z=0)に対応付けられており、顔画像900B-200Aと顔画像900B-200Bが位置情報B(例:X=2000、Y=3000、Z=0)に対応付けられていれば、感情人物照合部135は、それぞれ等しい位置情報に対応付けられた顔画像同士の対応付けを行ってもよい。すなわち、感情人物照合部135は、同一の位置情報Aに対応付けられている顔画像900A-200Aと顔画像900A-200Bとを対応付け、同一の位置情報Bに対応付けられている顔画像900B-200Aと顔画像900B-200Bとを対応付けてもよい。
なお、本実施形態では位置情報に基づく複数視点の画像や推定感情情報の対応付けを主に想定し説明したが、その他、感情人物照合部135は、公知の複数カメラ間人物対応付け技術(Person Re-identification)を用い、たとえば各人物の属性情報(人物の年齢、性別、服装など)や見た目のアピアランス情報(肌の色、服の色などといった人物の外観に関する情報)を利用した対応付け処理を行っても構わない。また、感情人物照合部135は、公知の顔認識技術を用い、個人同定情報を利用した対応付け処理を行っても構わない。
ここで、図5を参照して、前述した感情人物位置DB122について説明する。図5は、後述する感情人物照合部135によって紐づけ処理され記憶部120に記憶される感情人物位置DB122のデータテーブルの一例を説明するための説明図である。図5のデータテーブルには、データID、撮像カメラID、(ユーザー900の)人物位置、(ユーザー900の)人物ID、(ユーザー900の)推定感情情報、その他の情報(たとえば、タイムスタンプ、評価値など)のデータが記憶されている。
データIDは、各データを一意に識別するための識別情報である。撮像カメラIDは、本実施形態に係る情報通信システムに含まれる複数のカメラ200の各機体を一意に識別するための識別情報であり、どの撮影条件のカメラ200から取得したセンサデータであるかの情報を得るために利用され得る。人物位置は、前記撮像カメラIDのカメラ200から撮像されたユーザー900のオフィス400内の前記物理空間内のある3次元位置の情報を含む。人物IDは、前記ユーザー900を一意に識別するための識別情報を含み、特にオフィス400内に複数のユーザー900が存在した場合に必要な情報である。推定感情情報は、前述の感情推定部133により推定された前記ユーザー900の推定感情情報である。
その他の情報は、たとえば、後述する撮影条件比較部137による撮影条件の評価値や、前記カメラ200から取得したセンサデータの取得時刻(撮影時刻)を示すタイムスタンプデータを含む。上記では、ユーザー900の位置情報を利用して顔画像同士の対応付けを行う例について説明したが、感情人物照合部135は、ユーザー900の位置情報に加えて、あるいは、ユーザー900の位置情報の代わりにタイムスタンプデータを利用してもよい。これによって、同一の人物が写る顔画像同士が正しく対応付けられる可能性が高まる。すなわち、感情人物照合部135は、複数の顔画像それぞれのタイムスタンプデータに基づいて、複数の顔画像を対応付けてもよい。たとえば、感情人物照合部135は、複数の顔画像それぞれのタイムスタンプデータ同士が所定の範囲内に収まる場合に複数の顔画像を対応付けてもよい。
なお、タイムスタンプデータは、それぞれの顔画像を撮影するカメラ200によって付与されてよいが、複数のカメラ間において同じタイミングに付与されるタイムスタンプデータにずれが生じないよう、複数のカメラ間で同期をとる仕組みが設けられるのが望ましい。たとえば、複数のカメラそれぞれと通信可能なタイム管理サーバが存在する場合、タイム管理サーバによって複数のカメラそれぞれに対して同一時刻が通知されることによって同期がとられてもよい。タイム管理サーバの機能は、感情推定サーバ100が有してもよいし、感情推定サーバ100とは別のサーバが有してもよい。
図5では、たとえば、データIDが「0001」のデータと、データIDが「0002」のデータとは、撮像カメラIDが「C01」のカメラ200から同一時刻T1(同一タイムスタンプデータ)に生成されたデータで、しかし異なる2名のユーザー900についてのデータであってもよい。
撮影条件比較部137は、感情人物照合部135によって対応付けられたユーザー900の複数視点からの複数の顔画像に対して、それぞれの撮影条件の評価値を算出する評価値算出部として機能する。前記撮影条件の評価値としては、感情推定処理における外乱要因、たとえば人物の撮像方向や姿勢による見えの変化、照明変動、オクルージョン等の影響が小さく、それらによる推定精度の低下が小さい条件ほど高い(好ましい)値が付けられるものとする。
前記外乱要因と評価値設定の例として、顔方向の要因では、通常正面顔に近い撮影条件ほど顔の正規化処理と歪みの影響が少なくて済み、高い精度での表情推定処理が実現できる。したがって、撮影条件比較部137は、複数の顔画像それぞれに対応して、顔画像に写るユーザー900と顔画像を撮像するカメラ200との角度に基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部137は、カメラ200の撮影光軸と対象のユーザー900の顔の真正面の軸の成す角度が小さいほど、撮影条件に対して高い評価値を付けてよい。
また、照明変動の要因では、顔の正面に対して一様に照明があたり顔領域内の照明による陰影差が小さいほど高い精度での表情推定処理が実現できる。したがって、撮影条件比較部137は、複数の顔画像それぞれに対応して、人物に対する光照射度合いに基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部137は、顔画像の解析によって得られた明度分布から顔領域内の陰影差を算出し、陰影差が小さいほど、撮影条件に対して高い評価値を付けてよい。
さらに、オクルージョンの要因では、顔画像上の遮蔽される領域面積(遮蔽面積)が小さいほど高い精度での表情推定処理が実現できる。したがって、撮影条件比較部137は、複数の顔画像それぞれに対応して、人物の遮蔽度合いに基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部137は、顔画像の解析によって得られた遮蔽面積が小さいほど、撮影条件に対して高い評価値を付けてよい。なお、遮蔽面積は、顔画像から抽出されたもののその抽出処理の尤度が所定値よりも低かった顔の特徴点、または、顔画像から抽出されなかった顔の特徴点に関する情報(たとえば、特徴点の数、特徴点の位置、特徴点の分布など)に基づいて算出されてよい。
その他、画像情報量の要因では、カメラ200とユーザー900の距離がより近いことにより、顔画像(顔領域)の画素数が多いほど高い精度での表情推定処理が実現できる。したがって、撮影条件比較部137は、複数の顔画像それぞれに対応して、顔画像に写るユーザー900と顔画像を撮像するカメラ200との距離に基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部137は、カメラ200と対象のユーザー900との距離が小さいほど、撮影条件に対して高い評価値を付けてよい。
また、画像情報量の要因では、カメラ200の撮像画素数が多いことにより、顔画像(顔領域)の画素数が多いほど高い精度での表情推定処理が実現できる。したがって、撮影条件比較部137は、複数の顔画像それぞれに対応して、顔画像の解像度に基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部137は、顔画像の解像度が高いほど、撮影条件に対して高い評価値を付けてよい。
画像品質の要因では、画像データの(非可逆の)圧縮率が低く画像品質が高いほど画像ノイズが少なく高い精度での表情推定処理が実現できる。したがって、撮影条件比較部137は、複数の顔画像それぞれに対応して、顔画像の画像品質(たとえば圧縮処理に伴い発生する画像ノイズの強さ)に基づいて、顔画像の撮影条件の評価値を設定してもよい。より具体的に、撮影条件比較部137は、顔画像の画像品質が高いほど、撮影条件に対して高い評価値を付けてよい。
前記の撮影条件の評価値に関する記載は例であり、それ以外にも表情推定処理の精度が高くなるように外乱要因の影響を大きく抑えられる撮影条件ほど高い評価値が付けられてよい(表情推定処理における外乱要因についての解説は、たとえば、非特許文献5:Wang, M. & Deng, W., Deep face recognition: A survey,
https://arxiv.org/abs/1804.06655)。
また、撮影条件比較部137は、前記外乱要因の影響の小ささではなく、より直接的に、感情推定部133がユーザー900の顔画像から感情推定処理する際に求められる「尤度」の高さに応じて前記撮影条件の評価値を定めてもよい。すなわち、撮影条件比較部137は、複数の推定感情情報それぞれの推定における尤度に基づいて評価値を設定してもよい。より具体的に、撮影条件比較部137は、推定感情情報の推定における尤度が高いほど、撮影条件に対して高い評価値をつけてもよい。通常、外乱要因の影響が大きいほど尤度も小さくなる。なお、尤度とは、たとえば、算出された推定感情情報の尤もらしさを表す情報であり、または、算出された推定感情情報の蓋然性を0~1の間で数値化した確率であってもよい。
図1の例で説明すると、ユーザー900に対し、顔の真正面に近い位置の撮影条件のカメラ200Aと比較して顔の斜め方向から撮影しているカメラ200Bの顔画像の方が撮影条件の評価値は低くなる。また、カメラ200Cはカメラ200Bよりも、ユーザー900の顔の真正面から離れた角度から撮影している上にユーザー900の位置から遠く(距離が大きく)、加えて障害物500がユーザー900との間に存在しオクルージョンが発生している。そのため、カメラ200Bよりカメラ200Cの顔画像の方が撮影条件の評価値は低くなる。全体では、撮影条件の評価値の高さは、カメラ200A>カメラ200B>カメラ200C、の顔画像の順になるであろう。同様に、照明600も評価値に影響を与える(陰影差が出ないように一様に照明が当たる方が、評価値が高い)。
総合感情推定部139は、感情人物照合部135によって対応付けられたあるユーザー900の複数視点からの複数の顔画像それぞれから感情推定部133によって推定された推定感情情報と、撮影条件比較部137によって算出された評価値とに基づいて、あるユーザー900の総合的な推定感情情報を算出する。
快-不快感情に関する感情推定を例として説明する。オフィス400のカメラ200A、200B、200Cの撮像画像から、顔検出部131によって、ユーザー900の顔画像900A-200Aと顔画像900A-200Bと顔画像900A-200Cが抽出されると、感情人物照合部135によってこれらの顔画像が対応付けられる。撮影条件比較部137により、顔画像900A-200Aと顔画像900A-200Bと顔画像900A-200Cの撮影条件に対して、3倍、2倍、1倍高い(好ましい)評価値が付けられたとする。また、感情推定部133によって、顔画像900A-200Aに対応する推定感情情報が快、900A-200Bに対応する推定感情情報が不快、900A-200Cに対応する推定感情情報が快(説明簡略化のため本例では感情の強度は考えない)であると推定されたとする。
かかる場合、
推定感情情報が「快」であるのは、
900A-200A:評価値「3倍」、900A-200C:評価値「1倍」の場合であるため、推定感情情報「快」の合計評価値は、3倍+1倍=4倍と算出される。
推定感情情報が「不快」であるのは、
900A-200B:評価値「2倍」の場合であるため、推定感情情報「不快」の合計評価値は、2倍である。
したがって、「快」の合計感情値:「不快」の合計評価値=4:2であるため、「快」の合計評価値の方が高いため、総合感情推定部139は、ユーザー900の総合的な推定感情情報を「快」と算出する。このように、総合感情推定部139は、推定感情情報の値ごとに、顔画像900A-200Aと顔画像900A-200Bと顔画像900A-200Cそれぞれの撮影条件の評価値を合計して、合計評価値が最大となる推定感情情報を代表値として選択し、ユーザー900の総合的な推定感情情報としてもよい。
なお、ここでは、合計評価値が最大となる推定感情情報を総合的なユーザー900の総合的な推定感情情報とする場合を主に想定した。しかし、感情の強度を考える場合には、総合感情推定部139は、各推定感情情報の値に対して対応する評価値を乗じた値を、複数の推定感情情報について合計し、合計して得られた値を総合的なユーザー900の総合的な推定感情情報として算出してもよい。かかる算出方法を上記の例に適用すると、ユーザー900の総合的な推定感情情報は、下記の式(1)のように表現される。
総合的な推定感情情報=3×(900A-200Aの推定感情情報)+2×(900A-200Bの推定感情情報)+1×(900A-200Cの推定感情情報) ・・・(1)
さらに、撮影条件比較部137によって算出された評価値は、総合感情推定部139によってそのまま使われなくてもよい。たとえば、総合感情推定部139は、顔画像900A-200Aと顔画像900A-200Bと顔画像900A-200Cそれぞれの撮影条件の評価値に基づいて、900A-200Aの推定感情情報と900A-200Bの推定感情情報と900A-200Cの推定感情情報それぞれの重みを算出してもよい。そして、総合感情推定部139は、これらの重みとこれらの推定感情情報とに基づいて、ユーザー900の総合的な推定感情情報を算出してもよい。
一例として、総合感情推定部139は、評価値間の正規化に基づいて重みを算出してもよい。より具体的に、総合感情推定部139は、撮影条件比較部137によって算出された評価値を、顔画像900A-200Aと顔画像900A-200Bと顔画像900A-200Cとについての合計が1になるように調整することによって、重みを算出してもよい。そして、総合感情推定部139は、算出した重みを対応する推定感情情報の値に乗じてもよい。たとえば、式(1)に示された評価値である3倍、2倍、1倍は、3/6、2/6、1/6となり、式(1)は、下記の(2)のように置き換えられる。
総合的な推定感情情報=(3/6)×(900A-200Aの推定感情情報)+(2/6)×(900A-200Bの推定感情情報)+(1/6)×(900A-200Cの推定感情情報) ・・・(2)
また、前記した例では、1種類の撮影条件を主に考慮してユーザー900の総合的な推定感情情報を算出する場合を説明した。しかし、複数種類の撮影条件を考慮してユーザー900の総合的な推定感情情報を算出することも可能である。かかる場合であっても、同一の種類の撮影条件についての総合的な推定感情情報は、前記した例と同様に算出されればよい。異なる種類の撮影条件同士は、等価として扱われて重みが算出されてもよいし、撮影条件に優先順位が設けられていてもよく、優先順位に基づいて重みが算出されてもよい。
すなわち、総合感情推定部139は、撮影条件の優先順位および評価値に基づいて、重みを算出する。たとえば、総合感情推定部139は、異なる撮影条件の評価値同士が同じ値であっても、優先順位がより高い撮影条件の評価値の重みを大きく算出すればよい。たとえば、撮影条件の優先順位は、あらかじめ手動によって設定されてもよいし、たとえば重回帰分析における標準回帰係数や寄与率等の情報、ニューラルネットワークの学習によって得られた重み(Weight)の分布や特徴量選択等の情報に基づいて、システムによって自動的に設定されてもよい。
さらに、総合感情推定部139は、複数のカメラ200からの入力データに対応する複数のパターン認識やニューラルネットワークからのアンサンブル学習や特徴量のconcat処理を行うことにより、前記総合的な推定感情情報を算出してもよい。
次に、本実施形態に係る「情報提示端末300」の機能構成の一例を説明する。情報提示端末300は、ユーザー910(図1)からの入力に応じて他のユーザー900へ通信要求処理を行ったり、該他のユーザー900の総合的な推定感情情報を取得して該ユーザー910へ情報提示したりすることができる。
一例として、情報提示端末300は汎用的なスマートフォンやタブレット端末であってもよい。また、図1では情報提示端末300は1名のユーザー910に対応して1台存在するように図示されているが、複数のユーザー910に共用される共有型端末であってもよい。さらに別の一例として、情報提示端末300は、映像通信機能付の現金自動預け払い機VTM(Video Teller Machine)、駅自動券売機、ビジュアルコールセンターシステム等の表示部付の筐体装置などから送信される計測データに基づく顧客の感情推定情報をサポート担当者に提示する端末であってもよい。
図6は、本実施形態に係る情報提示端末300の機能構成の一例を示すブロック図である。図6を参照すると、情報提示端末300は、通信部310、記憶部320、制御部330、入力部340及び提示部350を備える。
通信部310は、他の装置と通信する。たとえば、通信部310は、LAN50に直接的に接続され、感情推定サーバ100と通信する。なお、通信部310は、通信インタフェース811により実装され得る。
記憶部320は、情報提示端末300の動作のためのプログラム及びデータを記憶する。なお、記憶部320は、記憶装置809により実装され得る。
制御部330は、情報提示端末300の様々な機能を提供する。なお、制御部330は、CPU803、ROM805及びRAM807により実装され得る。
入力部340は、ユーザー910からの入力を受け付ける。そして、入力部340は、入力結果を制御部330へ提供する。前記ユーザー910からの入力とは、たとえば、他のユーザー900を通信要求相手として指定するもので、該他のユーザー900の識別情報を選択すること等によって実現される。なお、入力部340は、入力装置815により実装され得る。
提示部350は、制御部330による制御に従って、ユーザーによって知覚され得る情報の提示を行う。本発明の実施形態においては、提示部350がユーザーによって視覚的に知覚される表示画面を表示する場合を主に想定する。かかる場合、提示部350は、表示装置823により実現され得る。しかし、提示部350がユーザーの聴覚によって知覚される情報を提示する場合、提示部350は、スピーカにより実現されてもよい。あるいは、提示部350がユーザーの触覚や嗅覚によって知覚される情報を提示する場合、提示部350は、触覚または嗅覚提示装置により実現されてもよい。
たとえば、提示部350は、ユーザー910が入力部340から指定した他のユーザー900に対応する総合的な推定感情情報を情報提示する。提示部350は、コミュニケーションメディアの一例としての拠点俯瞰動画像において他のユーザー900の人物像が映っている領域の近傍の領域に該他のユーザー900の総合的な推定感情情報を表示させてもよい。このとき、提示部350は、該他のユーザー900の総合的な推定感情情報とともに、この総合的な推定感情情報の推定精度を提示してもよい。かかる推定精度は、前記した個々の推定感情情報に基づく総合的な推定感情情報の算出と同様な手法によって、個々の推定感情情報の推定精度に基づいて算出されてもよい。
また、前記総合的な推定感情情報と総合的な推定感情情報の推定精度は、たとえば感情推定サーバ100の記憶部120や情報提示端末300の記憶部320に蓄積保存されてもよい。その場合、制御部330は、該蓄積されたデータに基づいて、総合的な推定感情情報および総合的な推定感情情報の推定精度それぞれの履歴情報を、たとえば時系列グラフ等に加工して提示部350に画面表示してもよい。
図7は、情報提示端末300の提示部350によって提示された表示画面の一例を説明するための説明図である。前記表示画面には、たとえばコミュニケーションメディアとしてカメラ200により俯瞰的に撮像された動画像が表示されており、該動画像の中央付近の画面領域にはユーザー900の人物像が映っている。さらに、制御部330は、動画像(人物領域画像)においてユーザー900が写る座標に応じた位置に総合的な推定感情情報が重畳されるように制御する。より具体的に、前記ユーザー900の人物像の近傍位置には前記ユーザー900に紐づけられた総合的な推定感情情報、総合的な推定感情情報の推定精度、およびそれらの履歴情報が画面表示されている。
前記ユーザー900の人物像と、ユーザー900の総合的な推定感情情報、総合的な推定感情情報の推定精度およびそれらの履歴情報とが近傍位置に表示されることで、情報提示端末300の提示部350を見るユーザーは、コミュニケーションメディアと推定された情報とを関連づけて認知しやすくなる。この近傍位置への表示機能は、特にひとつのコミュニケーションメディアに複数のユーザーの情報が含まれている場合等に有効である。コミュニケーションメディアとユーザー900の総合的な推定感情情報、総合的な推定感情情報の推定精度とを併せてデータとして扱い、それらデータの情報が相互に関連し合って効果を発揮する点が本コミュニケーションシステムの特徴のひとつである。
ここで、近傍位置は特に限定されない。たとえば、近傍位置は、ユーザー900の人物像の位置を基準として所定の距離以内の位置であってもよい。なお、図7に示した例では、ユーザー900の総合的な推定感情情報、総合的な推定感情情報の推定精度およびそれらの履歴情報とユーザー900の識別情報とを含んだ表示領域が吹き出し形状によって表示されている。これによって、各情報とユーザーとの関連が把握しやすくなる。しかし、表示領域の形状は吹き出し形状に限定されない。
なお、ここではコミュニケーションメディアがリアルタイムに伝送されたデータである場合を主に想定した。しかし、変形例として、前述のコミュニケーションメディアは必ずしもリアルタイム伝送されたデータではなくてもよく、たとえば「録画」や「録音」された過去のメディアデータであっても構わない。
前述のように、本発明の実施形態に係るコミュニケーションシステムは新しい電話システムであることも想定しており、一機能として遠隔地の協働メンバーの過去の様子を伺えてもよい。このとき、たとえばユーザー900は、過去の録画人物映像データおよび該過去の録画人物映像データに紐づけられた該過去の総合的な推定感情情報、総合的な推定感情情報の推定精度を、情報提示端末300を介して感情推定サーバ100の記憶部120から取得できてもよい。
たとえばユーザー910が、情報提示端末300を介して、現在から2時間前の時点のユーザー900の録画人物映像データと総合的な推定感情情報、総合的な推定感情情報の推定精度とを関連づけて取得できてもよい。このような場合、2時間後のリアルタイムの時点では本コミュニケーションシステム内にユーザー900がすでに不在になっている等の可能性もある。しかし、前記過去のメディアデータを取得する場合には必ずしも複数のユーザーがシステム内に同時に存在する必要はなく、1名のユーザーしか本コミュニケーションシステムを使用していない場合でもよい。
続いて、図8を参照して、本実施形態に係る情報処理動作の例を説明する。図8は、本実施形態に係る情報通信システムの動作フローの一例を示す説明図である。図8に示したように、ステップS1101で、感情推定サーバ100の顔検出部131は、カメラ200の撮像画像から、ユーザー900の顔画像の領域を特定し、切り出して(抽出して)記憶部120に記憶する。ステップS1103で、感情推定サーバ100の顔検出部131は、複数のカメラ200の撮像画像から顔検出されたか否かを判定する。
ステップS1103の処理で複数のカメラ200の撮像画像から顔検出された場合(S1103:YES)は、ステップS1105で、感情推定サーバ100の感情人物照合部135は、前記複数のカメラ200から取得されたユーザー900の複数視点からの顔画像を対応付ける処理を行う。ステップS1107で、感情推定サーバ100の撮影条件比較部137は、S1105で対応付けられたユーザー900の複数視点からの複数の顔画像に対して、それぞれの撮影条件の評価値を算出する。
ステップS1109で、感情推定サーバ100の総合感情推定部139は、感情人物照合部135で対応付けられたあるユーザー900の複数視点からの複数の顔画像に基づく推定感情情報と、撮影条件比較部137により算出された評価値とに基づいて、あるユーザー900の総合的な推定感情情報を算出する。このとき、推定感情情報の値ごとに評価値が合計され、合計評価値が最大となる推定感情情報がユーザー900の総合的な推定感情情報として選択されてもよい。あるいは、評価値から重みが算出され、重みと推定感情情報とに基づいてユーザー900の総合的な推定感情情報が算出されてもよい。
また、ステップS1103の処理で、複数のカメラ200の撮像画像から顔検出されず単一のカメラ200の撮像画像からのみ顔検出された場合(S1103:NO)は、ステップS1111で、総合感情推定部139はあるユーザー900の単一視点からの顔画像と、その感情情報とから、あるユーザー900の推定感情情報を算出する。このとき、総合感情推定部139は、感情推定部133によって推定された推定値をそのまま用いてもよいし、撮影条件比較部137により得られる撮影条件の評価値の情報に基づき感情推定部133の推定値に修正を加えてもよい(たとえば、外乱要因の大きさに応じて感情推定部133の推定値を変更や増減させてもよい)。
以上により、感情推定サーバ100は、オフィス400内の複数のカメラから得られるユーザー900の撮像画像を基に、単一カメラの場合と比較して、各種外乱要因の影響を抑えたより高い推定精度の推定感情情報を得ることができる。
(2.まとめ)
以上のように、本発明の実施形態によれば、複数のカメラから得られる複数視点の画像に基づき総合的な感情推定処理を行うことで、従来の単一カメラによる感情推定処理と比較して高い精度の感情推定が実現される。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。