JP2011204019A

JP2011204019A - ジェスチャ入力装置、ジェスチャ入力方法およびプログラム

Info

Publication number: JP2011204019A
Application number: JP2010070757A
Authority: JP
Inventors: Keisuke Yamaoka; 啓介山岡; Jun Yokono; 順横野; Yuichi Hasegawa; 雄一長谷川; Yasushi Shu; 寧周; Hirotaka Suzuki; 洋貴鈴木
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-03-25
Filing date: 2010-03-25
Publication date: 2011-10-13
Also published as: CN102200831A; US20110239118A1; US8726196B2

Abstract

【課題】ジェスチャの種類および／または複雑度が増してもジェスチャを適切に入力可能な、ジェスチャ入力装置、ジェスチャ入力方法およびプログラムを提供する。
【解決手段】ユーザの動作を表す画像情報および音声情報のうち少なくとも一方が入力される入力部１１と、入力された画像情報および音声情報のうち少なくとも一方から、ユーザの動作を検出する検出部１３と、動作の検出結果に基づき、ユーザが入力しようとする１以上のジェスチャを予測する予測部１９と、予測された１以上のジェスチャを入力するために、ユーザが次にとるべき動作をユーザに通知する通知部２１とを備える。
【選択図】図１

Description

本発明は、ジェスチャ入力装置、ジェスチャ入力方法およびプログラムに関する。

近年、ジェスチャを用いた様々なユーザインターフェイスが提案されている（例えば下記特許文献１〜３参照）。この種のインターフェイスでは、ユーザがジェスチャを入力すると、ユーザの動作を表す画像情報および／または音声情報の検出結果からジェスチャが認識され、認識結果が各種の処理制御に利用される。

特開２００６−１６３７４７号公報特開２００６−９９７４９号公報特表２００８−５３０６６１号公報

ところで、この種のインターフェイスの技術が進展すると、利便性が向上する一方で、ユーザにより入力されるジェスチャの種類および／または複雑度が増すことが予想される。結果として、ユーザは、多様なジェスチャを覚えることを強いられ、かえって利便性が低下してしまう場合がある。また、ユーザは、ジェスチャが適切に認識されずにイラツキを覚えたり、ジェスチャが適切に認識されるか不安に感じたりする場合もある。そして、この傾向は、ジェスチャの種類および／または複雑度が増すにつれて顕著になると考えられる。

そこで、本発明は、ジェスチャの種類および／または複雑度が増してもジェスチャを適切に入力可能な、ジェスチャ入力装置、ジェスチャ入力方法およびプログラムを提供しようとするものである。

本発明のある観点によれば、ユーザの動作を表す画像情報および音声情報のうち少なくとも一方が入力される入力部と、入力された画像情報および音声情報のうち少なくとも一方から、ユーザの動作を検出する検出部と、動作の検出結果に基づき、ユーザが入力しようとする１以上のジェスチャを予測する予測部と、予測された１以上のジェスチャを入力するために、ユーザが次にとるべき動作をユーザに通知する通知部とを備えるジェスチャ入力装置が提供される。

かかる構成によれば、ユーザの動作の検出結果に基づき、ユーザが入力しようとする１以上のジェスチャが予測され、予測された１以上のジェスチャを入力するために、ユーザが次にとるべき動作がユーザに通知される。これにより、ユーザは、ジェスチャの種類および／または複雑度が増しても、次にとるべき動作の通知に従ってジェスチャを適切に入力することができる。

上記ジェスチャが２以上のサブジェスチャからなり、上記ジェスチャ入力装置は、動作の検出結果に基づき、ユーザが入力したサブジェスチャを認識する認識部をさらに備え、上記予測部は、直前に入力されたサブジェスチャの認識結果に基づき、ユーザが次に入力しようとする１以上のサブジェスチャを予測し、上記通知部は、予測された１以上のサブジェスチャを入力するために、ユーザが次にとるべき動作をユーザに通知してもよい。

上記サブジェスチャ間の遷移確率が算出されており、上記通知部は、直前に入力されたサブジェスチャとユーザが次に入力しようとする１以上のサブジェスチャ間の遷移確率に応じて各サブジェスチャが区別されるように、ユーザが次にとるべき動作をユーザに通知してもよい。

上記各ジェスチャの入力頻度が記録されており、上記通知部は、予測された１以上のジェスチャに含まれる各ジェスチャの入力頻度に応じて各ジェスチャが区別されるように、ユーザが次にとるべき動作をユーザに通知してもよい。

また、本発明の別の観点によれば、ユーザの動作を表す画像情報および音声情報のうち少なくとも一方から、ユーザの動作を検出するステップと、動作の検出結果に基づきユーザが入力しようとする１以上のジェスチャを予測するステップと、予測された１以上のジェスチャを入力するために、ユーザが次にとるべき動作をユーザに通知するステップとを含むジェスチャ入力方法が提供される。

また、本発明の別の観点によれば、上記ジェスチャ入力方法をコンピュータに実行させるためのプログラムが提供される。ここで、プログラムは、コンピュータ読取り可能な記録媒体を用いて提供されてもよく、通信手段を介して提供されてもよい。

以上説明したように本発明によれば、ジェスチャの種類および／または複雑度が増してもジェスチャを適切に入力可能な、ジェスチャ入力装置、ジェスチャ入力方法およびプログラムが提供される。

本発明の実施形態に係るジェスチャ入力装置の主要な機能構成を示すブロック図である。ジェスチャ入力装置の基本的な動作手順を示すフロー図である。ジェスチャ入力装置の第１の動作例を説明する図（１／２）である。ジェスチャ入力装置の第１の動作例を説明する図（２／２）である。ジェスチャ入力装置の第２の動作例を説明する図（１／２）である。ジェスチャ入力装置の第２の動作例を説明する図（２／２）である。ジェスチャ入力装置の第３の動作例を説明する図（１／２）である。ジェスチャ入力装置の第３の動作例を説明する図（２／２）である。ジェスチャ入力装置の第４の動作例を説明する図（１／２）である。ジェスチャ入力装置の第４の動作例を説明する図（２／２）である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

［１．ジェスチャ入力装置の構成］
まず、本発明の実施形態に係るジェスチャ入力装置の構成について説明する。図１には、ジェスチャ入力装置の主要な機能構成が示されている。

図１に示すように、ジェスチャ入力装置は、入力部１１、検出部１３、記憶部１５、認識部１７、予測部１９、通知部２１および演算処理部２３からなる。

入力部１１は、ビデオカメラ等の画像入力部１１ａおよびマイク等の音声入力部１１ｂからなる。画像入力部１１ａには、ユーザの動作Ａ（ユーザの動作、ユーザの動作に伴う他の物体の動作を含む。）を表す画像情報が入力される。音声入力部１１ｂには、ユーザの動作Ａ（ユーザが発する音声、ユーザの動作に伴い他の物体が発する音声を含む。）を表す音声情報が入力される。なお、入力部１１は、画像入力部１１ａまたは音声入力部１１ｂのいずれか一方のみからなってもよい。

検出部１３は、画像入力部１１ａに入力された画像情報から画像特徴を抽出してユーザの動作Ａを検出し、入力された音声情報から音声特徴を抽出してユーザの動作Ａを検出する。ここで、検出部１３は、画像特徴または音声特徴からユーザの動作Ａを検出してもよく、画像特徴および音声特徴の組合せからユーザの動作Ａを検出してもよい。検出部１３は、動作Ａの検出結果を認識部１７および予測部１９に供給する。

記憶部１５は、動作Ａの検出結果に基づき、各種のジェスチャＧ（およびジェスチャＧを構成する各サブジェスチャＳＧ）を特定するための特定情報を記憶している。特定情報は、ユーザの動作Ａを表す画像情報および／または音声情報の特徴量の時系列変化からなる。記憶部１５は、１以上のジェスチャＧを入力するためにユーザが次にとるべき動作Ａを示すメッセージＭを記憶している。また、詳細は後述するが、記憶部１５は、各ジェスチャＧの入力頻度を記憶してもよく、ジェスチャＧを構成するサブジェスチャＳＧ間の遷移確率Ｐを記憶してもよい。

認識部１７は、動作Ａの検出結果に基づき、ユーザが入力したジェスチャＧ（またはサブジェスチャＳＧ）を認識し、認識結果を演算処理部２３に供給する。認識部１７は、ユーザの動作Ａを表す特徴量の時系列変化に基づきジェスチャＧ（またはサブジェスチャＳＧ）を認識する。例えば手の動きによりジェスチャＧが入力される場合、手の重心位置、各指の重心位置、各指の傾き、指の数等が特徴量として用いられる。また、ユーザの発話によりジェスチャＧが入力される場合、発話音声の周波数特性等が特徴量として用いられる。

予測部１９は、動作Ａの検出結果（またはサブジェスチャＳＧの認識結果）に基づき、ユーザが入力しようとする１以上のジェスチャＧ（またはサブジェスチャＳＧ）を予測し、予測結果を演算処理部２３に供給する。予測部１９は、動作Ａの検出結果（またはサブジェスチャＳＧの認識結果）と特定情報を比較することで、ユーザが入力しようとする１以上のジェスチャＧを予測する。例えばユーザの手の動きによりジェスチャＧが入力される場合、検出された手の動きを表す特徴量を特定情報に含む１以上のジェスチャＧが予測される。また、ユーザの発話によりジェスチャＧが入力される場合、検出された発話音声を表す特徴量を特定情報に含む１以上のジェスチャＧが予測される。

通知部２１は、ディスプレイ等の画像通知部２１ａおよびスピーカ等の音声通知部２１ｂからなる。通知部２１には、予測された１以上のジェスチャＧを入力するためにユーザが次にとるべき動作Ａを示すメッセージＭが演算処理部２３から供給される。通知部２１は、メッセージＭを画像メッセージおよび／または音声メッセージとして出力する。

演算処理部２３は、ＣＰＵ、ＲＯＭ、ＲＡＭを含んでおり、ＣＰＵは、ＲＯＭからプログラムを読出し、ＲＡＭに展開して実行することで、ジェスチャ入力装置を動作制御するための演算処理を行う。演算処理部２３は、ジェスチャＧの予測結果に対応するメッセージＭを記憶部１５から読出し、通知指令とともに通知部２１に供給する。ここで、詳細は後述するが、メッセージＭには、予測された１以上のジェスチャＧに応じて各種の処理が施されてもよい。また、演算処理部２３は、認識部１７から供給される認識結果に応じて、ジェスチャＧ毎にあらかじめ定められた機能を実行するために所定の演算処理を行う。

［２．ジェスチャ入力装置の基本動作］
つぎに、ジェスチャ入力装置の基本動作について説明する。図２には、ジェスチャ入力装置の基本的な動作手順が示されている。

ジェスチャ入力装置では、ユーザの動作Ａを表す画像情報および／または音声情報が入力部１１に入力される（ステップＳ１）。ユーザが動作Ａを行うと、まず、検出部１３は、入力された画像情報および／または音声情報から特徴量を抽出してユーザの動作Ａを検出し（Ｓ３）、検出結果を予測部１９に供給する。

予測部１９は、動作Ａの検出結果と特定情報を比較し、比較結果に基づきユーザが入力しようとする１以上のジェスチャＧを予測し（Ｓ５）、予測結果を演算処理部２３に供給する。演算処理部２３は、予測結果に対応するメッセージＭを記憶部１５から読出し、通知指令とともに通知部２１に供給し、通知部２１は、予測された１以上のジェスチャＧを入力するためにユーザが次にとるべき動作Ａを示すメッセージＭをユーザに通知する（Ｓ７）。

［３．ジェスチャ入力装置の動作例］
以下では、図３〜図４を参照しながら、ジェスチャ入力装置の第１〜第４の動作例について説明する。なお、動作例の間で重複する説明は省略する。

（第１の動作例）
まず、図３Ａ、３Ｂを参照しながら、ジェスチャ入力装置の第１の動作例について説明する。

第１の動作例では、図３Ａに示すように、じゃんけんの「パー」形状の手を正位置から右に傾ける第１のジェスチャＧ１１と、左に傾ける第２のジェスチャＧ１２が入力される。認識部１７は、「パー」形状の手が正位置で検出された後に右に傾いた状態で検出されると、第１のジェスチャＧ１１を認識し、「パー」形状の手が正位置で検出された後に左に傾いた状態で検出されると、第２のジェスチャＧ１２を認識する。

ここで、図３Ｂに示すように、「パー」形状の手が正位置で検出されずに、右に傾いた状態Ａ１で所定期間に亘って検出された場合を想定する。この場合、予測部１９は、「パー」形状の手が右に傾いた状態Ａ１で検出されたので、ユーザが入力しようとするジェスチャＧとして、「パー」形状の手の動作Ａ１を含む第１および第２のジェスチャＧ１１、Ｇ１２を予測する。そして、演算処理部２３は、予測結果に基づき、第１または第２のジェスチャＧ１１、Ｇ１２を入力するためにユーザが次にとるべき動作Ａを示すメッセージＭ１を通知部２１に供給する。

ここで、第１または第２のジェスチャＧ１１、Ｇ１２を入力する場合、「パー」形状の手を一旦正位置に戻す必要がある。このため、「パー」形状の手を正位置に戻す動作Ａをユーザに促すために、「手を正位置に戻してください。」というメッセージＭ１が供給される。そして、通知部２１は、供給されたメッセージＭ１を、例えば画像メッセージとしてユーザに通知する。なお、供給されたメッセージＭ１は、音声メッセージとしてユーザに通知されてもよい。

メッセージＭ１が通知されると、ユーザは、ジェスチャＧが適切に認識されていないことに気付く。そして、ユーザは、メッセージＭ１に従って、「パー」形状の手を一旦正位置に戻した後に、例えば右に傾ける動作Ａをとる。すると、認識部１７は、「パー」形状の手が正位置で検出された後に右に傾いた状態で検出されたことで、第１のジェスチャＧ１１を認識する。

（第２の動作例）
つぎに、図４Ａ、４Ｂを参照しながら、ジェスチャ入力装置の第２の動作例について説明する。

第２の動作例では、図４Ａに示すように、「パー」形状の手で反時計回りに円を描く第１のジェスチャＧ２１と、「パー」形状の手を右へ移動させながら「グー」形状に変化させる第２のジェスチャＧ２２が入力される。認識部１７は、反時計回りに円を描く「パー」形状の手が検出されると、第１のジェスチャＧ２１を認識し、右へ移動しながら「パー」形状から「グー」形状に変化する手が検出されると、第２のジェスチャＧ２２を認識する。

ここで、図４Ｂに示すように、右へ移動している「パー」形状の手の状態Ａ２が検出された場合を想定する。この場合、予測部１９は、「パー」形状の手が右へ移動している状態Ａ２で検出されたので、ユーザが入力しようとするジェスチャＧとして、「パー」形状の手を右へ移動させる動作Ａ２を含む第１および第２のジェスチャＧ２１、Ｇ２２を予測する。そして、演算処理部２３は、予測結果に基づき、第１または第２のジェスチャＧ２１、Ｇ２２を入力するためにユーザが次にとるべき動作Ａを示すメッセージＭ２を通知部２１に供給する。

ここで、第１のジェスチャＧ２１を入力する場合、「パー」形状の手で反時計回りに円を描く必要があり、第２のジェスチャＧ２２を入力する場合、「パー」形状の手を右へ移動させながら「グー」形状に変化させる必要がある。このため、第１または第２のジェスチャＧ２１、Ｇ２２を入力するための適切な動作Ａを促すために、「○○機能を実行する場合は、「パー」の手で反時計回りに円を描いてください。△△機能を実行する場合は、「パー」の手を右へ移動させながら「グー」に変化させてください。」というメッセージＭ２が供給される。そして、通知部２１は、供給されたメッセージＭ２を、例えば画像メッセージとしてユーザに通知する。

ここで、２以上のジェスチャＧを入力するための動作Ａを示すメッセージＭ３を通知する場合、通知部２１は、各ジェスチャＧの入力頻度に応じて各ジェスチャＧが区別されるように、メッセージＭ３を通知してもよい。例えば、第１のジェスチャＧ２１の入力頻度が高い場合、第１のジェスチャＧ２１を入力するための動作Ａを示す部分の表示を大きい文字や明るい色で出力してもよく、この部分を大きな音量で出力してもよい。これにより、ユーザは、入力頻度の高いジェスチャＧを容易に確認することができる。

メッセージＭ２が通知されると、ユーザは、所望の操作を行うために入力すべきジェスチャＧを確認する。そして、ユーザは、メッセージＭ２に従って、例えば「パー」形状の手で反時計回りに円を描く動作Ａをとる。すると、認識部１７は、反時計回りに円を描く「パー」形状の手が検出されたことで、第１のジェスチャＧ２１を認識する。

ここで、手の動きを表す画像情報に代えて、ユーザの発話を表す音声情報からユーザの動作Ａを検出してジェスチャＧが予測されてもよい。例えば楽曲再生システムにおいて、発話「１曲送れ」による第１のジェスチャＧ２１´と、発話「１曲戻せ」による第２のジェスチャＧ２２´が入力される場合において、発話Ａ２´「１曲…（沈黙）」が検出された場合を想定する。この場合、予測部１９は、第１および第２のジェスチャＧ２１´、Ｇ２２´を予測し、通知部２１は、「曲を送る場合は、「１曲送れ」と発話してください。曲を戻す場合は、「１曲戻せ」と発話してください。」というメッセージＭ２´をユーザに通知する。

（第３の動作例）
つぎに、図５Ａ、５Ｂを参照しながら、ジェスチャ入力装置の第３の動作例について説明する。

第３の動作例では、図５Ａに示すように、サブジェスチャＳＧ３１と、サブジェスチャＳＧ３２１、ＳＧ３２２、ＳＧ３２３のいずれかの組合せからなる、第１〜第３のジェスチャＧ３１〜Ｇ３３が入力される。第１のジェスチャＧ１では、「パー」形状の手を右に移動させながら「グー」形状に変化させる第１のサブジェスチャＳＧ３１に続いて、「グー」形状の手で時計回りに円を描く第２のサブジェスチャＳＧ３２１が行われる。

第２のジェスチャＧ３２では、第１のサブジェスチャＳＧ１に続いて、「グー」形状の手を上下に移動させる第２のサブジェスチャＳＧ３２２が行われる。第３のジェスチャＧ３３では、第１のサブジェスチャＳＧ３１に続いて、「グー」形状の手を右に移動させながら「パー」形状に変化させる第２のサブジェスチャＳＧ３２３が行われる。

認識部１７は、第１のサブジェスチャＳＧ３１を認識した後に第２のサブジェスチャＳＧ３２１を認識すると、第１のジェスチャＧ１を認識する。同様に、認識部１７は、第１のサブジェスチャＳＧ３１に続いて、第２のサブジェスチャＳＧ３２２を認識すると、第２のジェスチャＧ３２を認識し、第２のサブジェスチャＳＧ３２３を認識すると、第３のジェスチャＧ３３を認識する。

ここで、図５Ｂに示すように、第１のサブジェスチャＳＧ３１が認識された場合を想定する。この場合、予測部１９は、ユーザが入力しようとするジェスチャＧとして、第１のサブジェスチャＳＧ３１を含む第１〜第３のジェスチャＧ３１〜Ｇ３３を予測する。そして、演算処理部２３は、予測結果に基づき、第１、第２または第３のジェスチャＧ３１、Ｇ３２、Ｇ３３を入力するためにユーザが次にとるべき動作Ａを示すメッセージＭ３を通知部２１に供給する。

ここで、第１のジェスチャＧ３１を入力する場合、第２のサブジェスチャＳＧ３２１を次に入力する必要があり、第２のジェスチャＧ３２を入力する場合、第２のサブジェスチャＳＧ３２２を次に入力する必要があり、第３のジェスチャＧ３３を入力する場合、第２のサブジェスチャＳＧ３２３を次に入力する必要がある。

このため、第１、第２または第３のジェスチャＧ３１、Ｇ３２、Ｇ３３を入力するための適切な動作Ａを促すために、「○○機能を実行する場合は、「グー」の手で時計回りに円を描いてください。△△機能を実行する場合は、「グー」の手を上下に移動させてください。□□機能を実行する場合は、「グー」の手を右に移動させながら「パー」に変化させてください。」というメッセージＭ３が供給される。そして、通知部２１は、供給されたメッセージＭ３を、例えば画像メッセージとしてユーザに通知する。

ここで、２以上のジェスチャＧを入力するためのメッセージＭを通知する場合、通知部２１は、直前に入力されたサブジェスチャＳＧとユーザが次に入力しようとする１以上のサブジェスチャＳＧ間の遷移確率Ｐに応じて各サブジェスチャＳＧが区別されるように、メッセージＭ４を通知してもよい。

例えば、第１のサブジェスチャＳＧ３１から第２のサブジェスチャＳＧ３２１への遷移確率Ｐ１が第２のサブジェスチャＳＧ３２２、ＳＧ３２３への遷移確率Ｐ２、Ｐ３よりも高い場合、第２のサブジェスチャＳＧ３２１を入力するための動作Ａを示す部分の表示を大きい文字や明るい色で出力してもよく、この部分を大きな音量で出力してもよい。なお、サブジェスチャＳＧ間の遷移確率Ｐは、オンラインで学習されてもよく、オフラインで学習されてもよい。これにより、ユーザは、遷移確率の高いサブジェスチャＳＧを容易に確認することができる。

メッセージＭ３が通知されると、ユーザは、所望の操作を行うために入力すべきサブジェスチャＳＧを確認する。そして、ユーザは、メッセージＭ３に従って、例えば第２のサブジェスチャＳＧ３２１に相当する動作Ａをとる。すると、認識部１７は、第２のサブジェスチャＳＧ３２１に相当する動作Ａが検出されたことで、第１のジェスチャＧ３１を認識する。

ここで、手の動きを表す画像情報に代えて、ユーザの発話を表す音声情報からユーザの動作Ａを検出してジェスチャＧが予測されてもよい。例えば楽曲再生システムにおいて、第１のジェスチャＧ３１´として、第１のサブジェスチャＳＧ３１１´（発話）「次のアルバムに変更し」に続いて、第２のサブジェスチャＳＧ３２１´（発話）「連続再生せよ」が行われ、第２のジェスチャＧ３２´として、第１のサブジェスチャＳＧ３１１´に続いて、第２のサブジェスチャＳＧ３２２´「シャッフル再生せよ」が行われる。そして、第１のサブジェスチャＳＧ３１１´「次のアルバムに変更し…（沈黙）」が検出された場合を想定する。

この場合、予測部１９は、連続再生および第１および第２のジェスチャＧ３１´、Ｇ３２´を予測し、通知部２１は、「次のアルバムを連続再生する場合は、「次のアルバムに変更し」、「連続再生せよ」と発話してください。次のアルバムをシャッフル再生する場合は、「次のアルバムに変更し」、「シャッフル再生せよ」と発話してください。」というメッセージＭ３´をユーザに通知する。

（第４の動作例）
つぎに、図６Ａ、６Ｂを参照しながら、ジェスチャ入力装置の第４の動作例について説明する。

第４の動作例では、図６Ａに示すように、不特定数のサブジェスチャＳＧからなる複数のジェスチャＧが入力される。例えば、第１のジェスチャＧ４１では、「グー」形状の手を静止させる第１のサブジェスチャＳＧ４１、「グー」形状の手を右に移動させる第２のサブジェスチャＳＧ４２、「パー」形状の手を静止させる第３のサブジェスチャＳＧ４３１に続いて、第４のサブジェスチャＳＧ４４１、…、第ｎ１のサブジェスチャＳＧｎ１が行われる。

同様に、第２のジェスチャＧ４２では、第１および第２のサブジェスチャＳＧ４１、ＳＧ４２、「グー」形状の手で時計回りに円を描く第３のサブジェスチャＳＧ４３２に続いて、第４のサブジェスチャＳＧ４４２、…、第ｎ２のサブジェスチャＳＧｎ２が行われる。また、第３のジェスチャＧ４３では、第１および第２のサブジェスチャＳＧ４１、ＳＧ４２、「グー」形状の手を上に移動させる第３のサブジェスチャＳＧ４３３に続いて、第４のサブジェスチャＳＧ４４３、…、第ｎ３のサブジェスチャＳＧｎ３が行われる。

なお、第４のサブジェスチャＳＧ４４１〜ＳＧ４４３は、同一のサブジェスチャＳＧでもよく、相異なるサブジェスチャＳＧでもよい。また、各ジェスチャＧ４１、Ｇ４２、Ｇ４３を構成するサブジェスチャＳＧの数ｎ１、ｎ２、ｎ３は、同一数でもよく、相異なる数でもよい。

ここで、例えば第２のサブジェスチャＳＧ４２と第３のサブジェスチャＳＧ４３１、ＳＧ４３２、ＳＧ４３３の間では、サブジェスチャＳＧ間の遷移確率ＰがＰ１、Ｐ２、Ｐ３として予め定められている。また、例えば第１のサブジェスチャＳＧ４１では、同一のサブジェスチャＳＧ４１を繰返す反復確率Ｐと、第２のサブジェスチャＳＧ４２に遷移する遷移確率Ｐが予め定められている。

認識部１７は、第１、第２のサブジェスチャＳＧ４１、ＳＧ４２、第３のサブジェスチャＳＧ４３１、第４のサブジェスチャＳＧ４４１、…、第ｎ１のサブジェスチャＳＧｎ１を認識すると、第１のジェスチャＧ４１を認識する。同様に、認識部１７は、第１、第２のサブジェスチャＳＧ４１、ＳＧ４２、第３のサブジェスチャＳＧ４３２、第４のサブジェスチャＳＧ４４２、…、第ｎ２のサブジェスチャＳＧｎ２を認識すると、第２のジェスチャＧ４２を認識し、第１、第２のサブジェスチャＳＧ４１、ＳＧ４２、第３のサブジェスチャＳＧ４３３、第４のサブジェスチャＳＧ４４３、…、第ｎ３のサブジェスチャＳＧｎ３を認識すると、第３のジェスチャＧ４３を認識する。

ここで、図６Ｂに示すように、第２のサブジェスチャＳＧ４２が認識された場合を想定する。この場合、予測部１９は、ユーザが入力しようとするジェスチャＧとして、第１および第２のサブジェスチャＳＧ４１、ＳＧ４２を含む少なくとも第１〜第３のジェスチャＧ４１〜Ｇ４３を予測する。そして、演算処理部２３は、予測結果に基づき、少なくとも第１〜第３のジェスチャＧ４１〜Ｇ４３を入力するためにユーザが次にとるべき動作Ａを示すメッセージＭ４を通知部２１に供給する。

ここで、第１のジェスチャＧ４１を入力する場合、第３のサブジェスチャＳＧ４３１を次に入力する必要があり、第２のジェスチャＧ４２を入力する場合、第３のサブジェスチャＳＧ４３２を次に入力する必要があり、第３のジェスチャＧ４３を入力する場合、第３のサブジェスチャＳＧ４３３を次に入力する必要がある。

このため、第１、第２または第３のジェスチャＧ４１、Ｇ４２、Ｇ４３を入力するための適切な動作Ａを促すために、「○○機能を実行する場合は、「パー」の手を静止させてください。△△機能を実行する場合は、「グー」の手で時計回りに円を描いてください。□□機能を実行する場合は、「グー」の手を上に移動させてください。」というメッセージＭ４が供給される。そして、通知部２１は、供給されたメッセージＭ４を、例えば画像メッセージとしてユーザに通知する。

ここで、２以上のジェスチャＧを入力するための動作Ａを示すメッセージＭ４を通知する場合、通知部２１は、直前に入力されたサブジェスチャＳＧとユーザが次に入力しようとする１以上のサブジェスチャＳＧ間の遷移確率Ｐに応じて各サブジェスチャＳＧが区別されるように、メッセージＭ４を通知してもよい。

例えば、第２のサブジェスチャＳＧ４２から第３のサブジェスチャＳＧ４３１への遷移確率Ｐ１が第３のサブジェスチャＳＧ４３２、ＳＧ４３３への遷移確率Ｐ２、Ｐ３よりも高い場合、第３のサブジェスチャＳＧ４３１を入力するための動作Ａを示す部分の表示を大きい文字や明るい色で出力してもよく、この部分を大きな音量で出力してもよい。なお、サブジェスチャＳＧ間の遷移確率Ｐは、オンラインで学習されてもよく、オフラインで学習されてもよい。

メッセージＭ４が通知されると、ユーザは、所望の操作を行うために入力すべきサブジェスチャＳＧを確認する。そして、ユーザは、メッセージＭ４に従って、例えば第３のサブジェスチャＳＧ４３１に相当する動作Ａをとる。すると、認識部１７は、第３のサブジェスチャＳＧ４３１に相当する動作Ａが検出されたことで、第４のサブジェスチャＳＧ４４について認識処理を行う。ここで、演算処理部２３は、第３のサブジェスチャＳＧ４３１が入力されたことで、ユーザが第２および第３のジェスチャＧ４２、Ｇ４３とは異なるジェスチャＧを入力しようとしていると判断することができる。

ここで、手の動きを表す画像情報に代えて、ユーザの発話を表す音声情報からユーザの動作Ａを検出してジェスチャＧが予測されてもよい。また、ユーザの動作Ａを表す画像情報と音声情報の組合せからユーザの動作Ａを検出してジェスチャＧが予測されてもよい。この場合、各サブジェスチャＳＧは、画像情報または音声情報から予測されてもよく、画像情報および音声情報の組合せから予測されてもよい。また、各ジェスチャＧは、画像情報から特定されるサブジェスチャＳＧ、および／または音声情報から特定されるサブジェスチャＳＧから構成されてもよい。

［４．まとめ］
以上説明したように、本発明の実施形態に係るジェスチャ入力装置によれば、ユーザの動作Ａの検出結果に基づき、ユーザが入力しようとする１以上のジェスチャＧが予測され、予測された１以上のジェスチャＧを入力するために、ユーザが次にとるべき動作Ａがユーザに通知される。これにより、ユーザは、ジェスチャＧの種類および／または複雑度が増しても、次にとるべき動作Ａの通知に従ってジェスチャＧを適切に入力することができる。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、上記動作例の説明では、ユーザの動作を表す画像情報に基づきジェスチャを予測する場合について主に説明した。しかし、ユーザの動作を表す画像情報に代えて音声情報に基づき、または画像情報および音声情報の組合せに基づきジェスチャを予測してもよい。

１１、１１ａ、１１ｂ入力部
１３検出部
１５記憶部
１７認識部
１９予測部
２１、２１ａ、２１ｂ通知部
２３演算処理部
Ａ１、Ａ２ユーザの動作
Ｇ１１、Ｇ１２、Ｇ２１、Ｇ２２、Ｇ３１〜Ｇ３３、Ｇ４１〜Ｇ４３ジェスチャ
ＳＧ３１、ＳＧ３２１、ＳＧ３２２、ＳＧ３２３、ＳＧ４１、ＳＧ４２、ＳＧ４３１、ＳＧ４３２、ＳＧ４３３サブジェスチャ
Ｍ１〜Ｍ４メッセージ（通知）

Claims

ユーザの動作を表す画像情報および音声情報のうち少なくとも一方が入力される入力部と、
前記入力された画像情報および音声情報のうち少なくとも一方から、前記ユーザの動作を検出する検出部と、
前記動作の検出結果に基づき、ユーザが入力しようとする１以上のジェスチャを予測する予測部と、
前記予測された１以上のジェスチャを入力するために、前記ユーザが次にとるべき動作をユーザに通知する通知部と
を備えるジェスチャ入力装置。
前記ジェスチャが２以上のサブジェスチャからなり、
前記動作の検出結果に基づき、ユーザが入力したサブジェスチャを認識する認識部をさらに備え、
前記予測部は、直前に入力されたサブジェスチャの認識結果に基づき、ユーザが次に入力しようとする１以上のサブジェスチャを予測し、
前記通知部は、前記予測された１以上のサブジェスチャを入力するために、前記ユーザが次にとるべき動作をユーザに通知する、請求項１に記載のジェスチャ入力装置。
前記サブジェスチャ間の遷移確率が算出されており、
前記通知部は、直前に入力されたサブジェスチャとユーザが次に入力しようとする１以上のサブジェスチャ間の遷移確率に応じて各サブジェスチャが区別されるように、前記ユーザが次にとるべき動作をユーザに通知する、請求項２に記載のジェスチャ入力装置。
各ジェスチャの入力頻度が記録されており、
前記通知部は、前記予測された１以上のジェスチャに含まれる各ジェスチャの入力頻度に応じて各ジェスチャが区別されるように、前記ユーザが次にとるべき動作をユーザに通知する、請求項１に記載のジェスチャ入力装置。
ユーザの動作を表す画像情報および音声情報のうち少なくとも一方から、前記ユーザの動作を検出するステップと、
前記動作の検出結果に基づき、ユーザが入力しようとする１以上のジェスチャを予測するステップと、
前記予測された１以上のジェスチャを入力するために、前記ユーザが次にとるべき動作をユーザに通知するステップと
を含むジェスチャ入力方法。
ユーザの動作を表す画像情報および音声情報のうち少なくとも一方から、前記ユーザの動作を検出するステップと、
前記動作の検出結果に基づき、ユーザが入力しようとする１以上のジェスチャを予測するステップと、
前記予測された１以上のジェスチャを入力するために、前記ユーザが次にとるべき動作をユーザに通知するステップと
を含むジェスチャ入力方法をコンピュータに実行させるためのプログラム。