JP2021005157A - 画像処理装置および画像処理方法 - Google Patents
画像処理装置および画像処理方法 Download PDFInfo
- Publication number
- JP2021005157A JP2021005157A JP2019117482A JP2019117482A JP2021005157A JP 2021005157 A JP2021005157 A JP 2021005157A JP 2019117482 A JP2019117482 A JP 2019117482A JP 2019117482 A JP2019117482 A JP 2019117482A JP 2021005157 A JP2021005157 A JP 2021005157A
- Authority
- JP
- Japan
- Prior art keywords
- character
- user
- image processing
- control unit
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 116
- 238000003672 processing method Methods 0.000 title claims abstract description 6
- 230000009471 action Effects 0.000 claims abstract description 11
- 230000003993 interaction Effects 0.000 claims description 39
- 230000033001 locomotion Effects 0.000 claims description 33
- 238000004891 communication Methods 0.000 claims description 27
- 230000005540 biological transmission Effects 0.000 claims description 22
- 230000008921 facial expression Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 230000004048 modification Effects 0.000 claims description 10
- 238000012986 modification Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000006399 behavior Effects 0.000 claims 1
- 210000003811 finger Anatomy 0.000 description 29
- 238000000034 method Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 12
- 238000012937 correction Methods 0.000 description 10
- 210000003128 head Anatomy 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 4
- 210000003813 thumb Anatomy 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 206010041308 Soliloquy Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000015541 sensory perception of touch Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/014—Hand-worn input/output arrangements, e.g. data gloves
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/004—Annotating, labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Computer Hardware Design (AREA)
- Acoustics & Sound (AREA)
- Software Systems (AREA)
- Computer Graphics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- User Interface Of Digital Computer (AREA)
- Information Transfer Between Computers (AREA)
- Position Input By Displaying (AREA)
- Document Processing Apparatus (AREA)
- Controls And Circuits For Display Device (AREA)
Abstract
【課題】表示画像を用いて無理なく効率的に文字を入力できるようにする画像処理装置及び画像処理方法を提供する。【解決手段】画像処理装置は、ヘッドマウントディスプレイ100にコンテンツの画像122を表示する。文字入力の期間において画像処理装置は、ユーザの発声124の内容を表す文字のオブジェクト126を仮想空間に配置し、ビュースクリーン128に射影することでヘッドマウントディスプレイ100に表示させる。そしてユーザの手120が文字のオブジェクト126に対し行った動作や、触れながら発した音声に基づき、オブジェクト126の文字の修正及び文字情報の送信を行う。【選択図】図3
Description
本発明は、文字入力のためのユーザインターフェースを実現する画像処理装置および画像処理方法に関する。
画像処理技術の進歩やネットワーク環境の拡充により、動画やゲームといった電子コンテンツを、様々な形態で気軽に楽しめるようになっている。例えばヘッドマウントディスプレイを用い、それを装着したユーザの顔の向きに対応する視野でパノラマ映像を表示させることにより、映像世界への没入感を高めたり、ゲームなどのアプリケーションの操作性を向上させたりすることが可能になる。また各種ウェアラブルディスプレイにおいてユーザの視野で撮影されたリアルタイムの映像や眼鏡部分を透過した実像などに合う位置に仮想オブジェクトを合成することにより、現実世界と仮想世界を融合させることも可能になっている。
このように画像表現が多様化するなかにあっても、ネットワークを介したユーザ同士の会話やネット空間への記事のアップロードなど多様な場面で文字入力が必要とされている。一方、上記のように視界の少なくとも一部を遮るようなディスプレイを装着している場合、キーボードなど機械的な入力装置を利用することが難しい場合がある。画面上に仮想のキーボードを表示させることも考えられるが、実物のキーボードと比較し扱いづらく誤認識も多い。また機械的な外観により、本来提示されていたコンテンツの世界観が損なわれることもある。
本発明はこうした課題に鑑みてなされたものであり、表示画像を用いて無理なく効率的に文字を入力できる技術を提供することにある。
本発明のある態様は画像処理装置に関する。この画像処理装置は、ユーザが発する音声を認識する音声認識部と、ユーザの動作を認識する動作認識部と、3次元の仮想空間に、音声の内容を表す文字のオブジェクトを配置し、動作に応じたインタラクションを実現することにより、文字を変化させる文字オブジェクト制御部と、仮想空間を射影してなる画像を表示させる画像生成部と、を備えたことを特徴とする。
本発明のさらに別の態様は画像処理方法に関する。この画像処理方法は画像処理装置が、ユーザが発する音声を認識するステップと、ユーザの動作を認識するステップと、3次元の仮想空間に、音声の内容を表す文字のオブジェクトを配置するステップと、仮想空間を射影してなる画像を表示装置に表示させるステップと、動作に応じたオブジェクトとのインタラクションを実現することにより、文字を変化させるステップと、を含むことを特徴とする。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、コンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本発明の態様として有効である。
本発明によると、表示画像を用いて無理なく効率的に文字を入力できる。
本実施の形態は、画像表示を伴う電子コンテンツにおいて文字を入力する場合に適用できる。その限りにおいてコンテンツの内容、文字入力の目的、表示装置の形態などは特に限定されない。以下、代表的な例として、ヘッドマウントディスプレイに画像を表示させる態様を主に説明する。図1は、本実施の形態のヘッドマウントディスプレイの外観例を示している。この例においてヘッドマウントディスプレイ100は、出力機構部102および装着機構部104で構成される。装着機構部104は、ユーザが被ることにより頭部を一周し装置の固定を実現する装着バンド106を含む。
出力機構部102は、ヘッドマウントディスプレイ100をユーザが装着した状態において左右の目を覆うような形状の筐体108を含み、内部には装着時に目に正対するように表示パネルを備える。筐体108内部にはさらに、ヘッドマウントディスプレイ100の装着時に表示パネルとユーザの目との間に位置し、画像を拡大するレンズを備えてよい。表示パネルを左右に分割してなる各領域に、両眼の視差に対応するステレオ画像を表示することにより立体視を実現してもよい。
ヘッドマウントディスプレイ100はさらに、装着時にユーザの耳に対応する位置にスピーカーやイヤホンを備えてよい。この例でヘッドマウントディスプレイ100は、筐体108の前面にステレオカメラ110を備え、ユーザの視線に対応する視野で周囲の実空間を動画撮影する。さらにヘッドマウントディスプレイ100は筐体108の内部あるいは外部に、加速度センサ、ジャイロセンサ、地磁気センサなど、ヘッドマウントディスプレイ100の動き、姿勢、位置などを導出するための各種センサのいずれかを備えてよい。
図2は、本実施の形態を適用できるコンテンツ処理システムの構成例を示している。この例でコンテンツ処理システムは、ヘッドマウントディスプレイ100、画像処理装置10、マイクロフォン130、カメラ132、触覚デバイス134、およびサーバ200を含む。ヘッドマウントディスプレイ100は無線通信により画像処理装置10に接続される。ただしUSBなどによる有線接続としてもよい。マイクロフォン130、カメラ132、触覚デバイス134も、画像処理装置10に有線または無線で接続される。
画像処理装置10は、ネットワーク8を介してサーバ200に接続される。サーバ200は例えば、動画やネットゲームなどの電子コンテンツのデータを画像処理装置10に送信する。画像処理装置10は、サーバ200から送信されたコンテンツのデータに必要な処理を施し、ヘッドマウントディスプレイ100に送信する。あるいは画像処理装置10は、内部で電子コンテンツを処理して画像や音声のデータを生成し、ヘッドマウントディスプレイ100に送信してもよい。
また画像処理装置10は、ヘッドマウントディスプレイ100を装着したユーザが入力した文字情報を、ネットワーク8を介してサーバ200に送信する。なお画像処理装置10はヘッドマウントディスプレイ100の内部に設けてもよい。さらに上述のとおり、本実施の形態においてコンテンツの画像を表示する装置はヘッドマウントディスプレイに限らず、テレビ受像器などの平板型のディスプレイ、携帯端末、プロジェクタなどでもよい。
ヘッドマウントディスプレイ100を採用した場合、画像処理装置10は例えば、それを装着したユーザの頭部の位置や姿勢を、ヘッドマウントディスプレイ100が内蔵するモーションセンサの計測値などに基づき継続的に取得し、それに応じた視野で表示画像を生成する。このような表示技術の代表的な例として、仮想世界を表す3次元空間や撮影済みのパノラマ画像のうちユーザの視野に対応する画像を表す仮想現実(VR)がある。
また画像処理装置10は、ステレオカメラ110が撮影しているリアルタイムの画像の適切な位置に仮想オブジェクトを描画することで、拡張現実(AR)を実現してもよい。あるいは画像処理装置10は、一般的な映画や動画などを、ユーザの頭部の動きによらず固定された視野で再生してもよい。これらの電子コンテンツの表示形態自体は一般的なものであるため、詳細な説明は省略する。
以後、これらの電子コンテンツの視聴時などに、ユーザが文字を入力する状況に着眼して説明する。例えばサーバ200から提供される1つの電子ゲームを、複数のプレイヤがネットワーク8を介してプレイしている場合、プレイヤ同士で文字を媒体として会話することがある。このとき各プレイヤは例えば、自分の発言を文字入力し確定させることで、ゲームの場である仮想空間にいるアバターの発言として、その文字が他のプレイヤに見える形式で表示される。
このような文字を媒体としたコミュニケーションは、ゲームに限らず一般的なSNS(Social Networking Service)でも行われる。また電子メールや書類の作成、スケジュールの入力などにも文字が使われる。文字入力の一般的な手段としてはキースイッチの配列からなるキーボードや、各キーを画像としてタッチパネルに表示させたキーボードのアプリケーションなどがある。しかしながらヘッドマウントディスプレイ100のように視界を覆われたディスプレイを装着した場合、それらの装置を扱うのは困難である。
また視界を覆わない形式のディスプレイであっても、文字をより容易かつ効率的に入力できるようにすることが望まれる。そこで本実施の形態では、音声によって文字(あるいは文字列)を入力できるようにしたうえ、当該文字をオブジェクトとして仮想空間に表し、ユーザの手で直接扱えるようにする。そのためマイクロフォン130は、ユーザの発した音声を信号として画像処理装置10に供給する。供給された音声信号は、画像処理装置10において文字に変換され、オブジェクトとして表示される。
カメラ132は、ユーザの手など、身体の少なくとも一部を撮影した動画像のリアルタイムのデータを、画像処理装置10に供給する。画像処理装置10は当該撮影画像に基づきユーザの動きやジェスチャを取得し、文字のオブジェクトに対しなされた操作の内容を検出する。そして操作の内容に対応する処理、具体的には文字の修正や削除、符号等の追加、文字情報の送信などの処理を実施する。なおカメラ132は可視光カメラ、ステレオカメラ、マルチスペクトルカメラ、デプスカメラなど、被写体の位置や姿勢をフレームごとに取得できればその検出対象の物理値は特に限定されない。またそれらのうち1つを導入しても、2つ以上を組み合わせて導入してもよい。
触覚デバイス134は、ユーザが装着することにより振動など触覚的な情報を伝える装置である。画像処理装置10は例えば、ユーザが指で文字のオブジェクトに触れている期間に、触覚デバイス134を介して、その擬似的な感触を指先に伝える。あるいは、ジェスチャによって文字の修正内容を異ならせる場合、ジェスチャごとに異なる振動や感触をユーザに与える。これによりユーザは視覚以外に触覚によっても、文字のオブジェクトに触っている感覚が得られるとともに、どの修正内容が認識されているか触覚で確認できる。触覚デバイス134自体には、実用化されている一般的な構造のいずれを採用してもよい。
なおマイクロフォン130、カメラ132、触覚デバイス134の形状は図示するものに限らない。例えばマイクロフォン130は、ヘッドマウントディスプレイ100の一部であってもよいし、カメラ132と一体的に設けてもよい。また、カメラ132の代わりにVRグローブなど、ユーザが装着することにより指の動きを検出するモーションセンサを導入してもよい。この場合、VRグローブの指先などに触覚デバイス134を設けてもよい。さらにカメラ132の機能は、ヘッドマウントディスプレイ100のステレオカメラ110が担ってもよい。
図3は、本実施の形態における表示の形態を模式的に示している。図の右方向は、ユーザからの奥行き方向(Z軸)を表す。平常時、ユーザはヘッドマウントディスプレイ100を装着しコンテンツの画像122を見ている。画像122は上述のとおり、平面の画像でも立体映像でもよい。また元々生成されている画像の再生画像でもよいし、ステレオカメラ110が撮影中のリアルタイムの画像を含んでいてもよい。
ここで文字を入力するタイミングが訪れたら、マイクロフォン130は、ユーザが発する音声を取得し、音声信号として画像処理装置10に送信する。画像処理装置10は、当該音声信号を文字に変換し、それをオブジェクトとして、表示対象の仮想3次元空間に配置する。図示する例では「Hello」との発声124に応じ、3次元空間にそれを変換してなる文字のオブジェクト126が配置されている。
当該オブジェクト126は、ヘッドマウントディスプレイ100の視野に対応するビュースクリーン128に射影され、ヘッドマウントディスプレイ100に表示される。これによりユーザには、自分が発した言葉が目の前に浮いているように見える。なお図示する例では、文字のオブジェクト126が存在する空間と、元から表示されていたコンテンツの画像122を分けて示しているが、コンテンツの画像122自体が3次元空間を射影した結果であれば、文字のオブジェクト126を当該コンテンツと同じ空間に配置してよい。
この場合、ユーザが発した言葉が、コンテンツの世界に浮いている状態となる。これらの状態において、カメラ132やステレオカメラ110は、ユーザの手などを撮影し、画像処理装置10に供給する。マイクロフォン130はユーザが発する音声の信号を画像処理装置10に送信し続ける。画像処理装置10は、ユーザの動作、ジェスチャ、音声、またはそれらの組み合わせが所定の条件を満たしたとき、それに対応する処理を実施する。
例えば発声された単語の間や文章の終わりに、手120が所定のジェスチャをしたら、それに対応する符号を文字のオブジェクト126に追加する。図示する例では、「Hello」との発声124の後に、手120が人差し指を立てた状態となったことを受け、画像処理装置10は、「Hello」のオブジェクト126の後に、人差し指を立てるジェスチャに対応づけられた感嘆符を追加している。また、ユーザが仮想世界で文字のオブジェクト126に触れられるようにすることで、ユーザと文字とのインタラクションを実現する。
例えば画像処理装置10は、複数の単語からなる文章において、ユーザがある文字に触れた状態を、実世界における手の位置と仮想世界におけるオブジェクト126の位置との一致を確認することにより検出する。画像処理装置10はこのとき、触覚デバイス134を振動させるなどして、オブジェクトに触れている状態をユーザの触覚を介して演出してもよい。そして、文字のオブジェクトに触れた状態で発せられた音声やジェスチャに基づき、当該文字やそれを含む単語などを修正する。
修正内容として、誤認識を修正する場合や削除する場合のほか、大文字/小文字、漢字/平仮名/片仮名などの文字の種類の違いや、つづり違い、同音異義語など表記上の変換をやり直す場合がある。いずれにしろ、文字のオブジェクト126のうちユーザが触れている箇所を修正対象とすることにより、最初から言い直すといった手間をかけることなく、必要な部分のみを効率的に修正できる。
また触れる、つまむ、裏返すといったオブジェクトの扱い方のバリエーションや、扱う指のバリエーションを利用することにより、上記のような多様な修正内容であっても判別が可能となる。結果として、キーボード等の必要なく容易かつ効率的に文字を入力できる。なお各種操作内容を上記バリエーションによって認識する場合、画像処理装置10は上述のとおり、認識した操作内容に応じた振動や触感を、触覚デバイス134を介してユーザに伝えてもよい。これによりキーボードのファンクションキーを使い分けているような状況を、触覚によって演出できる。
図4は、画像処理装置10の内部回路構成を示している。画像処理装置10は、CPU(Central Processing Unit)23、GPU(Graphics Processing Unit)24、メインメモリ26を含む。これらの各部は、バス30を介して相互に接続されている。バス30にはさらに入出力インターフェース28が接続されている。
入出力インターフェース28には、USBやIEEE1394などの周辺機器インターフェースや、有線又は無線LANのネットワークインターフェースからなり、サーバ200やヘッドマウントディスプレイ100と通信を確立する通信部32、ハードディスクドライブや不揮発性メモリなどの記憶部34、ヘッドマウントディスプレイ100や触覚デバイス134へデータを出力する出力部36、ヘッドマウントディスプレイ100、マイクロフォン130、カメラ132などからデータを入力する入力部38、磁気ディスク、光ディスクまたは半導体メモリなどのリムーバブル記録媒体を駆動する記録媒体駆動部40が接続される。
CPU23は、記憶部34に記憶されているオペレーティングシステムを実行することにより画像処理装置10の全体を制御する。CPU23はまた、リムーバブル記録媒体から読み出されてメインメモリ26にロードされた、あるいは通信部32を介してダウンロードされた各種プログラムを実行する。GPU24は、ジオメトリエンジンの機能とレンダリングプロセッサの機能とを有し、CPU23からの描画命令に従って描画処理を行い、出力部36に出力する。メインメモリ26はRAM(Random Access Memory)により構成され、処理に必要なプログラムやデータを記憶する。なお本実施の形態で入力された文字の情報は、ユーザ操作または所定のタイミングでメインメモリ26に格納される。
図5は、画像処理装置10の機能ブロックの構成を示している。同図に示す各機能ブロックは、ハードウェア的にはCPU、GPU、メモリなどで実現でき、ソフトウェア的には、記録媒体からメモリにロードした、情報処理機能、画像描画機能、データ入出力機能、通信機能などの諸機能を発揮するプログラムで実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
画像処理装置10は、ユーザの音声を認識し文字情報に変換する音声認識部62、ユーザの動作やジェスチャを認識する動作認識部64、表示画像を生成する画像生成部66、表示画像のデータをヘッドマウントディスプレイ100に出力する出力部68、3次元の仮想空間に、文字のオブジェクトを配置することによりユーザとのインタラクションを実現する文字オブジェクト制御部50、ネットワーク8を介して他の装置と通信する通信部60、および、触覚デバイス134を介してユーザに触覚刺激を与える触覚制御部70を備える。
音声認識部62は、マイクロフォン130からユーザの発する音声の信号を取得し、それを文字に変換する。ここでなされる音声認識処理には、実用化されている様々な技術のいずれを適用してもよい。動作認識部64は、カメラ132およびヘッドマウントディスプレイ100の少なくともいずれかから、ユーザを撮影した画像やセンサ値を取得し、ユーザの動きやジェスチャを認識する。あるいは動作認識部64は、ユーザが装着しているセンサの計測値を取得することで、ユーザの動きやジェスチャを認識してもよい。ここでなされる動作やジェスチャの認識処理にも、実用化されている様々な技術のいずれを適用してもよい。
画像生成部66は、ヘッドマウントディスプレイ100に表示すべきコンテンツの画像を生成する。例えば画像生成部66は通信部60が取得した、圧縮符号化された動画のデータを復号伸張して再生する。あるいは画像生成部66は、自らが電子ゲームを処理し、その画像を描画してもよい。画像生成部66は、上述したVRやARの画像を生成してもよい。画像生成部66はさらに、文字入力が必要な期間において、文字オブジェクト制御部50が構築した仮想空間を、ヘッドマウントディスプレイ100の視野に対応するビュースクリーンに射影することで、文字のオブジェクトを表示画像に含める。
上述のとおり、コンテンツにおいて仮想空間が構築されている場合、文字オブジェクト制御部50が当該仮想空間に配置した文字のオブジェクトを、コンテンツのオブジェクトとともにビュースクリーンに射影すればよい。出力部68は、画像生成部66が生成した表示画像のデータをヘッドマウントディスプレイ100に出力する。なお出力部68はコンテンツのデータに含まれる音声のデータも並行して出力してよいが、音声に係る処理については図示を省略している。
文字オブジェクト制御部50は、音声認識部62による音声の認識結果などに基づき、音声の内容を表す文字のオブジェクトを仮想空間に配置したうえ、ユーザの動作に応じて仮想的なインタラクションを実現し、その結果によって文字を変化させる。このため文字オブジェクト制御部50は、ユーザの手の像も仮想空間に表し、文字のオブジェクトとのインタラクションを視覚的に表現する。
詳細には文字オブジェクト制御部50は、オブジェクト生成部52、インタラクション処理部54、辞書記憶部56、および位置制御部58を含む。オブジェクト生成部52は、音声認識部62が音声を変換してなる文字情報を取得し、それをオブジェクトとして仮想空間に配置する。そのためオブジェクト生成部52は、オブジェクトとして表すべき文字のフォント、色、サイズ、位置などの設定情報を内部で保持する。文字のオブジェクトは厚みを有する3次元オブジェクトとしてもよい。
またオブジェクト生成部52は、音声から直接変換されない符号や顔文字なども、ユーザのジェスチャや音声に基づきオブジェクトとして生成し、仮想空間に表す。そのためオブジェクト生成部52は、符号や顔文字と、それを入力するためのジェスチャや音声との対応を示す設定情報を内部で保持する。オブジェクト生成部52はまた、ユーザが音声を発したと同時に行った手などのジェスチャに応じて、生成するオブジェクトの文字の種類を決定してもよい。
例えば図3の例で「Hello」との発声がなされたとき、同時に3本の指が立てられた状態であったら、アルファベットでなく片仮名で文字のオブジェクトを生成する。この場合、音声認識部62がアルファベットで文字情報を生成しても、それを最初から修正するかたちで、片仮名のオブジェクトを生成することになる。なおオブジェクト生成部52は、ユーザが所定のジェスチャをしている間に発声した音声のみを、文字のオブジェクトとして表す対象としてもよい。
例えばユーザが手をメガホンのような形にして口の左右に添えた状態で発した音声のみ、文字のオブジェクトとして表す。これにより、独り言などが意図せず文字化されるのを防止できる。インタラクション処理部54は、仮想3次元空間に表された文字のオブジェクトに対するユーザの動きや音声に応じて文字のオブジェクトを修正する。このためインタラクション処理部54は、ユーザの手の像を仮想空間に表し、視覚上、ユーザが文字のオブジェクトに触っている状態を作り出す。
手の像は、ユーザの実際の手の動きをリアルタイムに反映させることができれば、ヘッドマウントディスプレイ100のステレオカメラ110などが撮影した実写映像でも、コンピュータグラフィクスにより描画された像でもよい。いずれにしろ、オブジェクト生成部52が配置した文字のオブジェクトの位置に対応する位置にユーザが手を伸ばしたら、オブジェクト生成部52は、ユーザが文字に触れたことを検出する。
そして修正したい文字のオブジェクトに触れながら音声で出された指示や、当該オブジェクトをつまんだり裏返したりする動きに応じて、触れられている文字やそれを含む単語を修正する。文字のオブジェクトをつまむ指の組み合わせに応じて修正内容を切り替えてもよい。さらに文字のオブジェクトに指の腹で触れたか、指の背で触れたかによって修正内容を切り替えてもよい。
辞書記憶部56は、オブジェクト生成部52が文字のオブジェクトを生成する際、およびインタラクション処理部54が文字のオブジェクトを修正する際、用いるべき文字やその優先度を表した辞書を記憶する。例えば辞書記憶部56は、単語ごとに、漢字、平仮名、片仮名、アルファベットなどの文字の種類、具体的な漢字、アルファベットの綴りなどの表記のバリエーションと、それらの優先順位を記憶する。
優先順位は、過去にオブジェクト生成部52が文字のオブジェクトを生成した結果やインタラクション処理部54がそれを修正した結果に基づき更新していくことにより、頻度に応じて最適化していく。辞書記憶部56が記憶する辞書の少なくとも一部の単語は、音声入力がなされたときに同時に再生されていたコンテンツごとに別の優先順位を保持していてもよい。
例えば一般的には優先度が低い文字や通常は使われない文字を用いたバンド名のコンサート映像を再生している場合、それについての会話では、当該文字の優先順位を最初から上げておく方が変換精度を高くできる。コンテンツごとに優先順位を保持しておくことにより、同時に再生されているコンテンツに適した文字に即時に変換できるとともに、別のコンテンツを再生しているときに以前のコンテンツで学習された特殊な結果が反映されてしまうのを防ぐことができる。
同時に再生するコンテンツに限らず、特定の話題について語るコミュニティーにおいて、他のユーザとのコミュニケーションを目的に文字を入力する場合は、コミュニティーごとに別の優先順位を保持してよい。このような場合、コミュニティーに属するメンバーによる過去の文字変換の結果に基づき優先順位を学習させ、それをメンバー間で共有する。この場合も、コミュニティーにおける話題に即した優先順位で、効率的に文字を変換できる。
位置制御部58は、オブジェクト生成部52が仮想空間に配置した文字のオブジェクトを、文字情報全体に対し何らかの処理がなされたことを示すために移動させる。例えば文字のオブジェクトを発生、修正させた結果、完成した文章をネットワーク8を介して会話相手やゲーム空間などに送信させる操作がなされた場合、まずインタラクション処理部54がそれを検知する。例えばインタラクション処理部54は、ユーザが息を吹きかける音を送信操作として検出する。
これにより、完成させた文章に息が吹きかけられ飛んでいったような状況を演出できる。送信操作としてはこのほか、「送信」との発声を検出してもよいし、手を叩く音や動作、文字のオブジェクトを手で払う動作などを検出してもよい。送信操作がなされたことを検出したら、インタラクション処理部54はその旨を位置制御部58および通信部60に通知する。これに応じて位置制御部58は、文字のオブジェクトを仮想空間においてユーザから離れた位置に移動させる。
送信された文章を表すオブジェクトを仮想空間から消し去ることなく遠方に残しておくことにより、それを引き戻すことで送信を取り消せるようにしてもよい。例えば送信したあとに誤記を見つけた場合、ユーザは遠くに残っている対象のオブジェクトに手を伸ばして手前に引き戻し、修正して再度送信させる操作を行う。あるいは発言を取り消したいとき、引き戻した文章を削除してもよい。これらの動作はインタラクション処理部54が検出し、位置制御部58および通信部60に通知することにより、適宜オブジェクトの移動処理や送信の取り消し処理を実施させる。
通信部60はネットワーク8を介してサーバ200など他の装置と通信を確立し、コンテンツのデータを取得したうえ画像生成部66に供給する。通信部60はさらに、文字のオブジェクトを用いて完成された文章などの文字情報を、ユーザの送信操作に応じて他の装置に送信する。例えば通信部60は、ゲームサーバがストリーム転送する、複数のプレイヤが参加するネットゲームの画像を取得する。この際、必要に応じて他のプレイヤの発言内容も取得する。そして自身の装置で入力された文章をゲームサーバに送信する。
これにより、ゲーム空間でプレイヤ同士がコミュニケーションをとることができる。通信部60はまた、一旦送信した文字情報を取り消す操作がなされたことをインタラクション処理部54から通知されたとき、送信先へ必要な情報を送信することにより、送信の取り消し処理を実施する。通信部60はさらに、コミュニティーに参加しているメンバー間で共有すべき、文字の変換先の優先順位に係る情報を適宜取得し、辞書記憶部56に格納する。
触覚制御部70は、文字オブジェクトに対するユーザの動きに対応する触覚刺激をユーザに与えるよう、触覚デバイス134を制御する。例えば上述のとおり、ユーザが文字のオブジェクトに触れたことを触覚的に演出する。あるいはジェスチャや動作によって文字のオブジェクトを操作する場合、操作内容によって異なる触覚刺激をユーザに与え、自分がしている動作やジェスチャがどの操作に対応しているかを確認できるようにする。
図6は、手による操作で文字の種類を修正する際の画面の例を示している。まず(a)に示す画面には、「Make it so!」という文字列のオブジェクト82aが表示されている。これは上述のとおり、文字オブジェクト制御部50が、ユーザが発した音声やユーザのジェスチャに基づき仮想空間に生成した文字のオブジェクトを、画像生成部66がビュースクリーンに射影したものである。仮想空間には他のオブジェクトが存在していてもよいし、コンテンツと共通の仮想空間でもよい。また画面内には、相手の発言を含む会話の内容が別途表示されていてもよい。
インタラクション処理部54は、ユーザの実際の手をリアルタイムで反映させる手の像84を仮想空間に表す。ここで小文字の「it」を大文字の「IT」に修正したいとき、ユーザは図示するように、文字列のオブジェクト82aのうち「it」をつまんで裏返す。するとインタラクション処理部54はその動きを検出し、(b)に示すように、つままれた部分を「IT」に変更したオブジェクト82bとする。詳細にはインタラクション処理部54は、ユーザがオブジェクトを裏返す手の動きとともにオブジェクトを回転させ、回転中の所定のタイミングで小文字から大文字に変化させる。
このような修正操作を実現するためインタラクション処理部54には、文字のオブジェクトを裏返す動作と、小文字/大文字間の変換処理を対応づけた情報を設定しておく。以下に例示する操作も同様である。小文字/大文字に限らず、平仮名/片仮名、アルファベット/平仮名など、2種類の文字間の変換であれば同様の操作で修正が可能である。一方、(a)のように文字のオブジェクトをつまむ際、つまむ指の組み合わせで修正後の文字を切り替えてもよい。例えば図示するように親指と人差し指でつまんでいる場合は大文字、親指と中指でつまんでいる場合は平仮名、親指と薬指でつまんでいる場合は片仮名に変換する。
あるいは裏返す動作の代わりに、(a)のように文字のオブジェクトをつまんだ状態、あるいは触れた状態で、「変換」と発声されたことを検出したら、別の種類の文字に修正してもよい。この場合、「大文字に変換」と修正後の文字の種類を音声で指定するようにしてもよい。さらに、文字のオブジェクトに触れたあとに作られた指の形に応じて、修正後の文字の種類を特定し、修正してもよい。
図7は、誤認識された文字を修正する際の画面の例を示している。(a)の画面では「That’s light!」という文字列のオブジェクト86aが表示されている。この画面に対しユーザが、「light」のオブジェクトに触れながら、図の右に示すように「r、i、g、h、t」と綴りを発声させると、インタラクション処理部54はそれを認識し、(b)に示すように「light」のオブジェクトの綴りを「right」に修正しオブジェクト86bとする。
修正はこのような単語単位でもよいし文字単位でもよい。いずれにしろ修正したい箇所に触れた状態で発せられた音声により、文字オブジェクトの一部のみを自由に修正できるようにする。図示するように、アルファベットを順次言うことにより綴りを修正する場合のほか、語句を言い直すことにより誤認識を修正してもよい。
図8は、文字のオブジェクトに触れる指の向きによって修正内容を異ならせる様子を示している。同図は、図6、7で示したような画面のうち文字のオブジェクトと手の像のみを抽出して示している。(a)は、図7の(a)から(b)への修正のように、「light」のオブジェクトに触れた状態で正しい綴りを発声することにより、「light」が「right」に修正された状態を示している。この修正は、触れた文字を発声によって上書きしていると捉えることができる。
図示する例ではインタラクション処理部54は、指の腹で文字のオブジェクトに触れていることを検出し、上書き操作がなされたと判断する。一方、(b)のように、文字のオブジェクトに指の背(爪側)で触れている場合は、触れた単語の前に文字を挿入する操作とする。図示する例では、(a)の状態における「right」のオブジェクトに指の背で触れ、「all」と発声することで、「right」のオブジェクトの前に「all」のオブジェクトが挿入されている。
文字のオブジェクトに触れる指の向きの区別は、上書き/挿入の切り替え以外に、アルファベットを平仮名にするか片仮名にするかといった、修正後の文字の種類の切り替えにも利用できる。カメラ132としてマルチスペクトルカメラを導入することにより、その撮影画像から指の向きを精度よく認識できる。可視光のカメラであっても、色や形状などの特徴から見かけ上の爪の有無を判断し、指の向きを特定できる。このような場合に、撮影画像における特徴と指の向きの関係を深層学習により最適化していくことで、向きの特定精度を向上させてもよい。
図9は、音声以外の入力手段として、ジェスチャによって顔文字を入力する手法の例を説明するための図である。(a)に示すようにユーザ90はヘッドマウントディスプレイ100を装着し、これまで例示したような文字オブジェクトを含む画面を見ている。ここでユーザ90が、自分の顔を仮想空間に持って行くようなジェスチャをした場合、インタラクション処理部54はそれを検出し。仮想空間に顔が置かれたようにして顔文字のオブジェクトを仮想空間に表す。
(a)の例では、ユーザ90が自分の顎近傍を親指と人差し指で挟み、仮面を外すようにして擬似的に前方に差し出している。ユーザ90の前方は仮想的には文字のオブジェクトの存在する空間であるため、インタラクション処理部54はビュースクリーンの前まで手が伸びた時点で、仮想空間に顔文字のオブジェクトを出現させる。そしてユーザの動きにより顔文字のオブジェクトが修正中の文字のオブジェクト92近傍まで到達したら、(b)に示すように、当該文字のオブジェクト92に顔文字のオブジェクト94を追加する。
図では、「Hello!」という既存のオブジェクト92の後に、ほほえむ顔文字のオブジェクト94が追加された状態を示している。ここで顔文字の表情には、顔文字を追加するためのジェスチャを開始したときのユーザ90自身の顔の表情を反映させてもよい。この場合、動作認識部64は、ユーザ90の顔を撮影した画像に対し表情認識や感情認識を実施し、笑う、泣く、怒るといった表情カテゴリのどれに該当するかを特定する。ヘッドマウントディスプレイ100の内部にユーザ90の目を撮影するカメラを設け、目の形状などから感情を認識できるようにしてもよい。
その他、表情認識や感情認識には様々な手法があり、そのうちいずれの手法を採用してもよい。インタラクション処理部54はその認識結果に基づき、顔文字の表情を決定する。また一旦、追加された顔文字の表情を後から修正できるようにしてもよい。この場合も文字の修正と同様、顔文字のオブジェクト94に触れられた状態で、音声などにより表情のカテゴリが指示されたら、インタラクション処理部54がそれを検出し表情を修正する。
あるいは顔文字のオブジェクト94をつまんで裏返すことにより、別の表情に変更してもよいし、つまむ指の組み合わせによって変更後の表情を切り替えてもよい。指の腹で触れたか指の背で触れたかによって、変更後の表情を切り替えてもよい。顔文字に限らず通常の発話では表現できない符号などには、別途音声やジェスチャを対応づけておくことにより、インタラクション処理部54がそれを検出しオブジェクトとして表す。
ジェスチャを利用する場合、符号の意味と関連性の高いジェスチャを対応づけることにより、覚えやすいジェスチャで直感的な操作が可能となる。例えばピリオドの入力には拳で何かを打つジェスチャを対応づけると、文の最後にスタンプを押すことが連想され理解されやすい。そのほか、手を叩くジェスチャで感嘆符を入力したり、首を傾けるジェスチャで疑問符を入力したりしてもよい。音声を利用する場合は、「感嘆符」、「疑問符」などの符号の名前を利用してもよい。
入力した文字を削除する場合も、ジェスチャを利用することで操作が容易になる。例えば削除したい文字や単語に2本線を引くように、オブジェクト上で指を2回スライドさせたら、当該文字や単語を削除する。削除したい文字や単語のオブジェクトをつまんで飛ばすジェスチャを削除の操作としてもよい。あるいは削除したい文字や単語のオブジェクトに触れられた状態で、「削除」という音声が発せられたら削除するようにしてもよい。
図10は、入力した文字情報を送信する際の画面の変遷を例示している。(a)の画面は、これまで述べたようにして「Hello!」という文字のオブジェクト96が完成した状態を示している。ここでユーザが息を吹きかける、文字のオブジェクトを手で払う、あるいは「送信」と言うなどの所定の音声や動きを生じさせたら、インタラクション処理部54はそれを検出し、通信部60に文字情報の送信を要求する。これにより通信部60は、オブジェクトとして表されている「Hello!」を文字のデータとして、通信相手のサーバ200や他の情報処理装置に送信する。
すると位置制御部58は(b)に示すように、文字のオブジェクト96を元の位置から移動させることにより、送信済みであることがわかるようにする。図示する例では、仮想空間の奥に移動させている。新たに文字入力を行う場合、オブジェクト生成部52が新たな文字のオブジェクトを手前に配置することにより、ユーザは文字列が送信済みか作成中かを、仮想空間での位置で判別できる。ここで、ユーザが奥にあるオブジェクト96を手前に引き戻すように動いた場合、インタラクション処理部54はそれを検出し、送信を取り消す操作と判断する。
この際、位置制御部58は、ユーザの手に追随するようにオブジェクト96を手前に移動させる。インタラクション処理部54からの送信取り消し要求に応じ、通信部60はサーバ200等にアクセスし、送信を取り消すための手続きを実行する。ここではSNSなどにおいて投稿を削除するのに用いられる一般的な手続きを利用できる。ユーザは、引き戻した文字のオブジェクト96に対し、上述したように修正や削除の操作を行い、必要に応じて再び送信してもよい。
文字のオブジェクトを奥から手前に引き戻す動きは、手放した文字を取り戻すことを連想させるため、送信の取り消しと対応づけることにより理解されやすく、直感的な操作を実現できる。仮想空間における文字のオブジェクトの位置によって文字情報全体の状態を表す手法は、データ送信/未送信の区別以外に、作成した文章を記憶装置に保存したか否かの区別などにも利用できる。
次に、以上の構成によって実現される画像処理装置10の動作について説明する。図11は、本実施の形態における画像処理装置10が文字の入力に関する処理を行う手順を示すフローチャートである。このフローチャートは例えば、ヘッドマウントディスプレイ100においてユーザがコンテンツを視聴している状態で開始される。またこの例は、文章を作成して会話相手などに送信することを想定している。
まずユーザが、文字入力を開始するための所定のジェスチャを行ったら、文字オブジェクト制御部50はそれを検出し、処理を開始する(S10)。なお文字オブジェクト制御部50は、処理の開始タイミングと終了タイミングを示す所定のジェスチャを検出し、その間に発せられた音声を全て文字オブジェクトとして表してもよいし、上述のとおり手をメガホンのようにして口にあてるなど、ユーザが所定のジェスチャや姿勢をとっている間に発せられた音声のみを文字オブジェクトとして表してもよい。
そして文字オブジェクト制御部50のオブジェクト生成部52は、音声認識部62からユーザが発した音声の内容を取得する(S12)。ここで音声の内容とは実質的に、音声を表す文字情報であるが、音声認識部62は一般的なアルゴリズムにより文字情報への変換を行う一方、オブジェクト生成部52は、それを適宜修正したうえで、オブジェクトとして仮想空間に表す(S14)。例えばユーザが発声とともに、文字の種類を指定するジェスチャをしていたら、当該ジェスチャに対応する種類で文字のオブジェクトを生成する。
あるいは同時に再生しているコンテンツの内容や、参加しているコミュニティーによって、変換する文字の優先順位を異ならせる場合は、その情報を辞書記憶部56から読み出し、優先度の高い文字に変換したうえでオブジェクトを生成する。このようにして生成された文字のオブジェクトは、画像生成部66がヘッドマウントディスプレイ100のビュースクリーンに射影し、出力部68がヘッドマウントディスプレイ100に出力することにより、表示画像として表される。
この状態でインタラクション処理部54は、音声認識部62や動作認識部64からの情報に基づき、ユーザが音声や動作で文字のオブジェクトに対し何らかの操作を行うのを待機する(S16)。すなわちユーザが仮想空間で文字のオブジェクトの一部に触れ、音声や動作でその文字を修正したり削除したりする操作を受け付ける。あるいは音声やジェスチャで、顔文字や符号を追加する操作を受け付ける。それらの操作がなされたら(S16のY)、インタラクション処理部54は文字のオブジェクトに対し、それぞれに対応する修正を加える。
この際、触覚制御部70は、文字のオブジェクトを触ったり各種操作を行ったりしている感覚をユーザに与えるように、各タイミングで触覚デバイス134に制御信号を送信する。またインタラクション処理部54は、上述した音声やジェスチャにより、作成された文字情報を送信する操作も待機する(S20)。送信操作がなされないうちは修正操作を受け付ける(S20のN)。修正操作が完了し、送信操作がなされたら(S16のN、S20のY)、インタラクション処理部54がその旨を通知することにより、通信部60が送信処理を実施する(S22)。
この際、位置制御部58は、送信された文字のオブジェクトを仮想空間の別の位置に移動させる(S24)。図示するフローチャートは、1つの文章を作成して送信するための一連の処理手順を示している。したがって別の文章を作成して送信する場合は、同様の処理を繰り返す。上述したように一旦送信した文章を取り消して修正する場合は、S10からS14の処理の代わりに、送信の取り消し処理とオブジェクトの位置を戻す処理を加えればよい。
以上述べた本実施の形態によれば、ユーザが発した音声を文字のオブジェクトとして仮想空間に表す。そしてユーザが手を用いて文字のオブジェクトを仮想的に扱えるようにする。これにより、キーボードなどの入力装置を用いずに文字を入力できるうえ、音声の誤認識があっても容易に修正できる。この際、同時に再生されているコンテンツや参加しているコミュニティー特有の辞書を用いることにより、修正の手間も最小限に抑えることができる。
また仮想空間での文字とのインタラクションという特有の状況を演出することにより、キーボードやカーソルを用いる場合と比較しユーザフレンドリーなインターフェースを実現できる。例えばユーザの顔を擬似的につかんで運ぶ動きにより顔文字を入力したり、文字のオブジェクトを裏返して別の文字に修正したりといったように、娯楽性と効率性を両立できる。さらに送信した文字情報を仮想空間の別の位置に残しておくことにより、送信の取り消しや修正を直感的な操作で容易にできる。
以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
例えば本実施の形態では、画面上で文字のオブジェクトとインタラクションする手を、ユーザの手の撮影画像かそれを模したグラフィクス画像とした。一方、実世界の像を透過させる眼鏡において、実像に融合するように仮想オブジェクトを表示するAR眼鏡を利用してもよい。この場合ユーザの手は眼鏡を透過した実像でよく、文字オブジェクト制御部50は、文字のオブジェクトのみをAR眼鏡に表示させる。このようにしても、本実施の形態で述べたのと同様の効果が得られる。
10 画像処理装置、 23 CPU、 24 GPU、 26 メインメモリ、 32 通信部、 34 記憶部、 36 出力部、 38 入力部、 40 記録媒体駆動部、 50 文字オブジェクト制御部、 52 オブジェクト生成部、 54 インタラクション処理部、 56 辞書記憶部、 58 位置制御部、 60 通信部、 62 音声認識部、 64 動作認識部、 66 画像生成部、 68 出力部、 70 触覚制御部、 100 ヘッドマウントディスプレイ、 110 ステレオカメラ、 130 マイクロフォン、 132 カメラ、 134 触覚デバイス、 200 サーバ。
Claims (20)
- ユーザが発する音声を認識する音声認識部と、
ユーザの動作を認識する動作認識部と、
3次元の仮想空間に、前記音声の内容を表す文字のオブジェクトを配置し、前記動作に応じたインタラクションを実現することにより、文字を変化させる文字オブジェクト制御部と、
前記仮想空間を射影してなる画像を表示させる画像生成部と、
を備えたことを特徴とする画像処理装置。 - 前記文字オブジェクト制御部は、仮想空間において前記文字のオブジェクトにユーザが接触した状態において発せられた音声または動作に応じて、当該文字を修正または削除することを特徴とする請求項1に記載の画像処理装置。
- 前記文字オブジェクト制御部は、仮想空間において前記文字のオブジェクトをつまんで裏返す動作に応じて、当該文字を修正することを特徴とする請求項1または2に記載の画像処理装置。
- 前記文字オブジェクト制御部は、仮想空間において前記文字のオブジェクトをつまむ指の組み合わせに応じて、修正後の文字を切り替えることを特徴とする請求項3に記載の画像処理装置。
- 前記文字オブジェクト制御部は、仮想空間において前記文字のオブジェクトに触れる指の向きに応じて、修正の態様を異ならせることを特徴とする請求項2から4のいずれかに記載の画像処理装置。
- 前記文字オブジェクト制御部は、ユーザが自分の顔を前記仮想空間に置く動作に応じて、顔文字のオブジェクトを前記仮想空間に配置することを特徴とする請求項1から5のいずれかに記載の画像処理装置。
- 前記文字オブジェクト制御部は、前記置く動作が開始された際のユーザの顔の表情を、前記顔文字に反映させることを特徴とする請求項6に記載の画像処理装置。
- 前記文字オブジェクト制御部は、前記顔文字のオブジェクトにユーザが接触した状態において発せられた音声または動作に基づき、当該顔文字の表情を修正することを特徴とする請求項6または7に記載の画像処理装置。
- 前記文字オブジェクト制御部は、発声と同時になされたユーザのジェスチャに基づき、オブジェクトとして表す文字の種類を決定することを特徴とする請求項1から8のいずれかに記載の画像処理装置。
- 前記文字オブジェクト制御部は、ユーザのジェスチャに基づき、対応する符号を表すオブジェクトを、前記文字のオブジェクトに追加することを特徴とする請求項1から9のいずれかに記載の画像処理装置。
- 前記文字オブジェクト制御部は、ユーザが所定のジェスチャをしている間に発声した音声のみを、前記文字のオブジェクトとして表すことを特徴とする請求項1から10のいずれかに記載の画像処理装置。
- 前記オブジェクトとして表された文字列の送信操作に応じて、当該文字列のデータを通信先に送信する通信部をさらに備え、
前記文字オブジェクト制御部は、送信された文字列のオブジェクトを、前記仮想空間における所定の位置に移動させることを特徴とする請求項1から11のいずれかに記載の画像処理装置。 - 前記文字オブジェクト制御部は、ユーザが前記文字列のオブジェクトに対し行った動作または発した音に基づき、前記通信部に当該文字列のデータ送信を要求することを特徴とする請求項12に記載の画像処理装置。
- 前記文字オブジェクト制御部は、移動させた文字列のオブジェクトをユーザが引き戻す動作に応じて、前記通信部に、当該文字列のデータ送信の取り消しを要求することを特徴とする請求項12または13に記載の画像処理装置。
- 前記画像生成部は、コンテンツの画像とともに前記射影してなる画像を表示させ、
前記文字オブジェクト制御部は、前記コンテンツごとに保持する優先順位に基づき、前記オブジェクトとして表す文字を決定することを特徴とする請求項1から14のいずれかに記載の画像処理装置。 - 前記文字オブジェクト制御部は、複数のユーザによる過去の文字変換の結果により学習された優先順位に基づき、前記オブジェクトとして表す文字を決定することを特徴とする請求項1から14のいずれかに記載の画像処理装置。
- 前記動作認識部は、可視光カメラ、マルチスペクトルカメラ、およびデプスカメラの少なくともいずれかから取得した画像、またはユーザが装着するセンサの計測値に基づき、前記動作を認識することを特徴とする請求項1から16のいずれかに記載の画像処理装置。
- ユーザが装着した触覚デバイスに、前記オブジェクトに対するユーザの動きに応じた触覚刺激を提示させる触覚制御部をさらに備えたことを特徴とする請求項1から17のいずれかに記載の画像処理装置。
- ユーザが発する音声を認識するステップと、
ユーザの動作を認識するステップと、
3次元の仮想空間に、前記音声の内容を表す文字のオブジェクトを配置するステップと、
前記仮想空間を射影してなる画像を表示装置に表示させるステップと、
前記動作に応じた前記オブジェクトとのインタラクションを実現することにより、文字を変化させるステップと、
を含むことを特徴とする、画像処理装置による画像処理方法。 - ユーザが発する音声を認識する機能と、
ユーザの動作を認識する機能と、
3次元の仮想空間に、前記音声の内容を表す文字のオブジェクトを配置し、前記動作に応じたインタラクションを実現することにより、文字を変化させる機能と、
前記仮想空間を射影してなる画像を表示させる機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019117482A JP2021005157A (ja) | 2019-06-25 | 2019-06-25 | 画像処理装置および画像処理方法 |
US16/901,531 US11308694B2 (en) | 2019-06-25 | 2020-06-15 | Image processing apparatus and image processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019117482A JP2021005157A (ja) | 2019-06-25 | 2019-06-25 | 画像処理装置および画像処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021005157A true JP2021005157A (ja) | 2021-01-14 |
Family
ID=74044172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019117482A Pending JP2021005157A (ja) | 2019-06-25 | 2019-06-25 | 画像処理装置および画像処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11308694B2 (ja) |
JP (1) | JP2021005157A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7080448B1 (ja) | 2021-03-08 | 2022-06-06 | 裕行 池田 | 端末装置 |
US11429200B2 (en) | 2020-10-13 | 2022-08-30 | Hiroyuki Ikeda | Glasses-type terminal |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11340707B2 (en) * | 2020-05-29 | 2022-05-24 | Microsoft Technology Licensing, Llc | Hand gesture-based emojis |
US11995774B2 (en) * | 2020-06-29 | 2024-05-28 | Snap Inc. | Augmented reality experiences using speech and text captions |
US20230377223A1 (en) * | 2022-05-18 | 2023-11-23 | Snap Inc. | Hand-tracked text selection and modification |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3625212B1 (ja) * | 2003-09-16 | 2005-03-02 | 独立行政法人科学技術振興機構 | 3次元仮想空間シミュレータ、3次元仮想空間シミュレーションプログラム、およびこれを記録したコンピュータ読み取り可能な記録媒体 |
JP4545214B2 (ja) * | 2006-09-07 | 2010-09-15 | 学校法人 大阪電気通信大学 | チャット端末装置、チャットシステム,チャットデータ表示方法,情報処理プログラム |
US11393133B2 (en) * | 2010-06-07 | 2022-07-19 | Affectiva, Inc. | Emoji manipulation using machine learning |
KR101888491B1 (ko) * | 2012-01-11 | 2018-08-16 | 삼성전자주식회사 | 가상 공간 이동 장치 및 방법 |
US9367136B2 (en) * | 2013-04-12 | 2016-06-14 | Microsoft Technology Licensing, Llc | Holographic object feedback |
JP2015089697A (ja) * | 2013-11-05 | 2015-05-11 | トヨタ自動車株式会社 | 車両用音声認識装置 |
US11271887B2 (en) * | 2014-04-07 | 2022-03-08 | Nec Corporation | Updating and transmitting action-related data based on user-contributed content to social networking service |
EP3365724B1 (en) * | 2015-10-20 | 2021-05-05 | Magic Leap, Inc. | Selecting virtual objects in a three-dimensional space |
US10025972B2 (en) * | 2015-11-16 | 2018-07-17 | Facebook, Inc. | Systems and methods for dynamically generating emojis based on image analysis of facial features |
DE102016215481A1 (de) * | 2016-08-18 | 2018-02-22 | Technische Universität Dresden | System und Verfahren zur haptischen Interaktion mit virtuellen Objekten |
JP6798010B2 (ja) * | 2016-09-13 | 2020-12-09 | マジック リープ, インコーポレイテッドMagic Leap,Inc. | 感覚式アイウェア |
US10817126B2 (en) * | 2016-09-20 | 2020-10-27 | Apple Inc. | 3D document editing system |
JP6275891B1 (ja) * | 2017-01-27 | 2018-02-07 | 株式会社コロプラ | 仮想空間を介して通信するための方法、当該方法をコンピュータに実行させるためのプログラム、および当該プログラムを実行するための情報処理装置 |
JP6266814B1 (ja) * | 2017-01-27 | 2018-01-24 | 株式会社コロプラ | 情報処理方法及び当該情報処理方法をコンピュータに実行させるためのプログラム |
JP6828508B2 (ja) * | 2017-02-27 | 2021-02-10 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US10591986B2 (en) * | 2017-04-17 | 2020-03-17 | Optim Corporation | Remote work supporting system, remote work supporting method, and program |
CN113608617A (zh) * | 2017-04-19 | 2021-11-05 | 奇跃公司 | 可穿戴系统的多模式任务执行和文本编辑 |
US20200372902A1 (en) * | 2018-01-30 | 2020-11-26 | Panasonic Intellectual Property Management Co., Ltd. | Language presentation device, language presentation method, and language presentation program |
US10706271B2 (en) * | 2018-04-04 | 2020-07-07 | Thomas Floyd BRYANT, III | Photographic emoji communications systems and methods of use |
US10460500B1 (en) * | 2018-04-13 | 2019-10-29 | Facebook Technologies, Llc | Glyph rendering in three-dimensional space |
US10713834B2 (en) * | 2018-04-27 | 2020-07-14 | Colopl, Inc. | information processing apparatus and method |
CN112424727A (zh) * | 2018-05-22 | 2021-02-26 | 奇跃公司 | 用于可穿戴系统的跨模态输入融合 |
US10880895B2 (en) * | 2018-05-27 | 2020-12-29 | Brian Gordaychik | Variable length downlink control information formats for next generation radio technologies |
-
2019
- 2019-06-25 JP JP2019117482A patent/JP2021005157A/ja active Pending
-
2020
- 2020-06-15 US US16/901,531 patent/US11308694B2/en active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11429200B2 (en) | 2020-10-13 | 2022-08-30 | Hiroyuki Ikeda | Glasses-type terminal |
JP7080448B1 (ja) | 2021-03-08 | 2022-06-06 | 裕行 池田 | 端末装置 |
WO2022190406A1 (ja) * | 2021-03-08 | 2022-09-15 | 裕行 池田 | 端末装置 |
JP2022136951A (ja) * | 2021-03-08 | 2022-09-21 | 裕行 池田 | 端末装置 |
Also Published As
Publication number | Publication date |
---|---|
US11308694B2 (en) | 2022-04-19 |
US20200410755A1 (en) | 2020-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220327281A1 (en) | Word flow annotation | |
JP7200195B2 (ja) | 感覚式アイウェア | |
JP7336005B2 (ja) | ウェアラブルシステムのためのマルチモード実行およびテキスト編集 | |
JP2021005157A (ja) | 画像処理装置および画像処理方法 | |
JP6594646B2 (ja) | ロボット及びロボット制御方法並びにロボットシステム | |
JP7143847B2 (ja) | 情報処理システム、情報処理方法、およびプログラム | |
US20230315385A1 (en) | Methods for quick message response and dictation in a three-dimensional environment | |
JP6495399B2 (ja) | 仮想空間を提供するためにコンピュータで実行されるプログラム、方法、および当該プログラムを実行するための情報処理装置 | |
US11513768B2 (en) | Information processing device and information processing method | |
WO2023058393A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP6911070B2 (ja) | 仮想空間を提供するためにコンピュータで実行されるプログラム、方法、および当該プログラムを実行するための情報処理装置 |