JP2021005157A

JP2021005157A - 画像処理装置および画像処理方法

Info

Publication number: JP2021005157A
Application number: JP2019117482A
Authority: JP
Inventors: 征志中田; Seishi Nakada
Original assignee: Sony Interactive Entertainment LLC
Current assignee: Sony Interactive Entertainment LLC
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2021-01-14
Also published as: US11308694B2; US20200410755A1

Abstract

【課題】表示画像を用いて無理なく効率的に文字を入力できるようにする画像処理装置及び画像処理方法を提供する。【解決手段】画像処理装置は、ヘッドマウントディスプレイ１００にコンテンツの画像１２２を表示する。文字入力の期間において画像処理装置は、ユーザの発声１２４の内容を表す文字のオブジェクト１２６を仮想空間に配置し、ビュースクリーン１２８に射影することでヘッドマウントディスプレイ１００に表示させる。そしてユーザの手１２０が文字のオブジェクト１２６に対し行った動作や、触れながら発した音声に基づき、オブジェクト１２６の文字の修正及び文字情報の送信を行う。【選択図】図３

Description

本発明は、文字入力のためのユーザインターフェースを実現する画像処理装置および画像処理方法に関する。

画像処理技術の進歩やネットワーク環境の拡充により、動画やゲームといった電子コンテンツを、様々な形態で気軽に楽しめるようになっている。例えばヘッドマウントディスプレイを用い、それを装着したユーザの顔の向きに対応する視野でパノラマ映像を表示させることにより、映像世界への没入感を高めたり、ゲームなどのアプリケーションの操作性を向上させたりすることが可能になる。また各種ウェアラブルディスプレイにおいてユーザの視野で撮影されたリアルタイムの映像や眼鏡部分を透過した実像などに合う位置に仮想オブジェクトを合成することにより、現実世界と仮想世界を融合させることも可能になっている。

このように画像表現が多様化するなかにあっても、ネットワークを介したユーザ同士の会話やネット空間への記事のアップロードなど多様な場面で文字入力が必要とされている。一方、上記のように視界の少なくとも一部を遮るようなディスプレイを装着している場合、キーボードなど機械的な入力装置を利用することが難しい場合がある。画面上に仮想のキーボードを表示させることも考えられるが、実物のキーボードと比較し扱いづらく誤認識も多い。また機械的な外観により、本来提示されていたコンテンツの世界観が損なわれることもある。

本発明はこうした課題に鑑みてなされたものであり、表示画像を用いて無理なく効率的に文字を入力できる技術を提供することにある。

本発明のある態様は画像処理装置に関する。この画像処理装置は、ユーザが発する音声を認識する音声認識部と、ユーザの動作を認識する動作認識部と、３次元の仮想空間に、音声の内容を表す文字のオブジェクトを配置し、動作に応じたインタラクションを実現することにより、文字を変化させる文字オブジェクト制御部と、仮想空間を射影してなる画像を表示させる画像生成部と、を備えたことを特徴とする。

本発明のさらに別の態様は画像処理方法に関する。この画像処理方法は画像処理装置が、ユーザが発する音声を認識するステップと、ユーザの動作を認識するステップと、３次元の仮想空間に、音声の内容を表す文字のオブジェクトを配置するステップと、仮想空間を射影してなる画像を表示装置に表示させるステップと、動作に応じたオブジェクトとのインタラクションを実現することにより、文字を変化させるステップと、を含むことを特徴とする。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、コンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本発明の態様として有効である。

本発明によると、表示画像を用いて無理なく効率的に文字を入力できる。

本実施の形態におけるヘッドマウントディスプレイの外観例を示す図である。本実施の形態を適用できるコンテンツ処理システムの構成例を示す図である。本実施の形態における表示の形態を模式的に示す図である。本実施の形態の画像処理装置の内部回路構成を示す図である。本実施の形態における画像処理装置の機能ブロックの構成を示す図である。本実施の形態において、手による操作で文字の種類を修正する際の画面の例を示す図である。本実施の形態において、誤認識された文字を修正する際の画面の例を示す図である。本実施の形態において、文字のオブジェクトに触れる指の向きによって修正内容を異ならせる様子を示す図である。本実施の形態において、音声以外の入力手段として、ジェスチャによって顔文字を入力する手法の例を説明するための図である。本実施の形態において、入力した文字情報を送信する際の画面の変遷を例示する図である。本実施の形態における画像処理装置が文字の入力に関する処理を行う手順を示すフローチャートである。

本実施の形態は、画像表示を伴う電子コンテンツにおいて文字を入力する場合に適用できる。その限りにおいてコンテンツの内容、文字入力の目的、表示装置の形態などは特に限定されない。以下、代表的な例として、ヘッドマウントディスプレイに画像を表示させる態様を主に説明する。図１は、本実施の形態のヘッドマウントディスプレイの外観例を示している。この例においてヘッドマウントディスプレイ１００は、出力機構部１０２および装着機構部１０４で構成される。装着機構部１０４は、ユーザが被ることにより頭部を一周し装置の固定を実現する装着バンド１０６を含む。

出力機構部１０２は、ヘッドマウントディスプレイ１００をユーザが装着した状態において左右の目を覆うような形状の筐体１０８を含み、内部には装着時に目に正対するように表示パネルを備える。筐体１０８内部にはさらに、ヘッドマウントディスプレイ１００の装着時に表示パネルとユーザの目との間に位置し、画像を拡大するレンズを備えてよい。表示パネルを左右に分割してなる各領域に、両眼の視差に対応するステレオ画像を表示することにより立体視を実現してもよい。

ヘッドマウントディスプレイ１００はさらに、装着時にユーザの耳に対応する位置にスピーカーやイヤホンを備えてよい。この例でヘッドマウントディスプレイ１００は、筐体１０８の前面にステレオカメラ１１０を備え、ユーザの視線に対応する視野で周囲の実空間を動画撮影する。さらにヘッドマウントディスプレイ１００は筐体１０８の内部あるいは外部に、加速度センサ、ジャイロセンサ、地磁気センサなど、ヘッドマウントディスプレイ１００の動き、姿勢、位置などを導出するための各種センサのいずれかを備えてよい。

図２は、本実施の形態を適用できるコンテンツ処理システムの構成例を示している。この例でコンテンツ処理システムは、ヘッドマウントディスプレイ１００、画像処理装置１０、マイクロフォン１３０、カメラ１３２、触覚デバイス１３４、およびサーバ２００を含む。ヘッドマウントディスプレイ１００は無線通信により画像処理装置１０に接続される。ただしＵＳＢなどによる有線接続としてもよい。マイクロフォン１３０、カメラ１３２、触覚デバイス１３４も、画像処理装置１０に有線または無線で接続される。

画像処理装置１０は、ネットワーク８を介してサーバ２００に接続される。サーバ２００は例えば、動画やネットゲームなどの電子コンテンツのデータを画像処理装置１０に送信する。画像処理装置１０は、サーバ２００から送信されたコンテンツのデータに必要な処理を施し、ヘッドマウントディスプレイ１００に送信する。あるいは画像処理装置１０は、内部で電子コンテンツを処理して画像や音声のデータを生成し、ヘッドマウントディスプレイ１００に送信してもよい。

また画像処理装置１０は、ヘッドマウントディスプレイ１００を装着したユーザが入力した文字情報を、ネットワーク８を介してサーバ２００に送信する。なお画像処理装置１０はヘッドマウントディスプレイ１００の内部に設けてもよい。さらに上述のとおり、本実施の形態においてコンテンツの画像を表示する装置はヘッドマウントディスプレイに限らず、テレビ受像器などの平板型のディスプレイ、携帯端末、プロジェクタなどでもよい。

ヘッドマウントディスプレイ１００を採用した場合、画像処理装置１０は例えば、それを装着したユーザの頭部の位置や姿勢を、ヘッドマウントディスプレイ１００が内蔵するモーションセンサの計測値などに基づき継続的に取得し、それに応じた視野で表示画像を生成する。このような表示技術の代表的な例として、仮想世界を表す３次元空間や撮影済みのパノラマ画像のうちユーザの視野に対応する画像を表す仮想現実（VR）がある。

また画像処理装置１０は、ステレオカメラ１１０が撮影しているリアルタイムの画像の適切な位置に仮想オブジェクトを描画することで、拡張現実（AR）を実現してもよい。あるいは画像処理装置１０は、一般的な映画や動画などを、ユーザの頭部の動きによらず固定された視野で再生してもよい。これらの電子コンテンツの表示形態自体は一般的なものであるため、詳細な説明は省略する。

以後、これらの電子コンテンツの視聴時などに、ユーザが文字を入力する状況に着眼して説明する。例えばサーバ２００から提供される１つの電子ゲームを、複数のプレイヤがネットワーク８を介してプレイしている場合、プレイヤ同士で文字を媒体として会話することがある。このとき各プレイヤは例えば、自分の発言を文字入力し確定させることで、ゲームの場である仮想空間にいるアバターの発言として、その文字が他のプレイヤに見える形式で表示される。

このような文字を媒体としたコミュニケーションは、ゲームに限らず一般的なＳＮＳ（Social Networking Service）でも行われる。また電子メールや書類の作成、スケジュールの入力などにも文字が使われる。文字入力の一般的な手段としてはキースイッチの配列からなるキーボードや、各キーを画像としてタッチパネルに表示させたキーボードのアプリケーションなどがある。しかしながらヘッドマウントディスプレイ１００のように視界を覆われたディスプレイを装着した場合、それらの装置を扱うのは困難である。

また視界を覆わない形式のディスプレイであっても、文字をより容易かつ効率的に入力できるようにすることが望まれる。そこで本実施の形態では、音声によって文字（あるいは文字列）を入力できるようにしたうえ、当該文字をオブジェクトとして仮想空間に表し、ユーザの手で直接扱えるようにする。そのためマイクロフォン１３０は、ユーザの発した音声を信号として画像処理装置１０に供給する。供給された音声信号は、画像処理装置１０において文字に変換され、オブジェクトとして表示される。

カメラ１３２は、ユーザの手など、身体の少なくとも一部を撮影した動画像のリアルタイムのデータを、画像処理装置１０に供給する。画像処理装置１０は当該撮影画像に基づきユーザの動きやジェスチャを取得し、文字のオブジェクトに対しなされた操作の内容を検出する。そして操作の内容に対応する処理、具体的には文字の修正や削除、符号等の追加、文字情報の送信などの処理を実施する。なおカメラ１３２は可視光カメラ、ステレオカメラ、マルチスペクトルカメラ、デプスカメラなど、被写体の位置や姿勢をフレームごとに取得できればその検出対象の物理値は特に限定されない。またそれらのうち１つを導入しても、２つ以上を組み合わせて導入してもよい。

触覚デバイス１３４は、ユーザが装着することにより振動など触覚的な情報を伝える装置である。画像処理装置１０は例えば、ユーザが指で文字のオブジェクトに触れている期間に、触覚デバイス１３４を介して、その擬似的な感触を指先に伝える。あるいは、ジェスチャによって文字の修正内容を異ならせる場合、ジェスチャごとに異なる振動や感触をユーザに与える。これによりユーザは視覚以外に触覚によっても、文字のオブジェクトに触っている感覚が得られるとともに、どの修正内容が認識されているか触覚で確認できる。触覚デバイス１３４自体には、実用化されている一般的な構造のいずれを採用してもよい。

なおマイクロフォン１３０、カメラ１３２、触覚デバイス１３４の形状は図示するものに限らない。例えばマイクロフォン１３０は、ヘッドマウントディスプレイ１００の一部であってもよいし、カメラ１３２と一体的に設けてもよい。また、カメラ１３２の代わりにＶＲグローブなど、ユーザが装着することにより指の動きを検出するモーションセンサを導入してもよい。この場合、ＶＲグローブの指先などに触覚デバイス１３４を設けてもよい。さらにカメラ１３２の機能は、ヘッドマウントディスプレイ１００のステレオカメラ１１０が担ってもよい。

図３は、本実施の形態における表示の形態を模式的に示している。図の右方向は、ユーザからの奥行き方向（Ｚ軸）を表す。平常時、ユーザはヘッドマウントディスプレイ１００を装着しコンテンツの画像１２２を見ている。画像１２２は上述のとおり、平面の画像でも立体映像でもよい。また元々生成されている画像の再生画像でもよいし、ステレオカメラ１１０が撮影中のリアルタイムの画像を含んでいてもよい。

ここで文字を入力するタイミングが訪れたら、マイクロフォン１３０は、ユーザが発する音声を取得し、音声信号として画像処理装置１０に送信する。画像処理装置１０は、当該音声信号を文字に変換し、それをオブジェクトとして、表示対象の仮想３次元空間に配置する。図示する例では「Ｈｅｌｌｏ」との発声１２４に応じ、３次元空間にそれを変換してなる文字のオブジェクト１２６が配置されている。

当該オブジェクト１２６は、ヘッドマウントディスプレイ１００の視野に対応するビュースクリーン１２８に射影され、ヘッドマウントディスプレイ１００に表示される。これによりユーザには、自分が発した言葉が目の前に浮いているように見える。なお図示する例では、文字のオブジェクト１２６が存在する空間と、元から表示されていたコンテンツの画像１２２を分けて示しているが、コンテンツの画像１２２自体が３次元空間を射影した結果であれば、文字のオブジェクト１２６を当該コンテンツと同じ空間に配置してよい。

この場合、ユーザが発した言葉が、コンテンツの世界に浮いている状態となる。これらの状態において、カメラ１３２やステレオカメラ１１０は、ユーザの手などを撮影し、画像処理装置１０に供給する。マイクロフォン１３０はユーザが発する音声の信号を画像処理装置１０に送信し続ける。画像処理装置１０は、ユーザの動作、ジェスチャ、音声、またはそれらの組み合わせが所定の条件を満たしたとき、それに対応する処理を実施する。

例えば発声された単語の間や文章の終わりに、手１２０が所定のジェスチャをしたら、それに対応する符号を文字のオブジェクト１２６に追加する。図示する例では、「Ｈｅｌｌｏ」との発声１２４の後に、手１２０が人差し指を立てた状態となったことを受け、画像処理装置１０は、「Ｈｅｌｌｏ」のオブジェクト１２６の後に、人差し指を立てるジェスチャに対応づけられた感嘆符を追加している。また、ユーザが仮想世界で文字のオブジェクト１２６に触れられるようにすることで、ユーザと文字とのインタラクションを実現する。

例えば画像処理装置１０は、複数の単語からなる文章において、ユーザがある文字に触れた状態を、実世界における手の位置と仮想世界におけるオブジェクト１２６の位置との一致を確認することにより検出する。画像処理装置１０はこのとき、触覚デバイス１３４を振動させるなどして、オブジェクトに触れている状態をユーザの触覚を介して演出してもよい。そして、文字のオブジェクトに触れた状態で発せられた音声やジェスチャに基づき、当該文字やそれを含む単語などを修正する。

修正内容として、誤認識を修正する場合や削除する場合のほか、大文字／小文字、漢字／平仮名／片仮名などの文字の種類の違いや、つづり違い、同音異義語など表記上の変換をやり直す場合がある。いずれにしろ、文字のオブジェクト１２６のうちユーザが触れている箇所を修正対象とすることにより、最初から言い直すといった手間をかけることなく、必要な部分のみを効率的に修正できる。

また触れる、つまむ、裏返すといったオブジェクトの扱い方のバリエーションや、扱う指のバリエーションを利用することにより、上記のような多様な修正内容であっても判別が可能となる。結果として、キーボード等の必要なく容易かつ効率的に文字を入力できる。なお各種操作内容を上記バリエーションによって認識する場合、画像処理装置１０は上述のとおり、認識した操作内容に応じた振動や触感を、触覚デバイス１３４を介してユーザに伝えてもよい。これによりキーボードのファンクションキーを使い分けているような状況を、触覚によって演出できる。

図４は、画像処理装置１０の内部回路構成を示している。画像処理装置１０は、ＣＰＵ（Central Processing Unit）２３、ＧＰＵ（Graphics Processing Unit)２４、メインメモリ２６を含む。これらの各部は、バス３０を介して相互に接続されている。バス３０にはさらに入出力インターフェース２８が接続されている。

入出力インターフェース２８には、ＵＳＢやＩＥＥＥ１３９４などの周辺機器インターフェースや、有線又は無線ＬＡＮのネットワークインターフェースからなり、サーバ２００やヘッドマウントディスプレイ１００と通信を確立する通信部３２、ハードディスクドライブや不揮発性メモリなどの記憶部３４、ヘッドマウントディスプレイ１００や触覚デバイス１３４へデータを出力する出力部３６、ヘッドマウントディスプレイ１００、マイクロフォン１３０、カメラ１３２などからデータを入力する入力部３８、磁気ディスク、光ディスクまたは半導体メモリなどのリムーバブル記録媒体を駆動する記録媒体駆動部４０が接続される。

ＣＰＵ２３は、記憶部３４に記憶されているオペレーティングシステムを実行することにより画像処理装置１０の全体を制御する。ＣＰＵ２３はまた、リムーバブル記録媒体から読み出されてメインメモリ２６にロードされた、あるいは通信部３２を介してダウンロードされた各種プログラムを実行する。ＧＰＵ２４は、ジオメトリエンジンの機能とレンダリングプロセッサの機能とを有し、ＣＰＵ２３からの描画命令に従って描画処理を行い、出力部３６に出力する。メインメモリ２６はＲＡＭ（Random Access Memory）により構成され、処理に必要なプログラムやデータを記憶する。なお本実施の形態で入力された文字の情報は、ユーザ操作または所定のタイミングでメインメモリ２６に格納される。

図５は、画像処理装置１０の機能ブロックの構成を示している。同図に示す各機能ブロックは、ハードウェア的にはＣＰＵ、ＧＰＵ、メモリなどで実現でき、ソフトウェア的には、記録媒体からメモリにロードした、情報処理機能、画像描画機能、データ入出力機能、通信機能などの諸機能を発揮するプログラムで実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

画像処理装置１０は、ユーザの音声を認識し文字情報に変換する音声認識部６２、ユーザの動作やジェスチャを認識する動作認識部６４、表示画像を生成する画像生成部６６、表示画像のデータをヘッドマウントディスプレイ１００に出力する出力部６８、３次元の仮想空間に、文字のオブジェクトを配置することによりユーザとのインタラクションを実現する文字オブジェクト制御部５０、ネットワーク８を介して他の装置と通信する通信部６０、および、触覚デバイス１３４を介してユーザに触覚刺激を与える触覚制御部７０を備える。

音声認識部６２は、マイクロフォン１３０からユーザの発する音声の信号を取得し、それを文字に変換する。ここでなされる音声認識処理には、実用化されている様々な技術のいずれを適用してもよい。動作認識部６４は、カメラ１３２およびヘッドマウントディスプレイ１００の少なくともいずれかから、ユーザを撮影した画像やセンサ値を取得し、ユーザの動きやジェスチャを認識する。あるいは動作認識部６４は、ユーザが装着しているセンサの計測値を取得することで、ユーザの動きやジェスチャを認識してもよい。ここでなされる動作やジェスチャの認識処理にも、実用化されている様々な技術のいずれを適用してもよい。

画像生成部６６は、ヘッドマウントディスプレイ１００に表示すべきコンテンツの画像を生成する。例えば画像生成部６６は通信部６０が取得した、圧縮符号化された動画のデータを復号伸張して再生する。あるいは画像生成部６６は、自らが電子ゲームを処理し、その画像を描画してもよい。画像生成部６６は、上述したＶＲやＡＲの画像を生成してもよい。画像生成部６６はさらに、文字入力が必要な期間において、文字オブジェクト制御部５０が構築した仮想空間を、ヘッドマウントディスプレイ１００の視野に対応するビュースクリーンに射影することで、文字のオブジェクトを表示画像に含める。

上述のとおり、コンテンツにおいて仮想空間が構築されている場合、文字オブジェクト制御部５０が当該仮想空間に配置した文字のオブジェクトを、コンテンツのオブジェクトとともにビュースクリーンに射影すればよい。出力部６８は、画像生成部６６が生成した表示画像のデータをヘッドマウントディスプレイ１００に出力する。なお出力部６８はコンテンツのデータに含まれる音声のデータも並行して出力してよいが、音声に係る処理については図示を省略している。

文字オブジェクト制御部５０は、音声認識部６２による音声の認識結果などに基づき、音声の内容を表す文字のオブジェクトを仮想空間に配置したうえ、ユーザの動作に応じて仮想的なインタラクションを実現し、その結果によって文字を変化させる。このため文字オブジェクト制御部５０は、ユーザの手の像も仮想空間に表し、文字のオブジェクトとのインタラクションを視覚的に表現する。

詳細には文字オブジェクト制御部５０は、オブジェクト生成部５２、インタラクション処理部５４、辞書記憶部５６、および位置制御部５８を含む。オブジェクト生成部５２は、音声認識部６２が音声を変換してなる文字情報を取得し、それをオブジェクトとして仮想空間に配置する。そのためオブジェクト生成部５２は、オブジェクトとして表すべき文字のフォント、色、サイズ、位置などの設定情報を内部で保持する。文字のオブジェクトは厚みを有する３次元オブジェクトとしてもよい。

またオブジェクト生成部５２は、音声から直接変換されない符号や顔文字なども、ユーザのジェスチャや音声に基づきオブジェクトとして生成し、仮想空間に表す。そのためオブジェクト生成部５２は、符号や顔文字と、それを入力するためのジェスチャや音声との対応を示す設定情報を内部で保持する。オブジェクト生成部５２はまた、ユーザが音声を発したと同時に行った手などのジェスチャに応じて、生成するオブジェクトの文字の種類を決定してもよい。

例えば図３の例で「Ｈｅｌｌｏ」との発声がなされたとき、同時に３本の指が立てられた状態であったら、アルファベットでなく片仮名で文字のオブジェクトを生成する。この場合、音声認識部６２がアルファベットで文字情報を生成しても、それを最初から修正するかたちで、片仮名のオブジェクトを生成することになる。なおオブジェクト生成部５２は、ユーザが所定のジェスチャをしている間に発声した音声のみを、文字のオブジェクトとして表す対象としてもよい。

例えばユーザが手をメガホンのような形にして口の左右に添えた状態で発した音声のみ、文字のオブジェクトとして表す。これにより、独り言などが意図せず文字化されるのを防止できる。インタラクション処理部５４は、仮想３次元空間に表された文字のオブジェクトに対するユーザの動きや音声に応じて文字のオブジェクトを修正する。このためインタラクション処理部５４は、ユーザの手の像を仮想空間に表し、視覚上、ユーザが文字のオブジェクトに触っている状態を作り出す。

手の像は、ユーザの実際の手の動きをリアルタイムに反映させることができれば、ヘッドマウントディスプレイ１００のステレオカメラ１１０などが撮影した実写映像でも、コンピュータグラフィクスにより描画された像でもよい。いずれにしろ、オブジェクト生成部５２が配置した文字のオブジェクトの位置に対応する位置にユーザが手を伸ばしたら、オブジェクト生成部５２は、ユーザが文字に触れたことを検出する。

そして修正したい文字のオブジェクトに触れながら音声で出された指示や、当該オブジェクトをつまんだり裏返したりする動きに応じて、触れられている文字やそれを含む単語を修正する。文字のオブジェクトをつまむ指の組み合わせに応じて修正内容を切り替えてもよい。さらに文字のオブジェクトに指の腹で触れたか、指の背で触れたかによって修正内容を切り替えてもよい。

辞書記憶部５６は、オブジェクト生成部５２が文字のオブジェクトを生成する際、およびインタラクション処理部５４が文字のオブジェクトを修正する際、用いるべき文字やその優先度を表した辞書を記憶する。例えば辞書記憶部５６は、単語ごとに、漢字、平仮名、片仮名、アルファベットなどの文字の種類、具体的な漢字、アルファベットの綴りなどの表記のバリエーションと、それらの優先順位を記憶する。

優先順位は、過去にオブジェクト生成部５２が文字のオブジェクトを生成した結果やインタラクション処理部５４がそれを修正した結果に基づき更新していくことにより、頻度に応じて最適化していく。辞書記憶部５６が記憶する辞書の少なくとも一部の単語は、音声入力がなされたときに同時に再生されていたコンテンツごとに別の優先順位を保持していてもよい。

例えば一般的には優先度が低い文字や通常は使われない文字を用いたバンド名のコンサート映像を再生している場合、それについての会話では、当該文字の優先順位を最初から上げておく方が変換精度を高くできる。コンテンツごとに優先順位を保持しておくことにより、同時に再生されているコンテンツに適した文字に即時に変換できるとともに、別のコンテンツを再生しているときに以前のコンテンツで学習された特殊な結果が反映されてしまうのを防ぐことができる。

同時に再生するコンテンツに限らず、特定の話題について語るコミュニティーにおいて、他のユーザとのコミュニケーションを目的に文字を入力する場合は、コミュニティーごとに別の優先順位を保持してよい。このような場合、コミュニティーに属するメンバーによる過去の文字変換の結果に基づき優先順位を学習させ、それをメンバー間で共有する。この場合も、コミュニティーにおける話題に即した優先順位で、効率的に文字を変換できる。

位置制御部５８は、オブジェクト生成部５２が仮想空間に配置した文字のオブジェクトを、文字情報全体に対し何らかの処理がなされたことを示すために移動させる。例えば文字のオブジェクトを発生、修正させた結果、完成した文章をネットワーク８を介して会話相手やゲーム空間などに送信させる操作がなされた場合、まずインタラクション処理部５４がそれを検知する。例えばインタラクション処理部５４は、ユーザが息を吹きかける音を送信操作として検出する。

これにより、完成させた文章に息が吹きかけられ飛んでいったような状況を演出できる。送信操作としてはこのほか、「送信」との発声を検出してもよいし、手を叩く音や動作、文字のオブジェクトを手で払う動作などを検出してもよい。送信操作がなされたことを検出したら、インタラクション処理部５４はその旨を位置制御部５８および通信部６０に通知する。これに応じて位置制御部５８は、文字のオブジェクトを仮想空間においてユーザから離れた位置に移動させる。

送信された文章を表すオブジェクトを仮想空間から消し去ることなく遠方に残しておくことにより、それを引き戻すことで送信を取り消せるようにしてもよい。例えば送信したあとに誤記を見つけた場合、ユーザは遠くに残っている対象のオブジェクトに手を伸ばして手前に引き戻し、修正して再度送信させる操作を行う。あるいは発言を取り消したいとき、引き戻した文章を削除してもよい。これらの動作はインタラクション処理部５４が検出し、位置制御部５８および通信部６０に通知することにより、適宜オブジェクトの移動処理や送信の取り消し処理を実施させる。

通信部６０はネットワーク８を介してサーバ２００など他の装置と通信を確立し、コンテンツのデータを取得したうえ画像生成部６６に供給する。通信部６０はさらに、文字のオブジェクトを用いて完成された文章などの文字情報を、ユーザの送信操作に応じて他の装置に送信する。例えば通信部６０は、ゲームサーバがストリーム転送する、複数のプレイヤが参加するネットゲームの画像を取得する。この際、必要に応じて他のプレイヤの発言内容も取得する。そして自身の装置で入力された文章をゲームサーバに送信する。

これにより、ゲーム空間でプレイヤ同士がコミュニケーションをとることができる。通信部６０はまた、一旦送信した文字情報を取り消す操作がなされたことをインタラクション処理部５４から通知されたとき、送信先へ必要な情報を送信することにより、送信の取り消し処理を実施する。通信部６０はさらに、コミュニティーに参加しているメンバー間で共有すべき、文字の変換先の優先順位に係る情報を適宜取得し、辞書記憶部５６に格納する。

触覚制御部７０は、文字オブジェクトに対するユーザの動きに対応する触覚刺激をユーザに与えるよう、触覚デバイス１３４を制御する。例えば上述のとおり、ユーザが文字のオブジェクトに触れたことを触覚的に演出する。あるいはジェスチャや動作によって文字のオブジェクトを操作する場合、操作内容によって異なる触覚刺激をユーザに与え、自分がしている動作やジェスチャがどの操作に対応しているかを確認できるようにする。

図６は、手による操作で文字の種類を修正する際の画面の例を示している。まず（ａ）に示す画面には、「Ｍａｋｅｉｔｓｏ！」という文字列のオブジェクト８２ａが表示されている。これは上述のとおり、文字オブジェクト制御部５０が、ユーザが発した音声やユーザのジェスチャに基づき仮想空間に生成した文字のオブジェクトを、画像生成部６６がビュースクリーンに射影したものである。仮想空間には他のオブジェクトが存在していてもよいし、コンテンツと共通の仮想空間でもよい。また画面内には、相手の発言を含む会話の内容が別途表示されていてもよい。

インタラクション処理部５４は、ユーザの実際の手をリアルタイムで反映させる手の像８４を仮想空間に表す。ここで小文字の「ｉｔ」を大文字の「ＩＴ」に修正したいとき、ユーザは図示するように、文字列のオブジェクト８２ａのうち「ｉｔ」をつまんで裏返す。するとインタラクション処理部５４はその動きを検出し、（ｂ）に示すように、つままれた部分を「ＩＴ」に変更したオブジェクト８２ｂとする。詳細にはインタラクション処理部５４は、ユーザがオブジェクトを裏返す手の動きとともにオブジェクトを回転させ、回転中の所定のタイミングで小文字から大文字に変化させる。

このような修正操作を実現するためインタラクション処理部５４には、文字のオブジェクトを裏返す動作と、小文字／大文字間の変換処理を対応づけた情報を設定しておく。以下に例示する操作も同様である。小文字／大文字に限らず、平仮名／片仮名、アルファベット／平仮名など、２種類の文字間の変換であれば同様の操作で修正が可能である。一方、（ａ）のように文字のオブジェクトをつまむ際、つまむ指の組み合わせで修正後の文字を切り替えてもよい。例えば図示するように親指と人差し指でつまんでいる場合は大文字、親指と中指でつまんでいる場合は平仮名、親指と薬指でつまんでいる場合は片仮名に変換する。

あるいは裏返す動作の代わりに、（ａ）のように文字のオブジェクトをつまんだ状態、あるいは触れた状態で、「変換」と発声されたことを検出したら、別の種類の文字に修正してもよい。この場合、「大文字に変換」と修正後の文字の種類を音声で指定するようにしてもよい。さらに、文字のオブジェクトに触れたあとに作られた指の形に応じて、修正後の文字の種類を特定し、修正してもよい。

図７は、誤認識された文字を修正する際の画面の例を示している。（ａ）の画面では「Ｔｈａｔ’ｓｌｉｇｈｔ！」という文字列のオブジェクト８６ａが表示されている。この画面に対しユーザが、「ｌｉｇｈｔ」のオブジェクトに触れながら、図の右に示すように「ｒ、ｉ、ｇ、ｈ、ｔ」と綴りを発声させると、インタラクション処理部５４はそれを認識し、（ｂ）に示すように「ｌｉｇｈｔ」のオブジェクトの綴りを「ｒｉｇｈｔ」に修正しオブジェクト８６ｂとする。

修正はこのような単語単位でもよいし文字単位でもよい。いずれにしろ修正したい箇所に触れた状態で発せられた音声により、文字オブジェクトの一部のみを自由に修正できるようにする。図示するように、アルファベットを順次言うことにより綴りを修正する場合のほか、語句を言い直すことにより誤認識を修正してもよい。

図８は、文字のオブジェクトに触れる指の向きによって修正内容を異ならせる様子を示している。同図は、図６、７で示したような画面のうち文字のオブジェクトと手の像のみを抽出して示している。（ａ）は、図７の（ａ）から（ｂ）への修正のように、「ｌｉｇｈｔ」のオブジェクトに触れた状態で正しい綴りを発声することにより、「ｌｉｇｈｔ」が「ｒｉｇｈｔ」に修正された状態を示している。この修正は、触れた文字を発声によって上書きしていると捉えることができる。

図示する例ではインタラクション処理部５４は、指の腹で文字のオブジェクトに触れていることを検出し、上書き操作がなされたと判断する。一方、（ｂ）のように、文字のオブジェクトに指の背（爪側）で触れている場合は、触れた単語の前に文字を挿入する操作とする。図示する例では、（ａ）の状態における「ｒｉｇｈｔ」のオブジェクトに指の背で触れ、「ａｌｌ」と発声することで、「ｒｉｇｈｔ」のオブジェクトの前に「ａｌｌ」のオブジェクトが挿入されている。

文字のオブジェクトに触れる指の向きの区別は、上書き／挿入の切り替え以外に、アルファベットを平仮名にするか片仮名にするかといった、修正後の文字の種類の切り替えにも利用できる。カメラ１３２としてマルチスペクトルカメラを導入することにより、その撮影画像から指の向きを精度よく認識できる。可視光のカメラであっても、色や形状などの特徴から見かけ上の爪の有無を判断し、指の向きを特定できる。このような場合に、撮影画像における特徴と指の向きの関係を深層学習により最適化していくことで、向きの特定精度を向上させてもよい。

図９は、音声以外の入力手段として、ジェスチャによって顔文字を入力する手法の例を説明するための図である。（ａ）に示すようにユーザ９０はヘッドマウントディスプレイ１００を装着し、これまで例示したような文字オブジェクトを含む画面を見ている。ここでユーザ９０が、自分の顔を仮想空間に持って行くようなジェスチャをした場合、インタラクション処理部５４はそれを検出し。仮想空間に顔が置かれたようにして顔文字のオブジェクトを仮想空間に表す。

（ａ）の例では、ユーザ９０が自分の顎近傍を親指と人差し指で挟み、仮面を外すようにして擬似的に前方に差し出している。ユーザ９０の前方は仮想的には文字のオブジェクトの存在する空間であるため、インタラクション処理部５４はビュースクリーンの前まで手が伸びた時点で、仮想空間に顔文字のオブジェクトを出現させる。そしてユーザの動きにより顔文字のオブジェクトが修正中の文字のオブジェクト９２近傍まで到達したら、（ｂ）に示すように、当該文字のオブジェクト９２に顔文字のオブジェクト９４を追加する。

図では、「Ｈｅｌｌｏ！」という既存のオブジェクト９２の後に、ほほえむ顔文字のオブジェクト９４が追加された状態を示している。ここで顔文字の表情には、顔文字を追加するためのジェスチャを開始したときのユーザ９０自身の顔の表情を反映させてもよい。この場合、動作認識部６４は、ユーザ９０の顔を撮影した画像に対し表情認識や感情認識を実施し、笑う、泣く、怒るといった表情カテゴリのどれに該当するかを特定する。ヘッドマウントディスプレイ１００の内部にユーザ９０の目を撮影するカメラを設け、目の形状などから感情を認識できるようにしてもよい。

その他、表情認識や感情認識には様々な手法があり、そのうちいずれの手法を採用してもよい。インタラクション処理部５４はその認識結果に基づき、顔文字の表情を決定する。また一旦、追加された顔文字の表情を後から修正できるようにしてもよい。この場合も文字の修正と同様、顔文字のオブジェクト９４に触れられた状態で、音声などにより表情のカテゴリが指示されたら、インタラクション処理部５４がそれを検出し表情を修正する。

あるいは顔文字のオブジェクト９４をつまんで裏返すことにより、別の表情に変更してもよいし、つまむ指の組み合わせによって変更後の表情を切り替えてもよい。指の腹で触れたか指の背で触れたかによって、変更後の表情を切り替えてもよい。顔文字に限らず通常の発話では表現できない符号などには、別途音声やジェスチャを対応づけておくことにより、インタラクション処理部５４がそれを検出しオブジェクトとして表す。

ジェスチャを利用する場合、符号の意味と関連性の高いジェスチャを対応づけることにより、覚えやすいジェスチャで直感的な操作が可能となる。例えばピリオドの入力には拳で何かを打つジェスチャを対応づけると、文の最後にスタンプを押すことが連想され理解されやすい。そのほか、手を叩くジェスチャで感嘆符を入力したり、首を傾けるジェスチャで疑問符を入力したりしてもよい。音声を利用する場合は、「感嘆符」、「疑問符」などの符号の名前を利用してもよい。

入力した文字を削除する場合も、ジェスチャを利用することで操作が容易になる。例えば削除したい文字や単語に２本線を引くように、オブジェクト上で指を２回スライドさせたら、当該文字や単語を削除する。削除したい文字や単語のオブジェクトをつまんで飛ばすジェスチャを削除の操作としてもよい。あるいは削除したい文字や単語のオブジェクトに触れられた状態で、「削除」という音声が発せられたら削除するようにしてもよい。

図１０は、入力した文字情報を送信する際の画面の変遷を例示している。（ａ）の画面は、これまで述べたようにして「Ｈｅｌｌｏ！」という文字のオブジェクト９６が完成した状態を示している。ここでユーザが息を吹きかける、文字のオブジェクトを手で払う、あるいは「送信」と言うなどの所定の音声や動きを生じさせたら、インタラクション処理部５４はそれを検出し、通信部６０に文字情報の送信を要求する。これにより通信部６０は、オブジェクトとして表されている「Ｈｅｌｌｏ！」を文字のデータとして、通信相手のサーバ２００や他の情報処理装置に送信する。

すると位置制御部５８は（ｂ）に示すように、文字のオブジェクト９６を元の位置から移動させることにより、送信済みであることがわかるようにする。図示する例では、仮想空間の奥に移動させている。新たに文字入力を行う場合、オブジェクト生成部５２が新たな文字のオブジェクトを手前に配置することにより、ユーザは文字列が送信済みか作成中かを、仮想空間での位置で判別できる。ここで、ユーザが奥にあるオブジェクト９６を手前に引き戻すように動いた場合、インタラクション処理部５４はそれを検出し、送信を取り消す操作と判断する。

この際、位置制御部５８は、ユーザの手に追随するようにオブジェクト９６を手前に移動させる。インタラクション処理部５４からの送信取り消し要求に応じ、通信部６０はサーバ２００等にアクセスし、送信を取り消すための手続きを実行する。ここではＳＮＳなどにおいて投稿を削除するのに用いられる一般的な手続きを利用できる。ユーザは、引き戻した文字のオブジェクト９６に対し、上述したように修正や削除の操作を行い、必要に応じて再び送信してもよい。

文字のオブジェクトを奥から手前に引き戻す動きは、手放した文字を取り戻すことを連想させるため、送信の取り消しと対応づけることにより理解されやすく、直感的な操作を実現できる。仮想空間における文字のオブジェクトの位置によって文字情報全体の状態を表す手法は、データ送信／未送信の区別以外に、作成した文章を記憶装置に保存したか否かの区別などにも利用できる。

次に、以上の構成によって実現される画像処理装置１０の動作について説明する。図１１は、本実施の形態における画像処理装置１０が文字の入力に関する処理を行う手順を示すフローチャートである。このフローチャートは例えば、ヘッドマウントディスプレイ１００においてユーザがコンテンツを視聴している状態で開始される。またこの例は、文章を作成して会話相手などに送信することを想定している。

まずユーザが、文字入力を開始するための所定のジェスチャを行ったら、文字オブジェクト制御部５０はそれを検出し、処理を開始する（Ｓ１０）。なお文字オブジェクト制御部５０は、処理の開始タイミングと終了タイミングを示す所定のジェスチャを検出し、その間に発せられた音声を全て文字オブジェクトとして表してもよいし、上述のとおり手をメガホンのようにして口にあてるなど、ユーザが所定のジェスチャや姿勢をとっている間に発せられた音声のみを文字オブジェクトとして表してもよい。

そして文字オブジェクト制御部５０のオブジェクト生成部５２は、音声認識部６２からユーザが発した音声の内容を取得する（Ｓ１２）。ここで音声の内容とは実質的に、音声を表す文字情報であるが、音声認識部６２は一般的なアルゴリズムにより文字情報への変換を行う一方、オブジェクト生成部５２は、それを適宜修正したうえで、オブジェクトとして仮想空間に表す（Ｓ１４）。例えばユーザが発声とともに、文字の種類を指定するジェスチャをしていたら、当該ジェスチャに対応する種類で文字のオブジェクトを生成する。

あるいは同時に再生しているコンテンツの内容や、参加しているコミュニティーによって、変換する文字の優先順位を異ならせる場合は、その情報を辞書記憶部５６から読み出し、優先度の高い文字に変換したうえでオブジェクトを生成する。このようにして生成された文字のオブジェクトは、画像生成部６６がヘッドマウントディスプレイ１００のビュースクリーンに射影し、出力部６８がヘッドマウントディスプレイ１００に出力することにより、表示画像として表される。

この状態でインタラクション処理部５４は、音声認識部６２や動作認識部６４からの情報に基づき、ユーザが音声や動作で文字のオブジェクトに対し何らかの操作を行うのを待機する（Ｓ１６）。すなわちユーザが仮想空間で文字のオブジェクトの一部に触れ、音声や動作でその文字を修正したり削除したりする操作を受け付ける。あるいは音声やジェスチャで、顔文字や符号を追加する操作を受け付ける。それらの操作がなされたら（Ｓ１６のＹ）、インタラクション処理部５４は文字のオブジェクトに対し、それぞれに対応する修正を加える。

この際、触覚制御部７０は、文字のオブジェクトを触ったり各種操作を行ったりしている感覚をユーザに与えるように、各タイミングで触覚デバイス１３４に制御信号を送信する。またインタラクション処理部５４は、上述した音声やジェスチャにより、作成された文字情報を送信する操作も待機する（Ｓ２０）。送信操作がなされないうちは修正操作を受け付ける（Ｓ２０のＮ）。修正操作が完了し、送信操作がなされたら（Ｓ１６のＮ、Ｓ２０のＹ）、インタラクション処理部５４がその旨を通知することにより、通信部６０が送信処理を実施する（Ｓ２２）。

この際、位置制御部５８は、送信された文字のオブジェクトを仮想空間の別の位置に移動させる（Ｓ２４）。図示するフローチャートは、１つの文章を作成して送信するための一連の処理手順を示している。したがって別の文章を作成して送信する場合は、同様の処理を繰り返す。上述したように一旦送信した文章を取り消して修正する場合は、Ｓ１０からＳ１４の処理の代わりに、送信の取り消し処理とオブジェクトの位置を戻す処理を加えればよい。

以上述べた本実施の形態によれば、ユーザが発した音声を文字のオブジェクトとして仮想空間に表す。そしてユーザが手を用いて文字のオブジェクトを仮想的に扱えるようにする。これにより、キーボードなどの入力装置を用いずに文字を入力できるうえ、音声の誤認識があっても容易に修正できる。この際、同時に再生されているコンテンツや参加しているコミュニティー特有の辞書を用いることにより、修正の手間も最小限に抑えることができる。

また仮想空間での文字とのインタラクションという特有の状況を演出することにより、キーボードやカーソルを用いる場合と比較しユーザフレンドリーなインターフェースを実現できる。例えばユーザの顔を擬似的につかんで運ぶ動きにより顔文字を入力したり、文字のオブジェクトを裏返して別の文字に修正したりといったように、娯楽性と効率性を両立できる。さらに送信した文字情報を仮想空間の別の位置に残しておくことにより、送信の取り消しや修正を直感的な操作で容易にできる。

以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

例えば本実施の形態では、画面上で文字のオブジェクトとインタラクションする手を、ユーザの手の撮影画像かそれを模したグラフィクス画像とした。一方、実世界の像を透過させる眼鏡において、実像に融合するように仮想オブジェクトを表示するＡＲ眼鏡を利用してもよい。この場合ユーザの手は眼鏡を透過した実像でよく、文字オブジェクト制御部５０は、文字のオブジェクトのみをＡＲ眼鏡に表示させる。このようにしても、本実施の形態で述べたのと同様の効果が得られる。

１０画像処理装置、２３ＣＰＵ、２４ＧＰＵ、２６メインメモリ、３２通信部、３４記憶部、３６出力部、３８入力部、４０記録媒体駆動部、５０文字オブジェクト制御部、５２オブジェクト生成部、５４インタラクション処理部、５６辞書記憶部、５８位置制御部、６０通信部、６２音声認識部、６４動作認識部、６６画像生成部、６８出力部、７０触覚制御部、１００ヘッドマウントディスプレイ、１１０ステレオカメラ、１３０マイクロフォン、１３２カメラ、１３４触覚デバイス、２００サーバ。

Claims

ユーザが発する音声を認識する音声認識部と、
ユーザの動作を認識する動作認識部と、
３次元の仮想空間に、前記音声の内容を表す文字のオブジェクトを配置し、前記動作に応じたインタラクションを実現することにより、文字を変化させる文字オブジェクト制御部と、
前記仮想空間を射影してなる画像を表示させる画像生成部と、
を備えたことを特徴とする画像処理装置。
前記文字オブジェクト制御部は、仮想空間において前記文字のオブジェクトにユーザが接触した状態において発せられた音声または動作に応じて、当該文字を修正または削除することを特徴とする請求項１に記載の画像処理装置。
前記文字オブジェクト制御部は、仮想空間において前記文字のオブジェクトをつまんで裏返す動作に応じて、当該文字を修正することを特徴とする請求項１または２に記載の画像処理装置。
前記文字オブジェクト制御部は、仮想空間において前記文字のオブジェクトをつまむ指の組み合わせに応じて、修正後の文字を切り替えることを特徴とする請求項３に記載の画像処理装置。
前記文字オブジェクト制御部は、仮想空間において前記文字のオブジェクトに触れる指の向きに応じて、修正の態様を異ならせることを特徴とする請求項２から４のいずれかに記載の画像処理装置。
前記文字オブジェクト制御部は、ユーザが自分の顔を前記仮想空間に置く動作に応じて、顔文字のオブジェクトを前記仮想空間に配置することを特徴とする請求項１から５のいずれかに記載の画像処理装置。
前記文字オブジェクト制御部は、前記置く動作が開始された際のユーザの顔の表情を、前記顔文字に反映させることを特徴とする請求項６に記載の画像処理装置。
前記文字オブジェクト制御部は、前記顔文字のオブジェクトにユーザが接触した状態において発せられた音声または動作に基づき、当該顔文字の表情を修正することを特徴とする請求項６または７に記載の画像処理装置。
前記文字オブジェクト制御部は、発声と同時になされたユーザのジェスチャに基づき、オブジェクトとして表す文字の種類を決定することを特徴とする請求項１から８のいずれかに記載の画像処理装置。
前記文字オブジェクト制御部は、ユーザのジェスチャに基づき、対応する符号を表すオブジェクトを、前記文字のオブジェクトに追加することを特徴とする請求項１から９のいずれかに記載の画像処理装置。
前記文字オブジェクト制御部は、ユーザが所定のジェスチャをしている間に発声した音声のみを、前記文字のオブジェクトとして表すことを特徴とする請求項１から１０のいずれかに記載の画像処理装置。
前記オブジェクトとして表された文字列の送信操作に応じて、当該文字列のデータを通信先に送信する通信部をさらに備え、
前記文字オブジェクト制御部は、送信された文字列のオブジェクトを、前記仮想空間における所定の位置に移動させることを特徴とする請求項１から１１のいずれかに記載の画像処理装置。
前記文字オブジェクト制御部は、ユーザが前記文字列のオブジェクトに対し行った動作または発した音に基づき、前記通信部に当該文字列のデータ送信を要求することを特徴とする請求項１２に記載の画像処理装置。
前記文字オブジェクト制御部は、移動させた文字列のオブジェクトをユーザが引き戻す動作に応じて、前記通信部に、当該文字列のデータ送信の取り消しを要求することを特徴とする請求項１２または１３に記載の画像処理装置。
前記画像生成部は、コンテンツの画像とともに前記射影してなる画像を表示させ、
前記文字オブジェクト制御部は、前記コンテンツごとに保持する優先順位に基づき、前記オブジェクトとして表す文字を決定することを特徴とする請求項１から１４のいずれかに記載の画像処理装置。
前記文字オブジェクト制御部は、複数のユーザによる過去の文字変換の結果により学習された優先順位に基づき、前記オブジェクトとして表す文字を決定することを特徴とする請求項１から１４のいずれかに記載の画像処理装置。
前記動作認識部は、可視光カメラ、マルチスペクトルカメラ、およびデプスカメラの少なくともいずれかから取得した画像、またはユーザが装着するセンサの計測値に基づき、前記動作を認識することを特徴とする請求項１から１６のいずれかに記載の画像処理装置。
ユーザが装着した触覚デバイスに、前記オブジェクトに対するユーザの動きに応じた触覚刺激を提示させる触覚制御部をさらに備えたことを特徴とする請求項１から１７のいずれかに記載の画像処理装置。
ユーザが発する音声を認識するステップと、
ユーザの動作を認識するステップと、
３次元の仮想空間に、前記音声の内容を表す文字のオブジェクトを配置するステップと、
前記仮想空間を射影してなる画像を表示装置に表示させるステップと、
前記動作に応じた前記オブジェクトとのインタラクションを実現することにより、文字を変化させるステップと、
を含むことを特徴とする、画像処理装置による画像処理方法。
ユーザが発する音声を認識する機能と、
ユーザの動作を認識する機能と、
３次元の仮想空間に、前記音声の内容を表す文字のオブジェクトを配置し、前記動作に応じたインタラクションを実現することにより、文字を変化させる機能と、
前記仮想空間を射影してなる画像を表示させる機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラム。