WO2023286320A1

WO2023286320A1 - 情報処理装置および方法、並びにプログラム

Info

Publication number: WO2023286320A1
Application number: PCT/JP2022/007804
Authority: WO
Inventors: 健太郎木村; 淳也鈴木
Original assignee: ソニーグループ株式会社
Priority date: 2021-07-12
Filing date: 2022-02-25
Publication date: 2023-01-19
Also published as: US20240340605A1

Abstract

本技術は、発話者の音声を聞き分けやすくすることができるようにする情報処理装置および方法、並びにプログラムに関する。情報処理装置は、聴取者の向きを示す向き情報と、聴取者により設定された仮想空間上の聴取者の位置を示す仮想位置情報と、発話者の仮想位置情報とに基づいて、聴取者の向きおよび位置と、発話者の位置とに応じた位置に定位する発話者の音声を生成する情報処理部を備える。本技術はリモート会話システムに適用することができる。

Description

情報処理装置および方法、並びにプログラム

　本技術は、情報処理装置および方法、並びにプログラムに関し、特に、発話者の音声を聞き分けやすくすることができるようにした情報処理装置および方法、並びにプログラムに関する。

　現代の働き方の変化により、リモートでの会議や会話といった、業務の上でのコミュニケーションが増えてきている。また、他者とリモートでつながった状態で、映画やコンサート、ゲームなどのコンテンツを楽しみながら音声でのコミュニケーションをする機会も増えてきている。

　例えば、リモートでの会話に関する技術として、ディスプレイ上に自身のアイコンを表示させ、そのアイコンをカーソルでドラッグすることで自身の向きを設定し、その向きの正面にいるほど音声が届く範囲が広くなるようにする技術が提案されている（例えば、非特許文献１参照）。

oVice，［online］，［令和3年7月6日検索］，インターネット＜URL：https://ovice.in/ja/＞

　しかしながら、リモートでの他者とのつながりは便利な一方で、発話者の音声が全てモノラルで再生されてしまうため、複数人環境においては、対面でのコミュニケーションで普段行っている相槌、リアクション、気軽な発話や発声などを行うことが難しくなる。

　具体的には、例えばモノラル音声だと、複数の発話者の声が重なって聞こえづらさの原因になりやすい。すなわち、複数の発話者の音声を聞き分けることが困難な場合がある。そのため、他の人の話にかぶらないように自分が話すタイミングを見計らって話すなどといった工夫が必要になる。

　本技術は、このような状況に鑑みてなされたものであり、発話者の音声を聞き分けやすくすることができるようにするものである。

　本技術の一側面の情報処理装置は、聴取者の向きを示す向き情報と、前記聴取者により設定された仮想空間上の前記聴取者の位置を示す仮想位置情報と、発話者の前記仮想位置情報とに基づいて、前記聴取者の向きおよび位置と、前記発話者の位置とに応じた位置に定位する前記発話者の音声を生成する情報処理部を備える。

　本技術の一側面の情報処理方法またはプログラムは、聴取者の向きを示す向き情報と、前記聴取者により設定された仮想空間上の前記聴取者の位置を示す仮想位置情報と、発話者の前記仮想位置情報とに基づいて、前記聴取者の向きおよび位置と、前記発話者の位置とに応じた位置に定位する前記発話者の音声を生成するステップを含む。

　本技術の一側面においては、聴取者の向きを示す向き情報と、前記聴取者により設定された仮想空間上の前記聴取者の位置を示す仮想位置情報と、発話者の前記仮想位置情報とに基づいて、前記聴取者の向きおよび位置と、前記発話者の位置とに応じた位置に定位する前記発話者の音声が生成される。

立体音響を用いたリモート会話について説明する図である。遅延による聴取者の向きのずれについて説明する図である。リモート会話システムの構成例を示す図である。サーバの構成例を示す図である。クライアントの構成例を示す図である。向き情報について説明する図である。仮想会話空間内における座標系について説明する図である。聴取者の向きの変化について説明する図である。レンダリング音声と提示用音声の定位位置の関係を示す図である。提示用音声の生成について説明する図である。選択的発話と選択的聴取について説明する図である。顔の向きの差分と音声の指向性について説明する図である。顔の向きの差分と周波数帯域ごとの音圧変化について説明する図である。情報処理部の構成例を示す図である。音声送信処理を説明するフローチャートである。音声生成処理を説明するフローチャートである。再生処理を説明するフローチャートである。情報処理部の構成例を示す図である。音像の定位位置の分布の調整について説明する図である。配置位置調整処理を説明するフローチャートである。表示画面例を示す図である。表示画面例を示す図である。表示画面例を示す図である。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、聴取者により設定された聴取者の仮想空間上の位置と、聴取者の向きと、発話者の仮想空間上の位置とに応じた位置に発話者の音声の音像を定位させることで、発話者の音声を聞き分けやすくするものである。

　上述のように、リモートでの他者とのつながりは便利な一方で、発話者の音声が全てモノラルで再生されてしまうため、複数人環境においては、対面でのコミュニケーションで普段行っている相槌、リアクション、気軽な発話や発声などを行うことが難しくなる。

　具体的には、例えば以下に示す点に関して改善の余地がある。

（１）モノラル音声だと複数の発話者の声が重なって聞こえづらさの原因になりやすいため、他の人の話にかぶらないように自分が話すタイミングを見計らって話す工夫が必要になる

（２）しゃべらないときはミュートするか、または声が入らないようにするため、発話者は相槌や返答など聴衆の反応がわからず、コミュニケーション密度が希薄化する

（３）人の位置関係の情報が欠落しているため、位置による発話者間の会話のつながりや会話の向き、関係性が分からず、コミュニケーションがとりづらい

　現行の多者音声会議においては、音声が典型的にはみな聴取者に対してモノラル・オーディオ・ストリームとしてレンダリングされている。すなわち、複数の発話者の音声が互いに重畳され、例えばヘッドフォンが使われるときには、一般的に聴取者に対して頭の中でそれらの発話者の音声が提示される。

　例えば、話す人々を異なるレンダリングされる位置からシミュレートするために使われる立体音響化（spatialization）技法を利用すれば、音声会議において、特に発言している複数の人がいるときに、発話の了解性（intelligibility）を改善することができる。

　そこで、本技術では、聴取者がオーディオを用いたリモート会話の異なる話者を簡単に区別できるようにする、リモート会話のための適切な二次元（2D）または三次元（3D）でのリモート会話空間を設計する技術的課題に対処する。

　すなわち、本技術では、立体音響を用い、発話者の音声を個別に空間配置することで、人の認知機能であるカクテルパーティー効果を適用可能にし、上述した改善の余地があるとした点について改善することができるようにした。

　カクテルパーティー効果により、同時に聞こえる複数の音声をそれぞれ聞き分けつつ、雑音下においても意識を向けた音声を聞き取れるようになる。

　したがって、例えば図１に示すように、リモート会話の参加者が同時発声しても、それらの参加者の音声を聞き分けて発話者を簡単に区別することができるような会話空間を実現することができる。

　図１の例では、ユーザU11乃至ユーザU13の３名により、仮想的な会話空間における立体音響を用いたリモート会話が行われている。特に、この例では多重の円が発話音声の音像定位位置を表しており、発話者であるユーザU12の発話音声と、ユーザU13の発話音声とは、立体音響により互いに異なる位置に定位している。そのため、聴取者であるユーザU11は、それらの発話音声を容易に聞き分けることができる。

　音声の聞き分けが可能になると、発声が重なること、つまり同時に複数の発話が生じることに対して抵抗がなくなるため、上述した改善の余地があるとした点（１）と（２）を解決することができる。

　また、上述の改善の余地があるとした点（３）に関しても、聴取者側が気軽に相槌などの反応をすることができるようになるため、コミュニケーションの双方向性が改善する効果が得られる。

　立体音響を用いたリモートコミュニケーションを実現するための本技術の特徴を以下に示す。

（特徴１）
　投機的立体音響レンダリング

　本技術の１つ目の特徴（特徴１）は、立体音響のレンダリングをサーバサイドで行うなど、立体音響処理と再生タイミングで時間のずれが発生する際に、事前に複数方向のストリーム生成・配信による複数リアルタイムボディトラッキングの実現である。

　例えば、聴取者であるユーザの頭部向きの変化に応じて、発話者である他のユーザの音声の音像配置を、聴取者の頭部の回転方向とは逆方向に回転させることで、発話者の音声の方向を空間座標上において固定することができる。

　このような音像配置を回転させる処理系において、聴取者の頭部の向きの変化が発生してから、頭部の向きの変化後の音の再生までの遅延の短さは体験の自然さにおいて非常に重要な要素である。

　また、一方で立体音響処理には多くのメモリや、高速で処理を行うことが可能なCPU（Central Processing Unit）が必要となるため、計算資源が豊富なサーバ側に立体音響処理機能をもたせることが求められるユースケースが多々存在する。

　例えば、そのようなユースケースとして、ユーザがTV、Webサイト、処理能力の低い、いわゆる低スペックな端末や低消費電力な端末等を利用するケースが考えられる。

　このような場合、各ユーザの端末は、サーバに対してユーザの向きや位置の情報、発話音声などを送信するとともに、サーバから他のユーザの音声を受信し、受信した音声を自身の端末で再生することになる。

　ところが、ユーザの端末において他のユーザの音声を再生するまでには、例えばサーバにユーザの顔の向きやユーザの位置情報を送信する、サーバから立体音響処理後の音声ストリームを受信する、バッファを確保するなどの処理が行われる。また、それらの処理が行われている間に、ユーザの顔の向きや位置が変化してしまうことがある。

　そのため、例えば図２に示すように、ユーザの顔の向きや位置が変化してから、変化後に、サーバから受信した他のユーザの音声を再生するまでの間に100msを超えるような大きな遅延が発生してしまうことがある。

　なお、図２において横軸は時間を示しており、縦軸はユーザの顔が向いている方向を示す角度、すなわちユーザの顔の向きを示している。

　この例では曲線L11は、ユーザの実際の顔の向きの時系列の変化を示している。また、曲線L12は、再生される他のユーザの音声をレンダリングするために用いたユーザの顔の向き、つまり再生される立体音響のレンダリング時におけるユーザの顔の向きの時系列の変化を示している。

　曲線L11と曲線L12を比較すると、これらの曲線L11と曲線L12とでは、ユーザの顔の向きについて遅延量MA11に示す分の遅延が生じている。そのため、例えば時刻t11においては、実際のユーザの顔の向きと、再生される音声のレンダリングに用いたユーザの顔の向きとの間には差分MA12だけずれがあり、このずれはユーザが知覚する角度のずれとなる。

　また、サーバ以外においても、立体音響処理から音声の再生までに遅延が生じるような場合には、上述のサーバの例と同様の事象が発生してしまう。

　そこで、本技術では、サーバ側において聴取者の複数の顔の向きについて立体音響をレンダリングするようにした。また、クライアントは受け取った複数の向きごとの音声を、遅延時間に発生したユーザの顔の向きを示す角度の変化に基づいて、VBAP（Vector Base Amplitude Panning）法等に基づいた割り合いでMIX処理（加算処理）する。

　そうすることで、サーバを介して発生する遅延時間分を考慮した音声を生成することができる。なお、サーバ以外の装置でレンダリングを行う場合においても、遅延時間が発生する際に遅延分の補償を同様にして行うことができる。

（特徴２）
　選択的発話と選択的聴取

　本技術の２つ目の特徴は、発話者および聴取者の顔の向きと位置関係にリアルタイム連動し、聴取時の音声の周波数特性、音圧、音の見かけの幅を信号処理により変化させる、発声の放射特性と聴取の向きの特性をリモート会話空間内において実現することである。換言すれば、本技術の２つ目の特徴は、選択的発話と選択的聴取の実現である。

　立体音響によって、声の聞き分けができる状態になるものの、全方向から複数の発話者の音声が等しく鳴ると（到来すると）、それらの音声の聞き分けやすさが低下してしまう。

　そこで、本技術では、聴取者が聞きたい音声の方向、つまり聞きたい音声を発した発話者の方向を向くと、正面にあるその音声が明瞭に聞こえるようにする表現を実現した。以下、このような音声再生時の表現を選択的聴取とも称することとする。

　選択的聴取では、聴取者の正面以外の方向から到来する音声は、その音声の音源位置（発話者の位置）が聴取者の真後ろに近くなるにしたがって音量が小さく、こもった音、すなわち中高音域の音圧が低い音や、スカスカな音、つまり中低音域の音圧が低い音に聞こえるような音響処理も行われる。

　また、立体音響によって、１つのリモート会話空間に、複数の参加者が配置され、誰が話しているかを区別することはできるようになった一方で、発話者が誰に対して話しているかを表現することはできない。

　そのため、発話者は、特定の人に向けて話しかける際には「これってどう思います？XXさん。」のように意識的に名前を呼びかける必要があった。

　そこで、本技術では、発話者の発声の放射特性を再現し、発話者がある聴取者の方を向いていれば、聴取者には、その発話者の音声が明瞭に聞こえるようにする表現を実現した。以下、このような音声再生時の表現を選択的発話者とも称することとする。

　選択的発話では、発話者が聴取者の方向を向いていなくなるほど、つまり発話者が自分とは離れた方向を向いているほど、発話者の音声は音量が小さく、こもった音（中高音域の音圧が低い音）や、スカスカな音（中低音域の音圧が低い音）に聞こえるような音響処理も行われる。

（特徴３）
　密集音像の自動配置調整と発話頻度に応じた自動配置の優先度調整

　本技術の３つ目の特徴は、発話者が密集した場合においても、声の聞き分けのしやすさを保てるよう、複数の発話音声提示における最小間隔（角度）に基づいた音声提示位置の自動制御を実現することである。

　仮想会話空間における発話者や聴取者の位置を、発話者や聴取者となるユーザが操作（決定）できる場合、発話者が密集したり、複数の発話者と聴取者が一列に並んだりすると、聴取者には複数の発話音声が同一方向から到来するように提示される。そうすると、発話者の発話音声の聞き分けやすさが損なわれてしまう。

　そこで、本技術では、聴取者自身から見た複数の発話音声の到来方向を比較し、到来方向同士のなす角度が事前に設定した最小間隔（角度）を下回らないよう、仮想会話空間における発話者の配置位置の間隔を自動的に調整するようにした。すなわち、密集音像の自動配置調整を行うようにした。そうすることで、声の聞き分けやすさを保った状態で、リモート会話を継続することができる。

　しかし、そのような配置位置の調整を行ったとしても、リモート会話の参加人数が多い状況では、参加者全員についてユーザ間の間隔を確保しようとすると、調整後のユーザ（発話者）の配置位置が本来の配置位置から大きくずれてしまうことがある。また、そもそも仮想会話空間上で全てのユーザを一定の間隔を保って配置できるスペースがなくなってしまうこともある。

　そこで、本技術では、例えば参加人数が多いなど、密集音像の自動配置調整を適切に行うことができない場合に、さらに発話頻度に応じた優先度に基づく自動配置調整を行うようにした。

　この場合、例えば１または複数のユーザ（参加者）からなる会話グループや発話者ごとに会話頻度が解析され、会話頻度の高い会話グループや発話者ほど、ユーザ間の間隔が確保できるよう優先され（高い優先度とされ）、それ以外の会話グループや発話者においては優先度が下げられる。そして、得られた優先度によって最小間隔を保たなければならない音声を取捨選択することで、優先度の高い音声、つまり優先度の高い会話グループや発話者の音声は聞き分けできる状態を保ち続けることができるように各ユーザの仮想会話空間上の配置位置が調整される。

〈リモート会話システムの構成例〉
　図３は、本技術を適用したリモート会話システム（Tele-communicationシステム）の一実施の形態の構成例を示す図である。

　このリモート会話システムは、サーバ１１およびクライアント１２Ａ乃至クライアント１２Ｄを有しており、これらのサーバ１１およびクライアント１２Ａ乃至クライアント１２Ｄは、インターネットなどのネットワークを介して相互に接続されている。

　また、ここではクライアント１２Ａ乃至クライアント１２Ｄが、リモート会話の参加者であるユーザＡ乃至ユーザＤが使用するＰＣ（Personal Computer）等の情報処理装置（端末装置）として示されている。

　なお、リモート会話の参加者の数（参加者数）は４人に限定されず、２以上であれば何人であってもよい。

　また、以下、クライアント１２Ａ乃至クライアント１２Ｄを特に区別する必要のない場合、単にクライアント１２とも称することとする。同様に、以下、ユーザＡ乃至ユーザＤを特に区別する必要のない場合、単にユーザとも称することとする。

　特に、ユーザのうち、発話を行っているユーザを発話者（話者）とも称し、他のユーザの発話音声を聞いているユーザを聴取者とも称する。

　リモート会話システムでは、各ユーザは、例えばヘッドフォンや、ステレオタイプのイヤホン（インナーイヤーヘッドホン）、耳穴を密閉しないオープンイヤー型（開放型）のイヤホンなどの音声出力装置を装着し、リモートでの会話に参加する。

　音声出力装置は、クライアント１２の一部として設けられていてもよいし、有線または無線によりクライアント１２に接続されているようにしてもよい。

　サーバ１１は、複数のユーザがオンライン上で行う会話（リモート会話）を管理する。換言すればリモート会話システムでは、リモート会話のためのデータ中継のハブとしてサーバ１１が１つ設けられている。

　サーバ１１は、クライアント１２からユーザが発話した音声と、そのユーザの顔の向き（方向）を示す向き情報を受信する。また、サーバ１１は、受信した音声に対して立体音響のレンダリング処理を行い、その結果得られた音声を聴取者となるユーザのクライアント１２へと送信する。

　具体的には、例えばユーザＡが発話を行った場合、サーバ１１は、ユーザＡのクライアント１２Ａから受信した発話音声に基づいて立体音響のレンダリング処理を行い、音像が仮想会話空間におけるユーザＡの配置位置に定位するような音声を生成する。このとき、ユーザＡの音声は、配信先となるユーザごとに生成される。そしてサーバ１１は、生成したユーザＡの発話の音声を、クライアント１２Ｂ乃至クライアント１２Ｄへと送信する。

　すると、クライアント１２Ｂ乃至クライアント１２Ｄは、サーバ１１から受信したユーザＡの発話の音声を再生する。これにより、ユーザＢ乃至ユーザＤは、ユーザＡの発話を聞くことができる。

　なお、より詳細には、サーバ１１ではユーザＡの発話音声の配信先（送信先）となるユーザごとに上述した投機的立体音響レンダリング等が行われて、聴取者となるユーザに対して提示するためのユーザＡの発話音声が生成される。

　また、クライアント１２Ｂ乃至クライアント１２Ｄでは、サーバ１１から受信したユーザＡの音声に基づいて、最終的な提示用のユーザＡの音声が生成され、その最終的な提示用のユーザＡの音声がユーザＢ乃至ユーザＤに対して提示される。

　このようにして発話者となったユーザの発話音声が、サーバ１１を介して他のユーザのクライアント１２へと送信され、その発話音声が再生される。このようにすることでリモート会話システムでは、ユーザＡ乃至ユーザＤによるリモート会話が実現される。

　なお、以下では、サーバ１１がクライアント１２から受信した音声に基づいて立体音響のレンダリング処理を行うことで得られる音声を、レンダリング音声とも称することとする。また、以下、クライアント１２がサーバ１１から受信したレンダリング音声に基づいて生成した、最終的な提示用の音声を提示用音声とも称することとする。

　リモート会話システムでは、仮想会話空間上で行われるユーザＡ乃至ユーザＤによる会話を模したリモート会話が提供される。

　したがって、例えばクライアント１２では、適宜、ユーザ同士の会話が行われる仮想会話空間を模した仮想会話空間画像を表示することができる。

　この仮想会話空間画像上には、例えば各ユーザに対応したアイコンやアバタ等のユーザを表す画像が表示される。特に、ユーザを表す画像は、仮想会話空間上のユーザの位置に対応する仮想会話空間画像上の位置に表示（配置）される。したがって、仮想会話空間画像は、仮想会話空間における各ユーザ（聴取者や発話者）の位置関係を示す画像であるといえる。

　また、レンダリング音声と提示用音声は、ともに仮想会話空間上における聴取者から見た発話者の位置に音像が定位するような発話者の音声となっている。換言すれば、レンダリング音声や提示用音声の音像は、聴取者の仮想会話空間上の位置と、その聴取者の顔の向きと、発話者の仮想会話空間上の位置とに応じた位置に定位する。

　特に、複数の発話者が同時に発話を行った場合でも、それらの発話者の音声は、仮想会話空間上の聴取者から見た発話者の位置に定位するため、各発話者が仮想会話空間上の互いに異なる位置に配置されていれば、聴取者は容易に各発話者の音声を聞き分けることができる。

〈サーバの構成例〉
　サーバ１１は、より詳細には、例えば図４に示すように構成される。

　サーバ１１は、情報処理装置であり、通信部４１、メモリ４２、および情報処理部４３を有している。

　通信部４１は、情報処理部４３から供給されたレンダリング音声、より詳細にはレンダリング音声の音声データや、向き情報などを、ネットワークを介してクライアント１２に送信する。

　また、通信部４１は、クライアント１２から送信されてきた発話者であるユーザの音声（音声データ）や、ユーザの顔の向きを示す向き情報、仮想会話空間におけるユーザの位置を示す仮想位置情報などを受信して情報処理部４３に供給する。

　メモリ４２は、立体音響のレンダリング処理に必要となるHRTF（Head-Related Transfer Function）データなどの各種のデータを記録しており、必要に応じて記録しているデータを情報処理部４３に供給する。

　例えばHRTFデータは、仮想会話空間上の音源位置となる任意の位置から聴取位置（聴取点）となる他の任意の位置までの音の伝達特性を表すHRTF（頭部伝達関数）のデータである。メモリ４２には、音源位置と聴取位置の任意の複数の組み合わせごとにHRTFデータが記録されている。

　情報処理部４３は、通信部４１から供給されたユーザの音声や向き情報、仮想位置情報に基づいて、適宜、メモリ４２から供給されたデータを用いて、立体音響のレンダリング処理、すなわち投機的立体音響レンダリング等を行うことでレンダリング音声を生成する。

〈クライアントの構成例〉
　また、クライアント１２は、例えば図５に示すように構成される。

　なお、ここではクライアント１２には、ヘッドフォン等からなり、ユーザに装着される音声出力装置７１が接続されている例について説明するが、音声出力装置７１はクライアント１２と一体となって設けられているようにしてもよい。

　クライアント１２は、例えばスマートフォン、タブレット端末、ポータブルゲーム機、ＰＣなどの情報処理装置からなる。

　クライアント１２は、向きセンサ８１、収音部８２、メモリ８３、通信部８４、表示部８５、入力部８６、および情報処理部８７を有している。

　向きセンサ８１は、例えばジャイロセンサ、加速度センサ、イメージセンサなどのセンサからなり、クライアント１２を所持している（身に着けている、または持っている）ユーザの向きを検出し、その検出結果を示す向き情報を情報処理部８７に供給する。

　なお、以下においては、向きセンサ８１により検出されるユーザの向きは、ユーザの顔の向きであるものとして説明を続けるが、ユーザの向きとしてユーザの体の向き等が検出されるようにしてもよい。また、例えばユーザの実際の向きによらず、クライアント１２自身の向きがユーザの向きとして検出されるようにしてもよい。

　収音部８２は、マイクロフォンからなり、クライアント１２の周囲の音を収音し、その結果得られた音声を情報処理部８７に供給する。例えば収音部８２の周囲には、クライアント１２を所持するユーザがいるので、ユーザが発話を行うと、その発話の音声が収音部８２によって収音される。

　なお、以下では、収音部８２による収音（収録）によって得られた、ユーザの発話の音声を収録音声とも称することとする。

　メモリ８３は、各種のデータを記録しており、必要に応じて記録しているデータを情報処理部８７に供給する。例えばメモリ８３に上述のHRTFデータを記録しておけば、情報処理部８７において、バイノーラル処理を含む音響処理を行うようにすることもできる。

　通信部８４は、ネットワークを介してサーバ１１から送信されてきたレンダリング音声や向き情報等を受信して情報処理部８７に供給する。また、通信部８４は、情報処理部８７から供給されたユーザの音声や向き情報、仮想位置情報などを、ネットワークを介してサーバ１１に送信する。

　表示部８５は、例えばディスプレイからなり、情報処理部８７から供給された仮想会話空間画像等の任意の画像を表示する。

　入力部８６は、例えば表示部８５に重畳して設けられたタッチパネル、スイッチ、ボタンなどからなり、ユーザにより操作されると、その操作に応じた信号を情報処理部８７に供給する。

　例えばユーザは、入力部８６を操作することで、仮想会話空間におけるユーザ自身の位置を入力（設定）することができる。

　仮想会話空間におけるユーザの位置（配置位置）は、予め定められていてもよいし、ユーザにより入力（設定）できるようにしてもよい。ユーザによりユーザ自身の仮想会話空間上の位置が設定された場合には、その設定されたユーザの位置を示す仮想位置情報がサーバ１１に送信される。

　また、ユーザが仮想会話空間における自分以外の他のユーザの位置も設定（指定）できるようにしてもよい。そのような場合には、ユーザにより設定された他のユーザの仮想会話空間上の位置を示す仮想位置情報もサーバ１１に送信される。

　情報処理部８７は、クライアント１２全体の動作を制御する。例えば情報処理部８７は、通信部８４から供給されたレンダリング音声や向き情報と、向きセンサ８１から供給された向き情報とに基づいて提示用音声を生成し、音声出力装置７１に出力する。

　なお、クライアント１２として、スマートフォン、タブレット端末、ポータブルゲーム機、ＰＣなど、どのような情報処理装置が利用されてもよい。

　したがって、例えば向きセンサ８１、収音部８２、メモリ８３、通信部８４、表示部８５、および入力部８６の一部または全部が必ずしもクライアント１２に設けられている必要はなく、これらの一部または全部がクライアント１２の外部に設けられてもよい。

　例えばスマートフォンがクライアント１２として機能する場合、向きセンサ８１、収音部８２、通信部８４、および情報処理部８７がクライアント１２に設けられるようにしてもよい。

　また、例えば音声出力装置７１が、向きセンサ８１および収音部８２を有する向きセンサ付きヘッドフォンとされ、その音声出力装置７１と、クライアント１２としてのスマートフォンやＰＣとが組み合わせられて用いられるようにしてもよい。

　さらに、向きセンサ８１、収音部８２、通信部８４、および情報処理部８７を有するスマートヘッドフォンがクライアント１２として利用されるようにしてもよい。

　例えばリモート会話システムでは、各クライアント１２からサーバ１１には、クライアント１２に対応するユーザについて得られた収録音声、向き情報、および仮想位置情報が送信される。このとき、ユーザにより他のユーザについても仮想会話空間上の位置が指定されたときには、それらの他のユーザの仮想位置情報もクライアント１２からサーバ１１へと送信される。

　サーバ１１は、受信した収録音声、向き情報、仮想位置情報などの各種の情報に基づいて、立体音響のレンダリング処理、すなわち立体音響の定位処理（立体音響処理）を行ってレンダリング音声を生成し、クライアント１２にブロードキャストする。

　例えば、ユーザＡが発話者であり、そのユーザＡの収録音声に対応する、聴取者であるユーザＢに提示するためのレンダリング音声を生成する例について説明する。

　この場合、サーバ１１の情報処理部４３は、少なくともユーザＡについての収録音声、ユーザＡの仮想位置情報、ユーザＢの向き情報、およびユーザＢの仮想位置情報に基づいてユーザＡの発話を含むレンダリング音声を生成する。

　このとき、ユーザＢによって仮想会話空間上のユーザＡの位置が指定可能である場合には、ユーザＢに対応するクライアント１２Ｂから受信したユーザＡの仮想位置情報が用いられて、ユーザＢに提示するためのレンダリング音声が生成される。

　これに対して、ユーザＢは仮想会話空間上のユーザＡの位置を指定することはできず、ユーザＡの位置はユーザＡ自身により指定される場合には、ユーザＡに対応するクライアント１２Ａから受信したユーザＡの仮想位置情報が用いられて、ユーザＢに提示するためのレンダリング音声が生成される。

　より詳細には、情報処理部４３は、受信したユーザＢの向き情報により示される向き（方向）を含む複数の向きについて、ユーザＢに提示するためのユーザＡの発話を含むレンダリング音声を生成する。

　サーバ１１は、これらの複数の向きごとのレンダリング音声と、ユーザＢの向き情報とをクライアント１２Ｂに送信する。

　クライアント１２Ｂは、サーバ１１から受信した複数の向きごとのレンダリング音声およびユーザＢの向き情報と、新たに取得された現時刻におけるユーザＢの向きを示す向き情報とに基づいて、適宜、受信したレンダリング音声を加工し、提示用音声を生成する。ここで、新たに取得されたユーザＢの向き情報は、レンダリング音声とともにサーバ１１から受信したユーザＢの向き情報よりも、後の時刻に取得されたものである。

　クライアント１２Ｂは、このようにして得られた提示用音声を、ユーザＡの発話を含む最終的な立体音声として音声出力装置７１に供給し、出力させる。これによりユーザＢは、ユーザＡの発話の音声を聞くことができる。

　なお、サーバ１１では、ユーザＢにおける場合と同様の処理が行われて、ユーザＣに提示するためのユーザＡの発話を含むレンダリング音声が生成され、ユーザＣの向き情報とともにクライアント１２Ｃに送信される。また、ユーザＤに提示するためのユーザＡの発話を含むレンダリング音声が生成され、ユーザＤの向き情報とともにクライアント１２Ｄに送信される。

　これらのユーザＢに提示するためのレンダリング音声、ユーザＣに提示するためのレンダリング音声、およびユーザＤに提示するためのレンダリング音声は、ともにユーザＡの発話の音声であるが、これらのレンダリング音声は互いに異なるものである。すなわち、これらのレンダリング音声は、再生される音声自体は同じであるが、音像の定位位置が互いに異なるものとなっている。これは、ユーザＢ乃至ユーザＤでは、仮想会話空間におけるユーザＡとの位置関係が互いに異なるからである。

〈投機的立体音響レンダリングについて〉
　続いて、上述した本技術の特徴について、さらに詳細に説明する。

　まず、投機的立体音響レンダリングについて説明する。

　投機的立体音響レンダリングでは、上述のように聴取者の向きを含む複数の向きごとに立体音響のレンダリング処理（立体音響処理）が行われる。

　そしてクライアント１２では、レンダリング音声の生成のために向き情報を送信してから、レンダリング音声を受信するまでの間（遅延時間）に発生した聴取者の向きの変化に基づいて、VBAP法等に基づいた割り合いで加算処理が行われ、提示用音声が生成される。これにより、サーバ１１を介して発生する発話者の音声の伝送等の遅延時間分を考慮した音声を生成することができる。

　具体的には、例えば聴取者であるユーザＡに提示するための他のユーザのレンダリング音声を生成する場合、サーバ１１は、クライアント１２ＡからユーザＡの向き情報と仮想位置情報を受信する。

　ユーザの向き（方向）を示す向き情報は、例えば図６に示すように、ユーザの頭部の回転角度を示す角度θ、角度φ、および角度ψからなる。

　角度θは、ユーザの頭部の水平方向の回転角度、すなわちユーザの頭部のヨー角である。例えばユーザの頭部中心を原点とする３次元直交座標系をｘ’ｙ’ｚ’座標系とすると、ｚ’軸を中心（軸）としたユーザの頭部の回転角度が角度θである。

　角度φは、ｙ’軸を中心（軸）としたユーザの頭部の垂直方向の回転角度、つまりユーザの頭部のピッチ角である。角度ψは、ｘ’軸を中心（軸）としたユーザの頭部の回転角度、つまりユーザの頭部のロール角である。

　また、仮想会話空間におけるユーザの位置を示す仮想位置情報は、例えば図７に示すように、仮想会話空間の所定の位置を基準（原点Ｏ）とする３次元直交座標系をｘｙｚ座標系とすると、そのｘｙｚ座標系の座標(x,y,z)などとされる。

　図７の例では、仮想会話空間には、所定のユーザU21を含む複数のユーザが配置されており、基本的にはそれらのユーザの発話の音声は、仮想会話空間における発話をしたユーザ自身の位置に定位するようにレンダリング音声が生成される。したがって、ユーザの仮想位置情報により示される位置は、仮想会話空間におけるユーザの発話音声の音像定位位置を示しているともいうことができる。

　以上の例では、任意のタイミングでユーザの最新の向きを示す向き情報(θ,φ,ψ)と仮想位置情報(x,y,z)とがサーバ１１に送信される。

　以下、向き情報(θ,φ,ψ)により示される向きを向き(θ,φ,ψ)とも記し、仮想位置情報(x,y,z)により示される位置を位置(x,y,z)とも記すこととする。

　また、サーバ１１においては、聴取者であるユーザの向き情報(θ,φ,ψ)および仮想位置情報(x,y,z)と、発話者であるユーザの仮想位置情報とに基づいて、立体音響のレンダリング処理が行われ、レンダリング音声A(θ,φ,ψ,x,y,z)が生成される。

　このとき、聴取者により発話者の位置を指定可能な場合には、聴取者のクライアント１２から受信された発話者の仮想位置情報がレンダリング音声の生成に用いられる。これに対して、聴取者は他のユーザ（発話者）の位置を指定できず、他のユーザのみが自身の位置を指定できる場合には、発話者のクライアント１２から受信された発話者自身の仮想位置情報がレンダリング音声の生成に用いられる。

　レンダリング音声A(θ,φ,ψ,x,y,z)は、聴取者が位置(x,y,z)において向き(θ,φ,ψ)の方向を向いている状態において発話者から聞こえてくる、その発話者の音声となっており、その発話者の音声の音像は聴取者から見た発話者の相対的な位置に定位する。

　具体的な例として、例えば情報処理部４３は、聴取者の向き情報(θ,φ,ψ)および仮想位置情報(x,y,z)と、発話者の仮想位置情報とから定まる聴取者と発話者の相対的な位置関係に対応するHRTFデータをメモリ４２から読み出す。

　情報処理部４３は、読み出したHRTFデータと発話者の収録音声の音声データとの畳み込み処理、すなわちバイノーラル処理を行うことで、レンダリング音声A(θ,φ,ψ,x,y,z)を生成する。

　なお、レンダリング音声A(θ,φ,ψ,x,y,z)の生成時には、聴取者の仮想位置情報と発話者の仮想位置情報とから求まる、聴取者から発話者までの距離に基づいて、その距離に応じた周波数特性の調整を行うイコライジング処理とバイノーラル処理を組み合わせて行うなどしてもよい。これにより、聴取者と発話者の相対的な位置関係に応じた距離減衰等も実現することができ、より自然な音声を得ることができる。

　また、情報処理部４３では、聴取者の水平方向の向き、すなわち角度θについてのレンダリング音声A(θ,φ,ψ,x,y,z)に加えて、角度θとは異なる他の角度（向き）についてのレンダリング音声も生成される。

　例として、例えば情報処理部４３は、角度θに一定の向きの正負の差分±Δθを加えた角度（θ＋Δθ）と角度（θ－Δθ）についてもバイノーラル処理等を含む立体音響のレンダリング処理を行い、レンダリング音声A(θ＋Δθ,φ,ψ,x,y,z)とレンダリング音声A(θ－Δθ,φ,ψ,x,y,z)を生成する。

　これにより、３組のバイノーラル音声、すなわちステレオ２チャネルの音声であるレンダリング音声A(θ,φ,ψ,x,y,z)、レンダリング音声A(θ＋Δθ,φ,ψ,x,y,z)、およびレンダリング音声A(θ－Δθ,φ,ψ,x,y,z)が事前に得られたことになる。

　このように、実際の聴取者の向き（角度θ）を含む複数の向きごとにレンダリング音声を生成しておく処理が投機的立体音響レンダリングである。

　なお、ここでは３つの方向（向き）についてレンダリング音声を生成する例について説明したが、生成されるレンダリング音声は２以上であれば、いくつであってもよい。

　例えばネットワークでのデータ伝送帯域が広く、高速な通信が可能であったり、サーバ１１やクライアント１２の処理能力が高く処理可能量が多かったり、ユーザの向きの変化が多いことが想定されたりするといった条件によっては、生成するレンダリング音声を多くすることが可能である。

　そのような場合、例えばレンダリング音声A(θ,φ,ψ,x,y,z)、レンダリング音声A(θ±Δθ,φ,ψ,x,y,z)、レンダリング音声A(θ±2Δθ,φ,ψ,x,y,z)、…、レンダリング音声A(θ±NΔθ,φ,ψ,x,y,z)のように（1+2N）組のレンダリング音声を生成することも可能である。

　以降においては、１人の聴取者に対して、１人の発話者について３組のレンダリング音声、すなわちレンダリング音声A(θ,φ,ψ,x,y,z)、レンダリング音声A(θ＋Δθ,φ,ψ,x,y,z)、およびレンダリング音声A(θ－Δθ,φ,ψ,x,y,z)が生成されるとして説明を続ける。

　サーバ１１は、聴取者の向き情報(θ,φ,ψ)を送信してきたクライアント１２に対して、その向き情報(θ,φ,ψ)と、立体音響のレンダリング処理後（立体音響処理後）の音声であるレンダリング音声A(θ,φ,ψ,x,y,z)、レンダリング音声A(θ＋Δθ,φ,ψ,x,y,z)、およびレンダリング音声A(θ－Δθ,φ,ψ,x,y,z)とを送信する。

　すると、クライアント１２側では、サーバ１１から向き情報とレンダリング音声が受信されるとともに、現時刻におけるユーザ（聴取者）の向きを示す向き情報が取得される。

　例えば図８に示すように、聴取者となるユーザに対して、矢印W11に示す方向にある位置AS11に発話者がいたとする。

　また、所定の時刻ｔにおいて、ユーザ（聴取者）は矢印W12に示す方向を向いており、矢印W11に示す方向と矢印W12に示す方向とのなす角度がθ’となっているとする。さらに、時刻ｔにおけるユーザ（聴取者）の水平方向の向きを示す角度が角度θであり、その向きを示す向き情報(θ,φ,ψ)がサーバ１１に送信されたとする。

　そして、時刻ｔより後の時刻ｔ’において、時刻ｔにおける聴取者の向き情報(θ,φ,ψ)に対して生成されたレンダリング音声と、時刻ｔにおける聴取者の向き情報(θ,φ,ψ)とがサーバ１１から受信されたとする。

　すると、時刻ｔ’においてクライアント１２では、時刻ｔ’における聴取者の向きを示す向き情報が取得される。この例では、例えば図中、右側に示すように時刻ｔ’において聴取者（ユーザ）は矢印W13に示す方向を向いていたとする。

　ここでは、矢印W11に示す方向と矢印W13に示す方向とのなす角度がθ’+δθとなっており、ユーザ（聴取者）の向きは、時刻ｔから時刻ｔ’までの間に角度δθだけ変化していることが分かる。この場合、時刻ｔ’では聴取者の向き情報として(θ+δθ,φ,ψ)が取得されることになる。

　時刻ｔ’では、時刻ｔの向き情報(θ,φ,ψ)に対応するレンダリング音声が受信されたが、本来であれば、時刻ｔ’の向き情報(θ+δθ,φ,ψ)に対応するレンダリング音声を聴取者に対して提示すべきである。

　そこで、クライアント１２の情報処理部８７は、受信した複数のレンダリング音声のうちの少なくとも１つに基づいて、時刻ｔ’における遅延のない提示用音声を生成し、聴取者に対して生成した提示用音声を提示させる。

　具体的には、情報処理部８７は、立体音響のレンダリング処理時、つまり時刻ｔの向き情報(θ,φ,ψ)と、現時刻、つまり時刻ｔ’の向き情報(θ+δθ,φ,ψ)とを比較し、その比較結果に基づいて、受信した３つのレンダリング音声のうちの２つを選択する。

　この例では、同じ聴取者の時刻ｔの向き情報(θ,φ,ψ)と時刻ｔ’の向き情報(θ+δθ,φ,ψ)の比較結果として、それらの時刻における聴取者の水平方向の向きを示す角度（角度θ）の差分δθが得られる。

　情報処理部８７は、差分δθが正の場合、すなわち０＜δθ≦Δθである場合、受信したレンダリング音声のうち、レンダリング音声A(θ,φ,ψ,x,y,z)とレンダリング音声A(θ＋Δθ,φ,ψ,x,y,z)の２要素を選択する。

　これに対して情報処理部８７は、差分δθが負の場合、すなわち－Δθ≦δθ＜０である場合、受信したレンダリング音声のうち、レンダリング音声A(θ,φ,ψ,x,y,z)とレンダリング音声A(θ－Δθ,φ,ψ,x,y,z)の２要素を選択する。

　このとき選択した２要素、つまり２つのレンダリング音声を再生すれば、１つの音源（発話者）に対して角度Δθだけ角度差がある２つの音像定位位置に音像を定位させることができる。

　そこで、情報処理部８７は、これらの２つの位置に定位するレンダリング音声、つまり選択した２組の立体音響音声に重みをつけて加算することで、水平方向の角度が角度θ＋δθとなる方向の位置に音像が定位するような提示用音声を生成する。

　２つのレンダリング音声の加算時には、例えば図９および図１０に示すように、VBAP法により重みを計算することができる。

　すなわち、図９に示すように聴取者であるユーザU31に対して、位置P11乃至位置P13のそれぞれを音像定位位置とするレンダリング音声がサーバ１１から受信されたとする。

　ここでは、例えば位置P11に定位する音声がレンダリング音声A(θ,φ,ψ,x,y,z)であり、位置P12に定位する音声がレンダリング音声A(θ＋Δθ,φ,ψ,x,y,z)であり、位置P13に定位する音声がレンダリング音声A(θ－Δθ,φ,ψ,x,y,z)であるとする。

　また、０＜δθ≦Δθであり、向き情報(θ+δθ,φ,ψ)に対応する提示用音声A(θ＋δθ,φ,ψ,x,y,z)を生成しようとしており、その提示用音声A(θ＋δθ,φ,ψ,x,y,z)の音像定位位置が位置P14であるとする。

　このような場合、情報処理部８７では位置P14の左右の両端側に隣接する位置P11および位置P12のそれぞれを定位位置とするレンダリング音声A(θ,φ,ψ,x,y,z)およびレンダリング音声A(θ＋Δθ,φ,ψ,x,y,z)が選択される。

　また、図１０に示すようにユーザU31の位置を基準（始点）とし、位置P11、位置P12、および位置P14のそれぞれを終点とする、矢印V11乃至矢印V13のそれぞれにより表されるベクトルを、ベクトルV_θ、ベクトルV_θ+Δθ、およびベクトルV_θ+δθとする。

　情報処理部８７は、以下の式（１）を満たす係数ａおよび係数ｂを重みとして算出する。

　V_θ+δθ＝ａV_θ+ｂV_θ+Δθ　・・・（１）

　そして情報処理部８７は、式（１）により求まった係数ａおよび係数ｂを重みとして用いて、次式（２）を計算することでレンダリング音声を重み付き加算し、提示用音声A(θ＋δθ,φ,ψ,x,y,z)を得る。

　A(θ＋δθ,φ,ψ,x,y,z)＝ａA(θ,φ,ψ,x,y,z)+ｂA(θ＋Δθ,φ,ψ,x,y,z)　・・・（２）

　このようにすることで、現時刻における聴取者の向きに対して遅延のない提示用音声、つまり現時刻の聴取者から見た発話者の位置に定位する発話者の音声を提示用音声として得ることができる。これにより、遅延（方向のずれ）のない自然な音響提示を実現するとともに、発話者と音像位置とを一致させ、発話者の音声をさらに聞き分けやすくすることができる。

　なお、角度δθが０度であり、聴取者の水平方向の向きの変化がない場合、例えば情報処理部８７は、レンダリング音声A(θ,φ,ψ,x,y,z)をそのまま提示用音声として音声出力装置７１に出力する。

　一方で、｜δθ｜がΔθを超えてしまう場合には、どのようにして２つのレンダリング音声を選択しても、提示用音声の定位位置は、選択した２つのレンダリング音声の定位位置の外側となってしまう。そこで情報処理部８７は、３つのレンダリング音声のうち、提示用音声の定位位置と最も定位位置が近いものを選択する。

　具体的には、情報処理部８７は、δθ＜－Δθである場合、レンダリング音声A(θ－Δθ,φ,ψ,x,y,z)をそのまま提示用音声A(θ＋δθ,φ,ψ,x,y,z)として用いる。

　これに対してδθ＞Δθである場合、情報処理部８７はレンダリング音声A(θ＋Δθ,φ,ψ,x,y,z)をそのまま提示用音声A(θ＋δθ,φ,ψ,x,y,z)として用いる。

　また、クライアント１２は、上述した処理を行って提示用音声を生成するのと並行して、最新のユーザの向き情報と仮想位置情報を取得し、それらの向き情報と仮想位置情報のサーバ１１への送信を繰り返し行う。そうすることで、サーバ１１側でのレンダリング時に用いる向き情報や仮想位置情報を可能な限り最新のものに更新し続けることができる。

　これにより、聴取者の向きのずれ、すなわち角度δθを小さく保ち、角度θ以外の情報についても実際の聴取時の位置や向きとの差を小さく抑えることができるため、より現実に即して、定位位置変動に遅延の少ない立体音響を実現することができる。

　なお、以上においては、立体音響のレンダリング処理がサーバ１１により行われる例について説明したが、ユーザ個々のクライアント１２側で立体音響のレンダリング処理が行われるようにしてもよい。

　クライアント１２側で立体音響のレンダリング処理を行い、レンダリング音声を生成することは、具体的な例として、以下のようなケースで有効である。

　すなわち、例えばリモート会話の音声に加え、ユーザの端末（クライアント１２）上で再生している映画コンテンツを視聴する際、映画コンテンツの音についてクライアント１２側で上述の立体音響のレンダリング処理を行うケースが考えられる。この場合、コンテンツ音と会話音声を同様の処理系で扱うことができる。

　例えばHRTFデータを用いた立体音響処理など、計算コストが高い処理を行う際、立体音響の処理系と音を再生する処理系をそれぞれ別のスレッドやプロセスで行うことがある。そのような場合、立体音響処理した時点と、実際に音を再生する時点において、時間差が発生するため、その時間差の間にユーザの向きの変動が発生する。

　しかし、本技術では、上述のようにクライアント１２側で立体音響のレンダリング処理を行うことで、ユーザの向きのずれを補完することができるようになる。

〈選択的発話と選択的聴取について〉
　次に、選択的発話と選択的聴取について説明する。

　上述のように選択的聴取では、聴取者が聞きたい音声の方向を向くと、正面にあるその音声が明瞭に聞こえるようにされる。

　また、選択的聴取では、正面以外の方向から到来する発話者の音声は、発話者の位置が聴取者の真後ろに近くなるにしたがって音量が小さく、こもった音、すなわち中高音域の音圧が低い音や、スカスカな音、つまり中低音域の音圧が低い音に聞こえるようにされる。

　同様に選択的発話では、発話者の発声の放射特性が再現され、発話者が聴取者の方を向いていれば、聴取者には、その発話者の音声が明瞭に聞こえるようにされる。

　また、選択的発話では、発話者が聴取者の方向を向いていなくなるほど、発話者の音声は音量が小さく、こもった音（中高音域の音圧が低い音）や、スカスカな音（中低音域の音圧が低い音）に聞こえるようにされる。

　例えば図１１に示すように、仮想会話空間上に４人のユーザU41乃至ユーザU44がおり、ユーザU41が発話者となる場合について考える。

　このとき、選択的発話や選択的聴取を適用すれば、発話者であるユーザU41の正面の方向にいるユーザU42には、ユーザU41の発話は明瞭によく聞こえる。

　また、ユーザU41から見て左側にいるユーザU43には、ユーザU41の発話は、ユーザU42が聞き取るときほど明瞭ではないが、ほどほどに（ある程度）明瞭に聞こえる。さらに、ユーザU41から見て後方にいるユーザU44には、ユーザU41の発話は、こもって聞こえるようになる。

　例えば選択的聴取と選択的発話は、サーバ１１の情報処理部４３によって、以下のようにして実現される。

　すなわち、まず情報処理部４３では、リモート会話の参加者である各ユーザの向き情報と仮想位置情報が取得され、それらの向き情報と仮想位置情報がリアルタイムに集約および更新される。

　そして、情報処理部４３は各聴取点、つまり聴取者となる各ユーザの仮想会話空間上の位置と向き、および発話者となる他のユーザの仮想会話空間上の位置とに基づいて、聴取者から見た発話者の方向を示す角度差θ_Ｄを求める。

　具体的には、例えば情報処理部４３は、聴取者の仮想位置情報と発話者の仮想位置情報とに基づいて、聴取者から見た発話者の方向を求め、その求めた方向と、聴取者の向き情報により示される方向（聴取者の正面方向）とのなす角度を角度差θ_Ｄとする。

　また、情報処理部４３では、聴取者の状態によって広い範囲を対象として音声を聞きたい場合や、狭い範囲に絞って音声を聞きたい場合があるため、聴取する音の指向性Ｉ_Ｄを示す関数として、角度差θ_Ｄをパラメータとする関数f(θ_D)が予め設計されている。

　ここでＩ_Ｄ＝f(θ_D)であり、関数f(θ_D)は予め定められていてもよいし、複数の関数のなかから聴取者（ユーザ）や情報処理部４３によって指定（選択）されるようにしてもよい。換言すれば、聴取者や情報処理部４３が指向性Ｉ_Ｄ（指向特性）を指定できるようにしてもよい。

　例えば指向性Ｉ_Ｄは、角度差θ_Ｄに応じて図１２に示すように変化するように設計することができる。なお、図１２において縦軸は指向性Ｉ_Ｄ（指向特性）を示しており、横軸は角度差、すなわち角度差θ_Ｄを示している。

　この例では、曲線L21乃至曲線L23は、それぞれ異なる関数f(θ_D)により求まる指向性Ｉ_Ｄを示している。

　特に、曲線L21では角度差θ_Ｄの変化とともに線形に指向性Ｉ_Ｄが低下していくようになっており、曲線L21は標準的な指向性を表している。

　これに対して曲線L22では角度差θ_Ｄの増加とともになだらかに指向性Ｉ_Ｄが低下していくようになっており、曲線L22はより広い範囲を音声の聴取範囲とするのに適した指向性を表している。また、曲線L23では角度差θ_Ｄの増加に対して急激に指向性Ｉ_Ｄが低下していくようになっており、曲線L23はより狭い範囲を音声の聴取範囲とするのに適した指向性を表している。

　したがって、聴取者や情報処理部４３は、例えば参加者の数や音響特性等の仮想会話空間の環境などに応じて、適切な指向性Ｉ_Ｄ（関数f(θ_Ｄ)）を選択することができる。

　さらに情報処理部４３は、角度差θ_Ｄと関数f(θ_Ｄ)に基づいて指向性Ｉ_Ｄを求め、得られた指向性Ｉ_Ｄに基づいて、発話者の音声のイコライジング制御、すなわち周波数帯域ごとの音圧制御を行うためのフィルタＡ_Ｄ＝Ｆ_Ｄ（Ｉ_Ｄ）を生成する。なお、Ｆ_Ｄ（Ｉ_Ｄ）は指向性Ｉ_Ｄをパラメータとする関数などとされる。

　このようにして得られたフィルタＡ_Ｄによって選択的聴取が実現される。

　すなわち、フィルタＡ_Ｄによるフィルタリングによって、聴取者から見た発話者の方向が、聴取者の正面方向に近いほど、その発話者の音声が明瞭に聞こえるようなレンダリング音声が得られるようになる。この場合、例えば聴取者から見た発話者の方向と、聴取者の正面方向とのなす角度（角度差θ_Ｄ）が大きくなるほど、その発話者のレンダリング音声の中高音域または中低音域の音圧が低くなる。

　また、情報処理部４３は、発話者の仮想位置情報と聴取者の仮想位置情報とに基づいて、発話者から見た聴取者の方向を求め、その求めた方向と、発話者の向き情報により示される方向（発話者の正面方向）とのなす角度を角度差θ_Ｅとする。

　選択的発話と同様に、発話者の状態によって広い範囲を対象として発話をしたい、つまり広い範囲に向けて話したい場合や、狭い範囲に絞って話したい場合がある。そこで、情報処理部４３では、発話音声の指向性Ｉ_Ｅを示す関数として、角度差θ_Ｅをパラメータとする関数f(θ_Ｅ)が予め設計されている。

　ここでＩ_Ｅ＝f(θ_Ｅ)であり、関数f(θ_Ｅ)は予め定められていてもよいし、複数の関数のなかから発話者（ユーザ）や情報処理部４３によって指定（選択）されるようにしてもよい。換言すれば、発話者や情報処理部４３が指向性Ｉ_Ｅ（指向特性）を指定できるようにしてもよい。

　例えば指向性Ｉ_Ｅは、角度差θ_Ｅに応じて図１２に示した指向性Ｉ_Ｄと同様に変化するような設計とすることができる。

　そのような場合、図１２における縦軸が指向性Ｉ_Ｅとなり、横軸が角度差θ_Ｅとなり、例えば狭い範囲を対象として話したい場合には、曲線L23に示した特性（放射特性）を有する指向性Ｉ_Ｅが選択されるようにすればよい。

　このように発話者や情報処理部４３は、例えば参加者の数や発話内容、音響特性等の仮想会話空間の環境などに応じて、適切な指向性Ｉ_Ｅ（関数f(θ_Ｅ)）を選択することができる。

　さらに情報処理部４３は、角度差θ_Ｅと関数f(θ_Ｅ)に基づいて指向性Ｉ_Ｅを求め、得られた指向性Ｉ_Ｅに基づいて、発話者の音声のイコライジング制御、すなわち周波数帯域ごとの音圧制御を行うためのフィルタＡ_Ｅ＝Ｆ_Ｅ（Ｉ_Ｅ）を生成する。なお、Ｆ_Ｅ（Ｉ_Ｅ）は指向性Ｉ_Ｅをパラメータとする関数などとされる。

　このようにして得られたフィルタＡ_Ｅによって選択的発話が実現される。

　すなわち、フィルタＡ_Ｅによるフィルタリングによって、発話者の正面方向が、発話者から見た聴取者の方向に近い（角度差θ_Ｅが小さい）ほど、その発話者の音声が明瞭に聞こえるようなレンダリング音声が得られるようになる。この場合、例えば発話者から見た聴取者の方向と、発話者の正面方向とのなす角度（角度差θ_Ｅ）が大きくなるほど、その発話者のレンダリング音声の中高音域または中低音域の音圧が低くなる。

　情報処理部４３では、フィルタＡ_ＤとフィルタＡ_Ｅを組み合わせることで、角度差θ_Ｄや角度差θ_Ｅと周波数帯域ごとの音圧変化の具合いを、伝えたい、または聞きたい範囲に応じて制御することが容易になる。

　すなわち、フィルタＡ_ＤやフィルタＡ_Ｅを用いることで、例えば図１３に示す特性でレンダリング音声の周波数特性（周波数帯域ごとの音圧）を調整することができる。

　なお、図１３において縦軸は、フィルタＡ_ＤやフィルタＡ_Ｅを用いたフィルタリングを行うときのＥＱ値（増幅値）を示しており、横軸は角度差、すなわち角度差θ_Ｄまたは角度差θ_Ｅを示している。

　この例では、図中、左側には、広い範囲を対象とした場合、つまり図１２における曲線L22に対応する広い指向性Ｉ_Ｄや指向性Ｉ_Ｅを用いた場合における各周波数帯域のＥＱ値が示されている。具体的には、曲線L51は高域、つまり高音の各角度差に対するＥＱ値を示しており、曲線L52は中域（中音）の各角度差に対するＥＱ値を示しており、曲線L53は低域（低音）の各角度差に対するＥＱ値を示している。

　同様に、図中、中央には、標準的な広さの範囲を対象とした場合、つまり図１２における曲線L21に対応する標準的な指向性Ｉ_Ｄや指向性Ｉ_Ｅを用いた場合における各周波数帯域のＥＱ値が示されている。具体的には、曲線L61は高域（高音）の各角度差に対するＥＱ値を示しており、曲線L62は中域（中音）の各角度差に対するＥＱ値を示しており、曲線L63は低域（低音）の各角度差に対するＥＱ値を示している。

　図中、右側には、狭い範囲を対象とした場合、つまり図１２における曲線L23に対応する狭い指向性Ｉ_Ｄや指向性Ｉ_Ｅを用いた場合における各周波数帯域のＥＱ値が示されている。具体的には、曲線L71は高域（高音）の各角度差に対するＥＱ値を示しており、曲線L72は中域（中音）の各角度差に対するＥＱ値を示しており、曲線L73は低域（低音）の各角度差に対するＥＱ値を示している。

　このようにフィルタＡ_ＤとフィルタＡ_Ｅを組み合わせて用いれば、聴取したい範囲や発話を聞かせたい範囲について、周波数帯域ごとに音圧制御を行うことができる。

　例えば情報処理部４３では、事前処理として、発話者の音声に対して音圧調整処理やエコーキャンセル処理を行った後、フィルタＡ_ＤおよびフィルタＡ_Ｅによるフィルタリングを行い、さらにその後、上述の立体音響のレンダリング処理を行うようにすることができる。

　これにより、ユーザは意図した指向性をもたせたうえで、対象の人に向けて分かりやすく発話したり、対象の音声を聞きやすく聴取したりすることが可能になる。

〈情報処理部の構成例〉
　事前処理、選択的聴取と選択的発話のためのフィルタリング、および立体音響のレンダリング処理の順に発話音声（収録音声）に対する処理が行われてレンダリング音声が生成される場合、情報処理部４３は、例えば図１４に示すように構成される。

　図１４に示す情報処理部４３は、フィルタ処理部１３１、フィルタ処理部１３２、およびレンダリング処理部１３３を有している。

　この例では、情報処理部４３は、通信部４１から供給された発話者の音声（収録音声）に対して、音圧調整処理やエコーキャンセル処理等の事前処理を行い、その結果得られた音声（音声データ）をフィルタ処理部１３１に供給する。

　また、情報処理部４３は、各ユーザの向き情報および仮想位置情報に基づいて角度差θ_Ｄと角度差θ_Ｅを求め、角度差θ_Ｄをフィルタ処理部１３１に供給するとともに、角度差θ_Ｅをフィルタ処理部１３２に供給する。

　さらに情報処理部４３は、各ユーザの向き情報および仮想位置情報に基づいて、聴取者から見た発話者の相対的な位置を示す情報を、発話者の音声を定位させる位置を示す定位座標として求め、レンダリング処理部１３３に供給する。

　フィルタ処理部１３１は、供給された角度差θ_Ｄと、指定された関数f(θ_Ｄ)とに基づいてフィルタＡ_Ｄを生成する。また、フィルタ処理部１３１は、フィルタＡ_Ｄに基づいて、供給された事前処理後の収録音声に対してフィルタリングを行い、その結果得られた音声をフィルタ処理部１３２に供給する。

　フィルタ処理部１３２は、供給された角度差θ_Ｅと、指定された関数f(θ_Ｅ)とに基づいてフィルタＡ_Ｅを生成する。また、フィルタ処理部１３２は、フィルタＡ_Eに基づいて、フィルタ処理部１３１から供給された音声に対してフィルタリングを行い、その結果得られた音声をレンダリング処理部１３３に供給する。

　レンダリング処理部１３３は、供給された定位座標に対応するHRTFデータをメモリ４２から読み出して、HRTFデータと、フィルタ処理部１３２から供給された音声とに基づいてバイノーラル処理を行うことで、レンダリング音声を生成する。また、レンダリング処理部１３３は、得られたレンダリング音声に対して、さらに聴取者から発話者までの距離、すなわち定位座標に応じて周波数特性を調整するフィルタリング等も行う。

　レンダリング処理部１３３は、バイノーラル処理等を聴取者の複数の向き（方向）ごと、例えば角度θ、角度（θ＋Δθ）、および角度（θ－Δθ）について行うことで、それらの角度（向き）ごとのレンダリング音声を得る。

　情報処理部４３では、以上において説明したフィルタ処理部１３１、フィルタ処理部１３２、およびレンダリング処理部１３３による処理が、聴取者となるユーザと、発話者となるユーザの組み合わせごとに行われる。

〈音声送信処理の説明〉
　次に、以上において説明したサーバ１１とクライアント１２の動作について説明する。

　まず、図１５のフローチャートを参照して、クライアント１２により行われる音声送信処理について説明する。この音声送信処理は、例えば一定の時間間隔などで行われる。

　ステップＳ１１において情報処理部８７は、仮想会話空間におけるユーザの位置設定を行う。なお、ユーザが自身の位置を指定できない場合には、ステップＳ１１の処理は行われない。

　例えばユーザが少なくとも自分自身の位置を設定（指定）可能な場合、ユーザは任意のタイミングで入力部８６を操作し、自身の仮想会話空間における位置を指定する。すると、情報処理部８７は、ユーザの操作に応じて入力部８６から供給された信号に応じて、ユーザにより指定された位置を示す仮想位置情報を生成することで、ユーザの位置を設定する。

　ユーザ自身の位置は、ユーザの所望のタイミングで任意に変更可能なようにしてもよいし、ユーザの位置が一度指定されると、その後は継続してユーザの位置は同じ位置とされるようにしてもよい。

　また、ユーザが仮想会話空間における他のユーザの位置も指定可能である場合には、情報処理部８７は、ユーザの操作に応じて他のユーザの仮想位置情報も生成する。

　ステップＳ１２において収音部８２は、周囲の音を収音し、その結果得られた収録音声（収録音声の音声データ）を情報処理部８７に供給する。

　ステップＳ１３において向きセンサ８１は、ユーザの向きを検出し、その検出結果を示す向き情報を情報処理部８７に供給する。

　情報処理部８７は、以上の処理で得られた収録音声、向き情報、および仮想位置情報を通信部８４に供給する。このとき、情報処理部８７は、他のユーザの仮想位置情報があるときには、他のユーザの仮想位置情報も通信部８４に供給する。

　ステップＳ１４において通信部８４は、情報処理部８７から供給された収録音声、向き情報、および仮想位置情報をサーバ１１に送信し、音声送信処理は終了する。

　なお、ユーザが聴取時や発話時の指向性、すなわち上述の関数f(θ_Ｄ)や関数数f(θ_Ｅ)を指定（選択）することが可能である場合には、例えばステップＳ１１においてユーザによる指向性の指定を受け付けるようにしてもよい。そのような場合、情報処理部８７は、ユーザの指定に応じた指向性指定情報を生成し、ステップＳ１４で通信部８４がその指向性指定情報をサーバ１１へと送信する。

　以上のようにしてクライアント１２は、収録音声ととも向き情報や仮想位置情報もサーバ１１に送信する。このようにすることで、サーバ１１では適切にレンダリング音声を生成することができるので、発話者の音声を聞き分けやすくすることができるようになる。

〈音声生成処理の説明〉
　また、音声送信処理が行われると、これに応じてサーバ１１では音声生成処理が行われる。以下、図１６のフローチャートを参照して、サーバ１１による音声生成処理について説明する。

　ステップＳ４１において通信部４１は、各クライアント１２から送信されてきた収録音声、向き情報、および仮想位置情報を受信し、情報処理部４３に供給する。

　すると、情報処理部４３は、通信部４１から供給された発話者の収録音声に対して、音圧調整処理やエコーキャンセル処理等の事前処理を行い、その結果得られた音声をフィルタ処理部１３１に供給する。

　また、情報処理部４３は、通信部４１から供給された各ユーザの向き情報および仮想位置情報に基づいて角度差θ_Ｄと角度差θ_Ｅを求め、角度差θ_Ｄをフィルタ処理部１３１に供給するとともに、角度差θ_Ｅをフィルタ処理部１３２に供給する。さらに情報処理部４３は、各ユーザの向き情報および仮想位置情報に基づいて、聴取者から見た発話者の相対的な位置を示す定位座標を求め、レンダリング処理部１３３に供給する。

　ステップＳ４２においてフィルタ処理部１３１は、供給された角度差θ_Ｄおよび音声に基づいて、選択的聴取のためのフィルタリングを行う。

　すなわち、フィルタ処理部１３１は、角度差θ_Ｄと関数f(θ_Ｄ)とに基づいてフィルタＡ_Ｄを生成するとともに、フィルタＡ_Ｄに基づいて、供給された事前処理後の収録音声に対してフィルタリングを行い、その結果得られた音声をフィルタ処理部１３２に供給する。

　なお、ステップＳ４１で上述の指向性指定情報が受信された場合には、フィルタ処理部１３１は、聴取者となるユーザの指向性指定情報により示される関数f(θ_Ｄ)を用いてフィルタＡ_Ｄを生成する。

　ステップＳ４３においてフィルタ処理部１３２は、供給された角度差θ_Ｅおよび音声に基づいて、選択的発話のためのフィルタリングを行う。

　すなわち、フィルタ処理部１３２は、角度差θ_Ｅと関数f(θ_Ｅ)とに基づいてフィルタＡ_Ｅを生成するとともに、フィルタＡ_Ｅに基づいて、フィルタ処理部１３１から供給された音声に対してフィルタリングを行い、その結果得られた音声をレンダリング処理部１３３に供給する。

　なお、ステップＳ４１で上述の指向性指定情報が受信された場合には、フィルタ処理部１３２は、発話者となるユーザの指向性指定情報により示される関数f(θ_Ｅ)を用いてフィルタＡ_Ｅを生成する。

　ステップＳ４４においてレンダリング処理部１３３は、供給された定位座標と、フィルタ処理部１３２から供給された音声とに基づいて立体音響のレンダリング処理を行う。

　すなわち、レンダリング処理部１３３は、定位座標に基づいてメモリ４２から読み出したHRTFデータと、発話者の音声とに基づいてバイノーラル処理を行うとともに、定位座標に応じて周波数特性を調整するフィルタリング等を行うことで、レンダリング音声を生成する。換言すれば、レンダリング処理部１３３は、複数の方向についてバイノーラル処理やフィルタリング処理を含む音響処理を行うことで、レンダリング音声を生成する。

　これにより、例えばステレオ２チャネルのレンダリング音声A(θ,φ,ψ,x,y,z)、レンダリング音声A(θ＋Δθ,φ,ψ,x,y,z)、およびレンダリング音声A(θ－Δθ,φ,ψ,x,y,z)が得られる。

　情報処理部４３は、以上のステップＳ４２乃至ステップＳ４４の処理を、聴取者となるユーザと発話者となるユーザの組み合わせごとに行う。

　したがって、例えばある聴取者に対して同時に発話した複数の発話者がいる場合には、発話者ごとに上述した処理が行われ、レンダリング音声が生成される。そして、情報処理部４３は、同じ聴取者について生成された、複数の発話者ごとの同じ向き（角度θ）についてのレンダリング音声を加算して、最終的なレンダリング音声とする。

　情報処理部４３は、ユーザごとに生成されたレンダリング音声、より詳細にはレンダリング音声の音声データと、レンダリング音声の生成に用いられた聴取者となるユーザの向き情報とを通信部４１に供給する。

　ステップＳ４５において通信部４１は、情報処理部４３から供給されたレンダリング音声および向き情報をクライアント１２に送信し、音声生成処理は終了する。

　なお、例えばユーザが他のユーザの仮想位置情報を指定することができない場合には、通信部４１は、ステップＳ４５において必要に応じて、他のユーザ自身により指定された、他のユーザの仮想位置情報をユーザのクライアント１２に送信する。これにより、各クライアント１２は、リモート会話に参加している全てのユーザの仮想位置情報を得ることができる。

　以上のようにしてサーバ１１は、立体音響のレンダリング処理を行って、聴取者と発話者の位置関係、すなわち聴取者の向きおよび位置と発話者の位置とに応じた位置に定位する発話者のレンダリング音声を生成する。

　このようにすることで、発話者の音声を聞き分けやすくすることができる。しかも、選択的発話や選択的聴取を実現するフィルタリングを行うことで、さらに発話者の音声を聞き分けやすくすることができる。また、聴取者の複数の向きについてレンダリング音声を生成しておくことで、クライアント１２において遅延を感じさせない、より自然な音響提示を実現することができる。

〈再生処理の説明〉
　さらに、サーバ１１により音声生成処理が行われ、各クライアント１２にレンダリング音声が送信されると、クライアント１２では、提示用音声を再生する再生処理が行われる。以下、図１７のフローチャートを参照して、クライアント１２による再生処理について説明する。

　ステップＳ７１において通信部８４は、サーバ１１から送信されてきたレンダリング音声および向き情報を受信し、情報処理部８７に供給する。なお、サーバ１１から他のユーザの仮想位置情報も送信されてきた場合には、通信部８４は、それらの他のユーザの仮想位置情報も受信して情報処理部８７に供給する。

　ステップＳ７２において情報処理部８７は、通信部８４から供給されたレンダリング音声および向き情報に基づいて、図９および図１０を参照して説明した処理を行うことで、提示用音声、より詳細には提示用音声の音声データを生成する。

　例えば情報処理部８７は、新たに向きセンサ８１から取得した、現時刻のユーザの向きを示す向き情報と、ステップＳ７１で受信した向き情報とに基づいて、上述した差分δθを求める。そして情報処理部８７は、差分δθに基づいて、ステップＳ７１で受信した３つのレンダリング音声のなかから、１つまたは２つのレンダリング音声を選択する。

　また、情報処理部８７は、１つのレンダリング音声を選択した場合、その選択したレンダリング音声をそのまま提示用音声とする。

　これに対して情報処理部８７は、２つのレンダリング音声を選択した場合、選択したレンダリング音声に対応する、聴取者としてのユーザの向きや位置等から求まる音像定位位置に基づき上述の式（１）と同様の計算を行い、係数ａおよび係数ｂを求める。

　このとき、必要に応じて、図１５のステップＳ１１でユーザにより指定されたか、またはステップＳ７１でサーバ１１から受信した他のユーザの仮想位置情報や、ユーザの仮想位置情報、現時刻のユーザの向き情報などが用いられてもよい。

　さらに、情報処理部８７は、求めた係数ａおよび係数ｂに基づいて上述の式（２）と同様の計算を行うことで、選択した２つのレンダリング音声を加算（合成）し、提示用音声を生成する。

　また、情報処理部８７は、図１５のステップＳ１１で設定されたユーザ自身や他のユーザの仮想位置情報、ユーザ自身や他のユーザの向き情報などに基づいて、ユーザや他のユーザなどが表示される仮想会話空間画像を生成する。

　なお、例えばユーザが他のユーザの位置を指定できない場合には、ステップＳ７１でサーバ１１から受信した他のユーザの仮想位置情報が仮想会話空間画像の生成に用いられる。また、他のユーザの向き情報は、必要に応じてサーバ１１から受信すればよい。

　ステップＳ７３において情報処理部８７は、ステップＳ７２の処理で生成された提示用音声を音声出力装置７１に出力することで、音声出力装置７１に提示用音声を再生させる。これにより、ユーザと他のユーザとの間でのリモート会話が実現される。

　ステップＳ７４において情報処理部８７は、ステップＳ７２の処理で生成された仮想会話空間画像を表示部８５に供給し、表示させる。

　ユーザに対して仮想会話空間画像と提示用音声が提示されると、再生処理は終了する。なお、ステップＳ７４の処理は必ずしも行われなくてもよい。

　以上のようにしてクライアント１２は、サーバ１１からレンダリング音声を受信し、提示用音声および仮想会話空間画像をユーザに対して提示する。

　このように、レンダリング音声から得られた提示用音声を提示することで、発話者の音声を聞き分けやすくすることができる。しかも、聴取者となるユーザの向きごとのレンダリング音声から提示用音声を生成することで、遅延のないより自然な音響提示を実現することができる。

〈情報処理部の構成例〉
　なお、以上においてはサーバ１１側でレンダリング音声を生成する例について説明したが、クライアント１２側でレンダリング音声を生成するようにしてもよい。そのような場合、クライアント１２の情報処理部８７は、例えば図１８に示す構成とされる。

　図１８に示す例では、情報処理部８７は、フィルタ処理部１７１、フィルタ処理部１７２、およびレンダリング処理部１７３を有している。これらのフィルタ処理部１７１乃至レンダリング処理部１７３は、図１４に示したフィルタ処理部１３１乃至レンダリング処理部１３３に対応しており、基本的には同じ動作を行うため、その詳細な説明は省略する。

　クライアント１２側でレンダリング音声が生成される場合、図１７を参照して説明した再生処理のステップＳ７１では、発話者の収録音声と、発話者の向き情報がサーバ１１から受信される。また、ユーザが仮想会話空間における他のユーザの位置を指定できない場合には、ステップＳ７１では他のユーザの仮想位置情報もサーバ１１から受信される。

　そして、ステップＳ７１の処理が行われた後、情報処理部８７により図１６のステップＳ４２乃至ステップＳ４４と同様の処理が行われてレンダリング音声が生成される。

　なお、この場合、情報処理部８７により現在時刻におけるユーザの向きを示す向き情報が向きセンサ８１から取得され、その向き情報、ユーザの仮想位置情報、および他のユーザの仮想位置情報と向き情報に基づいて角度差θ_Ｄと角度差θ_Ｅが求められてもよい。

　また、情報処理部８７により、発話者の収録音声に対する事前処理と、定位座標の計算が行われる。このとき、定位座標の算出には、現時刻におけるユーザ（聴取者）の向き情報および仮想位置情報と、発話者となる他のユーザの仮想位置情報とが用いられてもよい。

　そして、フィルタ処理部１７１によるフィルタＡ_Ｄの生成、および事前処理後の発話者の音声に対するフィルタＡ_Ｄを用いたフィルタリングが行われる。また、フィルタ処理部１７２によるフィルタＡ_Ｅの生成、および発話者の音声に対するフィルタＡ_Ｅを用いたフィルタリングも行われる。

　さらにその後、レンダリング処理部１７３は、定位座標と、フィルタ処理部１７２から供給された音声とに基づいて立体音響のレンダリング処理を行う。

　この場合、レンダリング処理部１７３では、例えば定位座標に基づいてメモリ８３から読み出したHRTFデータと、発話者の音声とに基づくバイノーラル処理や、定位座標に応じて周波数特性を調整するフィルタリング等が行われてレンダリング音声が生成される。

　特に、この例ではバイノーラル処理（立体音響のレンダリング処理）時に現時刻の聴取者となるユーザの向き情報を得ることができるので、現時刻におけるユーザ（聴取者）の向きのレンダリング音声A(θ,φ,ψ,x,y,z)のみが生成されるようにしてもよい。

　そのような場合には、後に行われるステップＳ７２では、生成された１つのレンダリング音声がそのまま提示用音声とされることになる。

〈ユーザの配置位置の調整について〉
　また、本技術ではサーバ１１において、聴取者自身から見た複数の発話音声の到来方向を比較し、到来方向同士のなす角度が事前に設定した最小間隔（角度）を下回らないよう、仮想会話空間における発話者の配置位置の間隔を調整することができる。

　また、そのような配置位置の調整が困難な場合、会話グループや発話者ごとに会話頻度が解析され、会話頻度の高い会話グループや発話者ほど、ユーザ間の間隔が確保できるよう優先され（高い優先度とされ）、それ以外の会話グループや発話者は優先度が下げられるようにしてもよい。

　そのような場合、得られた優先度によって最小間隔を保たなければならない音声を取捨選択することで、優先度の高い音声は聞き分けできる状態を保ち続けることができるように各ユーザの仮想会話空間上の配置位置が調整される。

　これにより、会話の頻度に応じて音源（発話者）の密集具合いが制御され、例えば仮想会話空間上の各ユーザの配置位置が図１９に示すように調整される。なお、図１９では、説明を簡単にするため、発話者となる全てのユーザが１つの円C11上に配置されている。

　この例では、ユーザU61が聴取者となっており、そのユーザU61を中心とする円C11上に複数の他のユーザが配置されている。ここでは１つの円が１人のユーザを表している。

　ユーザU61のほぼ正面に配置されたユーザU71乃至ユーザU75からなる会話グループは、最も優先度スコアが高い、つまり最も優先度が高い会話グループとなっている。そのため、その会話グループに属すユーザU71乃至ユーザU75は、互いに所定の間隔、すなわち角度ｄだけ離れた位置に配置されている。

　すなわち、例えばユーザU61およびユーザU71を結ぶ線L91と、ユーザU61およびユーザU72を結ぶ線L92とのなす角度が角度ｄとなっている。ここで、角度ｄは、発話者の音声の定位位置の分布（定位分布）において最低限確保すべき間隔を示す最小の角度差を示している。

　ここでは、最も優先度の高いユーザU71乃至ユーザU75は、互いに角度ｄに対応する間隔だけ離れた位置に配置されているため、ユーザU61は、それらのユーザU71乃至ユーザU75の発話音声を十分容易に聞き分けることができる。

　また、ユーザU61から見て右側に配置されたユーザU81やユーザU82を含む５人のユーザ（発話者）からなる会話グループは、ユーザU71乃至ユーザU75など、他のユーザや他の会話グループよりも優先度スコアの低いユーザとなっている。

　この例では、全てのユーザを角度ｄに対応する間隔だけ離して配置することはできないため、最も優先度スコアの低い会話グループに属すユーザU81やユーザU82は、角度ｄに対応する間隔よりも狭い間隔で並べられて配置されている。

　この場合、優先度スコアの低いユーザU81等は狭い間隔で配置されているが、それらの優先度スコアの低いユーザが発話を行う頻度は低いので、ユーザU61が発話者の発話音声を聞き分けることが難しくなってしまうことを抑制することができる。換言すれば、全体的にはユーザU61は、発話者の発話音声を十分に聞き分けることができる。

　ここで、優先度スコアに基づくユーザの配置位置の調整の具体的な例について説明する。

　例えば、リモート会話の発話者がＮ人であり、それらの発話者を発話者１乃至発話者Ｎと記すこととする。

　まず、情報処理部４３は、各発話者の過去から現在までの収録音声に基づいて、現在時刻から予め定められた時間の長さであるＴ秒前までの期間（以下、対象期間Ｔとも称する）における、発話者１乃至発話者Ｎの発声頻度Ｆ１乃至発声頻度ＦＮを求める。

　各発話者の発話音声（収録音声）は、常に一度、サーバ１１に集約されるため、情報処理部４３は、発話者ｎ（但し、ｎ＝1,2,…,N）の収録音声に基づいて、発話者ｎが対象期間Ｔにおいて発話をした時間Ｔ_ｎ（発話をした時間の長さ）を求めることができる。

　例えば情報処理部４３は、発話者ｎが発話をした時間Ｔ_ｎを対象期間Ｔで除算することで、発話者ｎの発声頻度Ｆｎ＝Ｔ_ｎ／Ｔを求める。

　なお、発話者ｎが発話しているか否かは、例えば発話者の収録音声の振幅や、収音時のマイク音圧が一定値以上であるか否か、収録音声に対する音声認識によって発話として認識されたか否か、カメラで撮影された画像上で口が動いているかなどのユーザの表情等に基づいて判定される。なお、各ユーザ（発話者）が発話しているか否かを示す情報は、情報処理部４３により生成されてもよいし、情報処理部８７により生成されてもよい。

　また、一般化した上での派生形として、発声頻度Ｆｎの求め方について直近の発話ほど重みづけをするなどの方法も考えられる。

　例えば、所定の重みである重みづけフィルタW(t)と、時刻ｔにおける発話者ｎの発話量Sn(t)を用いて、発声頻度Ｆｎ＝ΣW(t)Sn(t)とすることも可能である。

　この場合、例えばW(t)＝1/Tとし、時刻ｔにおいて発話者ｎの発話があるときには発話量Sn(t)＝1とし、時刻ｔにおいて発話者ｎの発話がないときには発話量Sn(t)＝0と定義すると、上述の例と同じようにＦｎ＝Ｔ_ｎ／Ｔとなる。

　また、情報処理部４３は、例えば所定の条件を満たす１または複数のユーザからなるグループを１つの会話グループとする。

　なお、ここでは会話グループの優先度スコアを算出する例について説明するが、ユーザ（発話者）ごとに優先度スコアを算出するようにしてもよい。

　例えば、予め定められたユーザからなるグループや、仮想会話空間において同じテーブルに座っているユーザからなるグループ、仮想会話空間において所定の大きさの領域内に含まれているユーザからなるグループなどが１つの会話グループとされる。基本的には、近くに集まって配置されているユーザが同じ会話グループに属すようにされる。

　このとき、情報処理部４３は、各発話者ｎ（ユーザ）の発話量Sn(t)や発声頻度Ｆｎに基づいて、会話グループごとの発話量Ｇと会話分散具合いＤも求める。

　例えば、発話者１乃至発話者ＮからなるＮ人の発話者によって１つの会話グループが形成されるとすると、その会話グループの発話量Ｇは、G＝ΣW(t)max(S1(t),…,SN(t))により求めることができる。この場合、各時刻ｔにおける発話量Sn(t)の最大値に重み（W(t)）をつけて加算することにより発話量Ｇが求められる。

　また、会話分散具合いＤは、例えばD＝(Σ(Fn-μ)²)/Nによって定義される。なお、会話分散具合いＤにおけるμは発声頻度Ｆｎの平均値である。

　さらに、情報処理部４３は任意に設定可能な係数をａ、ｂ、ｃとして、会話グループの優先度スコアＰをP＝aG+bD+c(G*D)^1/2により求める。このような会話グループの優先度スコアＰは、その会話グループに属すユーザの優先度スコアＰであるともいえる。

　会話グループごとに優先度スコアＰが求まると、情報処理部４３は、優先度スコアＰが高い会話グループの構成員（発話者）から順番に、聴取者から見た音像の定位分布の最小の角度ｄが確保できている状態となるように発話者の配置位置を調整する。

　このとき、優先度スコアＰが低い会話グループの構成員（発話者）になるほど、仮想会話空間における発話者の配置可能な領域が狭くなっていく。そのため、優先度スコアＰが低い会話グループの発話者については、定位分布の最小の角度ｄを保った状態で発話者を配置することができなくなる場合がある。

　そのような場合、例えば優先度スコアＰが低い会話グループの全構成員を同じ位置（一点）に配置したり、現時点で確保可能な角度を、残りの発話者（優先度スコアＰの低い発話者）に均等に割り当てて、その角度に対応する間隔で発話者が配置されたりしてもよい。

　このようにすることで、優先度スコアＰが高い会話グループに属す発話者の音声の聞き分けやすさは十分高く保ち続けられるようになる。

　なお、リモート会話が行われ、時間が経過していくなかで、各会話グループの優先度スコアＰの順位に変動があることや、発話者や聴取者の位置の移動により、聴取者から見た会話グループのある方向が変動することが想定される。その場合、定位分布の変動を各発話者の位置に即時反映すると位置の変化が離散的になってしまう。

　そこで、例えば情報処理部８７は、発話者の音声の現在の定位位置と、更新後の新しい定位位置とに所定値以上の差（距離）がある場合には、一定時間をかけて音像位置、すなわち仮想会話空間における発話者の配置位置が連続的に少しずつ移動していくようにする。具体的には、例えば情報処理部８７は、仮想会話空間画像上においてアニメーション表示により、連続的に発話者の位置を移動させていく。これにより、聴取者は、発話者の位置（音像定位位置）が移動していることを瞬時に把握することができる。

　以上のような発話者の配置の調整をサーバ１１側で行う場合、情報処理部４３は、所定のユーザの仮想位置情報が更新されたなどのタイミングで、発話者の配置位置の調整が必要であるか否かを判定する。

　具体的な例として、１人のユーザに注目し、そのユーザが聴取者であり、他のユーザが発話者である場合について説明する。

　ここでは、聴取者から見た所定の発話者の方向と、聴取者から見た他の発話者の方向とのなす角度を発話者間角度と称することとする。また、聴取者から見て、各発話者間の発話者間角度が上述の角度ｄ以上となっている状態を、定位分布の最小間隔ｄが保たれている状態とも呼ぶこととする。

　また、以下で説明する処理では、聴取者となるユーザが他のユーザの仮想位置情報を指定可能な場合、情報処理部４３は、聴取者のクライアント１２から受信された（聴取者により指定された）他のユーザ（発話者）の仮想位置情報を処理に用いる。

　これに対して、聴取者となるユーザが他のユーザの仮想位置情報を指定できない場合、情報処理部４３は、他のユーザのクライアント１２から受信された（発話者により指定された）他のユーザ（発話者）の仮想位置情報を処理に用いる。

　情報処理部４３は、各ユーザの仮想位置情報に基づいて、聴取者から見て、各発話者の配置の状態が定位分布の最小間隔ｄが保たれている状態である場合、発話者の配置位置の調整は不要であるとする。この場合、特に発話者の配置位置の調整は行われない。

　一方、情報処理部４３は、聴取者から見て、各発話者の配置の状態が定位分布の最小間隔ｄが保たれていない状態である場合、発話者の配置位置の調整が必要であるとする。

　この場合、情報処理部４３は、各発話者の配置の状態が定位分布の最小間隔ｄが保たれた状態となるように、例えば発話者間角度が角度ｄ未満となっている発話者の配置位置を調整する。このとき、必要であれば、発話者間角度が角度ｄ未満となっていない他の発話者の配置位置も調整されるようにしてもよい。

　換言すれば、情報処理部４３は、全ての発話者の間で発話者間角度が角度ｄ以上となるように、仮想会話空間上の１または複数の発話者の配置位置を調整（変更）する。

　このような仮想会話空間における発話者の配置位置の調整により、一部または全部の発話者の仮想位置情報が更新されたことになる。

　配置位置の調整後においては、情報処理部４３は、更新後の仮想位置情報を用いて、上述の音声生成処理におけるステップＳ４２乃至ステップＳ４４の処理を行う。また、通信部４１は、更新後の仮想位置情報を聴取者となるユーザのクライアント１２に送信し、クライアント１２で保持されている発話者の仮想位置情報も更新させる。

　また、定位分布の最小間隔ｄが保たれていない状態であるとされた場合、全ての発話者の配置位置を調整しても、定位分布の最小間隔ｄが保たれた状態とはならないことがある。

　そのような場合、サーバ１１は、例えば図２０に示す配置位置調整処理を行う。

　以下、図２０のフローチャートを参照して、サーバ１１による配置位置調整処理について説明する。

　ステップＳ１１１において情報処理部４３は、各発話者の収録音声に基づいて会話グループの優先度スコアＰを算出する。

　すなわち、情報処理部４３は、各発話者の収録音声に基づいて、会話グループごとに発話量Ｇと会話分散具合いＤを求め、それらの発話量Ｇと会話分散具合いＤから各会話グループの優先度スコアＰを算出する。

　ステップＳ１１２において情報処理部４３は、優先度スコアＰに基づいて仮想会話空間における各発話者の配置位置を調整する。すなわち、情報処理部４３は、各発話者の仮想位置情報を更新（変更）する。

　具体的には、例えば情報処理部４３は、優先度スコアＰが所定値以上である（優先度の高い）会話グループや、優先度スコアＰが最も高い会話グループに属す発話者を処理対象の発話者とする。情報処理部４３は、処理対象の各発話者間の発話者間角度が角度ｄとなるように、それらの処理対象の発話者の配置位置を調整（変更）する。

　このとき、処理対象の各発話者間の発話者間角度が角度ｄとなるように、必要に応じて処理対象の発話者以外の他の発話者の配置位置も調整されるようにしてもよい。また、例えば処理対象の発話者は、他の何れの発話者との間でも発話者間角度として少なくとも角度ｄが確保されるようにされる。

　このような状態で、聴取者から見て最も右側に配置された処理対象の発話者の方向と、聴取者から見て最も左側に配置された処理対象の発話者の方向とのなす角度がαであるとすると、３６０度から角度αと角度２ｄを減算して得られる角度βが残りの角度とされる。この残りの角度βは、優先度スコアＰが所定値未満である会話グループや、優先度スコアＰが最も低い会話グループなど、優先度の低い会話グループに属す発話者の配置調整において各発話者に対して配分可能な角度（発話者間角度）である。

　次に、情報処理部４３は、優先度スコアＰが所定値未満である会話グループなど、まだ処理対象としていない（優先度が低い）会話グループに属す発話者を処理対象の発話者とする。

　そして、情報処理部４３は、処理対象の各発話者間の発話者間角度が角度ｄより小さい角度ｄ’となるように、それらの処理対象の発話者の配置位置を調整（変更）する。このとき、処理対象の各発話者間の発話者間角度が角度ｄより小さい角度ｄ’となるように、必要に応じて、処理対象の発話者以外の発話者の配置位置も調整されてもよい。

　例えば情報処理部４３は、処理対象の各発話者に対して残りの角度βを均等に割り当てる（分配する）ようにする。

　例として優先度スコアＰが所定値未満である会話グループに属す発話者の総数が４人である場合、情報処理部４３は、処理対象の各発話者間の発話者間角度がβ／３となるように、それらの処理対象の発話者の配置位置を調整する。

　なお、残りの角度βや会話グループの優先度スコアＰが極端に低い（優先度スコアＰが閾値以下である）場合などにおいては、処理対象の全発話者が仮想会話空間における同じ位置に配置されるようにしてもよい。

　以上のようにして全発話者を処理対象として配置位置の調整を行うと、情報処理部４３は、その調整結果に応じて各発話者の仮想位置情報を更新する。

　そして、情報処理部４３は、以降においては、更新後の仮想位置情報を用いて、上述の音声生成処理におけるステップＳ４２乃至ステップＳ４４の処理を行う。

　また、情報処理部４３は、更新後の仮想位置情報を通信部４１に供給し、通信部４１は、情報処理部４３から供給された仮想位置情報を聴取者となるユーザのクライアント１２へと送信する。この場合、クライアント１２においても、以降においては更新後の仮想位置情報に基づいて、図１７を参照して説明した再生処理が行われる。

　このとき、例えばステップＳ７４では、情報処理部８７は、サーバ１１から受信した更新後の仮想位置情報に基づいて仮想会話空間画像を表示部８５に表示させる。その際、情報処理部８７は、必要に応じて、仮想会話空間画像上の発話者を表す画像が少しずつ連続的に移動していくようなアニメーション表示を行わせる。

　更新後の仮想位置情報がクライアント１２へと送信されると、配置位置調整処理は終了する。

　以上のようにしてサーバ１１は、優先度スコアＰを算出し、その優先度スコアＰに基づいて発話者の配置位置を調整する。これにより、優先度の高い発話者は定位分布の最小間隔ｄが保たれた状態とすることができるので、全体として発話者の音声を聞き分けやすくすることができる。

　なお、発話者の配置位置を調整するにあたり、聴取者自身の配置位置も調整されるようにしてもよい。そうすることで、より自由度の高い配置位置の調整を行うことができる。

　また、以上において説明した発話者の配置位置の調整は、サーバ１１ではなくクライアント１２の情報処理部８７において行われるようにしてもよい。

　そのような場合、クライアント１２は、必要に応じて、サーバ１１から各発話者の仮想位置情報を取得（受信）するようにしてもよいし、ユーザ（聴取者）により指定された各発話者の仮想位置情報を用いてもよい。

　また、更新後の仮想位置情報をサーバ１１に送信し、サーバ１１において更新後の仮想位置情報を用いてレンダリング音声の生成を行うようにしてもよいし、クライアント１２が更新後の仮想位置情報を用いてレンダリング音声を生成してもよい。

〈本技術の適用例〉
　以上において説明した本技術の具体的な適用例について説明する。

　ここでは、モバイル向けアプリケーションとして、本技術を実装した例を示す。

　そのような場合、例えばクライアント１２はモバイル端末（スマートフォン）などとされ、表示部８５には、例えば図２１に示す画面が表示される。なお、図２１に示す画面デザインはあくまで一例であって、この例に限定されるものではない。

　この例では、表示画面上にはリモート会話のための各種の設定を行うための設定画面DP11と、仮想会話空間を模した仮想会話空間画像DP12とが表示されている。

　例えば設定画面DP11における文字「Gyro」の図中、右側に表示されたトグルボタンを操作することで、ユーザは向きの検出を有効化または無効化することができる。

　例えばユーザの向きの検出が有効とされている場合、クライアント１２では逐次、ユーザの向きが検出され、その結果得られた向き情報がサーバ１１に送信される。

　これに対して、ユーザの向きの検出が無効とされている場合、向き情報のサーバ１１への送信は行われない。すなわち、向き情報により示される向きは固定されたままとされる。したがって、この場合、ユーザの向きが変化しても仮想会話空間における各ユーザの位置関係は固定されたままとなり、仮想会話空間画像DP12上における各ユーザを表すアイコンの位置関係も変化しない。

　画面下側に配置された仮想会話空間画像DP12上の中心の位置には、ユーザ自身を表す文字「Ｍｅ」とユーザを表すアイコンU101とが表示されており、この例ではユーザは図中、上側を向いていることが分かる。

　また、ユーザ自身（アイコンU101）を中心として他の参加者（他のユーザ）を表すアイコン（画像）が表示される。

　この例では、アイコンU101を中心とする３つの同心円が表示されている。そして、最も小さい円上に参加者名「User1」により識別される他のユーザ（以下、ユーザUser1とも称する）のアイコンU102と、参加者名「User2」により識別される他のユーザ（以下、ユーザUser2とも称する）のアイコンU103とが表示されている。

　特に、アイコンU102はアイコンU101の図中、左側に配置されており、アイコンU103はアイコンU101の図中、右側に配置されている。したがって、ユーザUser1はユーザ自身（Ｍｅ）から見て左側に位置しており、ユーザUser2はユーザ自身から見て右側に位置していることが分かる。

　このような表示により、ユーザは他の参加者、すなわちユーザUser1とユーザUser2の声がどの方向から聞こえてくるかを把握することができる。換言すれば、仮想会話空間画像DP12では、ユーザに対して他の参加者の声がどの方向から聞こえてくるかがアイコンと参加者名の表示位置により表されている。

　また、アイコンU101を中心とする３つの同心円において、外側にある円上に位置するほど、つまりアイコンU101から遠い位置に配置された参加者ほど、ユーザ（Ｍｅ）から遠い位置にいることを表している。

　また、ユーザ（アイコンU101）から見て上側に表示された参加者は、ユーザの正面におり、ユーザから見て右側に表示された参加者は、ユーザの右側におり、ユーザから見て下側に表示された参加者はユーザの後方（後ろ側）にいるなど、円上におけるアイコンの配置位置が参加者の声の定位する方向を示している。

　モバイルアプリケーション（クライアント１２）では、ユーザの向き情報として、モバイル端末の向きセンサ、またはヘッドフォンの向きセンサが向きセンサ８１として用いられる。また、モバイルアプリケーションは、向きセンサからユーザの向きを示す向き情報を受け取り、ユーザの向きの変化に応じて、他の参加者の音声の方向をリアルタイムに変化させている。

　例えば図２１に示す状態では、ユーザの左側からユーザUser1の声が聞こえ、ユーザの右側からユーザUser2の声が聞こえる状態となっている。

　この状態から、例えばユーザ（Ｍｅ）が選択的聴取や選択的発話の対象として、ユーザUser1の声が聞こえてくる方向を向くと、仮想会話空間画像DP12の表示は、例えば図２２に示すような表示に変化する。これにより、ユーザがユーザUser1の方を向いて話を聞いている状態となる。

　例えばユーザが、向きセンサ８１を内蔵するモバイル端末の向きを変えると、そのモバイル端末の向きの変化がユーザの向き（向き情報）の変化として向きセンサ８１により検出される。

　図２２に示す状態では、ユーザ（Ｍｅ）から見て正面の方向にユーザUser1の声（音像）が配置され、そのユーザUser1の声が明瞭に聞き取れるようになる。一方で、ユーザUser2の声（音像）は、ユーザ（Ｍｅ）から見て右後ろ側に移動するので、ユーザUser2の声は、選択的聴取のフィルタＡ_Ｄによりこもった声として聞こえるようになる。

　これにより、ユーザUser1の声を聞き取りやすい位置や音質で聞き、ユーザUser2の声については、ユーザUser1の邪魔をしないようにしつつも、聞き取り可能なように聞くことができるようになる。

　さらに、図２２に示す状態でユーザ自身（Ｍｅ）が発話すると、自身の声は選択的発話のフィルタＡ_Ｅにより、ユーザUser1にとっては聞き取りやすく、ユーザUser2にとっては聞き取りづらい音声として伝わる。そうすることにより、ユーザUser1は自分に向けて話しかけてきたことが分かる一方、ユーザUser2は自分じゃない人に話しかけていることが分かるようになる。

　その後、ユーザ自身（Ｍｅ）が向きをユーザUser2に向けるようにすると、状況は一転し、仮想会話空間画像DP12の表示は、例えば図２３に示すような表示に変化する。

　この状態では、ユーザ（Ｍｅ）の正面にユーザUser2がおり、ユーザの後方にユーザUser1がいるため、ユーザUser2の声が聞き取りやすくなり、ユーザUser1の声は聞き取りづらくなる。

　以上のようにモバイル端末においてリアルタイムにユーザの向きを取得し、その向きに応じたフィルタを他のユーザの音声かけることで、選択的聴取や選択的発話を実現することができる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図２４は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　聴取者の向きを示す向き情報と、前記聴取者により設定された仮想空間上の前記聴取者の位置を示す仮想位置情報と、発話者の前記仮想位置情報とに基づいて、前記聴取者の向きおよび位置と、前記発話者の位置とに応じた位置に定位する前記発話者の音声を生成する情報処理部を備える
　情報処理装置。
（２）
　前記発話者の前記仮想位置情報により示される前記仮想空間上の前記発話者の位置は、前記聴取者により設定される
　（１）に記載の情報処理装置。
（３）
　前記聴取者の前記向き情報および前記仮想位置情報を、前記聴取者のクライアントから受信し、前記発話者の音声を前記聴取者の前記クライアントに送信する通信部をさらに備える
　（１）または（２）に記載の情報処理装置。
（４）
　前記情報処理部は、バイノーラル処理を含む音響処理を行うことで、前記発話者の音声を生成する
　（１）乃至（３）の何れか一項に記載の情報処理装置。
（５）
　前記情報処理部は、前記聴取者から見た前記発話者の方向が、前記聴取者の正面方向に近いほど、前記発話者の音声が明瞭に聞こえるように、前記発話者の音声を生成する
　（１）乃至（４）の何れか一項に記載の情報処理装置。
（６）
　前記情報処理部は、前記聴取者により指定された指向性に基づいて、前記発話者の音声を生成する
　（５）に記載の情報処理装置。
（７）
　前記情報処理部は、前記発話者の正面方向が、前記発話者から見た前記聴取者の方向に近いほど、前記発話者の音声が明瞭に聞こえるように、前記発話者の音声を生成する
　（１）乃至（６）の何れか一項に記載の情報処理装置。
（８）
　前記情報処理部は、前記発話者により指定された指向性に基づいて、前記発話者の音声を生成する
　（７）に記載の情報処理装置。
（９）
　前記情報処理部は、前記聴取者から見た前記発話者の方向と、前記聴取者から見た他の前記発話者の方向とのなす発話者間角度が所定の最小角度以上となるように、前記仮想空間における１または複数の前記発話者の位置を調整する
　（１）乃至（８）の何れか一項に記載の情報処理装置。
（１０）
　前記情報処理部は、
　全ての前記発話者の間で前記発話者間角度が前記最小角度以上となるように前記全ての前記発話者を前記仮想空間に配置することができない場合、
　前記発話者の音声に基づいて前記発話者の優先度を算出し、
　前記優先度の高い前記発話者の前記発話者間角度が前記最小角度となるように、前記仮想空間における１または複数の前記発話者の位置を調整する
　（９）に記載の情報処理装置。
（１１）
　前記情報処理部は、前記優先度の低い前記発話者間の前記発話者間角度が前記最小角度よりも小さい角度となるように、前記仮想空間における１または複数の前記発話者の位置を調整する
　（１０）に記載の情報処理装置。
（１２）
　前記情報処理部は、前記優先度の低い複数の前記発話者が前記仮想空間における同じ位置に配置されるように、前記仮想空間における１または複数の前記発話者の位置を調整する
　（１０）に記載の情報処理装置。
（１３）
　前記情報処理部は、１または複数の前記発話者からなるグループごとに前記優先度を算出する
　（１０）乃至（１２）の何れか一項に記載の情報処理装置。
（１４）
　前記情報処理部は、前記発話者の発声頻度に基づく前記優先度を算出する
　（１０）乃至（１３）の何れか一項に記載の情報処理装置。
（１５）
　前記情報処理部は、前記向き情報により示される前記聴取者の向きを含む複数の向きごとに、前記発話者の音声を生成する
　（１）乃至（１４）の何れか一項に記載の情報処理装置。
（１６）
　前記情報処理部は、前記仮想空間における前記聴取者と前記発話者の位置関係を示す仮想空間画像を表示部に表示させる
　（１）または（２）に記載の情報処理装置。
（１７）
　情報処理装置が、
　聴取者の向きを示す向き情報と、前記聴取者により設定された仮想空間上の前記聴取者の位置を示す仮想位置情報と、発話者の前記仮想位置情報とに基づいて、前記聴取者の向きおよび位置と、前記発話者の位置とに応じた位置に定位する前記発話者の音声を生成する
　情報処理方法。
（１８）
　聴取者の向きを示す向き情報と、前記聴取者により設定された仮想空間上の前記聴取者の位置を示す仮想位置情報と、発話者の前記仮想位置情報とに基づいて、前記聴取者の向きおよび位置と、前記発話者の位置とに応じた位置に定位する前記発話者の音声を生成する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　サーバ，　１２　クライアント，　４１　通信部，　４３　情報処理部，　７１　音声出力装置，　８１　向きセンサ，　８２　収音部，　８４　通信部，　８５　表示部，　８７　情報処理部，　１３１　フィルタ処理部，　１３２　フィルタ処理部，　１３３　レンダリング処理部，　１７１　フィルタ処理部，　１７２　フィルタ処理部，　１７３　レンダリング処理部

Claims

　聴取者の向きを示す向き情報と、前記聴取者により設定された仮想空間上の前記聴取者の位置を示す仮想位置情報と、発話者の前記仮想位置情報とに基づいて、前記聴取者の向きおよび位置と、前記発話者の位置とに応じた位置に定位する前記発話者の音声を生成する情報処理部を備える
　情報処理装置。
　前記発話者の前記仮想位置情報により示される前記仮想空間上の前記発話者の位置は、前記聴取者により設定される
　請求項１に記載の情報処理装置。
　前記聴取者の前記向き情報および前記仮想位置情報を、前記聴取者のクライアントから受信し、前記発話者の音声を前記聴取者の前記クライアントに送信する通信部をさらに備える
　請求項１に記載の情報処理装置。
　前記情報処理部は、バイノーラル処理を含む音響処理を行うことで、前記発話者の音声を生成する
　請求項１に記載の情報処理装置。
　前記情報処理部は、前記聴取者から見た前記発話者の方向が、前記聴取者の正面方向に近いほど、前記発話者の音声が明瞭に聞こえるように、前記発話者の音声を生成する
　請求項１に記載の情報処理装置。
　前記情報処理部は、前記聴取者により指定された指向性に基づいて、前記発話者の音声を生成する
　請求項５に記載の情報処理装置。
　前記情報処理部は、前記発話者の正面方向が、前記発話者から見た前記聴取者の方向に近いほど、前記発話者の音声が明瞭に聞こえるように、前記発話者の音声を生成する
　請求項１に記載の情報処理装置。
　前記情報処理部は、前記発話者により指定された指向性に基づいて、前記発話者の音声を生成する
　請求項７に記載の情報処理装置。
　前記情報処理部は、前記聴取者から見た前記発話者の方向と、前記聴取者から見た他の前記発話者の方向とのなす発話者間角度が所定の最小角度以上となるように、前記仮想空間における１または複数の前記発話者の位置を調整する
　請求項１に記載の情報処理装置。
　前記情報処理部は、
　全ての前記発話者の間で前記発話者間角度が前記最小角度以上となるように前記全ての前記発話者を前記仮想空間に配置することができない場合、
　前記発話者の音声に基づいて前記発話者の優先度を算出し、
　前記優先度の高い前記発話者の前記発話者間角度が前記最小角度となるように、前記仮想空間における１または複数の前記発話者の位置を調整する
　請求項９に記載の情報処理装置。
　前記情報処理部は、前記優先度の低い前記発話者間の前記発話者間角度が前記最小角度よりも小さい角度となるように、前記仮想空間における１または複数の前記発話者の位置を調整する
　請求項１０に記載の情報処理装置。
　前記情報処理部は、前記優先度の低い複数の前記発話者が前記仮想空間における同じ位置に配置されるように、前記仮想空間における１または複数の前記発話者の位置を調整する
　請求項１０に記載の情報処理装置。
　前記情報処理部は、１または複数の前記発話者からなるグループごとに前記優先度を算出する
　請求項１０に記載の情報処理装置。
　前記情報処理部は、前記発話者の発声頻度に基づく前記優先度を算出する
　請求項１０に記載の情報処理装置。
　前記情報処理部は、前記向き情報により示される前記聴取者の向きを含む複数の向きごとに、前記発話者の音声を生成する
　請求項１に記載の情報処理装置。
　前記情報処理部は、前記仮想空間における前記聴取者と前記発話者の位置関係を示す仮想空間画像を表示部に表示させる
　請求項１に記載の情報処理装置。
　情報処理装置が、
　聴取者の向きを示す向き情報と、前記聴取者により設定された仮想空間上の前記聴取者の位置を示す仮想位置情報と、発話者の前記仮想位置情報とに基づいて、前記聴取者の向きおよび位置と、前記発話者の位置とに応じた位置に定位する前記発話者の音声を生成する
　情報処理方法。
　聴取者の向きを示す向き情報と、前記聴取者により設定された仮想空間上の前記聴取者の位置を示す仮想位置情報と、発話者の前記仮想位置情報とに基づいて、前記聴取者の向きおよび位置と、前記発話者の位置とに応じた位置に定位する前記発話者の音声を生成する
　ステップを含む処理をコンピュータに実行させるプログラム。