JPWO2015182491A1

JPWO2015182491A1 - 情報処理装置および情報処理方法

Info

Publication number: JPWO2015182491A1
Application number: JP2016523457A
Authority: JP
Inventors: 平林　光浩; 光浩平林; 徹知念; 優樹山本; 潤宇史
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-05-30
Filing date: 2015-05-22
Publication date: 2017-04-20
Also published as: SG11201609855WA; WO2015182491A1; RU2016146015A; EP3151240A4; US20170092280A1; RU2019122989A; BR112016027506A2; CA3210174A1; CA2947549A1; MX2016015331A; CN114242081A; EP3151240B1; EP4177886A1; MX369767B; AU2015267864A1; BR112016027506B1; MX2019013620A; RU2016146015A3; CN106415711A; CA2947549C

Abstract

本開示は、複数の種類の音声データのうちの所定の種類の音声データの取得効率を向上させることができるようにする情報処理装置および情報処理方法に関する。複数の種類の音声データが種類に応じて複数のトラックに分割されて配置されるファイルのうちの所定のトラックの音声データが取得される。本開示は、例えば、ファイルを生成するファイル生成装置、ファイル生成装置により生成されたファイルを記録するWebサーバ、および、ファイルを再生する動画再生端末により構成される情報処理システム等に適用することができる。

Description

本開示は、情報処理装置および情報処理方法に関し、特に、複数の種類の音声データのうちの所定の種類の音声データの取得効率を向上させることができるようにした情報処理装置および情報処理方法に関する。

近年、インターネット上のストリーミングサービスの主流がOTT−V（Over The Top Video）となっている。この基盤技術として普及し始めているのがMPEG−DASH（Moving Picture Experts Group phase − Dynamic Adaptive Streaming over HTTP）である（例えば、非特許文献１参照）。

MPEG−DASHでは、配信サーバが１本の動画コンテンツ用に画面サイズと符号化速度が異なる動画データ群を用意し、再生端末が伝送路の状況に応じて最適な画面サイズと符号化速度の動画データ群を要求することにより、適応型のストリーミング配信が実現される。

MPEG−DASH(Dynamic Adaptive Streaming over HTTP)（URL:http://mpeg.chiariglione.org/standards/mpeg−dash/media−presentation−description−and−segment−formats/text−isoiec−23009−12012−dam−1）

しかしながら、動画コンテンツの複数の種類の音声データのうちの所定の種類の音声データの取得効率を向上させることは考えられていない。

本開示は、このような状況に鑑みてなされたものであり、複数の種類の音声データのうちの所定の種類の音声データの取得効率を向上させることができるようにするものである。

本開示の第１の側面の情報処理装置は、複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルのうちの所定の前記トラックの音声データを取得する取得部を備える情報処理装置である。

本開示の第１の側面の情報処理方法は、本開示の第１の側面の情報処理装置に対応する。

本開示の第１の側面においては、複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルのうちの所定の前記トラックの音声データが取得される。

本開示の第２の側面の情報処理装置は、複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルを生成する生成部を備える情報処理装置である。

本開示の第２の側面の情報処理方法は、本開示の第２の側面の情報処理装置に対応する。

本開示の第２の側面においては、複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルが生成される。

なお、第１および第２の側面の情報処理装置は、コンピュータにプログラムを実行させることにより実現することができる。

また、第１および第２の側面の情報処理装置を実現するために、コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

本開示の第１の側面によれば、音声データを取得することができる。また、本開示の第１の側面によれば、複数の種類の音声データのうちの所定の種類の音声データを効率良く取得することができる。

本開示の第２の側面によれば、ファイルを生成することができる。また、本開示の第２の側面によれば、複数の種類の音声データのうちの所定の種類の音声データの取得効率を向上させるファイルを生成することができる。

本開示を適用した情報処理システムの第１の例の概要を説明する図である。タイルの例を示す図である。オブジェクトを説明する図である。オブジェクト位置情報を説明する図である。画枠サイズ情報を説明する図である。 MPDファイルの構造を示す図である。「Period」、「Representation」、および「Segment」の関係を示す図である。 MPDファイルの階層構造を示す図である。 MPDファイルの構造と時間軸との関係を示す図である。 MPDファイルの記述例を説明する図である。ファイル生成装置の構成例を示すブロック図である。ファイル生成装置のファイル生成処理を説明するフローチャートである。ストリーミング再生部の構成例を示すブロック図である。ストリーミング再生部のストリーミング再生処理を説明するフローチャートである。 MPDファイルの他の記述例を説明する図である。 MPDファイルのさらに他の記述例を説明する図である。オーディオストリームの配置例を示す図である。 gsixの記述例を示す図である。 Sample group entryとオブジェクトＩＤの対応関係を示す情報の例を示す図である。 AudioObjectSampleGroupEntryの記述例を示す図である。 type assignment boxの記述例を示す図である。本開示を適用した情報処理システムの第２の例の概要を説明する図である。本開示を適用した情報処理システムのストリーミング再生部の構成例を示すブロック図である。オブジェクトの位置の決定方法を説明する図である。オブジェクトの位置の決定方法を説明する図である。オブジェクトの位置の決定方法を説明する図である。水平角度θ_Aiと水平角度θ_Ai´の関係を表す図である。図２３のストリーミング再生部のストリーミング再生処理を説明するフローチャートである。図２８の位置決定処理の詳細を説明するフローチャートである。図２９の水平角度θ_Ai´推定処理の詳細を説明するフローチャートである。ＭＰ４の３Ｄオーディオファイルフォーマットのトラックの概要を説明する図である。 moovボックスの構造を示す図である。本開示を適用した第１実施の形態におけるトラックの概要を説明する図である。図３３のベーストラックのサンプルエントリのシンタクスの例を示す図である。図３３のチャンネルオーディオトラックのサンプルエントリのシンタクスの例を示す図である。図３３のオブジェクトオーディオトラックのサンプルエントリのシンタクスの例を示す図である。図３３のHOAオーディオトラックのサンプルエントリのシンタクスの例を示す図である。図３３のオブジェクトメタデータトラックのサンプルエントリのシンタクスの例を示す図である。セグメント構造の第１の例を示す図である。セグメント構造の第２の例を示す図である。 level assignmentボックスの記述例を示す図である。本開示を適用した第１実施の形態におけるMPDファイルの記述例を示す図である。 essential Propertyの定義を示す図である。本開示を適用した第１実施の形態における情報処理システムの概要を説明する図である。図４４のファイル生成装置の構成例を示すブロック図である。図４５のファイル生成装置のファイル生成処理を説明するフローチャートである。図４４の動画再生端末により実現されるストリーミング再生部の構成例を示すブロック図である。図４７のストリーミング再生部のチャンネルオーディオ再生処理を説明するフローチャートである。図４７のストリーミング再生部のオブジェクト特定処理を説明するフローチャートである。図４７のストリーミング再生部の特定オブジェクトオーディオ再生処理を説明するフローチャートである。本開示を適用した第２実施の形態におけるトラックの概要を説明する図である。図５１のベーストラックのサンプルエントリのシンタクスの例を示す図である。ベースサンプルの構造を示す図である。ベースのサンプルのシンタクスの例を示す図である。 extractorのデータの例を示す図である。本開示を適用した第３実施の形態におけるトラックの概要を説明する図である。本開示を適用した第４実施の形態におけるトラックの概要を説明する図である。本開示を適用した第４実施の形態におけるMPDファイルの記述例を示す図である。本開示を適用した第４実施の形態における情報処理システムの概要を説明する図である。図５９のファイル生成装置の構成例を示すブロック図である。図６０のファイル生成装置のファイル生成処理を説明するフローチャートである。図５９の動画再生端末により実現されるストリーミング再生部の構成例を示すブロック図である。図６２のストリーミング再生部のチャンネルオーディオ再生処理の例を説明するフローチャートである。図６２のストリーミング再生部のオブジェクトオーディオ再生処理の第１の例を説明するフローチャートである。図６２のストリーミング再生部のオブジェクトオーディオ再生処理の第２の例を説明するフローチャートである。図６２のストリーミング再生部のオブジェクトオーディオ再生処理の第３の例を説明するフローチャートである。プライオリティに基づいて選択されたオブジェクトの例を示す図である。本開示を適用した第５実施の形態におけるトラックの概要を説明する図である。本開示を適用した第６実施の形態におけるトラックの概要を説明する図である。３Ｄオーディオの階層構造を示す図である。 Webサーバの処理の第１の例を説明する図である。 Webサーバのトラック分割処理を説明するフローチャートである。音声復号処理部の処理の第１の例を説明する図である。音声復号処理部の復号処理の第１の例の詳細を説明するフローチャートである。音声復号処理部の処理の第２の例を説明する図である。音声復号処理部の復号処理の第２の例の詳細を説明するフローチャートである。 Webサーバの処理の第２の例を説明する図である。音声復号処理部の処理の第３の例を説明する図である。音声復号処理部の復号処理の第３の例の詳細を説明するフローチャートである。ベースサンプルに配置されるConfig情報のシンタクスの第２の例を示す図である。図８０のExtエレメント用のConfig情報のシンタクスの例を示す図である。図８１のExtractor用のConfig情報のシンタクスの例を示す図である。ベースサンプルに配置されるフレーム単位のデータのシンタクスの第２の例を示す図である。図８３のExtractorのデータのシンタクスの例を示す図である。ベースサンプルに配置されるConfig情報のシンタクスの第３の例を示す図である。ベースサンプルに配置されるフレーム単位のデータのシンタクスの第３の例を示す図である。本開示を適用した情報処理システムの第７実施の形態におけるオーディオストリームの構成例を示す図である。第７実施の形態におけるトラックの概要を説明する図である。第７実施の形態におけるファイル生成処理を説明するフローチャートである。第７実施の形態におけるオーディオ再生処理を説明するフローチャートである。本開示を適用した情報処理システムの第８実施の形態におけるトラックの概要を説明する図である。音声ファイルの構成例を示す図である。音声ファイルの他の構成例を示す図である。音声ファイルのさらに他の構成例を示す図である。コンピュータのハードウエアの構成例を示すブロック図である。

以下、本開示の前提および本開示を実施するための形態（以下、実施の形態という）について説明する。なお、説明は以下の順序で行う。
０．本開示の前提（図１乃至図３０）
１．第１実施の形態（図３１乃至図５０）
２．第２実施の形態（図５１乃至図５５）
３．第３実施の形態（図５６）
４．第４実施の形態（図５７乃至図６７）
５．第５実施の形態（図６８）
６．第６実施の形態（図６９）
７．３Ｄオーディオの階層構造の説明（図７０）
８．Webサーバの処理の第１の例の説明（図７１および図７２）
９．音声復号処理部の処理の第１の例の説明（図７３および図７４）
１０．音声復号処理部の処理の第２の例の説明（図７５および図７６）
１１．Webサーバの処理の第２の例の説明（図７７）
１２．音声復号処理部の処理の第３の例の説明（図７８および図７９）
１３．ベースサンプルのシンタクスの第２の例（図８０乃至図８４）
１４．ベースサンプルのシンタクスの第３の例（図８５および図８６）
１５．第７実施の形態（図８７乃至図９０）
１６．第８実施の形態（図９１乃至図９４）
１７．第９実施の形態（図９５）

＜本開示の前提＞
（情報処理システムの第１の例の概要）
図１は、本開示を適用した情報処理システムの第１の例の概要を説明する図である。

図１の情報処理システム１０は、ファイル生成装置１１と接続されるWebサーバ１２と動画再生端末１４が、インターネット１３を介して接続されることにより構成される。

情報処理システム１０では、MPEG−DASHに準ずる方式で、Webサーバ１２が動画コンテンツの画像データをタイル単位で動画再生端末１４に配信（タイルドストリーミング）する。

具体的には、ファイル生成装置１１は、動画コンテンツの画像データを取得し、タイル単位で符号化してビデオストリームを生成する。ファイル生成装置１１は、各タイルのビデオストリームを、セグメントと呼ばれる数秒から10秒程度の時間単位ごとにファイル化する。ファイル生成装置１１は、その結果得られる各タイルの画像ファイルをWebサーバ１２にアップロードする。

また、ファイル生成装置１１は、動画コンテンツの音声データをオブジェクト（詳細は後述する）ごとに取得し、オブジェクト単位で符号化してオーディオストリームを生成する。ファイル生成装置１１は、各オブジェクトのオーディオストリームをセグメント単位でファイル化し、その結果得られる各オブジェクトの音声ファイルをWebサーバ１２にアップロードする。

なお、オブジェクトとは、音源であり、各オブジェクトの音声データは、そのオブジェクトに取り付けられたマイクロフォンなどにより取得される。オブジェクトは、固定されたマイクスタンドなどの物体であってもよいし、人物などの動体であってもよい。

ファイル生成装置１１は、各オブジェクトの位置（音声データの取得位置）を表すオブジェクト位置情報（音声位置情報）、オブジェクトに固有のＩＤであるオブジェクトＩＤ等を含むオーディオメタデータを符号化する。ファイル生成装置１１は、オーディオメタデータの符号化データをセグメント単位でファイル化し、その結果得られる音声メタファイルをWebサーバ１２にアップロードする。

また、ファイル生成装置１１は、動画コンテンツの画像の画枠サイズを表す画枠サイズ情報、各タイルの画像上の位置を表すタイル位置情報等を含む、画像ファイルや音声ファイルを管理するMPD（Media Presentation Description）ファイル（制御情報）を生成する。ファイル生成装置１１は、MPDファイルをWebサーバ１２にアップロードする。

Webサーバ１２は、ファイル生成装置１１からアップロードされた画像ファイル、音声ファイル、音声メタファイル、およびMPDファイルを格納する。

図１の例では、Webサーバ１２には、タイルＩＤ「１」のタイルの複数のセグメントの画像ファイルからなるセグメント群と、タイルＩＤ「２」のタイルの複数のセグメントの画像ファイルからなるセグメント群とが格納されている。また、Webサーバ１２には、オブジェクトＩＤ「１」のオブジェクトの複数のセグメントの音声ファイルからなるセグメント群と、オブジェクトＩＤ「２」のオブジェクトの複数のセグメントの音声ファイルからなるセグメント群とが格納されている。図示は省略するが、音声メタファイルのセグメント群も同様に格納されている。

なお、以下では、タイルＩＤがｉであるタイルをタイル＃ｉといい、オブジェクトＩＤがｉのオブジェクトをオブジェクト＃ｉという。

Webサーバ１２は、伝送部として機能し、動画再生端末１４からの要求に応じて、格納している画像ファイル、音声ファイル、音声メタファイル、MPDファイル等を動画再生端末１４に送信する。

動画再生端末１４は、ストリーミングデータの制御用ソフトウエア（以下、制御用ソフトウエアという）２１、動画再生ソフトウエア２２、HTTP（HyperText Transfer Protocol）アクセス用のクライアント・ソフトウエア(以下、アクセス用ソフトウエアという)２３などを実行する。

制御用ソフトウエア２１は、Webサーバ１２からストリーミングするデータを制御するソフトウエアである。具体的には、制御用ソフトウエア２１は、動画再生端末１４にWebサーバ１２からMPDファイルを取得させる。

また、制御用ソフトウエア２１は、動画再生ソフトウエア２２から指示される動画コンテンツの画像内の表示する領域である表示領域と、MPDファイルに含まれるタイル位置情報とに基づいて、表示領域内のタイルを特定する。そして、制御用ソフトウエア２１は、そのタイルの画像ファイルの送信要求をアクセス用ソフトウエア２３に指令する。

また、制御用ソフトウエア２１は、アクセス用ソフトウエア２３に音声メタファイルの送信要求を指令する。そして、制御用ソフトウエア２１は、表示領域、MPDファイルに含まれる画枠サイズ情報、および音声メタファイルに含まれるオブジェクト位置情報に基づいて、表示領域内の画像に対応するオブジェクトを特定する。そして、制御用ソフトウエア２１は、そのオブジェクトの音声ファイルの送信要求をアクセス用ソフトウエア２３に指令する。

動画再生ソフトウエア２２は、Webサーバ１２から取得された画像ファイルと音声ファイルを再生するソフトウエアである。具体的には、動画再生ソフトウエア２２は、ユーザにより表示領域が指定されると、その表示領域を制御用ソフトウエア２１に指示する。また、動画再生ソフトウエア２２は、その指示に応じてWebサーバ１２から取得された画像ファイルと音声ファイルを復号し、合成して出力する。

アクセス用ソフトウエア２３は、HTTPを用いたインターネット１３を介したWebサーバ１２との通信を制御するソフトウエアである。具体的には、アクセス用ソフトウエア２３は、制御用ソフトウエア２１の指令に応じて、画像ファイル、音声ファイル、および音声メタファイルの送信要求を動画再生端末１４に送信させる。また、アクセス用ソフトウエア２３は、その送信要求に応じて、Webサーバ１２から送信されてくる画像ファイル、音声ファイル、および音声メタファイルを動画再生端末１４に受信させる。

（タイルの例）
図２は、タイルの例を示す図である。

図２に示すように、動画コンテンツの画像は、複数のタイルに分割され、各タイルに１から順にタイルＩＤが付与される。図２の例では、動画コンテンツの画像は、４つのタイル＃１乃至タイル＃４に分割されている。

（オブジェクトの説明）
図３は、オブジェクトを説明する図である。

図３の例では、動画コンテンツの音声として、画像内の８つのオブジェクトの音声が取得されており、各オブジェクトには１から順にオブジェクトＩＤが付与されている。オブジェクト＃１乃至オブジェクト＃５は、それぞれ、動体であり、オブジェクト＃６乃至オブジェクト＃８は、固定された物体である。また、図３の例では、動画コンテンツの画像は、５（縦）×７（横）のタイルに分割されている。

この場合、図３に示すように、ユーザにより２（縦）×３（横）個のタイルからなる表示領域３１が指定されると、表示領域３１には、オブジェクト＃１、オブジェクト＃２、およびオブジェクト＃６のみが含まれる。従って、動画再生端末１４は、例えば、オブジェクト＃１、オブジェクト＃２、およびオブジェクト＃６の音声ファイルのみをWebサーバ１２から取得し、再生する。

表示領域３１内のオブジェクトは、以下に説明するように、画枠サイズ情報およびオブジェクト位置情報に基づいて特定することができる。

（オブジェクト位置情報の説明）
図４は、オブジェクト位置情報を説明する図である。

図４に示すように、オブジェクト位置情報は、オブジェクト４０の水平角度θ_A（−180°≦θ_A≦180°）,垂直角度γ_A（−90°≦γ_A≦90°）、および距離ｒ_A（0<ｒ_A）からなる。水平角度θ_Aは、例えば、画像の中心の撮影位置を原点（基点）Ｏとし、画像の水平方向をＸ方向、垂直方向をＹ方向、XY平面に垂直な奥行き方向をＺ方向としたときの、オブジェクト４０と原点Ｏを結ぶ直線とYZ平面との水平方向の角度である。垂直角度γ_Aは、オブジェクト４０と原点Ｏを結ぶ直線とXZ平面との垂直方向の角度であり、距離ｒ_Aは、オブジェクト４０と原点Ｏの距離である。

なお、本明細書では、左回転および上回転の角度を正の角度とし、右回転および下回転の角度を負の角度とする。

（画枠サイズ情報の説明）
図５は、画枠サイズ情報を説明する図である。

図５に示すように、画枠サイズ情報は、画枠の左端の水平角度θ_v1、右端の水平角度θ_v2、画枠の上端の垂直角度γ_v1、下端の垂直角度γ_v2、および距離ｒ_vにより構成される。

水平角度θ_v1は、例えば、画像の中心の撮影位置を原点Ｏとし、画像の水平方向をＸ方向、垂直方向をＹ方向、XY平面に垂直な奥行き方向をＺ方向としたときの、画枠の左端と原点Ｏを結ぶ直線とYZ平面との水平方向の角度である。水平角度θ_v2は、画枠の右端と原点Ｏを結ぶ直線とYZ平面との水平方向の角度である。従って、水平角度θ_v1と水平角度θ_v2とを合わせた角度は、水平方向の画角である。

垂直角度γ_V1，γ_v2は、それぞれ、画枠の上端、下端と原点Ｏを結ぶ直線とXZ平面との角度であり、垂直角度γ_V1と垂直角度γ_v2とを合わせた角度は、垂直方向の画角である。距離ｒ_vは、原点Ｏと画像の平面との距離である。

以上のように、オブジェクト位置情報と画枠サイズ情報は、それぞれ、オブジェクト４０、画枠と、原点Ｏとの位置関係を表している。従って、オブジェクト位置情報と画枠サイズ情報に基づいて、各オブジェクトの画像上の位置を検出（認識）することができる。その結果、表示領域３１内のオブジェクトを特定することができる。

(MPDファイルの構造の説明）
図６は、MPDファイルの構造を示す図である。

MPDファイルの解析（パース）においては、動画再生端末１４は、MPDファイル（図６のMedia Presentation）の「Period」に含まれる「Representation」の属性から最適なものを選択する。

動画再生端末１４は、選択した「Representation」の先頭の「Initialization Segment」のURL（Uniform Resource Locator）等を参照してファイルを取得し、処理する。続いて、動画再生端末１４は、後続の「Media Segment」のURL等を参照してファイルを取得し、再生する。

なお、MPDファイルにおける、「Period」、「Representation」、および「Segment」の関係は、図７のようになる。つまり、１つの動画コンテンツは、「Period」により、セグメントより長い時間単位で管理することができ、各「Period」において、「Segment」によりセグメント単位で管理することができる。また、各「Period」において、「Representation」により、動画コンテンツをストリームの属性単位で管理することができる。

したがって、MPDファイルは、「Period」以下において、図８に示す階層構造を有する。また、このMPDファイルの構造を時間軸上に並べると図９の例のようになる。図９から明らかなように、同一のセグメントに対して複数の「Representation」が存在している。動画再生端末１４は、これらのうちのいずれかを適応的に選択することにより、ユーザにより選択された表示領域の画像ファイルと音声ファイルを取得し、再生することができる。

（MPDファイルの記述の説明）
図１０は、MPDファイルの記述を説明する図である。

上述したように、情報処理システム１０では、動画再生端末１４において表示領域内のオブジェクトを特定可能にするため、MPDファイルに画枠サイズ情報が含まれる。この画枠サイズ情報は、図１０に示すように、ViewpointのDescriptorType elementを活用して新たに画枠サイズ情報（Viewing Angle）を定義するためのScheme(urn:mpeg:DASH:viewingAngle:2013)を拡張することにより、音声用の「Adaptation Set」と画像用の「Adaptation Set」に配置される。画枠サイズ情報は、画像用の「Adaptation Set」にのみ配置されるようにしてもよい。

また、MPDファイルの音声用の「Adaptation Set」には、音声メタファイル用の「Representation」が記述され、その「Representation」の「Segment」には、音声メタファイル（audionmetadata.mp4）を特定する情報としてのURL等が記述される。このとき、Role elementを活用して、「Segment」で指定されるファイルが音声メタファイルであること（objectaudiometadata）が記述される。

MPDファイルの音声用の「Adaptation Set」にはまた、各オブジェクトの音声ファイル用の「Representation」が記述され、その「Representation」の「Segment」には、各オブジェクトの音声ファイル（audioObje1.mp4, audioObje5.mp4）を特定する情報としてのURL等が記述される。このとき、Viewpointを拡張することにより、音声ファイルに対応するオブジェクトのオブジェクトＩＤ（1,5）も記述される。

なお、図示は省略するが、タイル位置情報は、画像用の「Adaptation Set」に配置される。

（ファイル生成装置の構成例）
図１１は、図１のファイル生成装置１１の構成例を示すブロック図である。

図１１のファイル生成装置１１は、画面分割処理部５１、画像符号化処理部５２、画像ファイル生成部５３、画像情報生成部５４、音声符号化処理部５５、音声ファイル生成部５６、MPD生成部５７、およびサーバアップロード処理部５８により構成される。

ファイル生成装置１１の画面分割処理部５１は、外部から入力される動画コンテンツの画像データをタイル単位に分割する。画面分割処理部５１は、タイル位置情報を画像情報生成部５４に供給する。また、画面分割処理部５１は、タイル単位の画像データを画像符号化処理部５２に供給する。

画像符号化処理部５２は、画面分割処理部５１から供給されるタイル単位の画像データをタイルごとに符号化し、ビデオストリームを生成する。画像符号化処理部５２は、各タイルのビデオストリームを画像ファイル生成部５３に供給する。

画像ファイル生成部５３は、画像符号化処理部５２から供給される各タイルのビデオストリームをセグメント単位でファイル化し、その結果得られる各タイルの画像ファイルをMPD生成部５７に供給する。

画像情報生成部５４は、画面分割処理部５１から供給されるタイル位置情報と外部から入力される画枠サイズ情報とを画像情報としてMPD生成部５７に供給する。

音声符号化処理部５５は、外部から入力される動画コンテンツのオブジェクト単位の音声データをオブジェクトごとに符号化し、オーディオストリームを生成する。また、音声符号化処理部５５は、外部から入力される各オブジェクトのオブジェクト位置情報、オブジェクトＩＤ等を含むオーディオメタデータを符号化し、符号化データを生成する。音声符号化処理部５５は、各オブジェクトのオーディオストリームとオーディオメタデータの符号化データとを音声ファイル生成部５６に供給する。

音声ファイル生成部５６は、音声ファイル生成部として機能し、音声符号化処理部５５から供給される各オブジェクトのオーディオストリームをセグメント単位でファイル化し、その結果得られる各オブジェクトの音声ファイルをMPD生成部５７に供給する。

また、音声ファイル生成部５６は、メタファイル生成部として機能し、音声符号化処理部５５から供給されるオーディオメタデータの符号化データをセグメント単位でファイル化し、その結果得られる音声メタファイルをMPD生成部５７に供給する。

MPD生成部５７は、画像ファイル生成部５３から供給される各タイルの画像ファイルを格納するWebサーバ１２のURL等を決定する。また、MPD生成部５７は、音声ファイル生成部５６から供給される各オブジェクトの音声ファイルと音声メタファイルを格納するWebサーバ１２のURL等を決定する。

MPD生成部５７は、画像情報生成部５４から供給される画像情報をMPDファイルの画像用の「AdaptationSet」に配置する。また、MPD生成部５７は、画像情報のうちの画枠サイズ情報をMPDファイルの音声用の「AdaptationSet」に配置する。MPD生成部５７は、各タイルの画像ファイルのURL等を、そのタイルの画像ファイル用の「Representation」の「Segment」に配置する。

MPD生成部５７は、各オブジェクトの音声ファイルのURL等を、そのオブジェクトの音声ファイル用の「Representation」の「Segment」に配置する。また、MPD生成部５７は、情報生成部として機能し、音声メタファイルを特定する情報としてのURL等を音声メタファイル用の「Representation」の「Segment」に配置する。MPD生成部５７は、以上のようにして各種の情報が配置されたMPDファイル、並びに、画像ファイル、音声ファイル、および音声メタファイルをサーバアップロード処理部５８に供給する。

サーバアップロード処理部５８は、MPD生成部５７から供給される各タイルの画像ファイル、各オブジェクトの音声ファイル、音声メタファイル、およびMPDファイルを、Webサーバ１２にアップロードする。

（ファイル生成装置の処理の説明）
図１２は、図１１のファイル生成装置１１のファイル生成処理を説明するフローチャートである。

図１２のステップＳ１１において、ファイル生成装置１１の画面分割処理部５１は、外部から入力される動画コンテンツの画像データをタイル単位に分割する。画面分割処理部５１は、タイル位置情報を画像情報生成部５４に供給する。また、画面分割処理部５１は、タイル単位の画像データを画像符号化処理部５２に供給する。

ステップＳ１２において、画像符号化処理部５２は、画面分割処理部５１から供給されるタイル単位の画像データをタイルごとに符号化し、各タイルのビデオストリームを生成する。画像符号化処理部５２は、各タイルのビデオストリームを画像ファイル生成部５３に供給する。

ステップＳ１３において、画像ファイル生成部５３は、画像符号化処理部５２から供給される各タイルのビデオストリームをセグメント単位でファイル化し、各タイルの画像ファイルを生成する。画像ファイル生成部５３は、各タイルの画像ファイルをMPD生成部５７に供給する。

ステップＳ１４において、画像情報生成部５４は、外部から画枠サイズ情報を取得する。ステップＳ１５において、画像情報生成部５４は、画面分割処理部５１から供給されるタイル位置情報と画枠サイズ情報とを含む画像情報を生成し、MPD生成部５７に供給する。

ステップＳ１６において、音声符号化処理部５５は、外部から入力される動画コンテンツのオブジェクト単位の音声データをオブジェクトごとに符号化し、各オブジェクトのオーディオストリームを生成する。また、音声符号化処理部５５は、外部から入力される各オブジェクトのオブジェクト位置情報、オブジェクトＩＤ等を含むオーディオメタデータを符号化し、符号化データを生成する。音声符号化処理部５５は、各オブジェクトのオーディオストリームとオーディオメタデータの符号化データとを音声ファイル生成部５６に供給する。

ステップＳ１７において、音声ファイル生成部５６は、音声符号化処理部５５から供給される各オブジェクトのオーディオストリームをセグメント単位でファイル化し、各オブジェクトの音声ファイルを生成する。また、音声ファイル生成部５６は、音声符号化処理部５５から供給されるオーディオメタデータの符号化データをセグメント単位でファイル化し、音声メタファイルを生成する。音声ファイル生成部５６は、各オブジェクトの音声ファイルと音声メタファイルをMPD生成部５７に供給する。

ステップＳ１８において、MPD生成部５７は、画像情報生成部５４から供給される画像情報、各ファイルのURL等を含むMPDファイルを生成する。MPD生成部５７は、MPDファイル、各タイルの画像ファイル、各オブジェクトの音声ファイル、および音声メタファイルをサーバアップロード処理部５８に供給する。

ステップＳ１９において、サーバアップロード処理部５８は、MPD生成部５７から供給される各タイルの画像ファイル、各オブジェクトの音声ファイル、音声メタファイル、およびMPDファイルを、Webサーバ１２にアップロードする。そして、処理は終了する。

（動画再生端末の機能的構成例）
図１３は、図１の動画再生端末１４が制御用ソフトウエア２１、動画再生ソフトウエア２２、およびアクセス用ソフトウエア２３を実行することにより実現されるストリーミング再生部の構成例を示すブロック図である。

図１３のストリーミング再生部９０は、MPD取得部９１、MPD処理部９２、メタファイル取得部９３、音声選択部９４、音声ファイル取得部９５、音声復号処理部９６、音声合成処理部９７、画像選択部９８、画像ファイル取得部９９、画像復号処理部１００、および画像合成処理部１０１により構成される。

ストリーミング再生部９０のMPD取得部９１は、受け取り部として機能し、Webサーバ１２からMPDファイルを取得し、MPD処理部９２に供給する。

MPD処理部９２は、MPD取得部９１から供給されるMPDファイルから音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部９３に供給する。また、MPD処理部９２は、MPDファイルから画像用の「AdaptationSet」に記述される画枠サイズ情報を抽出し、音声選択部９４に供給する。MPD処理部９２は、MPDファイルから、音声選択部９４から要求されるオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声選択部９４に供給する。

MPD処理部９２は、MPDファイルから画像用の「AdaptationSet」に記述されるタイル位置情報を抽出し、画像選択部９８に供給する。MPD処理部９２は、MPDファイルから、画像選択部９８から要求されるタイルの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部９８に供給する。

メタファイル取得部９３は、MPD処理部９２から供給されるURL等の情報に基づいて、そのURLで特定される音声メタファイルをWebサーバ１２に要求し、取得する。メタファイル取得部９３は、音声メタファイルに含まれるオブジェクト位置情報を音声選択部９４に供給する。

音声選択部９４は、位置決定部として機能し、MPD処理部９２から供給される画枠サイズ情報とメタファイル取得部９３から供給されるオブジェクト位置情報とに基づいて、各オブジェクトの画像上の位置を算出する。音声選択部９４は、各オブジェクトの画像上の位置に基づいて、ユーザにより指定される表示領域内のオブジェクトを選択する。音声選択部９４は、選択されたオブジェクトの音声ファイルのURL等の情報をMPD処理部９２に要求する。音声選択部９４は、その要求に応じてMPD処理部９２から供給されるURL等の情報を音声ファイル取得部９５に供給する。

音声ファイル取得部９５は、受け取り部として機能し、音声選択部９４から供給されるURL等の情報に基づいて、そのURLで特定されるオブジェクト単位の音声ファイルをWebサーバ１２に要求し、取得する。音声ファイル取得部９５は、取得されたオブジェクト単位の音声ファイルを音声復号処理部９６に供給する。

音声復号処理部９６は、音声ファイル取得部９５から供給されるオブジェクト単位の音声ファイルに含まれるオーディオストリームを復号し、オブジェクト単位の音声データを生成する。音声復号処理部９６は、そのオブジェクト単位の音声データを音声合成処理部９７に供給する。

音声合成処理部９７は、音声復号処理部９６から供給されるオブジェクト単位の音声データを合成し、出力する。

画像選択部９８は、MPD処理部９２から供給されるタイル位置情報に基づいて、ユーザにより指定される表示領域内のタイルを選択する。画像選択部９８は、選択されたタイルの画像ファイルのURL等の情報をMPD処理部９２に要求する。画像選択部９８は、その要求に応じてMPD処理部９２から供給されるURL等の情報を画像ファイル取得部９９に供給する。

画像ファイル取得部９９は、画像選択部９８から供給されるURL等の情報に基づいて、そのURLで特定されるタイル単位の画像ファイルをWebサーバ１２に要求し、取得する。画像ファイル取得部９９は、取得されたタイル単位の画像ファイルを画像復号処理部１００に供給する。

画像復号処理部１００は、画像ファイル取得部９９から供給されるタイル単位の画像ファイルに含まれるビデオストリームを復号し、タイル単位の画像データを生成する。画像復号処理部１００は、そのタイル単位の画像データを画像合成処理部１０１に供給する。

画像合成処理部１０１は、画像復号処理部１００から供給されるタイル単位の画像データを合成し、出力する。

（動画再生端末の処理の説明）
図１４は、動画再生端末１４のストリーミング再生部９０（図１３）のストリーミング再生処理を説明するフローチャートである。

図１４のステップＳ３１において、ストリーミング再生部９０のMPD取得部９１は、Webサーバ１２からMPDファイルを取得し、MPD処理部９２に供給する。

ステップＳ３２において、MPD処理部９２は、MPD取得部９１から供給されるMPDファイルから、画像用の「AdaptationSet」に記述される画枠サイズ情報とタイル位置情報を取得する。MPD処理部９２は、画枠サイズ情報を音声選択部９４に供給し、タイル位置情報を画像選択部９８に供給する。また、MPD処理部９２は、音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部９３に供給する。

ステップＳ３３において、メタファイル取得部９３は、MPD処理部９２から供給されるURL等の情報に基づいて、そのURLで特定される音声メタファイルをWebサーバ１２に要求し、取得する。メタファイル取得部９３は、音声メタファイルに含まれるオブジェクト位置情報を音声選択部９４に供給する。

ステップＳ３４において、音声選択部９４は、MPD処理部９２から供給される画枠サイズ情報とメタファイル取得部９３から供給されるオブジェクト位置情報とに基づいて、ユーザにより指定される表示領域内のオブジェクトを選択する。音声選択部９４は、選択されたオブジェクトの音声ファイルのURL等の情報をMPD処理部９２に要求する。

MPD処理部９２は、MPDファイルから、音声選択部９４から要求されるオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声選択部９４に供給する。音声選択部９４は、MPD処理部９２から供給されるURL等の情報を音声ファイル取得部９５に供給する。

ステップＳ３５において、音声ファイル取得部９５は、音声選択部９４から供給されるURL等の情報に基づいて、そのURLで特定される、選択されたオブジェクトの音声ファイルをWebサーバ１２に要求し、取得する。音声ファイル取得部９５は、取得されたオブジェクト単位の音声ファイルを音声復号処理部９６に供給する。

ステップＳ３６において、画像選択部９８は、MPD処理部９２から供給されるタイル位置情報に基づいて、ユーザにより指定される表示領域内のタイルを選択する。画像選択部９８は、選択されたタイルの画像ファイルのURL等の情報をMPD処理部９２に要求する。

MPD処理部９２は、MPDファイルから、画像選択部９８から要求されるオブジェクトの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部９８に供給する。画像選択部９８は、MPD処理部９２から供給されるURL等の情報を画像ファイル取得部９９に供給する。

ステップＳ３７において、画像ファイル取得部９９は、画像選択部９８から供給されるURL等の情報に基づいて、そのURLで特定される、選択されたタイルの画像ファイルをWebサーバ１２に要求し、取得する。画像ファイル取得部９９は、取得されたタイル単位の画像ファイルを画像復号処理部１００に供給する。

ステップＳ３８において、音声復号処理部９６は、音声ファイル取得部９５から供給されるオブジェクト単位の音声ファイルに含まれるオーディオストリームを復号し、オブジェクト単位の音声データを生成する。音声復号処理部９６は、そのオブジェクト単位の音声データを音声合成処理部９７に供給する。

ステップＳ３９において、画像復号処理部１００は、画像ファイル取得部９９から供給されるタイル単位の画像ファイルに含まれるビデオストリームを復号し、タイル単位の画像データを生成する。画像復号処理部１００は、そのタイル単位の画像データを画像合成処理部１０１に供給する。

ステップＳ４０において、音声合成処理部９７は、音声復号処理部９６から供給されるオブジェクト単位の音声データを合成し、出力する。ステップＳ４１において、画像合成処理部１０１は、画像復号処理部１００から供給されるタイル単位の画像データを合成し、出力する。そして、処理は終了する。

以上のように、Webサーバ１２は画枠サイズ情報とオブジェクト位置情報を伝送する。従って、動画再生端末１４は、例えば、表示領域内のオブジェクトを特定し、そのオブジェクトの音声ファイルを、表示領域内の画像に対応する音声ファイルとして選択的に取得することができる。このように、動画再生端末１４は必要な音声ファイルのみを取得することができるので、伝送効率は向上する。

なお、図１５に示すように、MPDファイルの画像用の「AdaptationSet」には、その画像と同時に再生したい音声に対応するオブジェクトを特定する情報としてのオブジェクトＩＤ（オブジェクト特定情報）が、記述されるようにしてもよい。この記述は、例えば、ViewpointのDescriptorType elementを活用して新たにオブジェクトＩＤ情報（audioObj）を定義するためのScheme(urn:mpeg:DASH:audioObj:2013)を拡張することにより、行われる。この場合、動画再生端末１４は、画像用の「AdaptationSet」に記述されたオブジェクトＩＤに対応するオブジェクトの音声ファイルを選択し、取得して再生する。

また、オブジェクト単位で音声ファイルが生成されるのではなく、全てのオブジェクトの符号化データが１本のオーディオストリームに多重化され、１つの音声ファイルが生成されるようにしてもよい。

この場合、図１６に示すように、MPDファイルの音声用の「AdaptationSet」には、音声ファイル用の「Representation」が１つ設けられ、「Segment」に、全てのオブジェクトの符号化データを含む音声ファイル（audioObje.mp4）のURL等が記述される。このとき、Viewpointを拡張することにより、音声ファイルに対応する全てのオブジェクトのオブジェクトＩＤ(1,2,3,4,5)も記述される。

また、この場合、図１７に示すように、MPDファイルの「Media Segment」を参照して取得される音声ファイル（以下、適宜、音声メディアファイルともいう）のmdat boxには、サブサンプルとして、各オブジェクトの符号化データ（Audio object）が配置される。

具体的には、音声メディアファイルには、セグメントより短い任意の時間であるサブセグメント単位でデータが配置される。このサブセグメント単位のデータの位置は、sidx boxにより指定される。また、サブセグメント単位のデータは、moof boxとmdat boxにより構成される。mdat boxは、複数のサンプルにより構成されるが、そのサンプルの各サブサンプルとして、各オブジェクトの符号化データが配置される。

また、音声メディアファイルのsidx boxの後には、サンプルの情報を記述するgsix boxが配置される。このように、サンプルの情報を記述するgsix boxが、moof boxとは別に設けられるので、動画再生端末１４は、サンプルの情報を素早く取得することができる。

gsix boxには、図１８に示すように、このgsix boxで管理する１以上のサンプルまたはサブサンプルからなるSample group entryの種別を表すgrouping_typeが記述される。例えば、Sample group entryが、オブジェクト単位の符号化データのサブサンプルである場合、図１７に示すように、Sample group entryの種別は「obja」である。音声メディアファイルには、複数のgrouping_typeのgsix boxが配置される。

また、図１８に示すように、gsix boxには、各Sample group entryのインデックス（entry_index）と、音声メディアファイル内の位置を表すデータ位置情報としてのバイトレンジ（range_size）とが記述される。なお、インデックス（entry_index）が０である場合、対応するバイトレンジは、moof boxのバイトレンジ（図１７の例ではa1）を表している。

MPDファイルの「Initialization Segment」を参照して取得される音声ファイル（以下、適宜、音声初期化ファイルともいう）には、各Sample group entryが、どのオブジェクトの符号化データのサブサンプルであるかを表す情報が記述される。

具体的には、図１９に示すように、音声初期化ファイルのsbtl boxのsample group description box(sgpd)のAudioObjectSampleGroupEntryと対応付けられる、mvex boxのtype assignment box（typa）を用いて、その情報が表される。

即ち、図２０のＡに示すように、AudioObjectSampleGroupEntryには、サンプルに含まれる符号化データに対応するオブジェクトＩＤ（audio_object_id）が１つずつ記述される。例えば、図２０のＢに示すように、４つのAudioObjectSampleGroupEntryのそれぞれに、オブジェクトＩＤとして、1,2,3,4が記述される。

一方、図２１に示すように、type assignment boxには、AudioObjectSampleGroupEntryごとに、そのAudioObjectSampleGroupEntryに対応するSample group entryのパラメータ（grouping_type_parameter）として、インデックスが記述される。

以上のように音声メディアファイルと音声初期化ファイルが構成される。従って、動画再生端末１４が、表示領域内のオブジェクトとして選択されたオブジェクトの符号化データを取得する際、音声初期化ファイルのstbl boxから、選択されたオブジェクトのオブジェクトＩＤが記述されたAudioObjectSampleGroupEntryが検索される。そして、mvex boxから、検索されたAudioObjectSampleGroupEntryに対応するSample group entryのインデックスが読み出される。そして、音声ファイルのsidxからサブセグメント単位のデータの位置が読み出され、gsixから、読み出されたインデックスのSample group entryのバイトレンジが読み出される。そして、サブセグメント単位のデータの位置とバイトレンジとに基づいて、mdat内に配置されている符号化データが取得される。これにより、選択されたオブジェクトの符号化データが取得される。

なお、上述した説明では、Sample group entryのインデックスとAudioObjectSampleGroupEntryのオブジェクトＩＤが、mvex boxを介して対応付けられたが、直接対応付けられるようにしてもよい。この場合、Sample group entryのインデックスが、AudioObjectSampleGroupEntryに記述される。

また、音声ファイルが複数のtrackから構成される場合、sgpdをmvexに格納すると、track間でsgpdを共用できる。

（情報処理システムの第２の例の概要）
図２２は、本開示を適用した情報処理システムの第２の例の概要を説明する図である。

なお、図２２において、図３と同一のものには、同一の符号を付してある。

図２２の例では、図３の場合と同様に、動画コンテンツの画像は、５（縦）×７（横）のタイルに分割されており、動画コンテンツの音声として、オブジェクト＃１乃至＃８の音声が取得されている。

この場合に、ユーザにより、２（縦）×３（横）個のタイルからなる表示領域３１が指定されると、第２の例では、図２２に示すように、その表示領域３１が、動画コンテンツの画像のサイズと同一のサイズに変換(拡大)され、表示画像１１１とされる。そして、表示画像１１１におけるオブジェクト＃１乃至＃８の位置に基づいて、オブジェクト＃１乃至＃８の音声が合成され、表示画像１１１とともに出力される。即ち、表示領域３１内のオブジェクト＃１、オブジェクト＃２、およびオブジェクト＃６だけでなく、表示領域３１外のオブジェクト＃３乃至＃５、オブジェクト＃７、およびオブジェクト＃８の音声も出力される。

（ストリーミング再生部の構成例）
本開示を適用した情報処理システムの第２の例の構成は、ストリーミング再生部の構成を除いて、図１の情報処理システム１０の構成と同一であるので、以下では、ストリーミング再生部についてのみ説明する。

図２３は、本開示を適用した情報処理システムのストリーミング再生部の構成例を示すブロック図である。

図２３に示す構成のうち、図１３の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図２３のストリーミング再生部１２０の構成は、MPD処理部９２、音声合成処理部９７、画像合成処理部１０１の代わりに、MPD処理部１２１、音声合成処理部１２３、画像合成処理部１２４が設けられる点、および、位置決定部１２２が新たに設けられる点が図１３のストリーミング再生部９０の構成と異なる。

ストリーミング再生部１２０のMPD処理部１２１は、MPD取得部９１から供給されるMPDファイルから音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部９３に供給する。また、MPD処理部１２１は、MPDファイルから画像用の「AdaptationSet」に記述される動画コンテンツの画像の画枠サイズ情報（以下、コンテンツ画枠サイズ情報という）を抽出し、位置決定部１２２に供給する。MPD処理部１２１は、MPDファイルから全てのオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声ファイル取得部９５に供給する。

MPD処理部１２１は、MPDファイルから画像用の「AdaptationSet」に記述されるタイル位置情報を抽出し、画像選択部９８に供給する。MPD処理部１２１は、MPDファイルから、画像選択部９８から要求されるタイルの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部９８に供給する。

位置決定部１２２は、メタファイル取得部９３により取得された音声メタファイルに含まれるオブジェクト位置情報と、MPD処理部１２１から供給されるコンテンツ画枠サイズ情報を取得する。また、位置決定部１２２は、ユーザにより指定される表示領域の画枠サイズ情報である表示領域画枠サイズ情報を取得する。位置決定部１２２は、オブジェクト位置情報、コンテンツ画枠サイズ情報、および表示領域画枠サイズ情報に基づいて、表示画像におけるオブジェクトの位置を決定（認識）する。位置決定部１２２は、決定されたオブジェクトの位置を音声合成処理部１２３に供給する。

音声合成処理部１２３は、位置決定部１２２から供給されるオブジェクトの位置に基づいて、音声復号処理部９６から供給されるオブジェクト単位の音声データを合成する。具体的には、音声合成処理部１２３は、オブジェクトの位置と音声を出力する各スピーカの位置とに基づいて、オブジェクトごとに、各スピーカに割り当てる音声データを決定する。そして、音声合成処理部１２３は、スピーカごとに、各オブジェクトの音声データを合成し、各スピーカの音声データとして出力する。オブジェクトの位置に基づいて各オブジェクトの音声データを合成する方法の詳細は、例えば、Ville Pulkki,“Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, Journal of AES, vol.45, no.6, pp.456−466, 1997に記載されている。

画像合成処理部１２４は、画像復号処理部１００から供給されるタイル単位の画像データを合成する。画像合成処理部１２４は、変換部として機能し、合成後の画像データに対応する画像のサイズを動画コンテンツのサイズに変換して、表示画像を生成する。画像合成処理部１２４は、表示画像を出力する。

（オブジェクトの位置の決定方法の説明）
図２４乃至図２６は、図２３の位置決定部１２２によるオブジェクトの位置の決定方法を説明する図である。

表示画像１１１は、動画コンテンツ内の表示領域３１を抽出し、その表示領域３１のサイズを動画コンテンツのサイズに変換することにより生成される。従って、表示画像１１１は、図２４に示すように、表示領域３１の中心Cを表示画像１１１の中心C´に移動させた後、図２５に示すように、表示領域３１のサイズを動画コンテンツのサイズに変換したものと等価である。

よって、まず、位置決定部１２２は、以下の式（１）により、表示領域３１の中心０を表示画像１１１の中心０´に移動させるときの水平方向の移動量θ_shiftを算出する。

式（１）において、θ_v1´は、表示領域３１の表示領域画枠サイズ情報のうちの左端の水平角度であり、θ_V2´は、右端の水平角度である。また、θ_v1は、コンテンツ画枠サイズ情報のうちの左端の水平角度であり、θ_v2は、右端の水平角度である。

次に、位置決定部１２２は、移動量θ_shiftを用いて、以下の式（２）により、表示領域３１の中心０を表示画像１１１の中心０´に移動させた後の表示領域３１の左端の水平角度θ_{v1_shift}´と右端の水平角度θ_{v2_shift}´を求める。

式（２）によれば、水平角度θ_{v1_shift}´と水平角度θ_{v2_shift}´は、−180°から180°までの範囲を超えないように求められる。

なお、上述したように、表示画像１１１は、表示領域３１の中心０を表示画像１１１の中心０´に移動させた後、表示領域３１のサイズを動画コンテンツのサイズに変換したものと等価である。従って、水平角度θ_V1およびθ_V2については、以下の式（３）が成立する。

位置決定部１２２は、以上のようにして移動量θ_shift、水平角度θ_{v1_shift}´、および水平角度θ_{v2_shift}´を求めた後、表示画像１１１におけるオブジェクトの水平角度を求める。具体的には、位置決定部１２２は、以下の式（４）により、移動量θ_shiftを用いて、表示領域３１の中心Cを表示画像１１１の中心C´に移動させた後のオブジェクト＃ｉの水平角度θ_{Ai_shift}を求める。

式（４）において、θ_Aiは、オブジェクト＃ｉのオブジェクト位置情報のうちの水平角度である。また、式（４）によれば、水平角度θ_{Ai_shift}は、−180°から180°までの範囲を超えないように求められる。

次に、オブジェクト＃ｉが表示領域３１内に存在する場合、即ちθ_{v2_shif}´＜θ_{Ai_shift}＜θ_{v1_shift}´である場合、位置決定部１２２は、以下の式（５）により、表示画像１１１におけるオブジェクト＃ｉの水平角度θ_A1´を求める。

式（５）によれば、表示領域３１のサイズと表示画像１１１のサイズの比に応じて、表示画像１１１におけるオブジェクト＃ｉの位置と表示画像１１１の中心C´との距離を拡大することにより、水平角度θ_A1´が求められる。

一方、オブジェクト＃ｉが表示領域３１内に存在しない場合、即ち、−180°≦θ_{Ai_shift}≦θ_{v2_shift}´、または、θ_{v1_shift}´≦θ_{Ai_shift}≦180°である場合、位置決定部１２２は、以下の式（６）により、表示画像１１１におけるオブジェクト＃ｉの水平角度θ_Ai´を求める。

式（６）によれば、図２６に示すように、オブジェクト＃ｉが表示領域３１の右側の位置１５１に存在する（−180°≦θ_{Ai_shift}≦θ_{v2_shift}´）場合、角度Ｒ１と角度Ｒ２の比に応じて水平角度θ_{Ai_shift}を拡大することにより、水平角度θ_Ai´が求められる。なお、角度Ｒ１は、表示画像１１１の右端から視聴者１５３の真後ろの位置１５４までの角度であり、角度Ｒ２は、中心の移動後の表示領域３１の右端から位置１５４までの角度である。

また、式（６）によれば、オブジェクト＃ｉが表示領域３１の左側の位置１５５に存在する（θ_{v1_shift}´≦θ_{Ai_shift}≦180°）場合、角度Ｒ３と角度Ｒ４の比に応じて水平角度θ_{Ai_shift}を拡大することにより、水平角度θ_Ai´が求められる。なお、角度Ｒ３は、表示画像１１１の左端から位置１５４までの角度であり、角度Ｒ４は、中心の移動後の表示領域３１の左端から位置１５４までの角度である。

また、位置決定部１２２は、水平角度θ_Ai´と同様に、垂直角度γ_Ai´を求める。即ち、以下の式（７）により、表示領域３１の中心Cを表示画像１１１の中心C´に移動させるときの垂直方向の移動量γ_shiftを算出する。

式（７）において、γ_v1´は、表示領域３１の表示領域画枠サイズ情報のうちの上端の垂直角度であり、γ_V2´は、下端の垂直角度である。また、γ_v1は、コンテンツ画枠サイズ情報のうちの上端の垂直角度であり、γ_v2は、下端の垂直角度である。

次に、位置決定部１２２は、移動量γ_shiftを用いて、以下の式（８）により、表示領域３１の中心Cを表示画像１１１の中心C´に移動させた後の表示領域３１の上端の垂直角度γ_{v1_shift}´と下端の垂直角度γ_{v2_shift}´を求める。

式（８）によれば、垂直角度γ_{v1_shift}´と垂直角度γ_{v2_shift}´は、−90°から90°までの範囲を超えないように求められる。

位置決定部１２２は、以上のようにして移動量γ_shift、垂直角度γ_{v1_shift}´、および垂直角度γ_{v2_shift}´を求めた後、表示画像１１１におけるオブジェクトの位置を求める。具体的には、位置決定部１２２は、以下の式（９）により、移動量γ_shiftを用いて、表示領域３１の中心Cを表示画像１１１の中心C´に移動させた後のオブジェクト＃ｉの垂直角度γ_{Ai_shift}を求める。

式（９）において、γ_Aiは、オブジェクト＃ｉのオブジェクト位置情報のうちの垂直角度である。また、式（９）によれば、垂直角度γ_{Ai_shift}は、−90°から90°までの範囲を超えないように求められる。

次に、位置決定部１２２は、以下の式（１０）により、表示画像１１１におけるオブジェクト＃ｉの垂直角度γ_A1´を求める。

また、位置決定部１２２は、表示画像１１１におけるオブジェクト＃ｉの距離ｒ_A1´を、オブジェクト＃ｉのオブジェクト位置情報のうちの距離ｒ_A1に決定する。位置決定部１２２は、以上のようにして求められるオブジェクト＃ｉの水平角度θ_Ai´、垂直角度γ_A1´、および距離ｒ_A1を、オブジェクト＃iの位置として、音声合成処理部１２３に供給する。

図２７は、水平角度θ_Aiと水平角度θ_Ai´の関係を表す図である。

図２７のグラフにおいて、横軸は、水平角度θ_Aiを表し、縦軸は、水平角度θ_Ai´を表す。

図２７に示すように、θ_V2´＜θ_Ai＜θ_V1´である場合、水平角度θ_Aiは、移動量θ_shiftだけ移動され、拡大されることにより、水平角度θ_Ai´になる。また、−180°≦θ_Ai≦θ_v2´、または、θ_v1´≦θ_Ai≦180°である場合、水平角度θ_Aiは、移動量θ_shiftだけ移動され、縮小されることにより、水平角度θ_Ai´になる。

（ストリーミング再生部の処理の説明）
図２８は、図２３のストリーミング再生部１２０のストリーミング再生処理を説明するフローチャートである。

図２８のステップＳ１３１において、ストリーミング再生部１２０のMPD取得部９１は、Webサーバ１２からMPDファイルを取得し、MPD処理部１２１に供給する。

ステップＳ１３２において、MPD処理部１２１は、MPD取得部９１から供給されるMPDファイルから、画像用の「AdaptationSet」に記述されるコンテンツ画枠サイズ情報とタイル位置情報を取得する。MPD処理部１２１は、画枠サイズ情報を位置決定部１２２に供給し、タイル位置情報を画像選択部９８に供給する。また、MPD処理部１２１は、音声メタファイル用の「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部９３に供給する。

ステップＳ１３３において、メタファイル取得部９３は、MPD処理部１２１から供給されるURL等の情報に基づいて、そのURLで特定される音声メタファイルをWebサーバ１２に要求し、取得する。メタファイル取得部９３は、音声メタファイルに含まれるオブジェクト位置情報を位置決定部１２２に供給する。

ステップＳ１３４において、位置決定部１２２は、オブジェクト位置情報、コンテンツ画枠サイズ情報、および表示領域画枠サイズ情報に基づいて、表示画像におけるオブジェクトの位置を決定する位置決定処理を行う。この位置決定処理の詳細は、後述する図２９を参照して説明する。

ステップＳ１３５において、MPD処理部１２１は、MPDファイルから全てのオブジェクトの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声ファイル取得部９５に供給する。

ステップＳ１３６において、音声ファイル取得部９５は、MPD処理部１２１から供給されるURL等の情報に基づいて、そのURLで特定される全てのオブジェクトの音声ファイルをWebサーバ１２に要求し、取得する。音声ファイル取得部９５は、取得されたオブジェクト単位の音声ファイルを音声復号処理部９６に供給する。

ステップＳ１３７乃至Ｓ１４０の処理は、図１４のステップＳ３６乃至Ｓ３９の処理と同様であるので、説明は省略する。

ステップＳ１４１において、音声合成処理部１２３は、位置決定部１２２から供給されるオブジェクトの位置に基づいて、音声復号処理部９６から供給されるオブジェクト単位の音声データを合成し、出力する。

ステップＳ１４２において、画像合成処理部１２４は、画像復号処理部１００から供給されるタイル単位の画像データを合成する。

ステップＳ１４３において、画像合成処理部１２４は、合成後の画像データに対応する画像のサイズを動画コンテンツのサイズに変換し、表示画像を生成する。そして、画像合成処理部１２４は、表示画像を出力し、処理を終了する。

図２９は、図２８のステップＳ１３４の位置決定処理の詳細を説明するフローチャートである。この位置決定処理は、例えば、オブジェクトごとに行われる。

図２９のステップＳ１５１において、位置決定部１２２は、表示画像における水平角度θ_Ai´を推定する水平角度θ_Ai´推定処理を行う。この水平角度θ_Ai´推定処理の詳細は、後述する図３０を参照して説明する。

ステップＳ１５２において、位置決定部１２２は、表示画像における垂直角度γ_Ai´を推定する垂直角度γ_Ai´推定処理を行う。この垂直角度γ_Ai´推定処理の詳細は、水平方向が垂直方向に代わる点を除いて、ステップＳ１５１の水平角度θ_Ai´推定処理と同様であるので、詳細な説明は省略する。

ステップＳ１５３において、位置決定部１２２は、表示画像における距離ｒ_Ai´を、メタファイル取得部９３から供給されるオブジェクト位置情報のうちの距離ｒ_Aiに決定する。

ステップＳ１５４において、位置決定部１２２は、水平角度θ_Ai´、垂直角度γ_Ai´、および距離ｒ_Aiを、オブジェクト＃ｉの位置として音声合成処理部１２３に出力する。そして、処理は、図２８のステップＳ１３４に戻り、ステップＳ１３５に進む。

図３０は、図２９のステップＳ１５１の水平角度θ_Ai´推定処理の詳細を説明するフローチャートである。

図３０のステップＳ１７１において、位置決定部１２２は、メタファイル取得部９３から供給されるオブジェクト位置情報のうちの水平角度θ_Aiを取得する。

ステップＳ１７２において、位置決定部１２２は、MPD処理部１２１から供給されるコンテンツ画枠サイズ情報と、ユーザにより指定される表示領域画枠サイズ情報を取得する。

ステップS１７３において、位置決定部１２２は、コンテンツ画枠サイズ情報と表示領域画枠サイズ情報に基づいて、上述した式（１）により、移動量θ_shiftを算出する。

ステップS１７４において、位置決定部１２２は、移動量θ_shiftと表示領域画枠サイズを用いて、上述した式（２）により、水平角度θ_{v1_shift}´およびθ_{v2_shift}´を算出する。

ステップＳ１７５において、位置決定部１２２は、水平角度θ_Aiと移動量θ_shiftを用いて、上述した式（４）により、水平角度θ_{Ai_shift}を求める。

ステップＳ１７６において、位置決定部１２２は、オブジェクト＃ｉが表示領域３１内に存在する（オブジェクト＃ｉの水平角度が表示領域３１の両端の水平角度の間である）かどうか、即ちθ_{v2_shift}´＜θ_{Ai_shift}＜θ_{v1_shift}´であるかどうかを判定する。

ステップＳ１７６でオブジェクト＃ｉが表示領域３１内に存在すると判定された場合、即ちθ_{v2_shift}´＜θ_{Ai_shift}＜θ_{v1_shift}´である場合、処理はステップＳ１７７に進む。ステップＳ１７７において、位置決定部１２２は、コンテンツ画枠サイズ情報、水平角度θ_{v1_shift}´およびθ_{v2_shift}´、並びに水平角度θ_{Ai_shift}に基づいて、上述した式（５）により水平角度θ_A1´を算出する。

一方、ステップＳ１７６でオブジェクト＃ｉが表示領域３１内に存在しないと判定された場合、即ち、−180°≦θ_{Ai_shift}≦θ_{v2_shift}´、または、θ_{v1_shift}´≦θ_{Ai_shift}≦180°である場合、処理はステップＳ１７８に進む。ステップＳ１７８において、位置決定部１２２は、コンテンツ画枠サイズ情報、水平角度θ_{v1_shift}´またはθ_{v2_shift}´、および水平角度θ_{Ai_shift}に基づいて、上述した式（６）により水平角度θ_Ai´を算出する。

ステップＳ１７７またはステップＳ１７８の処理後、処理は、図２９のステップＳ１５１に戻り、処理はステップＳ１５２に進む。

なお、第２の例では、表示画像のサイズが動画コンテンツのサイズと同一であるようにしたが、異なっていてもよい。

また、第２の例において、全てのオブジェクトの音声データが合成されて出力されるのではなく、一部のオブジェクト(例えば、表示領域内のオブジェクト、表示領域から所定の範囲内のオブジェクト等)の音声データのみが合成されて出力されるようにしてもよい。出力する音声データのオブジェクトの選択方法は、予め決定されていてもよいし、ユーザにより指定されるようにしてもよい。

さらに、上述した説明では、音声データは、オブジェクト単位の音声データのみであったが、音声データには、チャンネルオーディオの音声データ、HOA（Higher−Order Ambisonics）オーディオの音声データ、SAOC(Spatial Audio Object Coding)の音声データ、音声データのメタデータ(scene情報、動的・静的metadata)などが含まれるようにしてもよい。この場合、例えば、サブサンプルとして、各オブジェクトの符号化データだけでなく、これらのデータの符号化データも配置される。

＜第１実施の形態＞
（３Ｄオーディオファイルフォーマットの概要）
本開示を適用した第１実施の形態を説明する前に、まず、図３１を参照して、ＭＰ４の３Ｄオーディオファイルフォーマットのトラックの概要を説明する。

ＭＰ４ファイルでは、トラックごとに、動画コンテンツのコーデック情報やファイル内の位置を示す位置情報を管理することができる。ＭＰ４の３Ｄオーディオファイルフォーマットでは、３Ｄオーディオ（Channel audio/Object audio/HOA audio/metadata）のオーディオストリーム（ES（Elementary Stream））の全てが、サンプル（フレーム）単位で１つのトラックとして記録される。また、３Ｄオーディオのコーデック情報（Profile/level/audio configuration）が、サンプルエントリ（sample entry）として格納される。

３Ｄオーディオを構成するChannel audioは、チャンネル単位の音声データであり、Object audioは、オブジェクト単位の音声データであり、HOA audioは、球状の音声データであり、metadataは、Channel audio/Object audio/HOA audioのメタデータである。ここでは、Object audioは、オブジェクト単位の音声データであるものとするが、SAOCの音声データであってもよい。

（moovボックスの構造）
図３２は、ＭＰ４ファイルのmoovボックスの構造を示す図である。

図３２に示すように、ＭＰ４ファイルでは、画像データと音声データが異なるトラックとして記録される。図３２では、音声データのトラックの詳細は記述していないが、画像データのトラックと同様である。sample entryは、moovボックス内のstsdボックスに配置されるsample descriptionに含まれる。

ところで、放送やローカルストレージ再生では、Webサーバ側が、すべてのオーディオストリームを送出し、動画再生端末（クライアント）側は、すべてのオーディオストリーム（stream）をパースしながら、必要な３Ｄオーディオのオーディオストリームを復号（decode）し、出力（rendering）する。ビットレート（Bitrate）が高い場合や、ローカルストレージの読み込みのrateに制約がある場合、必要な３Ｄオーディオのオーディオストリームのみを取得することにより、decode処理の負荷を軽減することが望まれている。

また、ストリーム再生では、動画再生端末（クライアント）側で、必要な３Ｄオーディオの符号化データだけを取得することにより、再生環境に最適な符号化速度のオーディオストリームを取得可能にすることが望まれている。

従って、本開示では、３Ｄオーディオの符号化データを種類に応じてトラックに分割して音声ファイルに配置することにより、所定の種類の符号化データのみを効率良く取得可能にする。これにより、放送やローカルストレージ再生では、システムの負荷を軽減することができる。また、ストリーム再生では、帯域に応じて、必要な３Ｄオーディオの符号化データの最も品質の高いものを再生することができる。さらに、音声ファイル内の３Ｄオーディオのオーディオストリームの位置情報をサブセグメントのトラック単位で記録すれば済むので、オブジェクト単位の符号化データがサブサンプルに配置される場合に比べて、位置情報の情報量を削減することができる。

（トラックの概要）
図３３は、本開示を適用した第１実施の形態におけるトラックの概要を説明する図である。

図３３に示すように、第１実施の形態では、３Ｄオーディオを構成するChannel audio/Object audio/HOA audio/metadataが、それぞれ、異なるトラック(Channel audio track/Object audio track(s)/HOA audio track/Object metadata track)のオーディオストリームとされる。object metadata trackには、オーディオメタデータのオーディオストリームが配置される。

また、３Ｄオーディオ全体に関する情報を配置するためのトラックとして、ベーストラック（Base Track）が設けられる。図３３のベーストラックには、３Ｄオーディオ全体に関する情報がサンプルエントリに配置されるが、サンプルとしては何も配置されない。また、Base track,Channel audio track,Object audio track(s),HOA audio track、およびObject metadata trackは、同一の音声ファイル（3dauio.mp4）として記録される。

Track Referenceは、例えばtrackボックスに配置され、対応するトラックの他のトラックとの参照関係を表す。具体的には、Track Referenceは、参照関係にある他のトラックのトラックに固有のＩＤ（以下、トラックＩＤという）を表す。図３３の例では、Base track,Channel audio track,HOA audio track，Object metadata track、Object audio track(s)のトラックＩＤが、1,2,3,4,10...となっている。また、Base trackのTrack Referenceは2,3,4,10...であり、Channel audio track/HOA audio track/Object metadata track/Object audio track(s)のTrack Referenceは、Base trackのトラックＩＤである１である。

従って、Base trackと、Channel audio track/HOA audio track/Object metadata track/Object audio track(s)とは、参照関係にある。即ち、Base trackは、Channel audio track/HOA audio track/Object metadata track/Object audio track(s)の再生時に参照される。

（ベーストラックのサンプルエントリのシンタクスの例）
図３４は、図３３のベーストラックのサンプルエントリのシンタクスの例を示す図である。

図３４のconfigurationVersion,MPEGHAudioProfile、およびMPEGHAudioLevelは、３Ｄオーディオ全体に関する情報として、それぞれ、３Ｄオーディオのオーディオストリーム全体（通常の３Ｄオーディオのオーディオストリーム）のconfig情報、profile情報、level情報を表す。また、図３４のwidthとheightは、３Ｄオーディオ全体に関する情報として、それぞれ、動画コンテンツの水平方向の画素数、垂直方向の画素数を表す。theta1,theta2,gamma1、およびgamma2は、３Ｄオーディオ全体に関する情報として、それぞれ、動画コンテンツの画枠サイズ情報のうちの画枠の左端の水平角度θ_v1、右端の水平角度θ_v2、画枠の上端の垂直角度γ_v1、下端の垂直角度γ_v2を表す。

（チャンネルオーディオトラックのサンプルエントリのシンタクスの例）
図３５は、図３３のチャンネルオーディオトラック（Channel audio track）のサンプルエントリのシンタクスの例を示す図である。

図３５のconfigurationVersion,MPEGHAudioProfile、およびMPEGHAudioLevelは、それぞれ、Channel Audioのconfig情報、profile情報、level情報を表す。

（オブジェクトオーディオトラックのサンプルエントリのシンタクスの例）
図３６は、図３３のオブジェクトオーディオトラック（Object audio track）のサンプルエントリのシンタクスの例を示す図である。

図３６のconfigurationVersion,MPEGHAudioProfile、およびMPEGHAudioLevelは、それぞれ、オブジェクトオーディオトラックに含まれる１以上のObject audioのconfig情報、profile情報、level情報を表す。object_is_fixedは、オブジェクトオーディオトラックに含まれる１以上のObject audioのオブジェクトが固定されているかどうかを表す。object_is_fixedが１である場合、オブジェクトが固定されていることを表し、０である場合、オブジェクトが移動することを表す。mpegh3daConfigは、オブジェクトオーディオトラックに含まれる１以上のObject audioのオブジェクトの識別情報のconfigを表す。

また、objectTheta1/objectTheta2/objectGamma1/objectGamma2/objectRengthは、オブジェクトオーディオトラックに含まれる１以上のObject audioのオブジェクト情報を表す。このオブジェクト情報は、Object_is_fixed=1の時に有効な情報である。

maxobjectTheta1,maxobjectTheta2,maxobjectGamma1,maxobjectGamma2/、およびmaxobjectRengthは、オブジェクトオーディオトラックに含まれる１以上のObject audioのオブジェクトが移動する場合のオブジェクト情報の最大値を表す。

（HOAオーディオトラックのサンプルエントリのシンタクスの例）
図３７は、図３３のHOAオーディオトラック（HOA audio track）のサンプルエントリのシンタクスの例を示す図である。

図３７のconfigurationVersion,MPEGHAudioProfile、およびMPEGHAudioLevelは、HOA audioのconfig情報、profile情報、level情報を表す。

（オブジェクトメタデータトラックのサンプルエントリのシンタクスの例）
図３８は、図３３のオブジェクトメタデータトラック（Object metadata track）のサンプルエントリのシンタクスの例を示す図である。

図３８のconfigurationVersionは、metadataのconfig情報を表す。

（３Ｄオーディオの音声ファイルのセグメント構造の第１の例）
図３９は、本開示を適用した第１実施の形態における３Ｄオーディオの音声ファイルのセグメント構造の第１の例を示す図である。

図３９のセグメント構造では、Initial segmentが、ftypボックスとmoovボックスにより構成される。moovボックスには、音声ファイルに含まれるトラックごとにtrak boxが配置される。また、moovボックスには、各トラックのトラックＩＤと、media segment内のssixボックスで用いられるlevelとの対応関係を表す情報などを含むmvexボックスが配置される。

また、media segmentは、sidxボックス、ssixボックス、および、１以上のsubsegmentにより構成される。sidxボックスには、各subsegmentの音声ファイル内の位置を示す位置情報が配置される。ssixボックスには、mdatボックスに配置される各レベルのオーディオストリームの位置情報が含まれる。なお、レベルは、トラックに対応するものである。また、最初のトラックの位置情報は、moofボックスと最初のトラックのオーディオストリームからなるデータの位置情報である。

subsegmentは、任意の時間長ごとに設けられ、subsegmentには、全てのトラックに共通の１組のmoofボックスとmdatボックスのペアが設けられる。mdatボックスには、全てのtrackのオーディオストリームが、任意の時間長分だけまとめて配置され、moofボックスには、そのオーディオストリームの管理情報が配置される。mdatボックスに配置される各trackのオーディオストリームは、track毎に連続している。

図３９の例では、トラックＩＤが1であるTrack1はbase Trackであり、トラックＩＤが2乃至NであるTrack2乃至trackNは、それぞれ、Channel Audio Track,Object audio track(s), HOA audio track, object metadata trackである。このことは、後述する図４０においても同様である。

（３Ｄオーディオの音声ファイルのセグメント構造の第２の例）
図４０は、本開示を適用した第１実施の形態における３Ｄオーディオの音声ファイルのセグメント構造の第２の例を示す図である。

図４０のセグメント構造は、トラックごとにmoofボックスとmdatボックスが設けられる点が、図３９のセグメント構造と異なっている。

即ち、図４０のInitial segmentは、図３９のInitial segmentと同様である。また、図４０のmedia segmentは、図３９のmedia segmentと同様に、sidxボックス、ssixボックス、および、１以上のsubsegmentにより構成される。sidxボックスには、図３９のsidxボックスと同様に、各subsegmentの位置情報が配置される。ssixボックスには、moofボックスとmdatボックスからなる各レベルのデータの位置情報が含まれる。

subsegmentは、任意の時間長ごとに設けられ、subsegmentには、トラックごとにmoofボックスとmdatボックスのペアが設けられる。即ち、各トラックのmdatボックスには、そのトラックのオーディオストリームが、任意の時間長分だけまとめて配置（インターリーブ格納）され、moofボックスには、そのオーディオストリームの管理情報が配置される。

図３９および図４０に示すように、各トラックのオーディオストリームは、任意の時間長分まとめて配置されるため、サンプル単位でまとめて配置される場合に比べて、HTTP等を介したオーディオストリームの取得効率が改善する。

（mvexボックスの記述例）
図４１は、図３９および図４０のmvexボックスに配置されるlevel assignmentボックスの記述例を示す図である。

level assignmentボックスは、各トラックのトラックＩＤとssixボックスで用いられるレベル（level）を対応付けるボックスである。図４１の例では、トラックＩＤが１であるベーストラックがレベル０に対応付けられ、トラックＩＤが２であるチャンネルオーディオトラックがレベル１に対応付けられている。また、トラックＩＤが３であるHOAオーディオトラックがレベル２に対応付けられ、トラックＩＤが４であるオブジェクトメタデータトラックがレベル３に対応付けられている。さらに、トラックＩＤが１０であるオブジェクトオーディオトラックがレベル４に対応付けられている。

（MPDファイルの記述例）
図４２は、本開示を適用した第１実施の形態におけるMPDファイルの記述例を示す図である。

図４２に示すように、MPDファイルには、３Ｄオーディオの音声ファイル(3daudio.mp4)のセグメントを管理する「Representation」、そのセグメントに含まれるトラックを管理する「SubRepresentation」等が記述される。

「Representation」と「SubRepresentation」には、対応するセグメントまたはトラックのcodecの種類を、3D audio file formatで定義されるコードで表す「codecs」が含まれる。また、「Representation」には、「id」、「associationId」、および「assciationType」が含まれる。

「id」は、それを含む「Representation」のＩＤである。「associationId」は、対応するトラックと他のトラックとの参照関係を表す情報であり、参照トラックの「id」である。「assciationType」は、参照トラックとの参照関係（依存関係）の意味を表すコードであり、例えばMP4のtrack referenceの値と同じものが用いられる。

また、「SubRepresentation」には、対応するトラックと対応するレベルを表す値としてlevel assignmentボックスで設定されている値である「level」が含まれる。「SubRepresentation」には、参照関係を有する（依存する）他のトラック（以下、参照トラックという）に対応するレベルを表す値である「dependencyLevel」が含まれる。

さらに、「SubRepresentation」には、３Ｄオーディオの選択に必要な情報として、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“ audioType, contentkind ,priority”>が含まれる。

また、Object audio trackの「SubRepresentation」には、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:viewingAngle:2014” value=“θ,γ,r”>が含まれる。このθ,γ,rは、「SubRepresentation」に対応するオブジェクトが固定されている場合、それぞれ、オブジェクト位置情報のうちの水平角度、垂直角度、距離である。一方、オブジェクトが移動する場合、このθ,γ,rは、それぞれ、オブジェクト位置情報の最大値のうちの水平角度の最大値、垂直角度の最大値、距離の最大値である。

図４３は、図４２のEssential Propertyの定義を示す図である。

図４３の左上側は、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“ audioType, contentkind ,priority”>のAudioTypeの定義を示している。AudioTypeは、対応するトラックの３Ｄオーディオの種類を表す。

図４３の例では、AudioTypeが１である場合、対応するトラックの音声データが、３ＤオーディオのうちのChannel audioであることを表し、AudioTypeが２である場合、対応するトラックの音声データが、HOA audioであることを表す。また、AudioTypeが３である場合、対応するトラックの音声データが、Object audioであることを表し、AudioTypeが４である場合、対応するトラックの音声データが、metadataであることを表す。

また、図４３の右側は、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“ audioType, contentkind ,priority”>のcontentkindの定義を示している。contentkindは、対応する音声の内容を表す。図４３の例では、例えば、contentkindが３である場合、対応する音声が音楽(music)である。

図４３の左下に示すように、Priorityは23008−3で定義されているものであり、対応するObjectの処理優先度を表す。Priorityとしては、オーディオストリームの途中で変更されない場合にのみObjectの処理優先度を表す値が記述され、変更される場合には0が記述される。

（情報処理システムの概要）
図４４は、本開示を適用した第１実施の形態における情報処理システムの概要を説明する図である。

図４４に示す構成のうち、図１の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図４４の情報処理システム１４０は、ファイル生成装置１４１と接続されるWebサーバ１４２と動画再生端末１４４が、インターネット１３を介して接続されることにより構成される。

情報処理システム１４０では、MPEG−DASHに準ずる方式で、Webサーバ１４２が、動画コンテンツのビデオストリームをタイル単位で動画再生端末１４４に配信（タイルドストリーミング）する。また、情報処理システム１４０では、Webサーバ１４２が、再生対象のタイルに対応するObject audio,Channel audio、またはHOA audioのオーディオストリームを動画再生端末１４４に配信する。

情報処理システム１４０のファイル生成装置１４１は、音声ファイル生成部５６が第１実施の形態における音声ファイルを生成し、ＭＰＤ生成部５７が第１実施の形態におけるＭＰＤファイルを生成する点等を除いて、図１１のファイル生成装置１１と同様である。

具体的には、ファイル生成装置１４１は、動画コンテンツの画像データを取得し、タイル単位で符号化してビデオストリームを生成する。ファイル生成装置１４１は、各タイルのビデオストリームを、セグメントごとにファイル化する。ファイル生成装置１４１は、その結果得られる各タイルの画像ファイルをWebサーバ１４２にアップロードする。

また、ファイル生成装置１４１は、動画コンテンツの３Ｄオーディオを取得し、３Ｄオーディオの種類（Channel audio/Object audio/HOA audio/metadata）ごとに符号化してオーディオストリームを生成する。ファイル生成装置１４１は、オーディオストリームに対して、３Ｄオーディオの種類ごとにトラックを割り当てる。ファイル生成装置１４１は、各トラックのオーディオストリームがサブセグメント単位で配置される図３９または図４０のセグメント構造の音声ファイルを生成し、Webサーバ１４２にアップロードする。

ファイル生成装置１４１は、画枠サイズ情報、タイル位置情報、オブジェクト位置情報等を含むMPDファイルを生成する。ファイル生成装置１４１は、MPDファイルをWebサーバ１４２にアップロードする。

Webサーバ１４２は、ファイル生成装置１４１からアップロードされた画像ファイル、音声ファイル、およびMPDファイルを格納する。

図４４の例では、Webサーバ１４２には、タイル＃１の複数のセグメントの画像ファイルからなるセグメント群と、タイル＃２の複数のセグメントの画像ファイルからなるセグメント群とが格納されている。また、Webサーバ１４２には、３Ｄオーディオの音声ファイルからなるセグメント群が格納されている。

Webサーバ１４２は、動画再生端末１４４からの要求に応じて、格納している画像ファイル、音声ファイル、MPDファイル等を動画再生端末１４４に送信する。

動画再生端末１４４は、制御用ソフトウエア１６１、動画再生ソフトウエア１６２、アクセス用ソフトウエア１６３などを実行する。

制御用ソフトウエア１６１は、Webサーバ１４２からストリーミングするデータを制御するソフトウエアである。具体的には、制御用ソフトウエア１６１は、動画再生端末１４４にWebサーバ１４２からMPDファイルを取得させる。

また、制御用ソフトウエア１６１は、動画再生ソフトウエア１６２から指示される表示領域と、MPDファイルに含まれるタイル位置情報とに基づいて、表示領域内のタイルを特定する。そして、制御用ソフトウエア１６１は、そのタイルの画像ファイルの送信要求をアクセス用ソフトウエア１６３に指令する。

制御用ソフトウエア１６１は、Object audioを再生対象とする場合、音声ファイル内の画枠サイズ情報の送信要求をアクセス用ソフトウエア１６３に指令する。また、制御用ソフトウエア１６１は、metadataのオーディオストリームの送信要求をアクセス用ソフトウエア１６３に指令する。制御用ソフトウエア１６１は、その指令に応じてWebサーバ１４２から送信されてくる画枠サイズ情報およびmetadataのオーディオストリームに含まれるオブジェクト位置情報、並びに、表示領域に基づいて、表示領域内の画像に対応するオブジェクトを特定する。そして、制御用ソフトウエア１６１は、そのオブジェクトのオーディオストリームの送信要求をアクセス用ソフトウエア１６３に指令する。

また、制御用ソフトウエア１６１は、Channel audioまたはHOA audioを再生対象とする場合、Channel audioまたはHOA audioのオーディオストリームの送信要求をアクセス用ソフトウエア１６３に指令する。

動画再生ソフトウエア１６２は、Webサーバ１４２から取得された画像ファイルと音声ファイルを再生するソフトウエアである。具体的には、動画再生ソフトウエア１６２は、ユーザにより表示領域が指定されると、その表示領域を制御用ソフトウエア１６１に指示する。また、動画再生ソフトウエア１６２は、その指示に応じてWebサーバ１４２から取得された画像ファイルと音声ファイルを復号する。動画再生ソフトウエア１６２は、復号の結果得られるタイル単位の画像データを合成して出力する。また、動画再生ソフトウエア１６２は、復号の結果得られるObject audio、Channel audio、またはHOA audioを必要に応じて合成し、出力する。

アクセス用ソフトウエア１６３は、HTTPを用いたインターネット１３を介したWebサーバ１４２との通信を制御するソフトウエアである。具体的には、アクセス用ソフトウエア１６３は、制御用ソフトウエア１６１の指令に応じて、画像ファイル、音声ファイル内の画枠サイズ情報や所定のオーディオストリームの送信要求を、動画再生端末１４４に送信させる。また、アクセス用ソフトウエア１６３は、その送信要求に応じて、Webサーバ１４２から送信されてくる画像ファイル、音声ファイル内の画枠サイズ情報や所定のオーディオストリームを動画再生端末１４４に受信させる。

（ファイル生成装置の構成例）
図４５は、図４４のファイル生成装置１４１の構成例を示すブロック図である。

図４５に示す構成のうち、図１１の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図４５のファイル生成装置１４１の構成は、音声符号化処理部５５、音声ファイル生成部５６、MPD生成部５７、サーバアップロード処理部５８の代わりに、音声符号化処理部１７１、音声ファイル生成部１７２、MPD生成部１７３、サーバアップロード処理部１７４が設けられる点が、図１１のファイル生成装置１１の構成と異なる。

具体的には、ファイル生成装置１４１の音声符号化処理部１７１は、外部から入力される動画コンテンツの３Ｄオーディオを種類（Channel audio/Object audio/HOA audio/metadata）ごとに符号化し、オーディオストリームを生成する。音声符号化処理部１７１は、３Ｄオーディオの種類ごとのオーディオストリームを音声ファイル生成部１７２に供給する。

音声ファイル生成部１７２は、音声符号化処理部１７１から供給されるオーディオストリームに対して、３Ｄオーディオの種類ごとにトラックを割り当てる。音声ファイル生成部１７２は、各トラックのオーディオストリームがサブセグメント単位で配置される図３９または図４０のセグメント構造の音声ファイルを生成する。このとき、音声ファイル生成部１７２は、外部から入力される画枠サイズ情報をサンプルエントリに格納する。音声ファイル生成部１７２は、生成された音声ファイルをMPD生成部１７３に供給する。

MPD生成部１７３は、画像ファイル生成部５３から供給される各タイルの画像ファイルを格納するWebサーバ１４２のURL等を決定する。また、MPD生成部１７３は、音声ファイル生成部１７２から供給される音声ファイルを格納するWebサーバ１４２のURL等を決定する。

MPD生成部１７３は、画像情報生成部５４から供給される画像情報をMPDファイルの画像用の「AdaptationSet」に配置する。また、MPD生成部１７３は、各タイルの画像ファイルのURL等を、そのタイルの画像ファイル用の「Representation」の「Segment」に配置する。

MPD生成部１７３は、音声ファイルのURL等を、その音声ファイル用の「Representation」の「Segment」に配置する。また、MPD生成部１７３は、外部から入力される各オブジェクトのオブジェクト位置情報等を、そのオブジェクトのObject metadata track用の「Sub Representation」に配置する。MPD生成部１７３は、以上のようにして各種の情報が配置されたMPDファイル、並びに、画像ファイルおよび音声ファイルをサーバアップロード処理部１７４に供給する。

サーバアップロード処理部１７４は、MPD生成部１７３から供給される各タイルの画像ファイル、音声ファイル、およびMPDファイルを、Webサーバ１４２にアップロードする。

（ファイル生成装置の処理の説明）
図４６は、図４５のファイル生成装置１４１のファイル生成処理を説明するフローチャートである。

図４６のステップＳ１９１乃至Ｓ１９５の処理は、図１２のステップＳ１１乃至Ｓ１５の処理と同様であるので、説明は省略する。

ステップＳ１９６において、音声符号化処理部１７１は、外部から入力される動画コンテンツの３Ｄオーディオを種類（Channel audio/Object audio/HOA audio/metadata）ごとに符号化し、オーディオストリームを生成する。音声符号化処理部１７１は、３Ｄオーディオの種類ごとのオーディオストリームを音声ファイル生成部１７２に供給する。

ステップＳ１９７において、音声ファイル生成部１７２は、音声符号化処理部１７１から供給されるオーディオストリームに対して、３Ｄオーディオの種類ごとにトラックを割り当てる。

ステップＳ１９８において、音声ファイル生成部１７２は、各トラックのオーディオストリームがサブセグメント単位で配置される図３９または図４０のセグメント構造の音声ファイルを生成する。このとき、音声ファイル生成部１７２は、外部から入力される画枠サイズ情報をサンプルエントリに格納する。音声ファイル生成部１７２は、生成された音声ファイルをMPD生成部１７３に供給する。

ステップＳ１９９において、MPD生成部１７３は、画像情報生成部５４から供給される画像情報、各ファイルのURL、オブジェクト位置情報等を含むMPDファイルを生成する。MPD生成部１７３は、画像ファイル、音声ファイル、およびMPDファイルをサーバアップロード処理部１７４に供給する。

ステップＳ２００において、サーバアップロード処理部１７４は、MPD生成部１７３から供給される画像ファイル、音声ファイル、およびMPDファイルを、Webサーバ１４２にアップロードする。そして、処理は終了する。

（動画再生端末の機能的構成例）
図４７は、図４４の動画再生端末１４４が制御用ソフトウエア１６１、動画再生ソフトウエア１６２、およびアクセス用ソフトウエア１６３を実行することにより実現されるストリーミング再生部の構成例を示すブロック図である。

図４７に示す構成のうち、図１３の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図４７のストリーミング再生部１９０の構成は、MPD処理部９２、音声選択部９４、音声ファイル取得部９５、音声復号処理部９６、音声合成処理部９７の代わりに、MPD処理部１９１、音声選択部１９３、音声ファイル取得部１９２、音声復号処理部１９４、音声合成処理部１９５が設けられる点、および、メタファイル取得部９３が設けられない点が、図１３のストリーミング再生部９０の構成と異なる。

ストリーミング再生部１９０は、選択されたオブジェクトの再生対象の音声データを取得する方法等が異なる点等を除いて、図１３のストリーミング再生部９０と同様である。

具体的には、ストリーミング再生部１９０のMPD処理部１９１は、MPD取得部９１から供給されるMPDファイルから音声ファイル用の「Segment」に記述される再生対象のセグメントの音声ファイルのURL等の情報を抽出し、音声ファイル取得部１９２に供給する。

MPD処理部１９１は、MPDファイルから画像用の「AdaptationSet」に記述されるタイル位置情報を抽出し、画像選択部９８に供給する。MPD処理部１９１は、MPDファイルから、画像選択部９８から要求されるタイルの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部９８に供給する。

音声ファイル取得部１９２は、Object audioを再生対象とする場合、MPD処理部１９１から供給されるURL等の情報に基づいて、そのURLで特定される音声ファイル内のBase trackのInitial SegmentをWebサーバ１４２に要求し、取得する。

また、音声ファイル取得部１９２は、音声ファイルのURL等の情報に基づいて、そのURLで特定される音声ファイル内のobject metadata trackのオーディオストリームをWebサーバ１４２に要求し、取得する。音声ファイル取得部１９２は、object metadata trackのオーディオストリームに含まれるオブジェクト位置情報、Base trackのInitial Segmentに含まれる画枠サイズ情報、および音声ファイルのURL等の情報を音声選択部１９３に供給する。

また、Channel audioを再生対象とする場合、音声ファイル取得部１９２は、音声ファイルのURL等の情報に基づいて、そのURLで特定される音声ファイル内のChannel audio trackのオーディオストリームをWebサーバ１４２に要求し、取得する。音声ファイル取得部１９２は、取得されたChannel audio trackのオーディオストリームを音声復号処理部１９４に供給する。

HOA audioを再生対象とする場合、音声ファイル取得部１９２は、Channel audioを再生対象とする場合と同様の処理を行う。その結果、HOA audio trackのオーディオストリームが音声復号処理部１９４に供給される。

なお、Object audio,Channel audio、およびHOA audioのいずれを再生対象とするかは、例えば、ユーザからの指令により決定される。

音声選択部１９３は、音声ファイル取得部１９２から供給される画枠サイズ情報とオブジェクト位置情報とに基づいて、各オブジェクトの画像上の位置を算出する。音声選択部１９３は、各オブジェクトの画像上の位置に基づいて、ユーザにより指定される表示領域内のオブジェクトを選択する。音声選択部１９３は、音声ファイル取得部１９２から供給される音声ファイルのURL等の情報に基づいて、そのURLで特定される音声ファイル内の、選択されたオブジェクトのObject audio trackのオーディオストリームをWebサーバ１４２に要求し、取得する。音声選択部１９３は、取得されたObject audio trackのオーディオストリームを音声復号処理部１９４に供給する。

音声復号処理部１９４は、音声ファイル取得部１９２から供給されるChannel audio trackまたはHOA audio trackのオーディオストリーム、もしくは、音声選択部１９３からObject audio trackのオーディオストリームを復号する。音声復号処理部１９４は、復号の結果得られるChannel audio,HOA audio、またはObject audioを音声合成処理部１９５に供給する。

音声合成処理部１９５は、音声復号処理部１９４から供給されるObject audio,Channel audio、またはHOA audioを必要に応じて合成し、出力する。

（動画再生端末の処理の説明）
図４８は、図４７のストリーミング再生部１９０のチャンネルオーディオ再生処理を説明するフローチャートである。このチャンネルオーディオ再生処理は、例えば、ユーザによりChannel audioが再生対象として選択される場合に行われる。

図４８のステップＳ２２１において、MPD処理部１９１は、MPD取得部９１から供給されるMPDファイルを解析し、「SubRepresentation」に記述されるessential property とcodecに基づいて、再生対象のセグメントのChannel audioの「SubRepresentation」を特定する。また、MPD処理部１９１は、MPDファイルから、再生対象のセグメントの音声ファイル用の「Segment」に記述されるURL等の情報を抽出し、音声ファイル取得部１９２に供給する。

ステップＳ２２２において、MPD処理部１９１は、ステップＳ２２１で特定された「SubRepresentation」のdependencyLevelに基づいて、参照トラックであるBase trackのレベルを特定し、音声ファイル取得部１９２に供給する。

ステップＳ２２３において、音声ファイル取得部１９２は、MPD処理部１９１から供給されるURL等の情報に基づいて、再生対象のセグメントのInitial SegmentをWebサーバ１４２に要求し、取得する。

ステップＳ２２４において、音声ファイル取得部１９２は、Initial Segment内のLevel assignmentボックスから、channel audio trackと参照トラックであるBase trackのレベルに対応するトラックＩＤを取得する。

ステップＳ２２５において、音声ファイル取得部１９２は、channel audio trackと参照トラックであるBase trackのトラックＩＤに基づいて、Initial Segmentの、そのトラックＩＤに対応するtrakボックス内のサンプルエントリを取得する。音声ファイル取得部１９２は、取得されたサンプルエントリに含まれるコーデック情報を音声復号処理部１９４に供給する。

ステップＳ２２６において、音声ファイル取得部１９２は、MPD処理部１９１から供給されるURL等の情報に基づいて、Webサーバ１４２に要求し、再生対象のセグメントの音声ファイルの先頭からsidxボックスとssixボックスを取得する。

ステップＳ２２７において、音声ファイル取得部１９２は、ステップＳ２２３で取得されたsidxボックスとssixボックスから、再生対象のサブセグメントのchannel audio trackと参照トラックの位置情報を取得する。なお、ここでは、参照トラックであるBase trackにはオーディオストリームが含まれないため、参照トラックの位置情報はない。

ステップＳ２２８において、音声ファイル取得部１９２は、channel audio trackの位置情報と再生対象のセグメントの音声ファイルのURL等の情報に基づいて、mdatボックスに配置されるchannel audio trackのオーディオストリームをWebサーバ１４２に要求し、取得する。音声ファイル取得部１９２は、取得されたchannel audio trackのオーディオストリームを音声復号処理部１９４に供給する。

ステップＳ２２９において、音声復号処理部１９４は、音声ファイル取得部１９２から供給されるコーデック情報に基づいて、channel audio trackのオーディオストリームに対して復号を行う。音声ファイル取得部１９２は、その結果得られるchannel audioを音声合成処理部１９５に供給する。

ステップＳ２３０において、音声合成処理部１９５は、channel audioを出力し、処理を終了する。

なお、図示は省略するが、ストリーミング再生部１９０によるHOA audioを再生するHOAオーディオ再生処理は、図４８のチャンネルオーディオ再生処理と同様に行われる。

図４９は、図４７のストリーミング再生部１９０のオブジェクト特定処理を説明するフローチャートである。このオブジェクト特定処理は、例えば、ユーザによりObject audioが再生対象として選択されており、再生領域が変化したときに行われる。

図４９のステップＳ２５１において、音声選択部１９３は、ユーザ操作などにより、ユーザにより指定された表示領域を取得する。

ステップＳ２５２において、MPD処理部１９１は、MPD取得部９１から供給されるMPDファイルを解析し、「SubRepresentation」に記述されるessential property とcodecに基づいて、再生対象のセグメントのmetadataの「SubRepresentation」を特定する。また、MPD処理部１９１は、MPDファイルから音声ファイル用の「Segment」に記述される再生対象のセグメントの音声ファイルのURL等の情報を抽出し、音声ファイル取得部１９２に供給する。

ステップＳ２５３において、MPD処理部１９１は、ステップＳ２５２で特定された「SubRepresentation」のdependencyLevelに基づいて、参照トラックであるBase trackのレベルを特定し、音声ファイル取得部１９２に供給する。

ステップＳ２５４において、音声ファイル取得部１９２は、MPD処理部１９１から供給されるURL等の情報に基づいて、再生対象のセグメントのInitial SegmentをWebサーバ１４２に要求し、取得する。

ステップＳ２５５において、音声ファイル取得部１９２は、Initial Segment内のLevel assignmentボックスから、object metadata trackと参照トラックであるBase trackのレベルに対応するトラックＩＤを取得する。

ステップＳ２５６において、音声ファイル取得部１９２は、object metadata trackと参照トラックであるBase trackのトラックＩＤに基づいて、Initial Segmentの、そのトラックＩＤに対応するtrakボックス内のサンプルエントリを取得する。音声ファイル取得部１９２は、参照トラックであるBase trackのサンプルエントリに含まれる画枠サイズ情報を音声選択部１９３に供給する。また、音声ファイル取得部１９２は、Initial Segmentを音声選択部１９３に供給する。

ステップＳ２５７において、音声ファイル取得部１９２は、MPD処理部１９１から供給されるURL等の情報に基づいて、Webサーバ１４２に要求し、再生対象のセグメントの音声ファイルの先頭からsidxボックスとssixボックスを取得する。

ステップＳ２５８において、音声ファイル取得部１９２は、ステップＳ２５７で取得されたsidxボックスとssixボックスから、再生対象のサブセグメントのobject metadata trackと参照トラックの位置情報を取得する。なお、ここでは、参照トラックであるBase trackにはオーディオストリームが含まれないため、参照トラックの位置情報はない。音声ファイル取得部１９２は、sidxボックスとssixボックスを音声選択部１９３に供給する。

ステップＳ２５９において、音声ファイル取得部１９２は、object metadata trackの位置情報と再生対象のセグメントの音声ファイルのURL等の情報に基づいて、mdatボックスに配置されるobject metadata trackのオーディオストリームをWebサーバ１４２に要求し、取得する。

ステップＳ２６０において、音声ファイル取得部１９２は、ステップＳ２５６で取得されたサンプルエントリに含まれるコーデック情報に基づいて、ステップＳ２５９で取得されたobject metadata trackのオーディオストリームを復号する。音声ファイル取得部１９２は、復号の結果得られるmetadataに含まれるオブジェクト位置情報を音声選択部１９３に供給する。また、音声ファイル取得部１９２は、MPD処理部１９１から供給される音声ファイルのURL等の情報を音声選択部１９３に供給する。

ステップＳ２６１において、音声選択部１９３は、音声ファイル取得部１９２から供給される画枠サイズ情報およびオブジェクト位置情報、並びに、ユーザにより指定される表示領域に基づいて、表示領域内のオブジェクトを選択する。そして、処理は終了する。

図５０は、図４９のオブジェクト特定処理後にストリーミング再生部１９０により行われる特定オブジェクトオーディオ再生処理を説明するフローチャートである。

図５０のステップＳ２８１において、MPD処理部１９１は、MPD取得部９１から供給されるMPDファイルを解析し、「SubRepresentation」に記述されるessential property とcodecに基づいて、選択されたオブジェクトのobject audioの「SubRepresentation」を特定する。

ステップＳ２８２において、MPD処理部１９１は、ステップＳ２８１で特定された「SubRepresentation」のdependencyLevelに基づいて、参照トラックであるBase trackのレベルを特定し、音声ファイル取得部１９２に供給する。

ステップＳ２８３において、音声ファイル取得部１９２は、Initial Segment内のLevel assignmentボックスから、object audio trackと参照トラックであるBase trackのレベルに対応するトラックＩＤを取得し、音声選択部１９３に供給する。

ステップＳ２８４において、音声選択部１９３は、object audio trackと参照トラックであるBase trackのトラックＩＤに基づいて、Initial Segmentの、そのトラックＩＤに対応するtrakボックス内のサンプルエントリを取得する。このInitial Segmentは、図４９のステップＳ２５６で音声ファイル取得部１９２から供給されたものである。音声選択部１９３は、取得されたサンプルエントリに含まれるコーデック情報を音声復号処理部１９４に供給する。

ステップＳ２８５において、音声選択部１９３は、ステップＳ２５８で音声ファイル取得部１９２から供給されるsidxボックスとssixボックスから、再生対象のサブセグメントの選択されたオブジェクトのobject audio trackと参照トラックの位置情報を取得する。なお、ここでは、参照トラックであるBase trackにはオーディオストリームが含まれないため、参照トラックの位置情報はない。

ステップＳ２８６において、音声選択部１９３は、object audio trackの位置情報と再生対象のセグメントの音声ファイルのURL等の情報に基づいて、mdatボックスに配置される、選択されたオブジェクトのobject audio trackのオーディオストリームをWebサーバ１４２に要求し、取得する。音声選択部１９３は、取得されたobject audio trackのオーディオストリームを音声復号処理部１９４に供給する。

ステップＳ２８７において、音声復号処理部１９４は、音声選択部１９３から供給されるコーデック情報に基づいて、object audio trackのオーディオストリームを復号する。音声選択部１９３は、復号の結果得られるobject audioを音声合成処理部１９５に供給する。

ステップＳ２８８において、音声合成処理部１９５は、音声復号処理部１９４から供給されるobject audioを合成して出力する。そして、処理は終了する。

以上のように、情報処理システム１４０では、ファイル生成装置１４１が、３Ｄオーディオが３Ｄオーディオの種類に応じて複数のトラックに分割されて配置される音声ファイルを生成する。そして、動画再生端末１４４は、その音声ファイルのうちの所定の種類の３Ｄオーディオのトラックのオーディオストリームを取得する。従って、動画再生端末１４４は、所定の種類の３Ｄオーディオのオーディオストリームを効率良く取得することができる。よって、ファイル生成装置１４１は、所定の種類の３Ｄオーディオのオーディオストリームの取得効率を向上させる音声ファイルを生成しているといえる。

＜第２実施の形態＞
（トラックの概要）
図５１は、本開示を適用した第２実施の形態におけるトラックの概要を説明する図である。

図５１に示すように、第２実施の形態では、Base trackのサンプルとして、ベースサンプルが記録される点が、第１実施の形態と異なる。ベースサンプルは、Channel audio/Object audio/HOA audio/metadataのsampleヘの参照情報により構成される。ベースサンプルに含まれる参照情報により参照されるChannel audio/Object audio/HOA audio/metadataのサンプルを、参照情報の配置順に配置することにより、トラックに分割される前の３Ｄオーディオのオーディオストリームを生成することができる。

（ベーストラックのサンプルエントリのシンタクスの例）
図５２は、図５１のベーストラックのサンプルエントリのシンタクスの例を示す図である。

図５２のシンタクスは、サンプルエントリが、図３３のBase trackのサンプルエントリであることを表す「mha1」の代わりに、図５１のBase trackのサンプルエントリであることを表す「mha2」が記述される点を除いて、図３４のシンタクスと同一である。

（ベースサンプルの構造例）
図５３は、ベースサンプルの構造例を示す図である。

図５３に示すように、ベースサンプルは、サンプル単位のChannel audio/Object audio/HOA audio/metadataのextractorをサブサンプルとして構成される。 Channel audio/Object audio/HOA audio/metadataのextractorは、extractorの種別、並びに、対応するChannel audio track/Object audio track(s)/HOA audio track/Object metadata trackのサブサンプルのoffsetおよびsizeにより構成される。このoffsetは、ベースサンプルのサブサンプルのファイル内の位置と、Channel audio track/Object audio track(s)/HOA audio track/Object metadata trackのサンプルのファイル内の位置の差分である。即ち、offsetは、それを含むベースサンプルのサブサンプルに対応する他のトラックのサンプルのファイル内の位置を示す情報である。

図５４は、ベースサンプルのシンタクスの例を示す図である。

図５４に示すように、ベースサンプルでは、Object audio trackのサンプルにおいてobject audioが格納されるSCEエレメントが、extractorを格納するEXTエレメントに入れ換えられる。

図５５は、extractorのデータの例を示す図である。

図５５に示すように、extractorには、extractorの種別、並びに、対応するChannel audio track/Object audio track(s)/HOA audio track/Object metadata trackのサブサンプルのoffsetおよびsizeが記述される。

なお、AVC(Advanced Video Coding)/HEVC(High Efficiency Video Coding)で定義している、NAL(Network Abstraction Layer)の構造を活用して、audio elementaryやconfig情報を格納できるように拡張してもよい。

第２実施の形態における情報処理システムおよび情報処理システムによる処理は、第１実施の形態と同様であるので、説明は省略する。

＜第３実施の形態＞
（トラックの概要）
図５６は、本開示を適用した第３実施の形態におけるトラックの概要を説明する図である。

図５６に示すように、第３実施の形態では、Base trackのサンプルとして、ベースサンプルとmetadataのサンプルが記録され、Object metadata trackが設けられない点が、第１実施の形態と異なっている。

第３実施の形態における情報処理システムおよび情報処理システムによる処理は、オブジェクト位置情報を取得するために、Object metadata trackの代わりにBase trackのオーディオストリームが取得される点を除いて、第１実施の形態と同様であるので、説明は省略する。

＜第４実施の形態＞
（トラックの概要）
図５７は、本開示を適用した第４実施の形態におけるトラックの概要を説明する図である。

図５７に示すように、第４実施の形態では、各トラックが異なるファイル（3da_base.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4/3da_meta.mp4）として記録される点が、第１実施の形態と異なっている。この場合、所望のトラックのファイルを、HTTPを介して取得することにより、所望のトラックの音声データのみを取得することができる。従って、HTTPを介した所望のトラックの音声データの取得を効率的に行うことができる。

（MPDファイルの記述例）
図５８は、本開示を適用した第４実施の形態におけるMPDファイルの記述例を示す図である。

図５８に示すように、MPDファイルには、３Ｄオーディオの各音声ファイル（3da_base.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4/3da_meta.mp4）のセグメントを管理する「Representation等が記述される。

「Representation」には、「codecs」、「id」、「associationId」、および「assciationType」が含まれる。また、Channel audio track/Object audio track(s)/HOA audio track/Object metadata trackの「Representation」には、「<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014” value=“ audioType, contentkind ,priority”>」も含まれる。さらに、Object audio track(s) の「Representation」には、<EssentialProperty schemeIdUri=“urn:mpeg:DASH:viewingAngle:2014” value=“θ,γ,r”>が含まれる。

（情報処理システムの概要）
図５９は、本開示を適用した第４実施の形態における情報処理システムの概要を説明する図である。

図５９に示す構成のうち、図１の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図５９の情報処理システム２１０は、ファイル生成装置２１１と接続されるWebサーバ２１２と動画再生端末２１４が、インターネット１３を介して接続されることにより構成される。

情報処理システム２１０では、MPEG−DASHに準ずる方式で、Webサーバ２１２が、動画コンテンツのビデオストリームをタイル単位で動画再生端末２１４に配信（タイルドストリーミング）する。また、情報処理システム２１０では、Webサーバ２１２が、再生対象のタイルに対応するObject audio,Channel audio、またはHOA audioの音声ファイルを動画再生端末２１４に配信する。

具体的には、ファイル生成装置２１１は、動画コンテンツの画像データを取得し、タイル単位で符号化してビデオストリームを生成する。ファイル生成装置２１１は、各タイルのビデオストリームを、セグメントごとにファイル化する。ファイル生成装置２１１は、その結果得られる各タイルの画像ファイルをWebサーバ２１２にアップロードする。

また、ファイル生成装置２１１は、動画コンテンツの３Ｄオーディオを取得し、３Ｄオーディオの種類（Channel audio/Object audio/HOA audio/metadata）ごとに符号化してオーディオストリームを生成する。ファイル生成装置２１１は、オーディオストリームに対して、３Ｄオーディオの種類ごとにトラックを割り当てる。ファイル生成装置２１１は、トラックごとに、オーディオストリームを配置した音声ファイルを生成し、Webサーバ２１２にアップロードする。

ファイル生成装置２１１は、画枠サイズ情報、タイル位置情報、オブジェクト位置情報等を含むMPDファイルを生成する。ファイル生成装置２１１は、MPDファイルをWebサーバ２１２にアップロードする。

Webサーバ２１２は、ファイル生成装置２１１からアップロードされた画像ファイル、３Ｄオーディオの種類ごとの音声ファイル、およびMPDファイルを格納する。

図５９の例では、Webサーバ２１２には、タイル＃１の複数のセグメントの画像ファイルからなるセグメント群と、タイル＃２の複数のセグメントの画像ファイルからなるセグメント群とが格納されている。また、Webサーバ２１２には、Channel audioの音声ファイルからなるセグメント群と、オブジェクト＃１の音声ファイルからなるセグメント群とが格納されている。

Webサーバ２１２は、動画再生端末２１４からの要求に応じて、格納している画像ファイル、３Ｄオーディオの所定の種類の音声ファイル、MPDファイル等を動画再生端末２１４に送信する。

動画再生端末２１４は、制御用ソフトウエア２２１、動画再生ソフトウエア２２２、アクセス用ソフトウエア２２３などを実行する。

制御用ソフトウエア２２１は、Webサーバ２１２からストリーミングするデータを制御するソフトウエアである。具体的には、制御用ソフトウエア２２１は、動画再生端末２１４にWebサーバ２１２からMPDファイルを取得させる。

また、制御用ソフトウエア２２１は、動画再生ソフトウエア２２２から指示される表示領域と、MPDファイルに含まれるタイル位置情報とに基づいて、表示領域内のタイルを特定する。そして、制御用ソフトウエア２２１は、そのタイルの画像ファイルの送信要求をアクセス用ソフトウエア２２３に指令する。

制御用ソフトウエア２２１は、Object audioを再生対象とする場合、Base trackの音声ファイルの送信要求をアクセス用ソフトウエア２２３に指令する。また、制御用ソフトウエア２２１は、Object metadata trackの音声ファイルの送信要求をアクセス用ソフトウエア２２３に指令する。制御用ソフトウエア２２１は、その指令に応じてWebサーバ１４２から送信されてくるBase trackの音声ファイル内の画枠サイズ情報とmetadataの音声ファイルに含まれるオブジェクト位置情報を取得する。制御用ソフトウエア２２１は、画枠サイズ情報、オブジェクト位置情報、および表示領域に基づいて、表示領域内の画像に対応するオブジェクトを特定する。そして、制御用ソフトウエア２２１は、そのオブジェクトの音声ファイルの送信要求をアクセス用ソフトウエア２２３に指令する。

また、制御用ソフトウエア２２１は、Channel audioまたはHOA audioを再生対象とする場合、Channel audioまたはHOA audioの音声ファイルの送信要求をアクセス用ソフトウエア２２３に指令する。

動画再生ソフトウエア２２２は、Webサーバ２１２から取得された画像ファイルと音声ファイルを再生するソフトウエアである。具体的には、動画再生ソフトウエア２２２は、ユーザにより表示領域が指定されると、その表示領域を制御用ソフトウエア２２１に指示する。また、動画再生ソフトウエア２２２は、その指示に応じてWebサーバ２１２から取得された画像ファイルと音声ファイルを復号する。動画再生ソフトウエア２２２は、復号の結果得られるタイル単位の画像データを合成して出力する。また、動画再生ソフトウエア２２２は、復号の結果得られるObject audio、Channel audio、またはHOA audioを必要に応じて合成し、出力する。

アクセス用ソフトウエア２２３は、HTTPを用いたインターネット１３を介したWebサーバ２１２との通信を制御するソフトウエアである。具体的には、アクセス用ソフトウエア２２３は、制御用ソフトウエア２２１の指令に応じて、画像ファイルや所定の音声ファイルの送信要求を、動画再生端末２１４に送信させる。また、アクセス用ソフトウエア２２３は、その送信要求に応じて、Webサーバ２１２から送信されてくる画像ファイルや所定の音声ファイルを動画再生端末２１４に受信させる。

（ファイル生成装置の構成例）
図６０は、図５９のファイル生成装置２１１の構成例を示すブロック図である。

図６０に示す構成のうち、図４５の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図６０のファイル生成装置２１１の構成は、音声ファイル生成部１７２、MPD生成部１７３、サーバアップロード処理部１７４の代わりに、音声ファイル生成部２４１、MPD生成部２４２、サーバアップロード処理部２４３が設けられる点が、図４５のファイル生成装置１４１の構成と異なる。

具体的には、ファイル生成装置２１１の音声ファイル生成部２４１は、音声符号化処理部１７１から供給されるオーディオストリームに対して、３Ｄオーディオの種類ごとにトラックを割り当てる。音声ファイル生成部２４１は、トラックごとに、オーディオストリームを配置した音声ファイルを生成する。このとき、音声ファイル生成部２４１は、外部から入力される画枠サイズ情報を、Base trackの音声ファイルのサンプルエントリに格納する。音声ファイル生成部２４１は、３Ｄオーディオの種類ごとの音声ファイルをMPD生成部２４２に供給する。

MPD生成部２４２は、画像ファイル生成部５３から供給される各タイルの画像ファイルを格納するWebサーバ２１２のURL等を決定する。また、MPD生成部２４２は、３Ｄオーディオの種類ごとに、音声ファイル生成部２４１から供給される音声ファイルを格納するWebサーバ２１２のURL等を決定する。

MPD生成部２４２は、画像情報生成部５４から供給される画像情報をMPDファイルの画像用の「AdaptationSet」に配置する。また、MPD生成部２４２は、各タイルの画像ファイルのURL等を、そのタイルの画像ファイル用の「Representation」の「Segment」に配置する。

MPD生成部２４２は、３Ｄオーディオの種類ごとに、音声ファイルのURL等を、その音声ファイル用の「Representation」の「Segment」に配置する。また、MPD生成部２４２は、外部から入力される各オブジェクトのオブジェクト位置情報等を、そのオブジェクトのObject metadata track用の「Representation」に配置する。MPD生成部２４２は、以上のようにして各種の情報が配置されたMPDファイル、並びに、画像ファイルおよび３Ｄオーディオの種類ごとの音声ファイルを、サーバアップロード処理部２４３に供給する。

サーバアップロード処理部２４３は、MPD生成部２４２から供給される各タイルの画像ファイル、３Ｄオーディオの種類ごとの音声ファイル、およびMPDファイルを、Webサーバ２１２にアップロードする。

（ファイル生成装置の処理の説明）
図６１は、図６０のファイル生成装置２１１のファイル生成処理を説明するフローチャートである。

図６１のステップＳ３０１乃至Ｓ３０７の処理は、図４６のステップＳ１９１乃至Ｓ１９７の処理と同様であるので、説明は省略する。

ステップＳ３０８において、音声ファイル生成部２４１は、トラックごとに、オーディオストリームが配置された音声ファイルを生成する。このとき、音声ファイル生成部２４１は、外部から入力される画枠サイズ情報をBase trackの音声ファイル内のサンプルエントリに格納する。音声ファイル生成部２４１は、生成された３Ｄオーディオの種類ごとの音声ファイルをMPD生成部２４２に供給する。

ステップＳ３０９において、MPD生成部２４２は、画像情報生成部５４から供給される画像情報、各ファイルのURL、オブジェクト位置情報等を含むMPDファイルを生成する。MPD生成部２４２は、画像ファイル、３Ｄオーディオの種類ごとの音声ファイル、およびMPDファイルをサーバアップロード処理部２４３に供給する。

ステップＳ３１０において、サーバアップロード処理部２４３は、MPD生成部２４２から供給される画像ファイル、３Ｄオーディオの種類ごとの音声ファイル、およびMPDファイルを、Webサーバ２１２にアップロードする。そして、処理は終了する。

（動画再生端末の機能的構成例）
図６２は、図５９の動画再生端末２１４が制御用ソフトウエア２２１、動画再生ソフトウエア２２２、およびアクセス用ソフトウエア２２３を実行することにより実現されるストリーミング再生部の構成例を示すブロック図である。

図６２に示す構成のうち、図１３や図４７の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図６２のストリーミング再生部２６０の構成は、MPD処理部９２、メタファイル取得部９３、音声選択部９４、音声ファイル取得部９５、音声復号処理部９６、音声合成処理部９７の代わりに、MPD処理部２６１、メタファイル取得部２６２、音声選択部２６３、音声ファイル取得部２６４、音声復号処理部１９４、音声合成処理部１９５が設けられる点が、図１３のストリーミング再生部９０の構成と異なる。

具体的には、ストリーミング再生部２６０のMPD処理部２６１は、Object audioを再生対象とする場合、MPD取得部９１から供給されるMPDファイルから、再生対象のセグメントのobject metadata trackの音声ファイルの「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部２６２に供給する。また、MPD処理部２６１は、MPDファイルから、音声選択部２６３から要求されるオブジェクトのobject audio trackの音声ファイルの「Segment」に記述されるURL等の情報を抽出し、音声選択部２６３に供給する。さらに、MPD処理部２６１は、MPDファイルから、再生対象のセグメントのBase trackの音声ファイルの「Segment」に記述されるURL等の情報を抽出し、メタファイル取得部２６２に供給する。

また、MPD処理部２６１は、Channel audioまたはHOA audioを再生対象とする場合、MPDファイルから、再生対象のセグメントのChannel audio trackまたはHOA audio trackの音声ファイルの「Segment」に記述されるURL等の情報を抽出する。MPD処理部２６１は、そのURL等の情報を、音声選択部２６３を介して音声ファイル取得部２６４に供給する。

MPD処理部２６１は、MPDファイルから画像用の「AdaptationSet」に記述されるタイル位置情報を抽出し、画像選択部９８に供給する。MPD処理部２６１は、MPDファイルから、画像選択部９８から要求されるタイルの画像ファイル用の「Segment」に記述されるURL等の情報を抽出し、画像選択部９８に供給する。

メタファイル取得部２６２は、MPD処理部２６１から供給されるURL等の情報に基づいて、そのURLで特定されるobject metadata trackの音声ファイルをWebサーバ２１２に要求し、取得する。メタファイル取得部９３は、object metadata trackの音声ファイルに含まれるオブジェクト位置情報を音声選択部２６３に供給する。

また、メタファイル取得部２６２は、音声ファイルのURL等の情報に基づいて、そのURLで特定されるBase trackの音声ファイルのInitial SegmentをWebサーバ１４２に要求し、取得する。メタファイル取得部２６２は、Initial Segmentのサンプルエントリに含まれる画枠サイズ情報を音声選択部２６３に供給する。

音声選択部２６３は、メタファイル取得部２６２から供給される画枠サイズ情報とオブジェクト位置情報とに基づいて、各オブジェクトの画像上の位置を算出する。音声選択部２６３は、各オブジェクトの画像上の位置に基づいて、ユーザにより指定される表示領域内のオブジェクトを選択する。音声選択部２６３は、選択されたオブジェクトのobject audio trackの音声ファイルのURL等の情報をMPD処理部２６１に要求する。音声選択部２６３は、その要求に応じてMPD処理部２６１から供給されるURL等の情報を音声ファイル取得部２６４に供給する。

音声ファイル取得部２６４は、音声選択部２６３から供給される、object audio track,Channel audio track、またはHOA audio trackの音声ファイルのURL等の情報に基づいて、そのURLで特定される音声ファイルのオーディオストリームをWebサーバ１２に要求し、取得する。音声ファイル取得部９５は、取得されたオブジェクト単位の音声ファイルを音声復号処理部１９４に供給する。

（動画再生端末の処理の説明）
図６３は、図６２のストリーミング再生部２６０のチャンネルオーディオ再生処理を説明するフローチャートである。このチャンネルオーディオ再生処理は、例えば、ユーザによりChannel audioが再生対象として選択される場合に行われる。

図６３のステップＳ３３１において、MPD処理部２６１は、MPD取得部９１から供給されるMPDファイルを解析し、「Representation」に記述されるessential property とcodecに基づいて、再生対象のセグメントのChannel audioの「Representation」を特定する。また、MPD処理部２６１は、その「Representation」に含まれる「Segment」に記述される再生対象のセグメントのChannel audio trackの音声ファイルのURL等の情報を抽出し、音声選択部２６３を介して音声ファイル取得部２６４に供給する。

ステップＳ３３２において、MPD処理部２６１は、ステップＳ３３１で特定された「Representation」のassociationIdに基づいて、参照トラックであるBase trackの「Representation」を特定する。MPD処理部２６１は、その「Representation」に含まれる「Segment」に記述される参照トラックの音声ファイルのURL等の情報を抽出し、音声選択部２６３を介して音声ファイル取得部２６４に供給する。

ステップＳ３３３において、音声ファイル取得部２６４は、音声選択部２６３から供給されるURL等の情報に基づいて、再生対象のセグメントのChannel audio trackおよび参照トラックの音声ファイルのInitial SegmentをWebサーバ２１２に要求し、取得する。

ステップＳ３３４において、音声ファイル取得部２６４は、取得されたInitial Segmentのtrakボックス内のサンプルエントリを取得する。音声ファイル取得部２６４は、取得されたサンプルエントリに含まれるコーデック情報を音声復号処理部１９４に供給する。

ステップＳ３３５において、音声ファイル取得部２６４は、音声選択部２６３から供給されるURL等の情報に基づいて、Webサーバ１４２に要求し、再生対象のセグメントのChannel audio trackの音声ファイルの先頭からsidxボックスとssixボックスを取得する。

ステップＳ３３６において、音声ファイル取得部２６４は、ステップＳ３３３で取得されたsidxボックスとssixボックスから、再生対象のサブセグメントの位置情報を取得する。

ステップＳ３３７において、音声選択部２６３は、ステップＳ３３７で取得された位置情報と再生対象のセグメントのchannel audio trackの音声ファイルのURL等の情報に基づいて、その音声ファイル内のmdatボックスに配置されるchannel audio trackのオーディオストリームをWebサーバ１４２に要求し、取得する。音声選択部２６３は、取得されたchannel audio trackのオーディオストリームを音声復号処理部１９４に供給する。

ステップＳ３３８において、音声復号処理部１９４は、音声ファイル取得部２６４から供給されるコーデック情報に基づいて、音声選択部２６３から供給されるchannel audio trackのオーディオストリームに対して復号を行う。音声選択部２６３は、その結果得られるchannel audioを音声合成処理部１９５に供給する。

ステップＳ３３９において、音声合成処理部１９５は、channel audioを出力し、処理を終了する。

なお、図示は省略するが、ストリーミング再生部２６０によるHOA audioを再生するHOAオーディオ再生処理は、図６３のチャンネルオーディオ再生処理と同様に行われる。

図６４は、図６２のストリーミング再生部２６０のオブジェクトオーディオ再生処理のを説明するフローチャートである。このオブジェクトオーディオ再生処理は、例えば、ユーザによりObject audioが再生対象として選択されており、再生領域が変化したときに行われる。

図６４のステップＳ３５１において、音声選択部２６３は、ユーザ操作などにより、ユーザにより指定された表示領域を取得する。

ステップＳ３５２において、MPD処理部２６１は、MPD取得部９１から供給されるMPDファイルを解析し、「Representation」に記述されるessential property とcodecに基づいて、再生対象のセグメントのmetadataの「Representation」を特定する。また、MPD処理部２６１は、その「Representation」に含まれる「Segment」に記述される再生対象のセグメントのobject metadata trackの音声ファイルのURL等の情報を抽出し、メタファイル取得部２６２に供給する。

ステップＳ３５３において、MPD処理部２６１は、ステップＳ３５２で特定された「Representation」のassociationIdに基づいて、参照トラックであるBase trackの「Representation」を特定する。MPD処理部２６１は、その「Representation」に含まれる「Segment」に記述される参照トラックの音声ファイルのURL等の情報を抽出し、メタファイル取得部２６２に供給する。

ステップＳ３５４において、メタファイル取得部２６２は、MPD処理部２６１から供給されるURL等の情報に基づいて、再生対象のセグメントのobject metadata trackおよび参照トラックの音声ファイルのInitial SegmentをWebサーバ２１２に要求し、取得する。

ステップＳ３５５において、メタファイル取得部２６２は、取得されたInitial Segmentのtrakボックス内のサンプルエントリを取得する。メタファイル取得部２６２は、参照トラックであるBase trackのサンプルエントリに含まれる画枠サイズ情報を音声ファイル取得部２６４に供給する。

ステップＳ３５６において、メタファイル取得部２６２は、MPD処理部２６１から供給されるURL等の情報に基づいて、Webサーバ１４２に要求し、再生対象のセグメントのobject metadata trackの音声ファイルの先頭からsidxボックスとssixボックスを取得する。

ステップＳ３５７において、メタファイル取得部２６２は、ステップＳ３５６で取得されたsidxボックスとssixボックスから、再生対象のサブセグメントの位置情報を取得する。

ステップＳ３５８において、メタファイル取得部２６２は、ステップＳ３５７で取得された位置情報と再生対象のセグメントのobject metadata trackの音声ファイルのURL等の情報に基づいて、その音声ファイル内のmdatボックスに配置されるobject metadata trackのオーディオストリームをWebサーバ１４２に要求し、取得する。

ステップＳ３５９において、メタファイル取得部２６２は、ステップＳ３５５で取得されたサンプルエントリに含まれるコーデック情報に基づいて、ステップＳ３５８で取得されたobject metadata trackのオーディオストリームを復号する。メタファイル取得部２６２は、復号の結果得られるmetadataに含まれるオブジェクト位置情報を音声選択部２６３に供給する。

ステップＳ３６０において、音声選択部２６３は、メタファイル取得部２６２から供給される画枠サイズ情報およびオブジェクト位置情報、並びに、ユーザにより指定される表示領域に基づいて、表示領域内のオブジェクトを選択する。音声選択部２６３は、選択されたオブジェクトのobject audio trackの音声ファイルのURL等の情報をMPD処理部２６１に要求する。

ステップＳ３６１において、MPD処理部２６１は、MPD取得部９１から供給されるMPDファイルを解析し、「Representation」に記述されるessential property とcodecに基づいて、選択されたオブジェクトのobject audioの「Representation」を特定する。また、MPD処理部２６１は、その「Representation」に含まれる「Segment」に記述される、再生対象のセグメントの選択されたオブジェクトのobject audio trackの音声ファイルのURL等の情報を抽出し、音声選択部２６３を介して音声ファイル取得部２６４に供給する。

ステップＳ３６２において、MPD処理部２６１は、ステップＳ３６１で特定された「Representation」のassociationIdに基づいて、参照トラックであるBase trackの「Representation」を特定する。MPD処理部２６１は、その「Representation」に含まれる「Segment」に記述される参照トラックの音声ファイルのURL等の情報を抽出し、音声選択部２６３を介して音声ファイル取得部２６４に供給する。

ステップＳ３６３において、音声ファイル取得部２６４は、音声選択部２６３から供給されるURL等の情報に基づいて、再生対象のセグメントのobject audio trackおよび参照トラックの音声ファイルのInitial SegmentをWebサーバ２１２に要求し、取得する。

ステップＳ３６４において、音声ファイル取得部２６４は、取得されたInitial Segmentのtrakボックス内のサンプルエントリを取得する。音声ファイル取得部２６４は、そのサンプルエントリに含まれるコーデック情報を音声復号処理部１９４に供給する。

ステップＳ３６５において、音声ファイル取得部２６４は、音声選択部２６３から供給されるURL等の情報に基づいて、Webサーバ１４２に要求し、再生対象のセグメントのobject audio trackの音声ファイルの先頭からsidxボックスとssixボックスを取得する。

ステップＳ３６６において、音声ファイル取得部２６４は、ステップＳ３６５で取得されたsidxボックスとssixボックスから、再生対象のサブセグメントの位置情報を取得する。

ステップＳ３６７において、音声ファイル取得部２６４は、ステップＳ３６６で取得された位置情報と再生対象のセグメントのobject audio trackの音声ファイルのURL等の情報に基づいて、その音声ファイル内のmdatボックスに配置されるobject audio trackのオーディオストリームをWebサーバ１４２に要求し、取得する。音声ファイル取得部２６４は、取得されたobject audio trackのオーディオストリームを音声復号処理部１９４に供給する。

ステップＳ３６８およびＳ３６９の処理は、図５０のステップＳ２８７およびＳ２８８の処理と同様であるので、説明は省略する。

なお、上述した説明では、音声選択部２６３は、表示領域内の全てのオブジェクトを選択したが、表示領域内のオブジェクトのうちの処理優先度が高いもののみを選択したり、所定の内容の音声のオブジェクトのみを選択するようにしてもよい。

図６５は、音声選択部２６３が表示領域内のオブジェクトのうちの処理優先度が高いもののみを選択する場合のオブジェクトオーディオ再生処理を説明するフローチャートである。

図６５のオブジェクトオーディオ再生処理は、図６４のステップＳ３６０の代わりに図６５のステップＳ３９０の処理が行われる点を除いて、図６４のオブジェクトオーディオ再生処理と同様である。即ち、図６５のステップＳ３８１乃至Ｓ３８９およびＳ３９１乃至Ｓ３９９の処理は、図６４のステップＳ３５１乃至Ｓ３５９およびＳ３６１乃至Ｓ３６９の処理と同様である。従って、以下では、ステップＳ３９０の処理についてのみ説明する。

図６５のステップＳ３９０において、音声ファイル取得部２６４は、画枠サイズ情報、オブジェクト位置情報、表示領域、および、各オブジェクトのpriorityに基づいて、表示領域内の処理優先度が高いオブジェクトを選択する。具体的には、音声ファイル取得部２６４は、画枠サイズ情報、オブジェクト位置情報、および表示領域に基づいて、表示領域内のオブジェクトを特定する。そして、音声ファイル取得部２６４は、特性されたオブジェクトのうちの、priorityが所定値以上であるオブジェクトを選択する。なお、priorityは、例えば、MPD処理部２６１がMPDファイルを解析することにより、特定されたオブジェクトのobject audioの「Representation」から取得される。音声選択部２６３は、選択されたオブジェクトのobject audio trackの音声ファイルのURL等の情報をMPD処理部２６１に要求する。

図６６は、音声選択部２６３が表示領域内のオブジェクトのうちの、処理優先度が高い所定の内容の音声のオブジェクトのみを選択する場合のオブジェクトオーディオ再生処理を説明するフローチャートである。

図６６のオブジェクトオーディオ再生処理は、図６４のステップＳ３６０の代わりに図６６のステップＳ４２０の処理が行われる点を除いて、図６４のオブジェクトオーディオ再生処理と同様である。即ち、図６６のステップＳ３８１乃至Ｓ３８９およびＳ３９１乃至Ｓ３９９の処理は、図６４のステップＳ４１１乃至Ｓ４１９およびＳ４２１乃至Ｓ４２９の処理と同様である。従って、以下では、ステップＳ４２０の処理についてのみ説明する。

図６６のステップＳ４２０において、音声ファイル取得部２６４は、画枠サイズ情報、オブジェクト位置情報、表示領域、並びに、各オブジェクトのpriorityおよびcontentkindに基づいて、表示領域内の処理優先度が高い所定の内容の音声のオブジェクトを選択する。具体的には、音声ファイル取得部２６４は、画枠サイズ情報、オブジェクト位置情報、および表示領域に基づいて、表示領域内のオブジェクトを特定する。そして、音声ファイル取得部２６４は、特性されたオブジェクトのうちの、priorityが所定値以上であり、かつ、contentkindが所定値であるオブジェクトを選択する。

なお、priorityおよびcontentkindは、例えば、MPD処理部２６１がMPDファイルを解析することにより、特定されたオブジェクトのobject audioの「Representation」から取得される。音声選択部２６３は、選択されたオブジェクトのobject audio trackの音声ファイルのURL等の情報をMPD処理部２６１に要求する。

図６７は、priority（プライオリティ）に基づいて選択されたオブジェクトの例を示す図である。

図６７の例では、オブジェクト＃１(object1)乃至オブジェクト＃４(object4)が、表示領域内のオブジェクトであり、表示領域内のオブジェクトのうちのpriorityが２以下であるオブジェクトが選択される。なお、priorityは、数字が小さいほど、処理優先度が高いものとする。また、図６７において、丸付き数字は、対応するオブジェクトのpriorityの値を表している。

図６７の例では、オブジェクト＃１乃至オブジェクト＃４のpriorityが、それぞれ、1,2,3,4である場合、オブジェクト＃１とオブジェクト＃２が選択される。また、オブジェクト＃１乃至オブジェクト＃４のpriorityが、それぞれ、3,2,1,4に変更されると、オブジェクト＃２とオブジェクト＃３が選択される。さらに、オブジェクト＃１乃至オブジェクト＃４のpriorityが、それぞれ、3,4,1,2に変更されると、オブジェクト＃３とオブジェクト＃４が選択される。

以上のように、表示領域内のオブジェクトのうちの、処理優先度の高いオブジェクトのobject audioのオーディオストリームのみを選択的に取得することで、Webサーバ１４２（２１２）と動画再生端末１４４（２１４）間の帯域を効率的に利用できる。contentkindに基づいてオブジェクトを選択する場合も同様である。

＜第５実施の形態＞
（トラックの概要）
図６８は、本開示を適用した第５実施の形態におけるトラックの概要を説明する図である。

図６８に示すように、第５実施の形態では、各トラックが異なるファイル（3da_base.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4/3da_meta.mp4）として記録される点が、第２実施の形態と異なっている。

第５実施の形態における情報処理システムおよび情報処理システムによる処理は、第４実施の形態と同様であるので、説明は省略する。

＜第６実施の形態＞
（トラックの概要）
図６９は、本開示を適用した第６実施の形態におけるトラックの概要を説明する図である。

図６９に示すように、第６実施の形態では、各トラックが異なるファイル（3da_basemeta.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4）として記録される点が、第３実施の形態と異なっている。

第６実施の形態における情報処理システムおよび情報処理システムによる処理は、オブジェクト位置情報を取得するために、Object metadata trackの代わりにBase trackのオーディオストリームが取得される点を除いて、第４実施の形態と同様であるので、説明は省略する。

なお、第１乃至第３実施の形態、第５実施の形態、および第６実施の形態においても、priorityやcontentkindに基づいて表示領域内のオブジェクトを選択することは可能である。

また、第１乃至第６実施の形態において、ストリーミング再生部は、図２３のストリーミング再生部１２０のように、表示領域外のオブジェクトのオーディオストリームも取得し、そのオブジェクトのobject audioも合成して出力するようにしてもよい。

さらに、第１乃至第６実施の形態では、metadataからオブジェクト位置情報を取得したが、MPDファイルからオブジェクト位置情報を取得するようにしてもよい。

＜３Ｄオーディオの階層構造の説明＞
図７０は、３Ｄオーディオの階層構造を示す図である。

図７０に示すように、３Ｄオーディオの音声データは、音声データごとに異なるオーディオエレメント（Element）とされる。オーディオエレメントのタイプとしては、SCE(Single Channel Element)とCPE(Channel Pair Element)がある。１チャンネル分の音声データのオーディオエレメントのタイプはSCEであり、２チャンネル分の音声データに対応するオーディオエレメントのタイプはCPEである。

オーディオエレメントは、同一の音声の種類（Channel/Object/SAOC Objects/HOA）どうしでグループを形成する。グループタイプ（GroupType）としては、Channels,Objects,SAOC Objects,HOAなどがある。２以上のグループは、必要に応じて、switch Groupやgroup Presetを形成することができる。

switch Groupは、排他的に再生されるグループを定義するものである。即ち、図７０に示すように、英語（ＥＮ）用のObject audioのグループと、フランス語（ＦＲ）用のObject audioのグループが存在する場合、いずれか一方のグループのみが再生されるべきである。従って、グループＩＤが２である英語用のObject audioのグループと、グループＩＤが３であるフランス語用のObject audioのグループとから、switch Groupが形成される。これにより、英語用のObject audioとフランス語用のObject audioが排他的に再生される。

一方、group Presetは、コンテンツ製作者が意図するグループの組み合わせを定義するものである。

また、３Ｄオーディオのメタデータは、メタデータごとに異なるExtエレメント（Ext Element）とされる。Extエレメントのタイプとしては、Object Metadata,SAOC 3D Metadata,HOA Metadata,DRC Metadata,SpatialFrame,SaocFrameなどがある。Object MetadataのExtエレメントは、全てのObject audioのメタデータであり、SAOC 3D MetadaのExtエレメントは、全てのSAOC audioのメタデータである。また、HOA MetadataのExtエレメントは、全てのHOA audioのメタデータであり、DRC(Dinamic Range Control) MetadataのExtエレメントは、Object audio, SAOC audio、およびHOA audioの全てのメタデータである。

以上のように、３Ｄオーディオのうちの音声データの分割単位としては、オーディオエレメント、グループタイプ、グループ、switch Group、およびgroup Presetがある。従って、音声データは、第１乃至第６実施の形態のようにグループタイプ（但し、object audioについてはオブジェクトごと）ごとにトラックに分割されるのではなく、オーディオエレメント、グループ、switch Group、またはgroup Presetごとに分割されるようにしてもよい。

また、３Ｄオーディオのうちのメタデータの分割単位としては、Extエレメントのタイプ（ExtElementType）、または、そのメタデータに対応するオーディオエレメントがある。従って、メタデータは、第１乃至第６実施の形態のようにExtエレメントのタイプごとに分割されるのではなく、そのメタデータに対応するオーディオエレメントごとに分割されるようにしてもよい。

なお、以下の説明では、音声データがオーディオエレメントごとに分割されるとともに、メタデータがExtエレメントのタイプごとに分割され、それぞれが異なるトラックのデータとして配置されるものとするが、他の単位で分割される場合も同様である。

＜Webサーバの処理の第１の例の説明＞
図７１は、Webサーバ１４２（２１２）の処理の第１の例を説明する図である。

図７１の例では、ファイル生成装置１４１（２１１）からアップロードされる音声ファイルに対応する３Ｄオーディオが、５つのチャンネルのchannel audio、３つのオブジェクトのobject audio、および、そのobject audioのメタデータ（Object Metadata）からなる。

そして、５つのチャンネルのchannel audioが、前方中央（FC）のチャンネルのchannel audio、前方左右（FL,FR）のチャンネルのchannel audio、および後方左右（RL,RR）のチャンネルのchannel audioに分割され、それぞれ異なるトラックのデータとして配置されている。また、各オブジェクトのobject audioが、それぞれ異なるトラックのデータとして配置されている。さらに、Object Metadataが、１つのトラックのデータとして配置されている。

また、図７１に示すように、３Ｄオーディオの各オーディオストリームは、config情報とフレーム（サンプル）単位のデータからなる。そして、図７１の例では、音声ファイルのオーディオストリームは、５つのチャンネルのchannel audio、３つのオブジェクトのobject audio、およびObject Metadataのconfig情報がまとめて配置されるとともに、各フレームのデータがまとめて配置される。

この場合、図７１に示すように、Webサーバ１４２（２１２）は、ファイル生成装置１４１（２１１）からアップロードされた音声ファイルのオーディオストリームを、トラックごとに分割し、７つのトラックのオーディオストリームを生成する。具体的には、Webサーバ１４２（２１２）は、ssix boxなどの情報にしたがって、音声ファイルのオーディオストリームから、各トラックのconfig情報と音声データを抽出し、各トラックのオーディオストリームを生成する。各トラックのオーディオストリームは、そのトラックのconfig情報と各フレームの音声データからなる。

図７２は、Webサーバ１４２（２１２）のトラック分割処理を説明するフローチャートである。このトラック分割処理は、例えば、ファイル生成装置１４１（２１１）から音声ファイルがアップロードされたとき、開始される。

図７２のステップＳ４４１において、Webサーバ１４２（２１２）は、ファイル生成装置１４１からアップロードされた音声ファイルを格納する。

ステップＳ４４２において、Webサーバ１４２（２１２）は、音声ファイルのssix boxなどの情報にしたがって、音声ファイルを構成するオーディオストリームをトラックごとに分割する。

ステップＳ４４３において、Webサーバ１４２（２１２）は、各トラックのオーディオストリームを保持し、処理を終了する。このオーディオストリームは、動画再生端末１４４（２１４）の音声ファイル取得部１９２（２６４）から要求されたとき、Webサーバ１４２（２１２）から動画再生端末１４４（２１４）に送信される。

＜音声復号処理部の処理の第１の例の説明＞
図７３は、Webサーバ１４２（２１２）の処理が図７１および図７２で説明した処理である場合の音声復号処理部１９４の処理の第１の例を説明する図である。

図７３の例では、Webサーバ１４２（２１２）は、図７１に示した各トラックのオーディオストリームを保持している。また、再生対象のトラックが、前方左右のチャンネルのchannel audio、後方左右のチャンネルのchannel audio、１つ目のオブジェクトのobject audio、およびObject Metadataのトラックである。これらのことは、後述する図７５においても同様である。

この場合、音声ファイル取得部１９２（２６４）は、前方左右のチャンネルのchannel audio、後方左右のチャンネルのchannel audio、１つ目のオブジェクトのobject audio、およびObject Metadataのトラックのオーディオストリームを取得する。

音声復号処理部１９４は、まず、音声ファイル取得部１９２（２６４）により取得されたObject Metadataのトラックのオーディオストリームから、１つ目のオブジェクトのobject audioのメタデータのオーディオストリームを抽出する。

次に、図７３に示すように、音声復号処理部１９４は、再生対象の音声のトラックのオーディオストリームと抽出されたメタデータのオーディオストリームとを合成する。具体的には、音声復号処理部１９４は、全てのオーディオストリームに含まれているConfig情報がまとめて配置されるとともに、各フレームのデータがまとめて配置されたオーディオストリームを生成する。そして、音声復号処理部１９４は、生成されたオーディオストリームを復号する。

以上のように、再生対象のオーディオストリームが、１つのchannel audioのトラックのオーディオストリームのみではない場合、２以上のトラックのオーディオストリームが再生対象となるため、復号前にオーディオストリームが合成される。

一方、再生対象のオーディオストリームが、１つのchannel audioのトラックのオーディオストリームのみである場合、オーディオストリームを合成する必要はない。従って、音声復号処理部１９４は、音声ファイル取得部１９２（２６４）により取得されたオーディオストリームをそのまま復号する。

図７４は、Webサーバ１４２（２１２）の処理が図７１および図７２で説明した処理である場合の音声復号処理部１９４の復号処理の第１の例の詳細を説明するフローチャートである。この復号処理は、再生対象のトラックが１つのchannel audioのトラックのみではない場合に行われる図４８のステップＳ２２９および図５０のＳ２８７の処理の少なくとも一方の処理である。

図７４のステップＳ４６１において、音声復号処理部１９４は、生成するオーディオストリームに含まれるエレメントの数を表す全エレメント数に０を設定する。ステップＳ４６２において、音声復号処理部１９４は、生成するオーディオストリームに含まれるエレメントのタイプを表す全エレメント種別情報を初期化(クリア)する。

ステップＳ４６３において、音声復号処理部１９４は、再生対象のトラックのうちのまだ処理対象のトラックとされていないトラックを、処理対象のトラックとする。ステップＳ４６４において、音声復号処理部１９４は、処理対象のトラックのオーディオストリーム等から、処理対象のトラックに含まれるエレメントの数とタイプを取得する。

ステップＳ４６５において、音声復号処理部１９４は、取得されたエレメントの数を全エレメント数に加算する。ステップＳ４６６において、音声復号処理部１９４は、取得されたエレメントのタイプを、全エレメント種別情報に追加する。

ステップＳ４６７において、音声復号処理部１９４は、再生対象の全てのトラックを処理対象のトラックとしたかどうかを判定する。ステップＳ４６７でまだ再生対象の全てのトラックを処理対象のトラックとしていないと判定された場合、処理はステップＳ４６３に戻り、再生対象の全てのトラックを処理対象のトラックとするまで、ステップＳ４６３乃至Ｓ４６７の処理が繰り返される。

一方、ステップＳ４６７で再生対象の全てのトラックを処理対象のトラックとしたと判定された場合、処理はステップＳ４６８に進む。ステップＳ４６８において、音声復号処理部１９４は、全エレメント数と全エレメント種別情報を、生成するオーディオストリーム上の所定の位置に配置する。

ステップＳ４６９において、音声復号処理部１９４は、再生対象のトラックのうちのまだ処理対象のトラックとされていないトラックを、処理対象のトラックとする。ステップＳ４７０において、音声復号処理部１９４は、処理対象のトラックに含まれるエレメントのうちのまだ処理対象のエレメントとされていないエレメントを、処理対象のエレメントとする。

ステップＳ４７１において、音声復号処理部１９４は、処理対象のトラックのオーディオストリームから処理対象のエレメントのConfig情報を取得し、生成するオーディオストリーム上に配置する。このとき、再生対象の全てのトラックの全てのエレメントのConfig情報は連続するように配置される。

ステップＳ４７２において、音声復号処理部１９４は、処理対象のトラックに含まれる全てのエレメントを処理対象のエレメントとしたかどうかを判定する。ステップＳ４７２でまだ全てのエレメントを処理対象のエレメントとしていないと判定された場合、処理はステップＳ４７０に戻り、全てのエレメントを処理対象のエレメントとするまで、ステップＳ４７０乃至Ｓ４７２の処理が繰り返される。

一方、ステップＳ４７２で全てのエレメントを処理対象のエレメントとしたと判定された場合、処理はステップＳ４７３に進む。ステップＳ４７３において、音声復号処理部１９４は、再生対象の全てのトラックを処理対象のトラックとしたかどうかを判定する。ステップＳ４７３でまだ再生対象の全てのトラックを処理対象のトラックとしていないと判定された場合、処理はステップＳ４６９に戻り、再生対象の全てのトラックを処理対象のトラックとするまで、ステップＳ４６９乃至Ｓ４７３の処理が繰り返される。

一方、ステップＳ４７３で再生対象の全てのトラックを処理対象のトラックとしたと判定された場合、処理はステップＳ４７４に進む。ステップＳ４７４において、音声復号処理部１９４は、処理対象のフレームを決定する。最初のステップＳ４７４の処理では、先頭のフレームが処理対象のフレームに決定され、２回目以降のステップＳ４７４の処理では、現在の処理対象のフレームの次のフレームが、新たな処理対象のフレームに決定される。

ステップＳ４７５において、音声復号処理部１９４は、再生対象のトラックのうちのまだ処理対象のトラックとされていないトラックを、処理対象のトラックとする。ステップＳ４７６において、音声復号処理部１９４は、処理対象のトラックに含まれるエレメントのうちのまだ処理対象のエレメントとされていないエレメントを、処理対象のエレメントとする。

ステップＳ４７７において、音声復号処理部１９４は、処理対象のエレメントがEXTエレメントであるかどうかを判定する。ステップＳ４７７で処理対象のエレメントがEXTエレメントではないと判定された場合、処理はステップＳ４７８に進む。

ステップＳ４７８において、音声復号処理部１９４は、処理対象のトラックのオーディオストリームから、処理対象のエレメントの処理対象のフレームの音声データを取得し、生成するオーディオストリーム上に配置する。このとき、再生対象の全てのトラックの全てのエレメントの同一のフレームのデータは連続するように配置される。ステップＳ４７８の処理後、処理はステップＳ４８１に進む。

一方、ステップＳ４７７で処理対象のエレメントがEXTエレメントであると判定された場合、処理はステップＳ４７９に進む。ステップＳ４７９において、音声復号処理部１９４は、処理対象のトラックのオーディオストリームから、処理対象のエレメントの処理対象のフレームの全てのオブジェクトのメタデータを取得する。

ステップＳ４８０において、音声復号処理部１９４は、取得された全てのオブジェクトのメタデータのうちの再生対象のオブジェクトのメタデータを、生成するオーディオストリーム上に配置する。このとき、再生対象の全てのトラックの全てのエレメントの同一のフレームのデータは連続するように配置される。ステップＳ４８０の処理後、処理はステップＳ４８１に進む。

ステップＳ４８１において、音声復号処理部１９４は、処理対象のトラックに含まれる全てのエレメントを処理対象のエレメントとしたかどうかを判定する。ステップＳ４８１でまだ全てのエレメントを処理対象のエレメントとしていないと判定された場合、処理はステップＳ４７６に戻り、全てのエレメントを処理対象のエレメントとするまで、ステップＳ４７６乃至Ｓ４８１の処理が繰り返される。

一方、ステップＳ４８１で全てのエレメントを処理対象のエレメントとしたと判定された場合、処理はステップＳ４８２に進む。ステップＳ４８２において、音声復号処理部１９４は、再生対象の全てのトラックを処理対象のトラックとしたかどうかを判定する。ステップＳ４８２でまだ再生対象の全てのトラックを処理対象のトラックとしていないと判定された場合、処理はステップＳ４７５に戻り、再生対象の全てのトラックを処理対象のトラックとするまで、ステップＳ４７５乃至Ｓ４８２の処理が繰り返される。

一方、ステップＳ４８２で再生対象の全てのトラックを処理対象のトラックとしたと判定された場合、処理はステップＳ４８３に進む。

ステップＳ４８３において、音声復号処理部１９４は、全てのフレームを処理対象のフレームとしたかどうかを判定する。ステップＳ４８３でまだ全てのフレームを処理対象のフレームとしていないと判定された場合、処理はステップＳ４７４に戻り、全てのフレームを処理対象のフレームとするまで、ステップＳ４７４乃至Ｓ４８３の処理が繰り返される。

一方、ステップＳ４８３で全てのフレームを処理対象のフレームとしたと判定された場合、処理はステップＳ４８４に進む。ステップＳ４８４において、音声復号処理部１９４は、生成されたオーディオストリームを復号する。即ち、音声復号処理部１９４は、全エレメント数、全エレメント種別情報、Config情報、および、音声データや再生対象のオブジェクトのメタデータが配置されたオーディオストリームを復号する。音声復号処理部１９４は、復号の結果得られる音声データ（Object audio,Channel audio,HOA audio）を音声合成処理部１９５に供給し、処理を終了する。

＜音声復号処理部の処理の第２の例の説明＞
図７５は、Webサーバ１４２（２１２）の処理が図７１および図７２で説明した処理である場合の音声復号処理部１９４の処理の第２の例を説明する図である。

図７５に示すように、音声復号処理部１９４の処理の第２の例は、生成するオーディオストリーム上に、全てのトラックのオーディオストリームを配置し、再生対象ではないトラックのオーディオストリームとしては復号結果がゼロになるストリームまたはフラグ（以下、ゼロストリームという）を配置する点が、第１の例と異なる。

具体的には、音声ファイル取得部１９２（２６４）は、Webサーバ１４２（２１２）に保持されている全てのトラックのオーディオストリームに含まれるConfig情報と、再生対象のトラックのオーディオストリームに含まれる各フレームのデータを取得する。

音声復号処理部１９４は、図７５に示すように、全てのトラックのConfig情報を、生成するオーディオストリーム上にまとめて配置する。また、音声復号処理部１９４は、再生対象のトラックの各フレームのデータと、再生対象ではないトラックの各フレームのデータとしてのゼロストリームとを、生成するオーディオストリーム上にまとめて配置する。

以上のように、音声復号処理部１９４は、生成するオーディオストリームに、再生対象ではないトラックのオーディオストリームとしてゼロストリームを配置するので、再生対象ではないオブジェクトのオーディオストリームも存在する。従って、生成するオーディオストリーム内に再生対象ではないオブジェクトのメタデータを含ませることが可能になる。よって、音声復号処理部１９４は、Object Metadataのトラックのオーディオストリームから、再生対象のオブジェクトのメタデータのオーディオストリームを抽出する必要がなくなる。

なお、再生対象ではないトラックのConfig情報としては、ゼロストリームが配置されるようにしてもよい。

図７６は、Webサーバ１４２（２１２）の処理が図７１および図７２で説明した処理である場合の音声復号処理部１９４の復号処理の第２の例の詳細を説明するフローチャートである。この復号処理は、再生対象のトラックが１つのchannel audioのトラックのみではない場合に行われる図４８のステップＳ２２９および図５０のＳ２８７の処理の少なくとも一方の処理である。

図７６のステップＳ５０１およびＳ５０２の処理は、図７４のステップＳ４６１およびＳ４６２の処理と同様であるので、説明は省略する。

ステップＳ５０３において、音声復号処理部１９４は、Webサーバ１４２（２１２）に保持されているオーディオストリームに対応するトラックのうちの、まだ処理対象のトラックとされていないトラックを、処理対象のトラックとする。

ステップＳ５０４乃至ステップＳ５０６の処理は、ステップＳ４６４乃至Ｓ４６６の処理と同様であるので、説明は省略する。

ステップＳ５０７において、音声復号処理部１９４は、Webサーバ１４２（２１２）に保持されているオーディオストリームに対応する全てのトラックを、処理対象のトラックとしたかどうかを判定する。ステップＳ５０７でまだ全てのトラックを処理対象のトラックとしていないと判定された場合、処理はステップＳ５０３に戻り、全てのトラックを処理対象のトラックとするまで、ステップＳ５０３乃至Ｓ５０７の処理が繰り返される。

一方、ステップＳ５０７で全てのトラックを処理対象のトラックとしたと判定された場合、処理はステップＳ５０８に進む。ステップＳ５０８において、音声復号処理部１９４は、全エレメント数と全エレメント種別情報を、生成するオーディオストリーム上の所定の位置に配置する。

ステップＳ５０９において、音声復号処理部１９４は、Webサーバ１４２（２１２）に保持されているオーディオストリームに対応するトラックのうちの、まだ処理対象のトラックとされていないトラックを、処理対象のトラックとする。ステップＳ５１０において、音声復号処理部１９４は、処理対象のトラックに含まれるエレメントのうちのまだ処理対象のエレメントとされていないエレメントを、処理対象のエレメントとする。

ステップＳ５１１において、音声復号処理部１９４は、処理対象のトラックのオーディオストリームから処理対象のエレメントのConfig情報を取得し、生成するオーディオストリーム上に配置する。このとき、Webサーバ１４２（２１２）に保持されているオーディオストリームに対応する全てのトラックの全てのエレメントのConfig情報は連続するように配置される。

ステップＳ５１２において、音声復号処理部１９４は、処理対象のトラックに含まれる全てのエレメントを処理対象のエレメントとしたかどうかを判定する。ステップＳ５１２でまだ全てのエレメントを処理対象のエレメントとしていないと判定された場合、処理はステップＳ５１０に戻り、全てのエレメントを処理対象のエレメントとするまで、ステップＳ５１０乃至Ｓ５１２の処理が繰り返される。

一方、ステップＳ５１２で全てのエレメントを処理対象のエレメントとしたと判定された場合、処理はステップＳ５１３に進む。ステップＳ５１３において、音声復号処理部１９４は、Webサーバ１４２（２１２）に保持されているオーディオストリームに対応する全てのトラックを処理対象のトラックとしたかどうかを判定する。ステップＳ５１３でまだ全てのトラックを処理対象のトラックとしていないと判定された場合、処理はステップＳ５０９に戻り、全てのトラックを処理対象のトラックとするまで、ステップＳ５０９乃至Ｓ５１３の処理が繰り返される。

一方、ステップＳ５１３で全てのトラックを処理対象のトラックとしたと判定された場合、処理はステップＳ５１４に進む。ステップＳ５１４において、音声復号処理部１９４は、処理対象のフレームを決定する。最初のステップＳ５１４の処理では、先頭のフレームが処理対象のフレームに決定され、２回目以降のステップＳ５１４の処理では、現在の処理対象のフレームの次のフレームが、新たな処理対象のフレームに決定される。

ステップＳ５１５において、音声復号処理部１９４は、Webサーバ１４２（２１２）に保持されているオーディオストリームに対応するトラックのうちの、まだ処理対象のトラックとされていないトラックを、処理対象のトラックとする。

ステップＳ５１６において、音声復号処理部１９４は、処理対象のトラックが再生対象のトラックであるかどうかを判定する。ステップＳ５１６で処理対象のトラックが再生対象のトラックであると判定された場合、ステップＳ５１７に進む。

ステップＳ５１７において、音声復号処理部１９４は、処理対象のトラックに含まれるエレメントのうちのまだ処理対象のエレメントとされていないエレメントを、処理対象のエレメントとする。

ステップＳ５１８において、音声復号処理部１９４は、処理対象のトラックのオーディオストリームから、処理対象のエレメントの処理対象のフレームの音声データを取得し、生成するオーディオストリーム上に配置する。このとき、Webサーバ１４２（２１２）に保持されているオーディオストリームに対応する全てのトラックの全てのエレメントの同一のフレームのデータは連続するように配置される。

ステップＳ５１９において、音声復号処理部１９４は、処理対象のトラックに含まれる全てのエレメントを処理対象のエレメントとしたかどうかを判定する。ステップＳ５１９でまだ全てのエレメントを処理対象のエレメントとしていないと判定された場合、処理はステップＳ５１７に戻り、全てのエレメントを処理対象のエレメントとするまで、ステップＳ５１７乃至Ｓ５１９の処理が繰り返される。

一方、ステップＳ５１９で全てのエレメントを処理対象のエレメントとしたと判定された場合、処理はステップＳ５２３に進む。

また、ステップＳ５１６で処理対象のトラックが再生対象のトラックではないと判定された場合、処理はステップＳ５２０に進む。ステップＳ５２０において、音声復号処理部１９４は、処理対象のトラックに含まれるエレメントのうちのまだ処理対象のエレメントとされていないエレメントを、処理対象のエレメントとする。

ステップＳ５２１において、音声復号処理部１９４は、生成するオーディオストリーム上に、処理対象のエレメントの処理対象のフレームのデータとしてゼロストリームを、配置する。このとき、Webサーバ１４２（２１２）に保持されているオーディオストリームに対応する全てのトラックの全てのエレメントの同一のフレームのデータは連続するように配置される。

ステップＳ５２２において、音声復号処理部１９４は、処理対象のトラックに含まれる全てのエレメントを処理対象のエレメントとしたかどうかを判定する。ステップＳ５２２でまだ全てのエレメントを処理対象のエレメントとしていないと判定された場合、処理はステップＳ５２０に戻り、全てのエレメントを処理対象のエレメントとするまで、ステップＳ５２０乃至Ｓ５２２の処理が繰り返される。

一方、ステップＳ５２２で全てのエレメントを処理対象のエレメントとしたと判定された場合、処理はステップＳ５２３に進む。

ステップＳ５２３において、音声復号処理部１９４は、Webサーバ１４２（２１２）に保持されているオーディオストリームに対応する全てのトラックを処理対象のトラックとしたかどうかを判定する。ステップＳ５２２でまだ全てのトラックを処理対象のトラックとしていないと判定された場合、処理はステップＳ５１５に戻り、再生対象の全てのトラックを処理対象のトラックとするまで、ステップＳ５１５乃至Ｓ５２３の処理が繰り返される。

一方、ステップＳ５２３で全てのトラックを処理対象のトラックとしたと判定された場合、処理はステップＳ５２４に進む。

ステップＳ５２４において、音声復号処理部１９４は、全てのフレームを処理対象のフレームとしたかどうかを判定する。ステップＳ５２４でまだ全てのフレームを処理対象のフレームとしていないと判定された場合、処理はステップＳ５１４に戻り、全てのフレームを処理対象のフレームとするまで、ステップＳ５１４乃至Ｓ５２４の処理が繰り返される。

一方、ステップＳ５２４で全てのフレームを処理対象のフレームとしたと判定された場合、処理はステップＳ５２５に進む。ステップＳ５２５において、音声復号処理部１９４は、生成されたオーディオストリームを復号する。即ち、音声復号処理部１９４は、全エレメント数、全エレメント種別情報、並びにWebサーバ１４２（２１２）に保持されているオーディオストリームに対応する全てのトラックのConfig情報およびデータが配置されたオーディオストリームを復号する。音声復号処理部１９４は、復号の結果得られる音声データ（Object audio,Channel audio,HOA audio）を音声合成処理部１９５に供給し、処理を終了する。

＜Webサーバの処理の第２の例の説明＞
図７７は、Webサーバ１４２（２１２）の処理の第２の例を説明する図である。

図７７のWebサーバ１４２（２１２）の処理の第２の例は、各オブジェクトのObject Metadataが、それぞれ異なるトラックのデータとして音声ファイルに配置される点を除いて、図７１の第１の例と同一である。

従って、図７７に示すように、Webサーバ１４２（２１２）は、ファイル生成装置１４１（２１１）からアップロードされた音声ファイルのオーディオストリームを、トラックごとに分割し、９つのトラックのオーディオストリームを生成する。

この場合のWebサーバ１４２（２１２）のトラック分割処理は、図７２のトラック分割処理と同様であるので、説明は省略する。

＜音声復号処理部の処理の第３の例の説明＞
図７８は、Webサーバ１４２（２１２）の処理が図７７で説明した処理である場合の音声復号処理部１９４の処理を説明する図である。

図７８の例では、Webサーバ１４２（２１２）は、図７７に示した各トラックのオーディオストリームを保持している。また、再生対象のトラックが、前方左右のチャンネルのchannel audio、後方左右のチャンネルのchannel audio、１つ目のオブジェクトのobject audio、および１つ目のオブジェクトのObject Metadataのトラックである。

この場合、音声ファイル取得部１９２（２６４）は、前方左右のチャンネルのchannel audio、後方左右のチャンネルのchannel audio、１つ目のオブジェクトのobject audio、および１つ目のオブジェクトのObject Metadataのトラックのオーディオストリームを取得する。音声復号処理部１９４は、取得された再生対象のトラックのオーディオストリームを合成し、生成されたオーディオストリームを復号する。

以上のように、Object Metadataが、オブジェクトごとに異なるトラックのデータとして配置される場合、音声復号処理部１９４は、再生対象のオブジェクトのObject Metadataのオーディオストリームを抽出する必要がない。従って、音声復号処理部１９４は、復号するオーディオストリームを容易に生成することができる。

図７９は、Webサーバ１４２（２１２）の処理が図７７で説明した処理である場合の音声復号処理部１９４の復号処理の詳細を説明するフローチャートである。この復号処理は、再生対象のトラックが１つのchannel audioのトラックのみではない場合に行われる図４８のステップＳ２２９および図５０のＳ２８７の処理の少なくとも一方の処理である。

図７９の復号処理は、ステップＳ４７７，Ｓ４７９およびＳ４８０の処理が行われない点、および、ステップＳ４７８の処理で音声データだけでなくメタデータも配置される点を除いて、図７４の復号処理と同様である。即ち、図７９のステップＳ５４１乃至Ｓ５５６の処理は、図７４のステップＳ４６１乃至Ｓ４７６と同様であり、図７９のステップＳ５５７の処理では、ステップＳ４７８の処理と同様に、処理対象のエレメントの処理対象のフレームのデータが配置される。また、ステップＳ５５８乃至Ｓ５６１の処理は、図７４のステップＳ４８１乃至Ｓ４８４の処理と同様である。

なお、上述した説明では、動画再生端末１４４（２１４）が復号するオーディオストリームを生成したが、Webサーバ１４２（２１２）が、再生対象のトラックの組み合わせとして想定される組み合わせのオーディオストリームを生成するようにしてもよい。この場合、動画再生端末１４４（２１４）は、再生対象のトラックの組み合わせのオーディオストリームをWebサーバ１４２（２１２）から取得し、復号するだけで、再生対象のトラックの音声を再生することができる。

また、音声復号処理部１９４は、Webサーバ１４２（２１２）から取得された再生対象のトラックのオーディオストリームを、トラックごとに復号するようにしてもよい。この場合、音声復号処理部１９４は、復号の結果得られる音声データとメタデータを合成する必要がある。

＜ベースサンプルのシンタクスの第２の例＞
（ベースサンプルに配置されるConfig情報のシンタクスの第２の例）
図８０は、ベースサンプルに配置されるConfig情報のシンタクスの第２の例を示す図である。

図８０の例では、Config情報として、ベースサンプルに配置されるエレメントの数（numElements）が記述される。また、ベースサンプルに配置される各エレメントのタイプ(usacElementType)として、Extエレメントを表す「ID_USAC_EXT」が記述されるとともに、各エレメントのExtエレメント用のConfig情報（mpegh3daExtElementCongfig）が記述される。

図８１は、図８０のExtエレメント用のConfig情報（mpegh3daExtElementCongfig）のシンタクスの例を示す図である。

図８１に示すように、図８０のExtエレメント用のConfig情報（mpegh3daExtElementCongfig）としては、ExtエレメントのタイプとしてExtractorを表す「ID_EXT_ELE_EXTRACTOR」が記述される。また、Extractor用のConfig情報（ExtractorConfig）が記述される。

図８２は、図８１のExtractor用のConfig情報（ExtractorConfig）のシンタクスの例を示す図である。

図８２に示すように、図８１のExtractor用のConfig情報（ExtractorConfig）としては、そのExtractorが参照するエレメントのタイプ（種別）（usac Element Type Extractor）が記述される。また、エレメントのタイプ（usac Element Type Extractor）がExtエレメントを表す「ID_USAC_EXT」である場合、そのExtエレメントのタイプ(usacExtElementTypeExtractor)が記述される。さらに、参照するエレメント（サブサンプル）のConfig情報のサイズ（size）（configLength）と位置（configOffset）が記述される。

（ベースサンプルに配置されるフレーム単位のデータのシンタクスの第２の例）
図８３は、ベースサンプルに配置されるフレーム単位のデータのシンタクスの第２の例を示す図である。

図８３に示すように、ベースサンプルに配置されるフレーム単位のデータとしては、そのデータのエレメントであるExtエレメントのタイプとしてExtractorを表す「ID_EXT_ELE_EXTRACTOR」が記述される。また、Extractorのデータ（Extractor Metadata）が記述される。

図８４は、図８３のExtractorのデータ（Extractor Metadata）のシンタクスの例を示す図である。

図８４に示すように、図８３のExtractorのデータ（Extractor Metadata）としては、そのExtractorが参照するエレメントのデータのサイズ（elementLength）と位置（elementOffset）が記述される。

＜ベースサンプルのシンタクスの第３の例＞
（ベースサンプルに配置されるConfig情報のシンタクスの第３の例）
図８５は、ベースサンプルに配置されるConfig情報のシンタクスの第３の例を示す図である。

図８５の例では、Config情報として、ベースサンプルに配置されるエレメントの数（numElements）が記述される。また、Config情報を配置するサンプルがExtractorであるかどうかを示すExtractorフラグ（flag Extractor）として、Extractorであることを示す１が記述される。また、elementLengthPresentとして１が記述される。

また、ベースサンプルに配置される各エレメントのタイプ(usacElementType)として、そのエレメントが参照するエレメントのタイプが記述される。エレメントのタイプ(usacElementType)がExtエレメントを表す「ID_USAC_EXT」である場合、Extエレメントのタイプ(usacExtElementType)が記述される。さらに、参照するエレメントのConfig情報のサイズ（size）（configLength）と位置（configOffset）が記述される。

（ベースサンプルに配置されるフレーム単位のデータのシンタクスの第３の例）
図８６は、ベースサンプルに配置されるフレーム単位のデータのシンタクスの第３の例を示す図である。

図８６に示すように、ベースサンプルに配置されるフレーム単位のデータとしては、そのデータが参照するエレメントのデータのサイズ（elementLength）と位置（elementOffset）が記述される。

＜第７実施の形態＞
（オーディオストリームの構成例）
図８７は、本開示を適用した情報処理システムの第７実施の形態において音声ファイルに格納されるオーディオストリームの構成例を示す図である。

図８７に示すように、第７実施の形態では、音声ファイルには、各グループタイプ（但し、object audioについてはオブジェクトごと）の３Ｄオーディオのサンプル単位の符号化データが、サブサンプルとして配置されるオーディオストリーム（3D audio stream）が格納される。

また、音声ファイルには、各グループタイプの３Ｄオーディオのサンプル単位の符号化データのサイズ、位置、およびグループタイプを含むextractorを、サブサンプルとするヒントストリーム(3D audio hint stream)が格納される。extractorの構成は、上述した構成と同様であり、グループタイプがextractorの種別として記述される。

（トラックの概要）
図８８は、第７実施の形態におけるトラックの概要を説明する図である。

図８８に示すように、第７実施の形態では、オーディオストリームとヒントストリームに異なるトラックが割り当てられる。オーディオストリームのトラックのTrack Referenceとしては、対応するヒントストリームのトラックのトラックＩＤ「２」が記述される。また、ヒントストリームのトラックのTrack Referenceとしては、対応するオーディオストリームのトラックのトラックＩＤ「１」が記述される。

オーディオストリームのトラックのサンプルエントリのシンタクスは、図３４に示したシンタクスであり、ヒントストリームのトラックのサンプルエントリのシンタクスは、図３５乃至図３８に示したシンタクスを含む。

（ファイル生成装置の処理の説明）
図８９は、第７実施の形態におけるファイル生成装置のファイル生成処理を説明するフローチャートである。

なお、第７実施の形態におけるファイル生成装置は、音声符号化処理部１７１と音声ファイル生成部１７２の処理が異なる点を除いて、図４５のファイル生成装置１４１と同一である。従って、以下では、第７実施の形態におけるファイル生成装置、音声符号化処理部、音声ファイル生成部を、ファイル生成装置３０１、音声符号化処理部３４１、音声ファイル生成部３４２という。

図８９のステップＳ６０１乃至Ｓ６０５の処理は、図４６のステップＳ１９１乃至Ｓ１９５の処理と同様であるので、説明は省略する。

ステップＳ６０６において、音声符号化処理部３４１は、外部から入力される動画コンテンツの３Ｄオーディオをグループタイプごとに符号化し、図８７のオーディオストリームを生成する。音声符号化処理部３４１は、生成されたオーディオストリームを音声ファイル生成部３４２に供給する。

ステップＳ６０７において、音声ファイル生成部３４２は、音声符号化処理部３４１から供給されるオーディオストリームから、サブサンプル情報を取得する。サブサンプル情報とは、各グループタイプの３Ｄオーディオのサンプル単位の符号化データのサイズ、位置、およびグループタイプである。

ステップＳ６０８において、音声ファイル生成部３４２は、サブサンプル情報に基づいて、図８７のヒントストリームを生成する。ステップＳ６０９において、音声ファイル生成部３４２は、オーディオストリームとヒントストリームを異なるトラックとして多重化し、音声ファイルを生成する。このとき、音声ファイル生成部３４２は、外部から入力される画枠サイズ情報をサンプルエントリに格納する。音声ファイル生成部３４２は、生成された音声ファイルをMPD生成部１７３に供給する。

ステップＳ６１０およびＳ６１１の処理は、図４６のステップＳ１９９およびＳ２００の処理と同様であるので、説明は省略する。

（動画再生端末の処理の説明）
図９０は、第７実施の形態における動画再生端末のストリーミング再生部のオーディオ再生処理を説明するフローチャートである。

なお、第７実施の形態におけるストリーミング再生部は、MPD処理部１９１、音声ファイル取得部１９２、および音声復号処理部１９４の処理が異なる点、並びに、音声選択部１９３が設けられない点を除いて、図４７のストリーミング再生部１９０と同一である。従って、以下では、第７実施の形態におけるストリーミング再生部、MPD処理部、音声ファイル取得部、および音声復号処理部を、ストリーミング再生部３６０、MPD処理部３８１、音声ファイル取得部３８２、および音声復号処理部３８３という。

図９０のステップＳ６２１において、ストリーミング再生部３６０のMPD処理部３８１は、MPD取得部９１から供給されるMPDファイルを解析し、再生対象のセグメントの音声ファイルのURL等の情報を取得して、音声ファイル取得部３８２に供給する。

ステップＳ６２２において、音声ファイル取得部３８２は、MPD処理部３８１から供給されるURL等の情報に基づいて、再生対象のセグメントのInitial SegmentをWebサーバに要求し、取得する。

ステップＳ６２３において、音声ファイル取得部３８２は、Initial Segment内のmoovボックスのヒントストリームのトラック（以下では、ヒントトラックという）のサンプルエントリから、参照トラックであるオーディオストリームのトラックのトラックＩＤを取得する。

ステップＳ６２４において、音声ファイル取得部３８２は、MPD処理部３８１から供給されるURL等の情報に基づいて、再生対象のセグメントのmedia segmentの先頭からsidxボックスとssixボックスをWebサーバに要求し、取得する。

ステップＳ６２５において、音声ファイル取得部３８２は、ステップＳ６２４で取得されたsidxボックスとssixボックスから、ヒントトラックの位置情報を取得する。

ステップＳ６２６において、音声ファイル取得部３８２は、ステップＳ６２５で取得されたヒントトラックの位置情報に基づいて、ヒントストリームをWebサーバに要求し、取得する。そして、音声ファイル取得部３８２は、ヒントストリームから、再生対象の３Ｄオーディオのグループタイプのextractorを取得する。なお、再生対象の３Ｄオーディオがobject audioである場合、再生対象とするオブジェクトは、画枠サイズ情報とオブジェクト位置情報とに基づいて選択される。

ステップＳ６２７において、音声ファイル取得部３８２は、ステップＳ６２４で取得されたsidxボックスとssixボックスから、参照トラックの位置情報を取得する。ステップＳ６２８において、音声ファイル取得部３８２は、ステップＳ６２７で取得された参照トラックの位置情報と、取得されたextractorに含まれるサブサンプル情報とに基づいて、再生対象の３Ｄオーディオのグループタイプのオーディオストリームの位置情報を決定する。

ステップＳ６２９において、音声ファイル取得部３８２は、ステップＳ６２７で決定された位置情報に基づいて、再生対象の３ＤオーディオのグループタイプのオーディオストリームをWebサーバに要求し、取得する。音声ファイル取得部３８２は、取得されたオーディオストリームを音声復号処理部３８３に供給する。

ステップＳ６３０において、音声復号処理部３８３は、音声ファイル取得部３８２から供給されるオーディオストリームを復号し、その結果得られる音声データを音声合成処理部１９５に供給する。

ステップＳ６３１において、音声合成処理部１９５は、音声データを出力し、処理を終了する。

なお、第７実施の形態では、オーディオストリームのトラックとヒントトラックが同一の音声ファイルに格納されるようにしたが、異なるファイルに格納されるようにしてもよい。

＜第８実施の形態＞
（トラックの概要）
図９１は、本開示を適用した情報処理システムの第８実施の形態におけるトラックの概要を説明する図である。

第８実施の形態の音声ファイルは、格納されるヒントストリームがグループタイプごとのストリームである点が、第７実施の形態の音声ファイルと異なる。即ち、第８実施の形態のヒントストリームは、グループタイプごとに生成され、各ヒントストリームには、各グループタイプの３Ｄオーディオのサンプル単位の符号化データのサイズ、位置、およびグループタイプを含むextractorが、サンプルとして配置される。なお、３Ｄオーディオに複数のオブジェクトのobject audioが含まれる場合、extractorは、オブジェクトごとにサブサンプルとして配置される。

また、図９１に示すように、第８実施の形態では、オーディオストリームと各ヒントストリームに異なるトラックが割り当てられる。オーディオストリームのトラックは、図８８のオーディオストリームのトラックと同一であるため、説明は省略する。

グループタイプ「Channels」、「Objects」、「HOA」、「metadata」のヒントトラックのTrack Referenceとしては、対応するオーディオストリームのトラックのトラックＩＤ「１」が記述される。

グループタイプ「Channels」、「Objects」、「HOA」、および「metadata」のヒントトラックのサンプルエントリのシンタクスは、それぞれ、サンプルエントリの種別を表す情報を除いて、図３５乃至図３８に示したシンタクスと同一である。グループタイプ「Channels」、「Objects」、「HOA」、および「metadata」のヒントトラックのサンプルエントリの種別を表す情報は、図３５乃至図３８の情報の数字の１が２に代わったものであり、この２は、ヒントトラックのサンプルエントリであることを表す。

（音声ファイルの構成例）
図９２は、音声ファイルの構成例を示す図である。

図９２に示すように、音声ファイルには、図９１に示した全てのトラックが格納される。即ち、音声ファイルには、オーディオストリームと各グループタイプのヒントストリームが格納される。

第８実施の形態におけるファイル生成装置のファイル生成処理は、図８７のヒントストリームの代わりに、グループタイプごとのヒントストリームが生成される点を除いて、図８９のファイル生成処理と同様である。

また、第８実施の形態における動画再生端末のストリーミング再生部のオーディオ再生処理は、ステップＳ６２３において、参照トラックのトラックＩＤだけでなく、再生対象のグループタイプのヒントトラックのトラックＩＤを取得する点、ステップＳ６２５において再生対象のグループタイプのヒントトラックの位置情報を取得する点、およびステップＳ６２６において再生対象のグループタイプのヒントストリームを取得する点を除いて、図９０のオーディオ再生処理と同様である。

なお、第８実施の形態では、オーディオストリームのトラックとヒントトラックが同一の音声ファイルに格納されるようにしたが、異なるファイルに格納されるようにしてもよい。

例えば、図９３に示すように、オーディオストリームのトラックが１つの音声ファイル（3D audio stream MP4 File）に格納され、ヒントトラックが１つの音声ファイル（3D audio hint stream MP4 File）に格納されるようにしてもよい。また、図９４に示すように、ヒントトラックは、複数の音声ファイルに分割して格納されるようにしてもよい。図９４の例では、各ヒントトラックが異なる音声ファイルに格納されている。

また、第８実施の形態では、グループタイプがobjectsである場合であってもグループタイプごとにヒントストリームが生成されたが、グループタイプがobjectsである場合、オブジェクトごとにヒントストリームが生成されるようにしてもよい。この場合、各オブジェクトのヒントストリームに対して異なるトラックが割り当てられる。

以上のように、第７および第８実施の形態の音声ファイルでは、全ての３Ｄオーディオのオーディオストリームが１つのトラックとして格納される。従って、動画再生端末は、そのトラックを取得することにより、全ての３Ｄオーディオのオーディオストリームを再生することができる。

また、第７および第８実施の形態の音声ファイルでは、ヒントストリームが格納される。従って、動画再生端末は、サブサンプルと、サブサンプルのサイズや位置とを対応付けたテーブルが記述されるmoofボックスを参照せずに、全ての３Ｄオーディオのオーディオストリームのうちの、所望のグループタイプのオーディオストリームのみを取得し、再生することができる。

さらに、第７および第８実施の形態の音声ファイルでは、全ての３Ｄオーディオのオーディオストリームとヒントストリームを格納するだけで、動画再生端末にグループタイプごとにオーディオストリームを取得させることができる。従って、グループタイプごとのオーディオストリームの取得を可能にするために、放送やローカルストレージの用途として生成された全ての３Ｄオーディオのオーディオストリームとは別に、グループタイプごとの３Ｄオーディオのオーディオストリームを用意する必要がない。

なお、第７および第８実施の形態では、グループタイプごとにextractorが生成されたが、extractorの生成単位は、オーディオエレメント、グループ、switch Group、およびgroup Presetであってもよい。

extractorの生成単位がグループである場合、第８実施の形態の各ヒントトラックのサンプルエントリには、対応するグループに関する情報が含まれる。グループに関する情報は、グループのＩＤ、グループに分類されるエレメントのデータの内容を表す情報等により構成される。グループがswitch Groupを形成する場合、そのグループのヒントトラックのサンプルエントリには、そのswitch Groupに関する情報も含まれる。switch Groupに関する情報は、switch GroupのＩＤ、switch Groupを形成するグループのＩＤ等により構成される。第７実施の形態のヒントトラックのサンプルエントリには、第８実施の形態の全てのヒントトラックのサンプルエントリに含まれる情報が含まれる。

また、第７および第８実施の形態におけるセグメント構造は、図３９および図４０のセグメント構造と同一である。

＜第９実施の形態＞
（本開示を適用したコンピュータの説明）
上述したWebサーバの一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図９５は、上述したWebサーバの一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）６０１，ROM（Read Only Memory）６０２，RAM（Random Access Memory）６０３は、バス６０４により相互に接続されている。

バス６０４には、さらに、入出力インタフェース６０５が接続されている。入出力インタフェース６０５には、入力部６０６、出力部６０７、記憶部６０８、通信部６０９、及びドライブ６１０が接続されている。

入力部６０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部６０７は、ディスプレイ、スピーカなどよりなる。記憶部６０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部６０９は、ネットワークインタフェースなどよりなる。ドライブ６１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア６１１を駆動する。

以上のように構成されるコンピュータでは、CPU６０１が、例えば、記憶部６０８に記憶されているプログラムを、入出力インタフェース６０５及びバス６０４を介して、RAM６０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU６０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア６１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア６１１をドライブ６１０に装着することにより、入出力インタフェース６０５を介して、記憶部６０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部６０９で受信し、記憶部６０８にインストールすることができる。その他、プログラムは、ROM６０２や記憶部６０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、上述した動画再生端末のハードウエア構成は、図９５のコンピュータと同様の構成にすることができる。この場合、例えば、CPU６０１が、制御用ソフトウエア１６１（２２１）、動画再生ソフトウエア１６２（２２２）、およびアクセス用ソフトウエア１６３（２２３）を実行する。動画再生端末１４４（２１４）の処理は、ハードウエアにより実行することもできる。

本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、ファイル生成装置１４１（２１１）は、タイル単位で画像ファイルを生成するのではなく、全てのタイルの符号化データを多重化してビデオストリームを生成し、１つの画像ファイルを生成するようにしてもよい。

本開示は、MPEG−H 3D audioだけでなく、Object毎にstreamを作成することのできるaudio codec全般に適応可能である。

また、本開示は、ストリーミング再生ではなく、放送やローカルストレージ再生を行う情報処理システムにも適用することができる。

さらに、本開示は、以下のような構成もとることができる。

（１）
複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルのうちの所定の前記トラックの音声データを取得する取得部
を備える情報処理装置。
（２）
前記種類は、前記音声データのエレメント、前記エレメントのタイプ、または前記エレメントが分類されるグループである
ように構成された
前記（１）に記載の情報処理装置。
（３）
前記取得部により取得された前記所定のトラックの前記音声データを復号する復号部
をさらに備える
前記（１）または（２）に記載の情報処理装置。
（４）
前記復号部は、前記所定のトラックの数が複数である場合、前記取得部により取得された前記所定のトラックの前記音声データを合成し、合成後の前記音声データを復号する
前記（３）に記載の情報処理装置。
（５）
前記ファイルには、複数のオブジェクト単位の音声データが前記オブジェクトごとに異なる前記トラックに分割されて配置されるとともに、全ての前記オブジェクト単位の音声データのメタデータが前記トラックとは異なるトラックにまとめて配置され、
前記取得部は、再生対象のオブジェクトの前記トラックの前記音声データを、前記所定のトラックの前記音声データとして取得するとともに、前記メタデータを取得し、
前記復号部は、前記取得部により取得された前記メタデータから、前記再生対象のオブジェクトの前記メタデータを抽出し、そのメタデータと前記取得部により取得された前記音声データとを合成する
ように構成された
前記（４）に記載の情報処理装置。
（６）
前記ファイルには、複数のオブジェクト単位の音声データが前記オブジェクトごとに異なる前記トラックに分割されて配置されるとともに、全ての前記オブジェクト単位の音声データのメタデータが前記トラックとは異なるトラックにまとめて配置され、
前記取得部は、再生対象のオブジェクトの前記トラックの前記音声データを、前記所定のトラックの前記音声データとして取得するとともに、前記メタデータを取得し、
前記復号部は、再生対象ではない前記トラックの前記音声データとしての復号結果がゼロになるゼロデータと、前記取得部により取得された前記音声データおよび前記メタデータとを合成する
ように構成された
前記（４）に記載の情報処理装置。
（７）
前記ファイルには、複数のオブジェクト単位の音声データが前記オブジェクトごとに異なる前記トラックに分割されて配置されるとともに、前記オブジェクト単位の音声データのメタデータが前記オブジェクトごとに異なるトラックに配置され、
前記取得部は、再生対象のオブジェクトの前記トラックの前記音声データを、前記所定のトラックの前記音声データとして取得するとともに、再生対象の前記オブジェクトのメタデータを取得し、
前記復号部は、前記取得部により取得された前記音声データと前記メタデータを合成する
ように構成された
前記（４）に記載の情報処理装置。
（８）
前記複数のトラックの前記音声データは、１つの前記ファイルに配置される
ように構成された
前記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）
前記複数のトラックの前記音声データは、前記トラックごとに異なる前記ファイルに配置される
ように構成された
前記（１）乃至（７）に記載の情報処理装置。
（１０）
前記ファイルには、前記複数の種類の前記音声データに関する情報が、前記複数のトラックとは異なるトラックとして配置される
ように構成された
前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１１）
前記複数の種類の前記音声データに関する情報は、前記音声データに対応する画像データの画枠サイズを示す画枠サイズ情報を含む
ように構成された
前記（１０）に記載の情報処理装置。
（１２）
前記ファイルには、前記複数のトラックとは異なるトラックの前記音声データとして、その音声データに対応する他の前記トラックの前記音声データの位置を示す情報が配置される
ように構成された
前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１３）
前記ファイルには、前記複数のトラックとは異なるトラックの前記データとして、そのデータに対応する他の前記トラックの前記音声データの位置を示す情報と、他の前記トラックの前記音声データのメタデータが配置される
ように構成された
前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１４）
前記音声データのメタデータは、前記音声データの取得位置を示す情報を含む
ように構成された
前記（１３）に記載の情報処理装置。
（１５）
前記ファイルは、前記トラックの他の前記トラックとの参照関係を表す情報を含む
ように構成された
前記（１）乃至（１４）のいずれかに記載の情報処理装置。
（１６）
前記ファイルは、各トラックの前記音声データのコーデック情報を含む
ように構成された
前記（１）乃至（１５）のいずれかに記載の情報処理装置。
（１７）
所定の前記種類の音声データは、他の前記種類の音声データの取得位置を示す情報である
ように構成された
前記（１）乃至（１６）のいずれかに記載の情報処理装置。
（１８）
情報処理装置が、
複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルのうちの所定の前記トラックの音声データを取得する取得ステップ
を含む情報処理方法。
（１９）
複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルを生成する生成部
を備える情報処理装置。
（２０）
情報処理装置が、
複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルを生成する生成ステップ
を含む情報処理方法。

１４１ファイル生成装置，１４４動画再生端末，１７２音声ファイル生成部，１９２音声ファイル取得部，１９３音声選択部，２１１ファイル生成装置，２１４動画再生端末，２４１音声ファイル生成部，２６４音声ファイル取得部

Claims

複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルのうちの所定の前記トラックの音声データを取得する取得部
を備える情報処理装置。
前記種類は、前記音声データのエレメント、前記エレメントのタイプ、または前記エレメントが分類されるグループである
ように構成された
請求項１に記載の情報処理装置。
前記取得部により取得された前記所定のトラックの前記音声データを復号する復号部
をさらに備える
請求項１に記載の情報処理装置。
前記復号部は、前記所定のトラックの数が複数である場合、前記取得部により取得された前記所定のトラックの前記音声データを合成し、合成後の前記音声データを復号する
請求項３に記載の情報処理装置。
前記ファイルには、複数のオブジェクト単位の音声データが前記オブジェクトごとに異なる前記トラックに分割されて配置されるとともに、全ての前記オブジェクト単位の音声データのメタデータが前記トラックとは異なるトラックにまとめて配置され、
前記取得部は、再生対象のオブジェクトの前記トラックの前記音声データを、前記所定のトラックの前記音声データとして取得するとともに、前記メタデータを取得し、
前記復号部は、前記取得部により取得された前記メタデータから、前記再生対象のオブジェクトの前記メタデータを抽出し、そのメタデータと前記取得部により取得された前記音声データとを合成する
ように構成された
請求項４に記載の情報処理装置。
前記ファイルには、複数のオブジェクト単位の音声データが前記オブジェクトごとに異なる前記トラックに分割されて配置されるとともに、全ての前記オブジェクト単位の音声データのメタデータが前記トラックとは異なるトラックにまとめて配置され、
前記取得部は、再生対象のオブジェクトの前記トラックの前記音声データを、前記所定のトラックの前記音声データとして取得するとともに、前記メタデータを取得し、
前記復号部は、再生対象ではない前記トラックの前記音声データとしての復号結果がゼロになるゼロデータと、前記取得部により取得された前記音声データおよび前記メタデータとを合成する
ように構成された
請求項４に記載の情報処理装置。
前記ファイルには、複数のオブジェクト単位の音声データが前記オブジェクトごとに異なる前記トラックに分割されて配置されるとともに、前記オブジェクト単位の音声データのメタデータが前記オブジェクトごとに異なるトラックに配置され、
前記取得部は、再生対象のオブジェクトの前記トラックの前記音声データを、前記所定のトラックの前記音声データとして取得するとともに、再生対象の前記オブジェクトのメタデータを取得し、
前記復号部は、前記取得部により取得された前記音声データと前記メタデータを合成する
ように構成された
請求項４に記載の情報処理装置。
前記複数のトラックの前記音声データは、１つの前記ファイルに配置される
ように構成された
請求項１に記載の情報処理装置。
前記複数のトラックの前記音声データは、前記トラックごとに異なる前記ファイルに配置される
ように構成された
請求項１に記載の情報処理装置。
前記ファイルには、前記複数の種類の前記音声データに関する情報が、前記複数のトラックとは異なるトラックとして配置される
ように構成された
請求項１に記載の情報処理装置。
前記複数の種類の前記音声データに関する情報は、前記音声データに対応する画像データの画枠サイズを示す画枠サイズ情報を含む
ように構成された
請求項１０に記載の情報処理装置。
前記ファイルには、前記複数のトラックとは異なるトラックの前記音声データとして、その音声データに対応する他の前記トラックの前記音声データの位置を示す情報が配置される
ように構成された
請求項１に記載の情報処理装置。
前記ファイルには、前記複数のトラックとは異なるトラックの前記データとして、そのデータに対応する他の前記トラックの前記音声データの位置を示す情報と、他の前記トラックの前記音声データのメタデータが配置される
ように構成された
請求項１に記載の情報処理装置。
前記音声データのメタデータは、前記音声データの取得位置を示す情報を含む
ように構成された
請求項１３に記載の情報処理装置。
前記ファイルは、前記トラックの他の前記トラックとの参照関係を表す情報を含む
ように構成された
請求項１に記載の情報処理装置。
前記ファイルは、各トラックの前記音声データのコーデック情報を含む
ように構成された
請求項１に記載の情報処理装置。
所定の前記種類の音声データは、他の前記種類の音声データの取得位置を示す情報である
ように構成された
請求項１に記載の情報処理装置。
情報処理装置が、
複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルのうちの所定の前記トラックの音声データを取得する取得ステップ
を含む情報処理方法。
複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルを生成する生成部
を備える情報処理装置。
情報処理装置が、
複数の種類の音声データが前記種類に応じて複数のトラックに分割されて配置されるファイルを生成する生成ステップ
を含む情報処理方法。