[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6622388B2 - ビデオ画像に関連付けられているオーディオ信号を処理する方法および装置 - Google Patents

ビデオ画像に関連付けられているオーディオ信号を処理する方法および装置 Download PDF

Info

Publication number
JP6622388B2
JP6622388B2 JP2018511228A JP2018511228A JP6622388B2 JP 6622388 B2 JP6622388 B2 JP 6622388B2 JP 2018511228 A JP2018511228 A JP 2018511228A JP 2018511228 A JP2018511228 A JP 2018511228A JP 6622388 B2 JP6622388 B2 JP 6622388B2
Authority
JP
Japan
Prior art keywords
depth
audio
rendering
display
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018511228A
Other languages
English (en)
Other versions
JP2018530952A5 (ja
JP2018530952A (ja
Inventor
ブライン,ウェルネル パウリュス ヨゼフュス デ
ブライン,ウェルネル パウリュス ヨゼフュス デ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2018530952A publication Critical patent/JP2018530952A/ja
Publication of JP2018530952A5 publication Critical patent/JP2018530952A5/ja
Application granted granted Critical
Publication of JP6622388B2 publication Critical patent/JP6622388B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/398Synchronisation thereof; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Stereophonic System (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Description

本発明は、オーディオ信号を処理するための方法および装置に、詳細には、それだけではないが、関連付けられた三次元ビデオと一緒の呈示のための三次元オーディオ信号の処理に関する。
オーディオのレンダリングはますます多様になっており、多様なレンダリング手法およびユーザー経験が導入されている。たとえば、オーディオビジュアル経験の一部としての空間的オーディオは、特にサラウンドサウンドの形で広まっている。そのようなシステムでは、画像またはビデオが呈示されるとともに、関連付けられた空間的オーディオ環境が生成される。
空間的オーディオ・レンダリングにおける多様性および柔軟性をサポートするために、空間的オーディオを表現するためのいくつかのフォーマットが開発されている。
最近のフォーマットはMPEGサラウンド・フォーマットである。ただし、これは多くの用途について好適なフォーマットを提供するものの、他の用途については、いまだ望まれるほど柔軟ではない。たとえば、オーディオはいまだ、特定のラウドスピーカー・セットアップ、たとえばITU 5.1ラウドスピーカー・セットアップについて生成され、送信される。異なるセットアップでのおよび非標準的な(すなわち柔軟なまたはユーザー定義された)ラウドスピーカー・セットアップでの再生は規定されていない。
オーディオの、より柔軟な表現を提供するために、個々のオーディオ源を個々のオーディオ・オブジェクトとして表現する諸フォーマットが開発されつつある。こうして、特定の(公称または参照)位置に対応するオーディオ・チャネルによってオーディオ・シーンを表現するのではなく、それぞれが個別的なオーディオ源(たとえば背景、拡散および環境音源を含む)を表わす個別のオーディオ・オブジェクトを提供することが提案されている。典型的には、オーディオ・オブジェクトは、サウンドステージにおけるそのオーディオ・オブジェクトの目標位置を示す(随意選択的な)位置情報を与えられてもよい。よって、そのような手法では、オーディオ源は、特定の、あらかじめ決定された位置に関連付けられたオーディオ・チャネルに対する寄与によってではなく、別個の単独のオーディオ・オブジェクトとして表現されうる。
そのような手法をサポートするために、MPEGは「空間的オーディオ・オブジェクト符号化(Spatial Audio Object Coding)」(ISO/IEC MPEG-D SAOC)として知られるフォーマットを標準化した。DTS、ドルビー・デジタルおよびMPEGサラウンドのようなマルチチャネル・オーディオ符号化システムとは対照的に、SAOCは、オーディオ・チャネルではなく個々のオーディオ・オブジェクトの効率的な符号化を提供する。MPEGサラウンドでは各ラウドスピーカー・チャネルは諸サウンド・オブジェクトの異なる混合から生じると考えられることができるが、SAOCは、マルチチャネル混合における個々のサウンド・オブジェクトの位置の対話的な操作を許容する。
MPEGサラウンドと同様に、SAOCもモノまたはステレオ・ダウンミックスを生成する。加えて、オブジェクト・パラメータが計算されて含められる。デコーダ側では、ユーザーは、個々のオブジェクトの、位置、レベル、等化といったさまざまな特徴を制御するために、あるいはさらには残響のような効果を適用するために、これらのパラメータを操作しうる。
SAOCは、再生チャネルのみに加えてオーディオ・オブジェクトを伝送することにより、より柔軟なアプローチを許容し、特に、より多くのレンダリング・ベースの適応可能性を許容する。これは、空間が諸ラウドスピーカーによって十分にカバーされていれば、デコーダ側が空間内の任意の位置にオーディオ・オブジェクトを配置することを許容する。こうすれば、伝送されるオーディオと再生もしくはレンダリング・セットアップとの間に関係はなく、よって任意のラウドスピーカー・セットアップが使用できる。これは、たとえば、意図される位置にラウドスピーカーがあることがめったにない典型的な居間におけるホームシネマ・セットアップのために有利である。SAOCでは、デコーダ側でオブジェクトがサウンド・シーン中のどこに配置されるかが決定される。しかしながら、レンダリング側でのオーディオ・オブジェクトの操作はサポートされているが、典型的には、オーディオは、ユーザー入力を必要とすることなくレンダリングでき、それでいて好適なサウンドステージを提供することが望まれる。特に、オーディオが、リンクされたビデオ信号と一緒に提供されるとき、オーディオ源が画像における位置に対応する位置でレンダリングされることが望まれる。よって、オーディオ・オブジェクトはしばしば、個別のオーディオ・オブジェクトについての提案されるレンダリング位置を示す目標位置データを与えられることがある。
オーディオ・オブジェクト・ベースのフォーマットの他の例は、MPEG-H 3Dオーディオ(非特許文献1)、ADM(非特許文献2)および権利で保護されている規格、たとえばドルビー・アトモス(非特許文献3)およびDTS-MDA(非特許文献4)を含む。
オブジェクト・ベースのオーディオ製作および再生の概念は、伝統的なチャネル・ベースの手法に対して多くの利点をもたらす。特に、個々のサウンド・オブジェクトの空間内での特定の位置を割り当てられることは、大幅な柔軟性、スケーラビリティーおよび対話性のための新たな可能性をもたらす。
好適なオーディオ・レンダリング技法が使われれば、オブジェクト・ベースのオーディオは、知覚的にリアルな仕方でオブジェクトを3D空間内の任意の位置に位置決めすることを可能にする。これは、聴取者に対する方位角、仰角および距離の正確な定位を含む。そのようなレンダリング技法のいくつかの例は:バイノーラル・ヘッドフォン再生、トランスオーラル・ラウドスピーカー再生、波面合成ラウドスピーカー再生およびある程度はVBAPラウドスピーカー再生である。
典型的には、オブジェクト・ベースのオーディオ・コンテンツは、ビデオ・ディスプレイ上でレンダリングされる対応するビデオ・コンテンツと一緒に呈示される。オーディオ・オブジェクトがスクリーン上にある視覚的オブジェクトに対応する場合、知覚される聴覚および視覚的なオブジェクトの位置の間に何らかの空間的な同期または適合性があること、すなわちオブジェクトの音と画像が空間においてマッチすることが望ましい。そのような同期がないと、すなわち聴覚的オブジェクトと対応する視覚的オブジェクトの知覚される位置が有意に異なる場合には、これはユーザーにとって混乱を引き起こし、オーディオビジュアル呈示の全体的な知覚される品質または没入感を劣化させることがありうる。
しかしながら、レンダリング・セットアップ、特にビデオ・レンダリング・セットアップは典型的には実質的に多様であるので、緊密な空間的同期を達成することは難しいことがあり、これは多くの状況において、劣化したユーザー経験につながりうる。特に、異なるディスプレイの機能およびレンダリング特性は実質的に多様であることがあり、これは異なるシナリオにおける異なるレンダリングを引き起こすことがある。
米国特許出願公開第2013/010969号は、三次元サウンドを再生する方法および装置を開示している。ステレオ・サウンドが、画像信号における少なくとも一つのオブジェクトと基準位置との間の距離を示す画像奥行き情報を取得し、該画像奥行き情報に基づいて、サウンド信号における少なくとも一つのサウンド・オブジェクトと基準位置との間の距離を示すサウンド奥行き情報を取得し、該サウンド奥行き情報に基づいて、前記少なくとも一つのサウンド・オブジェクトにサウンド・パースペクティブを提供することによって再生される。
米国特許出願公開第2014/308024号は、動的に最適化されたオーディオ3D空間知覚手がかりを使って3Dオーディオ定位を生成するための方法および装置を開示している。
よって、レンダリングのために空間的オーディオ信号を処理するための改善された手法が有利であろう。特に、柔軟性の増大、操作の容易化、計算量および/またはリソース需要の低減、関連付けられたビデオへの空間的同期の改善および/またはユーザー経験の改善を許容する手法が有利であろう。
ISO/IEC 23008-3 (DIS): Information technology‐ High efficiency coding and media delivery in heterogeneous environments‐ Part 3: 3D audio, 2014 EBU Tech 3364 "Audio Definition Model Ver. 1.0", 2014 SMPTE TC-25CSS 10 WG on interoperable Immersive Sound Systems for Digital Cinema", 2014 ETSI document TS 103 223, "The Multi-Dimensional Audio (MDA) Content Creation Format Specification with Extensions for Consumer Environments", 2014
よって、本発明は、上述した欠点の一つまたは複数を単独でまたは任意の組み合わせにおいて好ましくは緩和、軽減または解消しようとするものである。
本発明のある側面によれば、オーディオ信号処理装置であって:三次元画像によって視覚的に表現されるシーンにおけるオーディオ源を表現する少なくとも第一のオーディオ・オブジェクトについてのオーディオ・データを含むオーディオ信号を受領する受領器(101)であって、前記オーディオ信号はさらに、前記第一のオーディオ・オブジェクトについての第一の奥行き位置を示す奥行き位置データを含む、受領器と;前記三次元画像を呈示するための第一の三次元ディスプレイについての奥行きレンダリング属性を判別するための判別器(107)であって、前記奥行きレンダリング属性は前記第一の三次元ディスプレイの視覚的レンダリング奥行き範囲を示す、判別器と;前記第一の奥行き位置を前記第一のオーディオ・オブジェクトについてのレンダリング奥行き位置にマッピングするためのマッピング器(109)であって、マッピングは前記視覚的レンダリング奥行き範囲に依存する、マッピング器とを有する装置が提供される。
本発明は、三次元画像と一緒にオーディオ・オブジェクトをレンダリングするときに、改善されたユーザー経験を許容しうる。特に、シーンが、三次元画像(または三次元ビデオ・シーケンスを提供する画像の集合)およびシーン内のオーディオ源に対応するオーディオのオーディオビジュアル・レンダリングとして呈示されうる。組み合わされたビデオおよびオーディオの呈示は、改善されたユーザー経験を提供でき、オーディオ・オブジェクトの位置をマッピングする手法は、改善された空間的同期を、特に、視聴者の聴覚的および視覚的知覚の間の、より密接な整合性を与えうる。
発明者らは、特に三次元ディスプレイはレンダリング機能が実質的に多様であることがあり、特に非常に異なる奥行きレンダリング属性をもちうることを認識した。発明者らはさらに、そのような奥行きレンダリングの多様性が、知覚されるユーザー経験における有意な多様性につながりうることを認識した。具体的には、発明者らは、オーディオとビデオの間の知覚される空間的同期に対する、奥行きレンダリング多様性の知覚的効果が実質的なものであり、有意に劣化したオーディオビジュアル・ユーザー経験につながりうることを認識したのである。発明者らはさらに、オーディオ・オブジェクト奥行き位置に対する、ディスプレイの空間的奥行きレンダリング特性に依存する再マッピングを適用することによって、これが緩和および/または軽減されうることを認識した。
マッピングは、目標奥行き位置とも称される第一の奥行き位置の関数としてレンダリング奥行き位置を与えてもよい。第一の三次元ディスプレイは、目標(三次元)ディスプレイとも称される。マッピング関数は、奥行きレンダリング属性によって示される視覚的レンダリング奥行き範囲に応答して決定されてもよい。関数は多くの実施形態において単調関数であってもよい。すなわち、マッピングは、目標奥行き位置の単調関数としてレンダリング奥行き位置を提供してもよい。
第一の奥行き位置/目標奥行き位置は、第一のオーディオ・オブジェクトのレンダリングのための提案される位置を提供しうる。それは具体的には、オーディオ・オブジェクトのレンダリングのための公称上の位置でありうる。公称上の位置は、レンダリングのための随意選択的な位置であってもよく、よってレンダラーはこの位置を変更してもよい。提案される位置はたとえば、シーンを捕捉するときなどに、コンテンツ製作の一部として生成され、決定されてもよい。このように、オーディオ信号は、第一のオーディオ・オブジェクトがレンダリングされるべき奥行きを提案するデータを含みうる。位置データは典型的には、xまたはy位置(奥行き位置はz位置として表わされるとして)または方位角および仰角位置のような、奥行き以外の位置が決定されることを許容する位置情報をも含みうる。多くの実施形態において、目標奥行き位置は、第一のオーディオ・オブジェクトについての三次元目標位置を示す目標位置の一部として提供されてもよい。
奥行き位置についていかなる好適な参照基準が使われてもよいことが理解されるであろう。たとえば、多くの実施形態において、奥行き位置はスクリーン・レベルの奥行きを基準としてもよく、具体的には、異なる観察角度について、すなわち右目と左目のビューについて、画像における表示(x,y)位置の間に視差がないことに対応する奥行き位置を基準としてもよい。
同様に、レンダリング奥行き位置は、第一のオーディオ・オブジェクトについての意図される三次元レンダリング位置を示す目標レンダリング位置の一部であってもよい。レンダリング奥行き位置は、修正された目標位置と考えられてもよく、よって、第一のオーディオ・オブジェクトのレンダリングのための修正された目標位置であってもよい。レンダリング奥行き位置は、空間的オーディオ・レンダラーによってレンダリングされるときに第一のオーディオ・オブジェクトがそこから発していると知覚されるべき奥行き位置の指標を提供する。レンダリング奥行き位置は、第一の奥行き位置の前記マッピングによって生成される第二の奥行き位置であってもよい。それは特に、第一のオーディオ・オブジェクトについての修正された、随意選択的な、公称上の位置であってもよい。
目標三次元ディスプレイは、三次元画像をレンダリング/呈示するために好適ないかなるディスプレイであってもよく、たとえば、裸眼立体視ディスプレイまたはたとえば三次元経験を提供するために同期した眼鏡を使う立体視ディスプレイを含む。目標三次元ディスプレイは、マッピングが実行されるディスプレイであり、前記三次元画像のレンダリングのために使われると想定されるディスプレイに対応しうる。こうして、三次元画像が目標三次元ディスプレイによって呈示され、第一のオーディオ・オブジェクトが前記レンダリング奥行き位置に対応する位置にレンダリングされる場合、知覚される聴覚的および視覚的な奥行き位置の間の、より近い対応が達成できる。実際、この手法は、視覚ドメインと聴覚ドメインを空間的にリンクまたは同期させうる。たとえば、第一のオーディオ・オブジェクトによって表わされる音源に対応する画像オブジェクトの視覚的位置が、第一のオーディオ・オブジェクトがレンダリングされるときのオーディオの位置と、より近く整列されうる。
奥行きレンダリング属性は、三次元ディスプレイによる奥行きのレンダリングを示す視覚的レンダリング奥行き範囲を含む。多くの実施形態において、これは、三次元ディスプレイの奥行きレンダリング機能、たとえば使用可能な奥行き範囲などを示してもよい。たとえば、視覚的レンダリング奥行き範囲は、三次元ディスプレイが、受け入れられないほどの疲労、品質劣化、ぼけなどを生じることなく、画像部分をレンダリングできる範囲(可能性としては、三次元ディスプレイの前方または背後のみでの範囲)を示しうる。この範囲はしばしば、たとえばメートル単位(または他の任意の距離尺度)で測った(実空間における)物理的な範囲として与えられてもよい。
判別器は、たとえば、奥行きレンダリング属性を判別することのできる任意のコントローラ、プロセッサ、ユニット、プロセス、サブエンティティなどであってもよい。該判別は、たとえば外部源またはメモリから適切なデータを受領または取得することによることを含む。
マッピング器は、たとえば、目標奥行き位置からレンダリング奥行き位置を決定することのできる任意のコントローラ、プロセッサ、ユニット、プロセス、サブエンティティなどであってもよい。すなわち、マッピング器は、第一の位置を示すデータを第二の位置を示すデータにマッピングすることができる。マッピング器は、視覚的レンダリング奥行き範囲に応答してマッピングを適応させる/修正するための適応器を含んでいてもよい。
いくつかの実施形態では、オーディオ・プロセッサは、レンダリング奥行き位置に応答して第一のオーディオ・オブジェクトをレンダリングするためのレンダラーを有していてもよい。レンダリングは、第一のオーディオ・オブジェクトを、レンダリング奥行き位置に対応する位置から知覚されるよう(具体的には、公称位置にいる公称聴取者が第一のオーディオ・オブジェクトがレンダリング奥行き位置にあると知覚するよう)レンダリングしてもよい。
多くの実施形態において、第一のオーディオ・オブジェクトは、三次元画像の画像オブジェクトについてのオーディオを表わしうる。こうして、多くの実施形態において、第一のオーディオ・オブジェクトは、特に三次元画像において可視でありうる特定の画像オブジェクトについてのオーディオを提供しうる。しかしながら、他のシナリオでは、第一のオーディオ・オブジェクトは、画像オブジェクトに直接対応しないシーン内のオーディオ源についての記述を提供してもよい。たとえば、第一のオーディオ・オブジェクトは、たとえば小さすぎるためまたは隠蔽されているために画像において直接可視ではないエンティティからのオーディオ源を記述するオーディオ・データを提供してもよい。
本発明の随意選択的な特徴によれば、オーディオ信号はさらに、三次元画像のための第二のディスプレイについての奥行きレンダリング属性の指標を含み、マッピング器は、第二のディスプレイについての奥行きレンダリング属性に応答してマッピングを適応させるよう構成される。
これは多くのシナリオおよび実施形態において、改善されたユーザー経験を許容でき、特に、オーディオとビデオの間の改善された空間的同期を提供しうる。参照ディスプレイとも称される第二のディスプレイは、典型的には、プロダクション・ディスプレイまたは前記三次元画像のための公称ディスプレイであってもよい。参照ディスプレイは、源またはコンテンツ製作側によるレンダリングのために使用されると想定されるディスプレイである。第一のオーディオ・オブジェクトについての目標奥行き位置は、レンダリングが参照ディスプレイと同じ属性をもつディスプレイを用いてなされる場合に三次元画像の対応する画像セグメントがレンダリングされる奥行き位置に対応してもよい。参照ディスプレイについての奥行きレンダリング属性は特に、参照奥行きレンダリング範囲であってもよい。
本発明の随意選択的な特徴によれば、マッピングは、第二のディスプレイについての視覚的レンダリング奥行き範囲の、第一の三次元ディスプレイについての視覚的レンダリング奥行き範囲への単調マッピングである。
これは、多くの実施形態において、低い計算量を維持しつつ、改善されたユーザー経験を提供しうる。マッピングは、レンダリング奥行き位置を、目標奥行き位置の単調関数として提供しうる。マッピングは、目標奥行き位置の、レンダリング奥行き位置への線形または区分線形マッピングであってもよい。
奥行きレンダリング属性は、目標三次元ディスプレイのレンダリング奥行き範囲の指標を含む。
これは、多くの用途において、特に効率的で有用な奥行きレンダリング属性を提供しうる。奥行きレンダリング範囲は、改善された空間的同期を提供するために位置を適応させるための特に有利な情報を提供しうる。レンダリング奥行き範囲は、三次元ディスプレイに対する物理的な空間における範囲を示しうる。範囲は、たとえばメートルまたは対応する長さの尺度で示されてもよい。レンダリング奥行き範囲は特に、スクリーンの前方のオブジェクトのために提供されてもよく、画像セグメントが、十分な品質をもって、観察者に対して望まれない効果(疲労など)を引き起こすことなくレンダリングされると考えられる範囲を示してもよい。
本発明の随意選択的な特徴によれば、マッピング器は、第一のディスプレイ・サイズを有する前記第一の三次元ディスプレイについての第一の視覚的レンダリング奥行き範囲を示す視覚的レンダリング奥行き範囲と、前記第一のディスプレイ・サイズを有する前記第一の三次元ディスプレイについての第二の視覚的レンダリング奥行き範囲を示す視覚的レンダリング奥行き範囲とについて、前記第一の奥行き位置を異なってマッピングするよう構成される。ここで、第一の視覚的レンダリング奥行き範囲は第二の視覚的レンダリング奥行き範囲とは異なる。
同じディスプレイ・サイズを有する異なるディスプレイが、異なる視覚的レンダリング奥行き範囲を有することがある。マッピング器は、そのようなディスプレイについて、前記第一の位置を異なってマッピングするよう構成されていてもよい。すなわち、マッピング器は、同じディスプレイ・サイズをもつが異なる視覚的レンダリング奥行き範囲をもつディスプレイについて、前記第一の位置を異なってマッピングするよう構成されていてもよい。ディスプレイについての奥行き範囲は、たとえば、解像度/ピクセル・サイズ、生成されるビューの数、光学コンポーネントの品質、ビュー形成要素の属性などを含む多様な属性に依存しうる。このように、たとえ同じディスプレイ・サイズをもつディスプレイについてであっても、サポートされる動作奥行き範囲は異なることがあり、これがマッピングによって反映されてもよい。
マッピング器は、第一の三次元ディスプレイについての同じディスプレイ・サイズだが、異なる視覚的奥行きレンダリング範囲を示す視覚的奥行きレンダリング属性について、前記第一の位置を異なってマッピングするよう構成されていてもよい。
本発明の随意選択的な特徴によれば、マッピングはスクリーン奥行きレベルに関して非対称的である。スクリーン奥行きレベルは(左目と右目のビューの間の)視差ゼロに対応する。
これは、多くの実施形態において、改善された性能を提供しうる。特に、マッピングは、スクリーン/ディスプレイの前方と背後において異なっていてもよい。マッピングは特に、三次元ディスプレイの表示/スクリーン平面の前方と背後にレンダリングされる画像セグメントについての、三次元ディスプレイのレンダリング機能における差を反映してもよい。多くの実施形態において、マッピングは、表示平面奥行きの前方において奥行き値を修正するだけであるよう構成されてもよい。
スクリーン奥行きレベルは、(異なる目のために意図された)異なるビューの間のピクセル位置における視差がない奥行きに対応する。すなわち、スクリーン・レベルにある(そしてスクリーンの前方や背後ではない)と知覚される奥行きに対応する。
本発明の随意選択的な特徴によれば、マッピングは非線形マッピングである。
これは、多くの実施形態において、改善された性能を提供しうる。特に、マッピングは、表示平面奥行きからレンダリング奥行き位置への距離が、ある最大値を超えないよう制限されるように、目標奥行き位置をマッピングすることを含んでいてもよい。
本発明の随意選択的な特徴によれば、オーディオ信号は、第一のオーディオ・オブジェクトについてのフラグであって、該オーディオ・オブジェクトがスクリーンに関係したオーディオ・オブジェクトであるか否かを示すフラグを含む。スクリーンに関係したオーディオ・オブジェクトとは、それについてのレンダリング・プロセスが前記第一の三次元ディスプレイの視覚的レンダリング属性に依存するオーディオ・オブジェクトである。マッピング器(109)は、このフラグが前記少なくとも一つのオーディオ・オブジェクトがスクリーンに関係したオーディオ・オブジェクトであることを示す場合にのみ、第一のオーディオ・オブジェクトの第一の奥行き位置に前記マッピングを適用するよう構成される。
これは、多くの実施形態において、改善された処理を許容でき、特に、異なる型のオーディオをサポートするための効率的な手法を提供しうる。この手法は、対応する画像の視覚的レンダリングを反映するよう適応されうる、改善されたオーディオ・レンダリングを提供しうる。特に、これは、レンダリングされるオーディオとビデオの間の、より密接な相関を許容しうる。
本発明の随意選択的な特徴によれば、オーディオ信号処理装置はさらに、複数の二次元画像から三次元画像を生成するための変換器を有する。該三次元画像の生成は、三次元画像の奥行きマップを決定することを含んでいてもよい。前記判別器は、該奥行きマップに応答して、前記奥行きレンダリング属性を決定するよう構成される。
これは、特に効率的なシステムを、具体的には、オーディオ・オブジェクトのマッピングを適応させるために好適な奥行きレンダリング属性を生成する特に効率的な仕方を提供しうる。
本発明の随意選択的な特徴によれば、オーディオ信号処理装置はさらに、奥行きレンダリング属性を示すディスプレイ・データを含み、前記判別器は、該ディスプレイ・データを抽出し、該ディスプレイ・データに応答して、奥行きレンダリング属性を決定するよう構成される。
これは、多くの実施形態において、奥行きレンダリング属性をオーディオ・プロセッサに提供するための特に効率的な手法を提供でき、特に、他の機能とインターフェースをもつことを容易にしうる。
本発明の随意選択的な特徴によれば、オーディオ信号処理装置はさらに、第一の三次元ディスプレイの全表示領域での呈示のために、三次元画像によって表わされる三次元シーンの部分集合を選択するよう構成された選択器を有する。前記マッピング器は、前記部分集合の奥行き属性に応答して、前記マッピングを適応させるよう構成される。
これは、魅力的な空間的同期の程度を提供しつつ、魅力的なユーザー経験およびレンダリングにおける追加的な柔軟性を提供しうる。この手法は、たとえばユーザーがシーンをズームインまたはズームアウトする際に、特に、レンダリングされるオーディオ・ステージと呈示される画像との間の、より近い対応を許容しうる。
本発明の随意選択的な特徴によれば、マッピング器は、前記マッピングを、前記部分集合の視覚的レンダリング奥行き範囲の、第一の三次元ディスプレイについてのレンダリング奥行き範囲への単調マッピングとなるよう適応させるよう構成される。
これは、多くの実施形態において、特に効率的な動作および/または有利な性能を提供しうる。視覚的奥行き範囲は、前記部分集合内の画像オブジェクトのような画像構成要素の奥行き範囲であってもよい。視覚的奥行き範囲は特に、前記部分集合内の視差または奥行き値の範囲であってもよく、またはそれを示していてもよい。
本発明の随意選択的な特徴によれば、第一のオーディオ・オブジェクトについての第一の奥行き位置は前記部分集合の外部である。
これは、多くの実施形態において、特に効率的な動作および/または有利な性能を提供しうる。
本発明のある側面によれば、オーディオ信号を処理する方法であって:三次元画像によって視覚的に表現されるシーンにおけるオーディオ源を表現する少なくとも第一のオーディオ・オブジェクトについてのオーディオ・データを含むオーディオ信号を受領する段階であって、前記オーディオ信号はさらに、前記第一のオーディオ・オブジェクトについての第一の奥行き位置を示す奥行き位置データを含む、段階と;前記三次元画像を呈示するための第一の三次元ディスプレイについての奥行きレンダリング属性を判別する段階であって、前記奥行きレンダリング属性は前記第一の三次元ディスプレイの視覚的レンダリング奥行き範囲を示す、段階と;前記第一の奥行き位置を前記第一のオーディオ・オブジェクトについてのレンダリング奥行き位置にマッピングする段階であって、マッピングは前記視覚的レンダリング奥行き範囲に依存する、段階とを含む方法が提供される。
本発明のある側面によれば、オーディオ信号であって:三次元画像によって視覚的に表現されるシーンにおけるオーディオ源を表現する少なくとも第一のオーディオ・オブジェクトについてのオーディオ・データと、前記第一のオーディオ・オブジェクトについての第一の奥行き位置を示す奥行き位置データと、前記オーディオ・オブジェクトがスクリーンに関係したオーディオ・オブジェクトであるか否かを示す前記第一のオーディオ・オブジェクトについてのフラグであって、スクリーンに関係したオーディオ・オブジェクトとは、それについてのレンダリング・プロセスが三次元ディスプレイの視覚的レンダリング属性に依存するオーディオ・オブジェクトである、フラグと;前記三次元画像のための前記三次元ディスプレイについての奥行きレンダリング属性を含むディスプレイ・データであって、前記奥行きレンダリング属性は前記三次元ディスプレイの視覚的レンダリング奥行き範囲を示す、ディスプレイ・データとを含む、オーディオ信号が提供される。
本発明のこれらおよびその他の側面、特徴および利点は、以下に記述される実施形態を参照することから明白となり、それにより明快にされるであろう。
本発明の実施形態は、単に例として、図面を参照しつつ記述される。
本発明のいくつかの実施形態に基づくオーディオ信号処理装置を含むオーディオビジュアル・レンダリング・システムの例を示す図である。 本発明のいくつかの実施形態に基づくオーディオ信号処理装置を含むオーディオビジュアル・レンダリング・システムの例を示す図である。 本発明のいくつかの実施形態に基づく、オーディオ信号処理装置の例を示す図である。 本発明のいくつかの実施形態に基づく、オーディオ信号処理装置を含むオーディオビジュアル・レンダリング・システムの例を示す図である。
以下の記述は、三次元ディスプレイでの関連する三次元ビデオの呈示に関連して空間的オーディオをレンダリングするためのシステムに適用可能な本発明の実施形態に焦点を当てる。しかしながら、本発明はこの用途に限定されるものではなく、たとえばスチール画像の呈示またはオーディオ・データのデコードおよびトランスコードを含む他の多くの実装、システムおよびプロダクトに適用されうることは理解されるであろう。
図1は、本発明のいくつかの実施形態に基づくオーディオ信号処理装置を有するオーディオビジュアル・レンダリング・システムを示している。
オーディオビジュアル・レンダリング・システムおよびオーディオ信号処理装置は、オーディオ・データおよびビデオ・データを含むデジタル・オーディオビジュアル信号を受け取るよう構成された受領器101を有する。ビデオ・データは、少なくとも一つの3D画像を表わすデータを含み、この特定の例では、3Dビデオ・ストリームの諸フレームを表わすビデオ・データが含まれている。
図1のシステムにおいて、3Dビデオ・ストリームは3Dディスプレイ103で呈示される。3Dビデオ・データはディスプレイ・ドライバ105に供給され、ディスプレイ・ドライバ105は、3D画像を呈示させるよう、3Dディスプレイのための好適な駆動信号を生成する。たとえば、3Dディスプレイ103は、標準的な3Dコンピュータ・モニタまたはTVのような完全なディスプレイであってもよく、ディスプレイ・ドライバ105は好適にエンコードされたビデオ・データを3Dディスプレイ103に与えてもよい。たとえば、いくつかの実施形態では、ディスプレイ・ドライバ105は単に受領器101からビデオ・データを受け取って、それを好適なフォーマットで3Dディスプレイ103に転送してもよい。いくつかの実施形態では、ディスプレイ・ドライバ105は単に、3Dディスプレイ103の個々のピクセルを直接制御する直接的な電気的および/または機械的インターフェースを提供してもよい。いくつかの実施形態では、ディスプレイ・ドライバ105はトランスコード機能を含んでいてもよい。いくつかの実施形態では、3Dディスプレイ103は単に、ディスプレイ・ドライバ105によって直接駆動される3Dディスプレイ・パネルであってもよい。たとえば、ディスプレイ・ドライバ105はいくつかの実施形態では、ビデオ・データをデコードして3Dディスプレイ103の個々のピクセルのための好適な駆動値を生成するよう構成されていてもよい。これはたとえば、図1のオーディオビジュアル・レンダリング・システム全体が、テレビのような単一の表示装置において実装される実施形態について当てはまる。そのような場合、3Dディスプレイ103はこのディスプレイ・パネルを表わしていてもよい。
三次元ディスプレイの多くの異なる型が知られており、視覚的3Dレンダリングを提供するためのいかなる好適な手法が使われてもよいことは理解されるであろう。特に、3Dディスプレイは、観察者の二つの目に、見られるシーンの異なるビューを提供することによって、観察経験に第三の次元を加えてもよい。これは、表示される二つのビューを分離する眼鏡をユーザーにかけてもらうことによって達成されることができる。しかしながら、これはユーザーにとっては比較的不便であり、多くのシナリオでは、異なるビューを直接生成してそれらをユーザーの眼に投射する裸眼立体視ディスプレイを使うことが望ましい。
ビデオ・データに加えて、オーディオビジュアル信号は、ビデオ・データに付随するオーディオを表わすオーディオ・データをも含む。このように、オーディオ・データは、ビデオ・データが視覚的な記述を提供するシーンのオーディオ記述を提供しうる。したがって、オーディオ・データは、ビデオ・ストリームの呈示と一緒に呈示されることが意図されているオーディオについてのデータを含んでいてもよい。
この例において、オーディオ・データは、シーン内のさまざまなオーディオ源についていくつかの異なるオーディオ・オブジェクトを指定するオーディオ・データを含んでいてもよい。これらのオーディオ・オブジェクトのいくつかは、いかなる特定の位置とも関連付けられない拡散音または一般的な音であってもよい。たとえば、一つまたは複数のオーディオ・オブジェクトは、背景音または周囲音を表わす環境または背景オーディオ・オブジェクトであってもよい。しかしながら、他のオーディオ・オブジェクトは、サウンドステージにおける特定の位置に対応する特定の音源に関連付けられていてもよい。よって、オーディオビジュアル信号は、特定のオーディオ・オブジェクトについての所望される位置の指標を提供する位置データをも含んでいてもよい。すなわち、オーディオ・オブジェクトについての目標位置データを含んでいてもよい。
このように、オーディオ信号は、シーン内の少なくとも一つの(だが典型的には二つ以上の)オーディオ源についてのオーディオ・データを含む。さらに、シーンは3D画像によって視覚的にも表わされ、よってオーディオ・オブジェクトは同じシーンを表わす3D画像に関連付けられる。
いくつかのシナリオでは、一つまたは複数のオーディオ・オブジェクトは特定の画像オブジェクトと関連付けられていてもよい。たとえば、オーディオ・オブジェクトは、画像中の人間からの発話に対応してもよい。このオーディオ・オブジェクトは、人間、あるいはより特定的には(たとえばクローズアップの場合)人間の口に対応する画像オブジェクトに関連付けられてもよい。オーディオビジュアル信号は、そのような例においては、発話と、3D画像中の対応する画像オブジェクト(すなわち話者(または話者の口))の位置を示す位置データとを記述するオーディオ・データを含んでいてもよい。このように、多くの実施形態またはシナリオにおいて、受領されたオーディオ信号の少なくとも第一のオーディオ・オブジェクトは、三次元画像の画像オブジェクトについてのオーディオを表わす。このように、画像はシーン内のオブジェクトの視覚的表現を提供し、第一のオーディオ・オブジェクトはこのオブジェクトのオーディオ表現を提供しうる。
他のオーディオ・オブジェクトについては、三次元画像への関連付けは、特定の画像オブジェクトとの関連付けではなくてもよく、より間接的に、3D画像によって表わされるシーンに関係していてもよい。たとえば、オーディオは、(たとえば隠蔽、距離またはサイズのため)レンダリングされる画像において可視でないオーディオ源から発生することがある。具体例として、第一のオーディオ・オブジェクトは、3D画像によって視覚的にも表わされている風景シーンにおいてさえずる鳥の記述を提供してもよいが、鳥自身は、たとえば単に風景において小さすぎて見えないために、画像において視覚的には表わされていなくてもよい。
画像オブジェクトという用語は、三次元画像における任意の部分、領域、セグメント、エリアまたはエンティティを指すことができ、これは別個のオブジェクトとして明示的に同定または特徴付けされないこともあることは理解しておくべきである。たとえば、3D画像は、ピクセル値のほかはコンテンツについてのなんの特定情報もなしにユーザーに呈示される左目画像および右目画像として受領されてもよい。しかしながら、シーン内のエンティティまたはエンティティの一部に対応するさまざまなピクセル群が画像オブジェクトと考えられてもよい。このように、画像オブジェクトという用語は、単に、画像の一部(典型的には、同様の特性をもつまたはシーンの同じオブジェクトに属する一部)に対応すると考えられてもよい。
しかしながら、いくつかの実施形態では、3D画像の一部または全部が、レンダリングされる別個の、個別オブジェクトとして提供されてもよく、3D画像はこれら個別オブジェクトの組み合わされたレンダリングによって形成されることも理解されるであろう。そのようなオブジェクトも画像オブジェクトと考えられてもよいが、記載される手法はそのような実装に限定されないことは明らかである。
位置データは、画像中の話者の位置に一致するよう所望される位置に位置されるようオーディオ・オブジェクトのレンダリングを許容してもよい。さらに、ビデオが3Dディスプレイ103によってレンダリングされる3Dビデオ・ストリームである特定の場合においては、位置情報は方位角および仰角(あるいは今後x(水平)およびy(垂直)方向と称されるディスプレイの面内での位置)についての情報を含むだけではない。むしろ、少なくとも前記第一のオーディオ・オブジェクトについての位置データは、奥行き方向(ディスプレイ・パネルがなす面に垂直であり、z方向とも称される)における位置の情報を含む。このように、位置データは、第一のオーディオ・オブジェクトについての目標奥行き位置を示す奥行き位置データを含んでいてもよい(目標奥行き位置はたとえば、x,y,z位置値を含む集合のz値として与えられてもよい)。
本稿は簡明のため第一のオーディオ・オブジェクトと称される一つのオーディオ・オブジェクトのための処理に焦点を当てるが、オーディオ・データは典型的には、同時にレンダリングされるべき比較的多数のオーディオ・オブジェクトについてのデータを提供し、かかるオーディオ・オブジェクトには、特定的な位置データが提供されるオーディオ・オブジェクトおよびいかなる特定の位置とも関連付けられていない、たとえば環境または背景オーディオ・オブジェクトが含まれることは理解されるであろう。第一のオーディオ・オブジェクトについての位置データは、第一の奥行き位置を含み、これは今後、目標奥行き位置と称される。これは具体的には、第一のオーディオ・オブジェクトについての奥行き値を定義するデータであってもよい(奥行き値は、当業者にはよく知られているように、いかなる好適な参照基準に関してであってもよく、たとえばディスプレイ・パネル/スクリーン・レベル奥行きを基準として使ってもよいが、他の任意の好適な参照基準を使用できる)。
奥行き情報は、オーディオ・オブジェクトが、適切な方位角および仰角のみならず、適切な奥行きにも位置されることを許容する。たとえば、話している人間に対応するオーディオは、その話している人間の画像オブジェクトの観察者までの距離に対応する奥行きに位置されてもよい。
しかしながら、関連する三次元画像にマッチするよう適切にオーディオ源を位置決めすることは、3Dディスプレイについては特に困難であり、特に、奥行き方向については困難である。実際、xおよびy方向における所与の位置に対応するオーディオ・オブジェクトについての好適なレンダリング位置は比較的簡単だが、オーディオ奥行きの人間の知覚は、実質的に、より複雑である。特に、xy平面における好適な位置の決定は典型的には単なる線形解析幾何の事例であるが、3Dディスプレイからの奥行き手がかりの人間の奥行き知覚は、ずっと複雑であり、典型的には、単なる線形幾何解析によっては十分正確に判別できない。
発明者らは、よって、関連する3D画像の三次元レンダリングにマッチするようなオーディオのレンダリングは、そのディスプレイの固有の奥行きレンダリング特性に強く依存することを認識した。
より詳細には、3Dディスプレイは視覚的オブジェクトの視覚的距離をレンダリングする能力において制限されている。実際上、視覚的オブジェクトが効果的にレンダリングできる、ディスプレイ面に対する最大奥行き範囲がある。ディスプレイの前方(ディスプレイとユーザーの間)における奥行き範囲は、実際上、特に制限されうる。ディスプレイ面からの距離がこの範囲を超えるオブジェクトは、歪んでいると知覚されるか、見るのが不快である。よって、多くの3Dビデオ・システムでは、典型的には、レンダリングされる奥行き範囲がスクリーンの能力を超えないよう、視覚的シーンまたはオブジェクトのレンダリング距離に対して制限が課される。
視覚的シーンの奥行きレンダリングのこの制限は、典型的には、対応するオーディオ・オブジェクトのレンダリングとは独立に実行される。よって、オーディオ・オブジェクトは、対応する視覚的オブジェクトとは、事実上ユーザーからの異なる距離のところにレンダリングされることがあり、オーディオビジュアル空間的非同期につながる。さらに、奥行きレンダリング機能は異なるディスプレイの間でかなり変動があることがあるので、すべての3Dディスプレイについて好適な源信号を生成することはできない。
この問題は、図1の手法によって緩和される。ここで、オーディオビジュアル・レンダリング・システムはさらに、オーディオ・オブジェクトについての受け取った目標奥行き位置を、3Dディスプレイ103の奥行きレンダリング属性(特に奥行きレンダリング機能)に依存するレンダリング位置にマッピングする機能を備える。このように、オーディオ・レンダリング位置は、ディスプレイの視覚的奥行き機能を考慮して決定される。具体的には、オーディオ・オブジェクトの奥行き位置の再マッピングは、改善された知覚される空間的同期を達成するために使用されうる。特に、図1のオーディオ・プロセッサは、オーディオ・オブジェクトについて受け取られた奥行き位置(たとえば距離パラメータ、視差値または直接的なz軸値)を、3Dディスプレイ103の奥行きレンダリング特性に依存するレンダリング奥行き位置に変換またはマッピングするための機能を備える。ディスプレイの奥行きレンダリング特性は、画像のさまざまな部分の実際のレンダリング奥行きに影響し、このマッピングは特に、オーディオ・オブジェクトの位置を、3Dディスプレイ103のスクリーン上の対応する視覚的オブジェクトについての期待される知覚される視覚的距離に対応するよう、変換しうる。
より詳細には、オーディオ・プロセッサは、三次元画像を呈示するための目標三次元ディスプレイについての、すなわちこの特定の例では3Dディスプレイ103についての、奥行きレンダリング属性を判別するよう構成されているディスプレイ属性判別器/プロセッサ107を有する。
奥行きレンダリング属性は特に、3Dディスプレイ103の奥行きレンダリング機能の指標であってもよい。たとえば、ディスプレイ属性判別器107は、3Dディスプレイ103が画像オブジェクトを表現できる奥行き範囲を判別してもよい。奥行き範囲は、レンダリング環境における、ディスプレイが画像オブジェクトをレンダリングできる物理的な距離として、すなわち3Dディスプレイ103が視覚的奥行き手がかりを生成できる(たとえばメートル単位で測った)物理的な範囲として、提供されてもよい。視覚的奥行き手がかりは、観察者が当該オブジェクトを意図された位置にあるよう知覚するようにする。
奥行きレンダリング属性は、3Dディスプレイのための視覚的なレンダリング奥行き範囲を示す(あるいは実際に該視覚的レンダリング奥行き範囲そのものであってもよい)。視覚的レンダリング奥行き範囲は、3Dディスプレイについての動作奥行き範囲を示してもよい。このように、視覚的レンダリング奥行き範囲とは、ディスプレイの属性が、画像オブジェクトの位置が表示されることを許容する奥行き範囲を記述してもよい。視覚的レンダリング奥行き範囲は、ディスプレイの機能/特性/属性によってサポートされる奥行き区間であってもよい。そのような範囲の端点を選択または判別するための厳密な基準または要件は、個々の実施形態の選好および要件に依存する。このように、視覚的レンダリング奥行き範囲は、画像オブジェクトのレンダリングが品質基準を満たす許容できる奥行き範囲を反映するよう(たとえば製造またはデザイン段階の間に)決定されてもよい。厳密な基準は、異なる実施形態およびシナリオについては異なってもよい。
例として、いくつかの実施形態では、視覚的レンダリング奥行き範囲は、製造または設計工程の間に技師によって手作業で決定されてもよい。結果として得られる奥行き範囲は、3Dディスプレイにハードコード(すなわち記憶)されてもよい。そのようなシナリオでは、判別器107は視覚的レンダリング奥行き範囲を、その特定のディスプレイについての視覚的レンダリング奥行き範囲を定義するデータを受け取るために3Dディスプレイと通信することによって判別してもよい。このように、視覚的レンダリング奥行き範囲は3Dディスプレイの内在的な属性を反映することがあり、特に、3Dディスプレイが奥行きをレンダリングする能力を反映しうる。このように、視覚的レンダリング奥行き範囲は典型的には、たとえばスクリーン・サイズ、解像度、ディスプレイの光学的属性、ディスプレイの幾何学的属性などを含むディスプレイのいくつかの異なるパラメータおよび属性の結果であろう。
多くの実施形態において、ディスプレイ属性判別器107はディスプレイ・ドライバ105(および/または3Dディスプレイ103)に結合されてもよく、ディスプレイのレンダリング機能を示すデータを直接受け取ったもよい。そのようなデータは、たとえば3Dディスプレイ103についての設計段階の間に決定されて、製造段階の間にディスプレイ・ドライバ105(または3Dディスプレイ103)に含められてもよい。他の実施形態では、ディスプレイ属性判別器107は、視覚的レンダリング奥行き範囲が決定されることを許容する間接的な指標を受け取ってもよい。たとえば、ディスプレイ属性判別器107は、ディスプレイについての適切な奥行き範囲に影響する属性を示す情報、たとえば解像度、レンティュラー・スクリーンなどの幾何学的属性、ディスプレイ・サイズなどについての情報を与えられてもよい。
個別的な例として、ディスプレイの奥行きレンダリング機能に影響するディスプレイ属性は、ディスプレイの公称観察距離であり、これは主としてディスプレイ・サイズおよびピクセル解像度に関係している(だがこれらの両方に統合的に依存する)。立体視画像を観察する際、奥行きの感覚は、左目および右目のために意図されている画像の間に視差を導入することによって得られる。すなわち、左目および右目のための画像が、ディスプレイ上の横方向に変位した位置に投影される。ディスプレイの背後の視覚的目標については、視差は正である。すなわち、左目用画像は右目用画像の左に投影される。ディスプレイ面にある視覚的目標については、視差はゼロであり、両方の画像は一致する。ディスプレイの前方の視覚的目標については、視差は負である。すなわち、左目用画像は右目用画像の右に表示され、よってユーザーは目を輻輳させる必要がある。この負の視差が、両目の観察方向の間の角度の点で大きくなりすぎると、不快感および疲労が導入される。より小さな公称観察距離をもつディスプレイについては、許容可能な負の視差のこの限界は、より大きな公称観察距離をもつディスプレイの場合よりも、より小さな絶対的な目標距離について到達される。
さらに、用いられる立体視ディスプレイ技術の型は、快適におよび/または十分な品質をもって(すなわち強すぎるぼけや「ゴースト」アーチファクトなしに)レンダリングできる最大奥行き範囲に影響しうる。たとえば、裸眼立体視レンティキュラー・ディスプレイについての使用可能な奥行き範囲は、アクティブ・シャッター眼鏡を用いた立体視ディスプレイの場合とは異なることがあり、この後者はまた、パッシブ(たとえば偏光式)眼鏡を用いる立体視ディスプレイとは異なる使用可能な奥行き範囲をもつことがある。
ディスプレイ属性判別器107は、マッピング器109に結合されており、マッピング器109はさらに受領器101に結合されていて、そこから一つまたは典型的には複数のオーディオ・オブジェクトについてのオーディオ・データおよび目標位置データを受け取る。マッピング器109は、受領されたオーディオ・オブジェクトの目標奥行き位置の、レンダリング奥行き位置へのマッピングを実行するよう構成される。このように、マッピング器109は、第一のオーディオ・オブジェクトについてのz値を、その後第一のオーディオ・オブジェクトのレンダリングのために使用されうる異なる値に変えてもよい。マッピングは、ディスプレイ属性判別器107から受領される視覚的レンダリング奥行き範囲に依存し、よって、マッピングは3Dディスプレイ103の奥行きレンダリング特性に依存する。
特に、マッピングは、該マッピングから帰結する奥行き位置が、3D画像における対応する画像オブジェクトが3Dディスプレイ103上に呈示されるときの奥行き位置に対応するようなものであってもよい。それらの位置は、レンダリング空間において、すなわち実際の物理的空間においてマッチしてもよい。
いくつかの実施形態では、マッピング器109によって実行されるマッピングは、3D画像についての奥行き値と3Dディスプレイ103上でレンダリングされるときの(たとえばスクリーン・レベルに対する)知覚される奥行き距離との間のマッピングに対応するよう生成されてもよい。特に、奥行きマッピング属性は、いくつかの実施形態では、画像オブジェクト奥行き値と、画像オブジェクトが3Dディスプレイ103によってレンダリングされるときの対応する知覚される奥行き位置との間のマッピングを反映してもよい。すると、マッピング器109によって実行されるマッピングは、受け取ったオーディオ・オブジェクト奥行き位置とレンダリング奥行き位置との対応するマッピングを実行しうる。
たとえば、3Dディスプレイ103は、ディスプレイの前方にたとえば2メートル延びる奥行きレンダリング範囲を有していてもよい。呈示されるべき画像は、たとえば0〜255の範囲の奥行き位置値をもつ奥行きマップとともに受領されてもよい。ディスプレイ面の奥行きが値128に対応する。よって、この場合、0〜128の範囲は、ディスプレイ面奥行き/スクリーン・レベルから、スクリーンの前方2メートルまでの範囲にマッピングされうる。こうして、奥行き値64をもつ画像オブジェクトはたとえば、スクリーンの前方1メートルの位置にレンダリングされる。レンダリング範囲がスクリーン・レベルからスクリーンの前方2メートルまでであることの指標は、マッピング器109に与えられてもよく、該マッピング器109はオーディオ源の対応するマッピングを実行することに進んでもよい。たとえば、ディスプレイの前方のオーディオ・オブジェクトについての目標奥行き位置(z値)がたとえば0〜5メートルの範囲内の値によって与えられる場合、マッピング器109は、0〜5メートルの値を、スクリーンの前方0〜2メートルの範囲にマッピングしてもよい。そのような例では、マッピング器109によってオーディオ・オブジェクトに対して、いくらかの奥行き圧縮および制限が導入されてもよい。たとえば、0〜2.5メートルの範囲内のオーディオ・オブジェクトについて受領される(スクリーン・レベルに対する)すべてのz値は、マッピング器109によって0.8を乗算されて、その結果、0〜2メートルの範囲にマッピングされてもよい。スクリーンの前方2.5メートル超のすべてのオーディオ・オブジェクトが2メートルの距離に制限されてもよい。こうして、0〜5メートルの範囲はスクリーンの前方0〜2メートルの範囲に非線形にマッピングされる。
マッピング器109は、図1の例では、一組のラウドスピーカー113のための駆動信号を生成するよう構成されているオーディオ・ドライバ111に結合されている。それにより、受領されたオーディオ・オブジェクトは3Dディスプレイ103上での3Dビデオのレンダリングと一緒にレンダリングされることができる。こうして、オーディオ・ドライバ111は、第一のオーディオ・オブジェクトについての受領された目標奥行き位置をマッピングすることによって決定されたレンダリング奥行き位置に対応する位置から知覚されるように、第一のオーディオ・オブジェクトをレンダリングするよう構成されるレンダラーをなす。
オーディオ・ドライバ111は、空間的オーディオ・プロセッサを含み、所望される位置から発しているように知覚されるようにオーディオをレンダリングさせる好適な駆動信号を生成するよう構成される。厳密な機能およびスピーカー配位は個々の実施形態の選好および要件に依存するであろう。空間的オーディオ・レンダリングのための多くの異なる技法および手法が当業者に知られている。
例として、スピーカー113は典型的な5または7スピーカー・サラウンド・サウンド・セットをなしてもよく、オーディオ・ドライバ111は、(たとえばVBAPを適用することによって)パン・アルゴリズムを使って各サラウンド・サウンド・チャネルへの信号値寄与を決定することによって、オーディオ・オブジェクトを、(再マッピングされた位置に対応する)特定の位置に定位させてもよい。空間的レンダリングのための好適な技法の他の例は、たとえば波面合成、トランスオーラル・オーディオまたはアンビソニックスを含みうる。
図1のシステムは、改善されたユーザー経験を提供してもよく、特に、3Dオーディオビジュアル呈示のためのオーディオとビデオの間の改善された空間的同期を提供してもよい。
いくつかの実施形態では、オーディオおよびビデオ処理は別個であってもよく、個々に実行されてもよい。たとえば、いくつかの実施形態では、オーディオ信号は、オーディオビジュアル・コンテンツ項目の視覚コンテンツに関係した情報を全く含まない別個のオーディオ・データ・ストリームであってもよい。実際、多くの場合、オーディオはオーディオ・コンテンツのみに関係し、ビデオ・データを含まないオーディオ・フォーマットまたは規格に従って提供されうる。
典型的には、オーディオビジュアル・コンテンツは、一つまたは複数のエレメンタリー・ストリームを含むトランスポート・ストリームにおいて提供される。ここで、各エレメンタリー・ストリームは典型的にはビデオ・ストリームまたはオーディオ・ストリームでありうる。実際、典型的には、各エレメンタリー・ストリームは一つの型のオーディオビジュアル・コンテンツ(すなわちビデオまたはオーディオのどちらか)についてだけのデータを含み、典型的には、エレメンタリー・ストリームは単一のオーディオまたはビデオのデコード・プロセスによってデコードできる。このように、各エレメンタリー・ストリームは、トランスポート・ストリームの他のどのエレメンタリー・ストリームも考慮することもなく、それ自身でデコードされることができるフォーマットまたは規格に従って生成される。特に、オーディオ・エレメンタリー・ストリームは、他のどのエレメンタリー・ストリームも考慮することなく、単一のオーディオ・デコーダによってデコードされることができる。同様に、ビデオ・エレメンタリー・ストリームは、他のどのエレメンタリー・ストリームも考慮することなく、単一のビデオ・デコーダによってデコードされることができる。
このように、多くの実際的なシステムでは、各エレメンタリー・ストリームは単一コンテンツ型の別個にデコード可能なオーディオ・ストリームである。各エレメンタリー・ストリームはさらに、典型的には標準化されたフォーマットである特定のオーディオまたはビデオ・エンコード・フォーマットに従ってエンコードされている。このように、各エレメンタリー・ストリームは、単一の標準化フォーマット・デコーダによって個々に処理される。
そのような構成のフォーマットを使ったコンテンツ配送手法の例は、普及している人気のあるMPEG規格である。
いくつかの実施形態では、コンテンツは、上記のような複数のエレメンタリー・ストリームを含むトランスポート・ストリームの形で受領されてもよい。そのような実施形態の一例が、図2に示されている。これは下記の相違点のほかは図1のシステムに対応する。
図2のシステムでは、トランスポート・ストリーム受領器201は、少なくとも一つのエレメンタリー・ビデオ・ストリームおよび一つのエレメンタリー・オーディオ・ストリームを含むトランスポート・ストリームを受領する。エレメンタリー・ビデオ・ストリームはディスプレイ・ドライバ105に供給され、そこで好適なビデオ・デコーダによってデコードされ、デコードされたデータに応答して、3Dディスプレイ103が3D画像を呈示するよう駆動される。エレメンタリー・ビデオ・ストリームのデコードおよび処理は、エレメンタリー・オーディオ・ストリームのデコード、処理およびレンダリングとは完全に独立である。
エレメンタリー・オーディオ・ストリームは、今の例ではオーディオ・デコーダであるオーディオ・プロセッサに供給される。よってオーディオ・プロセッサは、オーディオ・データ・ストリームを受け取る。オーディオ・データ・ストリームは、オーディオ・ストリームによって表わされるオーディオ成分をレンダリングするために必要とされるすべてのデータを含んでいるという意味で完全である。オーディオ・ストリームはさらに、対応する3D画像/ビデオをレンダリングするために必要ないかなるデータも含まない。このように、オーディオ・ストリームのオーディオは3Dディスプレイ103に呈示される3Dビデオに関連付けられてはいるが、このビデオを表わすいかなるビデオ・データも含まない。
オーディオ・プロセッサに提供されるオーディオ・ストリームは少なくとも三つの異なる型のデータを含む。
第一に、三次元画像に関連付けられた一つの、だが典型的には二つ以上のオーディオ・オブジェクトについてのオーディオ・データを含む。このように、オーディオ・オブジェクトは3Dビデオのレンダリングと一緒にレンダリングされて、ビデオによって表わされるシーンのオーディオの記述を提供することが意図されいる。
オーディオ・オブジェクトは、特定のあらかじめ決定されたまたは参照基準位置のために提供されるオーディオ・チャネル成分(たとえば左チャネル、右チャネルおよび中央チャネル)ではなく、典型的には、シーン内の個別の音源に対応する。特に、オーディオ・オブジェクトの一つまたは複数は、3D画像における一つの画像オブジェクトに直接関係していてもよい(たとえば、発話オーディオ・オブジェクトは話者を表わす画像オブジェクトに関連付けられていてもよい)。
よって、オーディオ・ストリームは、第二に、オーディオ・オブジェクトの一つまたは複数についての目標奥行き位置を示す奥行き位置データを含んでいてもよい。オーディオ・オブジェクトについての目標奥行き位置は、3Dディスプレイ103のスクリーン/ディスプレイ面に垂直な軸(典型的にはz軸と称される)に沿った位置に関する。オーディオ・ストリームは、スクリーン面における位置値(すなわち、xおよびy方向に沿った位置値)を含んでいてもよく、典型的にはそれも含む。
所与のオーディオ・オブジェクトについての位置データは、このように、オーディオ・オブジェクトによって表わされる音源の、シーンにおける位置を示してもよい。
すべてのオーディオ・オブジェクトについて位置データが含まれる必要はないことは理解されるであろう。特に、いくつかのオーディオ・オブジェクトは、特定的な位置をもつ音源に対応しないことがあり、むしろ拡散的なまたは広がった源位置をもつことがある。たとえば、いくつかのオーディオ・オブジェクトは、特定の位置からレンダリングされることは意図されない環境音または背景音に対応することがある。
第三に、オーディオ・ストリームは、オーディオが関連付けられている3D画像の呈示のための目標三次元ディスプレイについての奥行きレンダリング属性の指標を含むデータを含んでいる。この特定の例では、オーディオ・ストリームは、これにより、3Dディスプレイ103の奥行きレンダリング属性、特に視覚的レンダリング奥行き範囲を表わすデータを含む。このように、奥行きレンダリング属性は、先述したディスプレイについての視覚的レンダリング奥行き範囲を示す。
このように、前記信号において受領されるオーディオ信号/ストリームは:
・三次元画像に関連付けられた少なくとも第一のオーディオ・オブジェクトについてのオーディオ・データ、
・第一のオーディオ・オブジェクトについての目標奥行き位置を示す奥行き位置データ、および
・三次元画像を呈示するための目標三次元ディスプレイについての奥行きレンダリング属性を含むディスプレイ・データを含む。
図3に示されるように、これにより、図2のオーディオ・プロセッサは、オーディオ・オブジェクトについてのオーディオ・データと、オーディオ・オブジェクトについての位置データと、目標ディスプレイについての奥行きレンダリング属性を示すディスプレイ・データとを含むオーディオ・ストリームを受領する受領器101を有していてもよい。
奥行きレンダリング属性は、ディスプレイ・データからディスプレイ属性判別器107によって決定され、マッピング器109に供給される。マッピング器109はオーディオ・オブジェクト・データおよび位置データをも受領する。マッピング器109は次いで、奥行きレンダリング属性、特に視覚的レンダリング奥行き範囲に基づいて奥行き位置のマッピングを実行する。
図2のシステムでは、このように、奥行きレンダリング属性は、オーディオ・プロセッサとディスプレイまたはビデオ機能との間の直接的な相互作用によって提供されるのではない。むしろ、オーディオ・プロセッサに対する必要とされる唯一の入力はオーディオ・ストリーム自身である。オーディオ・ストリームは好適なオーディオ・フォーマットに従って提供されてもよく、よって該オーディオ・フォーマットに従って動作できる一般的なまたは標準的なオーディオ・プロセッサまたはデコーダであることができる。よって、同じ一般的なオーディオ・プロセッサが、個別の実装のためにカスタマイズされたり特に適応もしくは設計されたりすることを要求することなく、多様な異なる用途およびシステムにおいて使用されることができる。
奥行きレンダリング属性を示すデータは、いくつかの実施形態では、トランスポート・ストリーム受領器201によってオーディオ・ストリーム中に挿入されてもよい。特に、ディスプレイ・ドライバ105が、3Dディスプレイ103の奥行きレンダリング特性を記述する関連データをトランスポート・ストリーム受領器201に供給してもよく、トランスポート・ストリーム受領器201がこのデータをオーディオ・ストリームの適切なフィールドに挿入してもよい。他の実施形態では、トランスポート・ストリーム受領器201(または他の何らかのプロセッサ)がオーディオ信号を修正することなく、奥行きレンダリング属性は別個のローカルなインターフェースを介して直接、オーディオ・プロセッサに提供されてもよい。こうして、多くの実施形態では、受領されたオーディオ・ストリーム(たとえばMPGE-Hエレメンタリー・ストリーム)はオーディオ・プロセッサに直接供給されてもよい。しかしながら、そのような実施形態では、ローカルなインターフェースは、奥行きレンダリング属性の情報を提供するために、たとえばMPEG-Hに対応するフォーマットを使ってもよい。
図2のシステムでは、ディスプレイ属性判別器107は、オーディオ・ストリームからディスプレイ・データを抽出し、ディスプレイ・データに応答して奥行きレンダリング属性を決定するよう構成される。たとえば、目標ディスプレイ(今の個別的な例では3Dディスプレイ103)についての視覚的レンダリング奥行き範囲を記述するオーディオ・ストリームの関連するデータ・フィールドを抽出して、これをマッピング器109に提供してもよい。
マッピング器109は次いで、この情報を使って、入力奥行き位置から出力奥行き位置へのマッピングを決定する。特に、視覚的レンダリング奥行き範囲を使って、入力奥行き位置から出力奥行き位置を計算するための関数を決定する。こうして、マッピング器109は、視覚的レンダリング奥行き範囲に応答してマッピングを適応させるよう構成される。決定されたマッピングは次いで、修正された奥行き位置を決定するためにオーディオ・オブジェクトについての受領された目標奥行き位置に適用される。いくつかの実施形態では、受領された目標奥行き位置がマッピングに先立って(たとえばユーザーによって)修正されてもよいことは理解されるであろう。同様に、いくつかの実施形態では、結果として得られるレンダリング位置は、レンダリングに先立って(たとえばユーザーによって)修正されてもよい。
マッピングが他のパラメータを考慮に入れてもよく、特に、いくつかの実施形態では、たとえばスクリーン面における位置にも(特に、オーディオ・オブジェクトに対応する画像オブジェクトの方位角または仰角位置に)依存してもよいことは理解されるであろう。
多くの実施形態において、マッピングは、受領されたオーディオ・オブジェクトの部分集合に適用されるだけであってもよく、特に、オーディオ・ストリームは、個々のオーディオ・オブジェクトが再マッピングされるべきか否かを記述する情報を含んでいてもよい。再マッピングは典型的には、シーン内のあるオブジェクトに、典型的には3D画像内のある画像オブジェクトに関係したオーディオ・オブジェクトに制限されてもよい。
多くの実施形態において、オーディオ・ストリームは、各オーディオ・オブジェクトについて、それが三次元画像における視覚的オブジェクトに関係するか否かを示すフラグを含んでいてもよい。もしそうであれば、オーディオ・オブジェクトについての奥行き位置は再マッピングされ、そうでなければ、もとの奥行き位置が使われる。
いくつかの実施形態では、フラグはオーディオ・オブジェクトの一つまたはいくつかについて提供されるだけであってもよいが、他の実施形態では、すべてのオーディオ・オブジェクトについてフラグが設けられてもよい。オーディオ・オブジェクトについてのフラグは、そのオーディオ・オブジェクトがスクリーンに関係したオブジェクトであるか否かを示してもよい。スクリーンに関係したオーディオ・オブジェクトとは、それについてのレンダリング・プロセスが三次元ディスプレイの属性に依存するオーディオ・オブジェクトである。このように、前記信号のオーディオ・オブジェクトは、スクリーンに関係したオーディオ・オブジェクトまたはスクリーンに関係しないオーディオ・オブジェクトとして分類または指定されてもよい。スクリーンに関係しているとして指定されたオーディオ・オブジェクトについては、オーディオ・レンダリングは、3D画像をレンダリングするときの3Dディスプレイの一つまたは複数の属性に応答して適応される。このように、これらのオブジェクトについて、オーディオ・レンダリングは、ディスプレイの奥行きレンダリング属性に基づいて適応され、特に、視覚的レンダリング奥行き範囲に基づくマッピングがそのようなオブジェクトに適用される。しかしながら、マッピングは、スクリーンに関係しないオーディオ・オブジェクトであるとして指定されているオーディオ・オブジェクトには適用されない。
こうして、マッピング器109は、フラグに応じてマッピングを実行するよう構成されていてもよい。具体的には、オーディオ・オブジェクトにマッピングを適用することを、フラグがこれが本当にスクリーンに関係したオーディオ・オブジェクトであることを示す場合にのみ、行なうよう構成されていてもよい。このように、フラグがオーディオ・オブジェクトがスクリーンに関係したオブジェクトであることを示す場合には、オーディオ・レンダリングの前に位置はマッピングされる。そうでない場合には、いかなるマッピングも適用されることなく、前記位置が使われてもよい。
フラグは本質的には、多くの実施形態において、オーディオ・オブジェクトが3D画像における可視の何かに関連しているか否かを示してもよい。このフラグをセットすることは、何らかのスクリーンに関係した処理がオーディオ・オブジェクトに適用されることを許容するための最上レベルでの前提条件として使われてもよい。スクリーンに関係した処理は、ディスプレイのサイズに基づく2D再マッピング、ズームのための再マッピングまたはディスプレイの奥行きレンダリング属性に基づく記載される奥行き再マッピングを含む。
フラグは、コンテンツ作成側でセットされ、伝送されるビットストリームの、特に受領されるエレメンタリー・オーディオ・ストリームの一部である。
たとえば、MPEG-Hでは、単一のフラグ(bsIsScreenRelativeObject)が、さまざまな型のスクリーン関係処理についての候補であるオブジェクトと、そのような処理が適用されるべきでないオブジェクトとの間の区別をするために使われることができる。フラグがセットされているオーディオ・オブジェクトに適用されるスクリーンに関係した処理の具体的な型は、その特定の個別のプロセスについての関連するメタデータの存在に依存しうる。具体的には、記載される奥行き再マッピングは、ローカルなディスプレイの奥行きレンダリング属性についての情報が利用可能である場合に、適用されうる。
具体例として、オーディオ・ストリームは、奥行きレンダリング属性情報を含むよう修正されたMPEG-H 3Dオーディオ・ストリームであってもよい。
このように、具体的には、いくつかの実施形態では、本手法は、いわゆる「スクリーン関係」オブジェクトについての方位角および仰角データの再マッピングのためのMPEG-H 3Dオーディオにおける既存の機構の上に構築することによって実装されうる。具体的には、本手法は、いくつかの既存のMPEG-H 3Dオーディオ・メタデータ項目を再利用して実装されてもよい。具体例として:
・オーディオ・オブジェクトが再マッピングのための候補であるかどうかを記述する情報は、MPEG-H 3Dオーディオのオーディオ・オブジェクト・メタデータ(OAM: Audio Object Metadata)における既存のフラグ「isScreenRelativeObject」として実装されてもよい。
・奥行きレンダリング属性を記述する情報は、既存のMPEG-H 3Dオーディオのローカル・セットアップ情報エレメント
LocalScreenSizeInformation( )
の、たとえば新しいフィールドとしての:
ローカルなスクリーン奥行き範囲の全体的な指標をたとえばメートル単位で提供するbsLocalScreenDepthまたは
ローカルなスクリーンの前方および背後の視覚的オブジェクトの奥行き範囲を別個に指定するためのbsLocalScreenDepthFrontおよび/またはbsLocalScreenDepthBack
を用いた拡張として実装されてもよい。
さらに、そのようなMPEG-H 3Dオーディオの文脈に基づく例では、マッピング関数によって変換される奥行き位置(オーディオ・オブジェクト距離パラメータ)は、既存のオーディオ・オブジェクト位置データ・フィールドposition_radius[]に対応してもよい。
奥行きレンダリング属性の記述は、該情報がオーディオ・ストリームに含まれる実施形態および該情報が代替的な直接ローカル・インターフェースを介して提供される実施形態の両方においてこのフォーマットに従いうることは理解されるであろう。
いくつかの実施形態では、オーディオ・ストリームは、参照ディスプレイと称される、三次元画像のための第二のディスプレイについての奥行きレンダリング属性の指標をも含んでいてもよい。参照ディスプレイはたとえば、3D画像/ビデオの製作のために使われた特定のディスプレイであってもよく、あるいはたとえば3D画像/ビデオのレンダリングのために使われると予期されうる公称または標準ディスプレイなどであってもよい。
ディスプレイ属性判別器107は、この参照レンダリング属性を抽出して、それに依存してマッピングを適応させてもよい。
こうして、いくつかの実施形態では、マッピングは、3Dディスプレイ103の奥行きレンダリング属性および受領された3D画像についての参照奥行きレンダリング属性の両方に依存してもよい。他の実施形態では、マッピングは、3Dディスプレイ103の奥行きレンダリング属性のみを考慮に入れてもよい。そのような手法は、もとのプロダクション・スクリーンが2Dスクリーンであるシナリオについて特に好適でありうる。
特に、オーディオ・ストリームは、コンテンツの製作の間に使われたスクリーンの距離/奥行き範囲の随意選択的な指標を含んでいてもよい。該随意選択的な指標はたとえば、明示的に伝えられてもよく、あるいはデフォルト参照距離/奥行き範囲を伝えるフラグとして伝えられてもよい。該随意選択的な指標は、たとえば、たとえばメートル単位でのプロダクション・スクリーン奥行き範囲の全体的な指標であってもよく、あるいはプロダクション・スクリーンの前方および/または背後における視覚的オブジェクトの奥行き範囲を別個に指定してもよい。
具体例として、該指標は、既存のMPEG-H 3Dオーディオのメタデータ・オーディオ・エレメント
mae_ProductionScreenSizeData( )
の、たとえば新しいフィールドとしての:
デフォルトの参照スクリーン奥行きからのプロダクション・ディスプレイの奥行き差が伝えられることを伝えるhasNonStandardScreenDepth、
プロダクション・ディスプレイ奥行き範囲の全体的な指標をたとえばメートル単位で提供するbsScreenDepthまたは
プロダクション・ディスプレイの前方および背後における視覚的オブジェクトの奥行き範囲を別個に指定するためのbsScreenDepthFrontおよび/またはbsScreenDepthBack
を用いた拡張として実装されてもよい。
このように、多くの実施形態では、
・三次元画像の画像オブジェクトについてのオーディオを表わす少なくとも第一のオーディオ・オブジェクトについてのオーディオ・データと、
・第一のオーディオ・オブジェクトについての目標奥行き位置を示す奥行き位置データと、
・少なくとも一つのオーディオ・オブジェクト(可能性としては第一のオーディオ・オブジェクト)についてのフラグであって、前記少なくとも一つのオーディオ・オブジェクトの位置が三次元画像における可視のオブジェクトに対応するか否かを示すフラグと、
・三次元画像のための参照三次元ディスプレイのための奥行きレンダリング属性を含むディスプレイ・データであって、前記奥行きレンダリング属性は三次元ディスプレイの視覚的レンダリング奥行き範囲を示す、ディスプレイ・データとを含む
オーディオ信号が使われてもよい。
たとえば、MPEG-Hオーディオ・ビットストリームは、オブジェクトがスクリーンに関係しているかどうかを示すフラグと、参照スクリーンを記述するメタデータとを含んでいてもよい。これらの特徴は、コンテンツ作成側で定義されるメタデータ要素であってもよい。
しかしながら、オーディオ・ストリームが目標三次元ディスプレイ(3Dディスプレイ103)を記述するメタデータをも、たとえばトランスポート・ストリーム受領器201によって挿入されて含むことは可能ではあるが、この情報は典型的には、多くの実施形態において、オーディオ・ストリームの一部としてではなく、別個に、外部的に、オーディオ・プロセッサに提供される。特に、図1に示されるように、該データは、オーディオ・ストリームに含まれるのではなく、レンダリング・システムの他の要素から直接提供されてもよい。
このように、ローカルなセットアップを記述するメタデータ、たとえばローカル・スクリーン・サイズ、ユーザー定義されるズーム領域、ディスプレイ奥行きレンダリング属性などについての情報は、オーディオ・プロセス(これは特にMPEG-Hデコーダであってもよい)に別個のローカル・インターフェースを介して直接供給されてもよい。ただし、ローカル・インターフェースについてのシンタックスおよびこのローカル・インターフェースで使われるメタデータ要素は、標準化された手法に従ってもよく、それにより異なるエンティティの間での連係動作を容易にする。
使用される特定のマッピングおよびこれが奥行きレンダリング属性に依存する仕方は、個別的な選好および個々の用途の要求を反映するために、異なる実施形態の間で変わってもよいことは理解されるであろう。
多くの実施形態では、マッピングは、参照ディスプレイについてのレンダリング奥行き範囲の、目標三次元ディスプレイについてのレンダリング奥行き範囲への単調なマッピングであってもよい。実際、マッピングは、参照ディスプレイ奥行き範囲と3Dディスプレイ103の奥行き範囲との間の、すなわち信号伝達されるプロダクション・ディスプレイ奥行き範囲とローカル・スクリーン奥行き範囲との間の比に依存する線形関数であるよう適応されてもよい。
たとえば、オーディオ・ストリームが、3D画像がスクリーン前方の奥行き範囲が3メートルまであるディスプレイを使って生成されたことを示す一方、奥行きレンダリング属性は、3Dディスプレイ103についての奥行き範囲がたとえばたった1.5メートルであることを示す場合、マッピングは、z位置からスクリーンまでの距離の1.5/3=0.5倍の乗算に対応するよう調整されてもよい。その代わりに奥行きレンダリング属性が3Dディスプレイ103の奥行き範囲がたとえば2メートルであることを示す場合には、マッピング因子は2.3=0.67となるであろう。
このように、多くの実施形態において、奥行きレンダリング属性は、3Dディスプレイ103によって提供されることのできる奥行きレンダリング範囲の指標であってもよい。これは、特に有利なユーザー経験を提供でき、特に、多くのシナリオにおいて、呈示されるオーディオとビデオの間の改善された空間的同期を提供しうる。
一例として、オーディオ・オブジェクトが常に、ローカルなスクリーンの視覚的奥行き範囲の限界内にレンダリングされるよう、マッピングはオーディオ・オブジェクト奥行き値を制限することを含んでいてもよい。ここで、この範囲外のもとの奥行き位置をもつオーディオ・オブジェクトは、この範囲の限界においてレンダリングされる。
多くの実施形態において、マッピングは有利には、ディスプレイの奥行きに関して非対称的である。マッピングは、ディスプレイの前方における位置とディスプレイの背後の位置についてで異なっていてもよい。すなわち、スクリーンの前方と背後におけるマッピング関数は異なっていてもよい。
発明者は、非対称的なマッピングが、改善されたユーザー経験および知覚される、より近い空間的同期を提供しうることを認識した。これは、スクリーンの前方における奥行き範囲のほうが典型的には、実質的に、より知覚的に敏感であること、および、ディスプレイは典型的には、オブジェクトがスクリーンの前方にあるときは、スクリーンの背後にあるときと比べて、知覚される劣化なしに大きな奥行き偏差をレンダリングすることに効率的ではないことを反映しうる。
多くの実施形態では、奥行きレンダリング属性は、奥行きレンダリング範囲であってもよく、これは、スクリーンの前方のオブジェクトについてとスクリーンの背後のオブジェクトについてとで異なっていてもよい。たとえば、奥行きレンダリング属性は、スクリーンの前方の利用可能な奥行きレンダリング範囲はたとえば3メートルであり、スクリーンの背後ではたとえば20メートルであることを示してもよい。
すると、マッピングは、スクリーンの前方のオブジェクトについて、スクリーンの背後のオブジェクトについてとは異なるマッピングを決定してもよい。たとえば、スクリーンの前方と背後のオブジェクトについて、個別のマッピング因子が決定されてもよい。
多くの実施形態において、マッピングは、ディスプレイの前方での奥行き値を修正するだけであって、ディスプレイ/スクリーン面の背後の奥行き値は修正しないよう構成されてもよい。このように、いくつかの実施形態では、マッピングは、スクリーンの前方のオブジェクトの奥行き値を変えるだけであってもよい。これは、対応する非対称な奥行きマッピングが3Dビデオ画像に適用されることに対応してもよい。そのような非対称的なマッピングを3Dビデオ画像に適用する理由は、視覚的な不快および疲労の望まれない効果が、そのような画像オブジェクトの負の視差属性(両眼が「交差」することを強いる)のために、ディスプレイの前方の画像オブジェクトについて主として起こるということでありうる。
しかしながら、非対称的なマッピングは、オーディオ・オブジェクトだけに適用されてもよい。これは、空間的同期が最も決定的になるスクリーンの前方においてオーディオ・オブジェクトと対応する画像オブジェクトとの間の完全な空間的同期をする一方、ディスプレイの背後では、たとえ対応する画像オブジェクトがディスプレイ面により近くに再マッピングされるとしても、「隔たった」オーディオ・オブジェクトの可能性を維持することを許容する。
多くの実施形態では、マッピングは非線形マッピングであってもよい。
たとえば、ディスプレイの物理的な奥行き範囲を超える目標距離をもつオーディオ・オブジェクトは、ディスプレイの奥行き範囲内のものとは異なる扱いをされてもよい。たとえば、前者のカテゴリーのオブジェクトについての奥行き位置は、ディスプレイの奥行き範囲の限界までクリッピングされてもよい。一方、ディスプレイの奥行き範囲内のオーディオ・オブジェクトの奥行き位置は変更されないままであってもよい。もう一つの例として、非線形圧縮曲線が、奥行き位置に適用されて、ディスプレイから(前方または背後に)より離れた奥行き位置が、ディスプレイにより近いオブジェクトの奥行き位置よりも、ディスプレイ面に向けてより重度に圧縮されるようにされてもよい。そのような非線形な圧縮曲線の例は、ディスプレイに近いオーディオ・オブジェクトの奥行き位置には圧縮を適用せず、スクリーンからの増大する距離におけるオーディオ・オブジェクトについては、奥行き位置を、ディスプレイ奥行き範囲の限界に向けて漸近的に増大させる曲線であってもよい。
ここでもまた、この非線形マッピングは、3D画像に適用される対応する非線形マッピングに対応してもよい。
いくつかの実施形態では、マッピングは知覚的に重み付けされたマッピングである。特に、いくつかの実施形態では、マッピングは、人間の奥行き視覚のための知覚モデルに基づいて決定されてもよい。モデルは、観察者の奥行き知覚がどのように3Dディスプレイ103の奥行きレンダリング属性に依存するかを反映してもよい。そのような手法は、改善されたユーザー経験を、特に、より密接な知覚される空間的同期を提供しうる。
特に3Dテレビジョンのような多くの3Dディスプレイは、受領された2Dビデオから3Dビデオ・コンテンツを生成する機能を有する。実際、2Dから3Dへのビデオ変換プロセスを実行するための多くの異なるアルゴリズムおよび技法が当業者には知られている。たとえば、異なる画像オブジェクトの相対的な動きおよび方向視差〔パララックス〕を考慮する技法が知られている。
いくつかの実施形態では、システムは、二次元画像から三次元画像を生成するための、すなわち2Dから3Dの変換を実行するための変換器を有していてもよい。変換は、たとえば異なる画像オブジェクトまたはピクセルについての奥行き値を含む奥行きマップを生成することを含む。実際、変換は、変換の一部として推定される奥行き値を反映する奥行き値を生成する既存のアルゴリズムを使ってもよい。
いくつかの実施形態では、ディスプレイ属性判別器107は、そのような奥行きマップの値に応答して奥行きレンダリング属性を判別するよう構成されていてもよい。具体例として、ディスプレイ属性判別器107は、奥行きレンダリング属性を、奥行きマップの奥行き範囲として判別してもよい。すなわち、これを、最高値から最低値までの範囲として決定してもよい。奥行き値は、いくつかの実施形態では、相対値として直接使われてもよく、あるいは、ディスプレイの既知の物理的なレンダリング特性を考慮に入れる変換によって具体的な物理的距離に変換されてもよい。
奥行きマップ情報は、たとえば、マッピングの限界値を、奥行きマップの極端な値に対応するよう設定するために使われてもよい。
この手法は、他の目的のためにすでに使われている何らかの機能を再利用しつつ、改善された空間的同期が達成できる効率的なシステムを提供しうる。特に、この手法は、ディスプレイにおける奥行きマップのローカルな生成が典型的にはディスプレイの奥行きレンダリング属性を考慮に入れること、および、そのため結果として得られる奥行きマップを考慮することが、サウンド・オブジェクトのz位置のマッピングを制御する効率的な仕方を提供しうることを活用しうる。
いくつかの実施形態では、オーディオビジュアル・レンダリング・システムは、3D画像のための機能を有する。あるいはより一般には、3Dシーンそのもの(3D画像によって表わされるもの以外のこれについての情報が利用可能である場合)がズームされるべく呈示される、すなわち3D画像全体を必ず呈示するのではない場合、画像の部分集合が選択されて3Dディスプレイ103で呈示されてもよい。こうして、画像の部分集合のみが、3Dディスプレイ103に呈示されるときに可視となるよう選択される。
図4は、そのようなシステムの例を示している。この例は図2のシステムに対応するが、追加的に、3D画像(単数または複数)の部分集合を、3Dディスプレイ103の全表示領域での呈示のために選択するよう構成されている選択器401を含んでいる。選択器401は特に、たとえばユーザー・インターフェース403を介して提供されてもよいユーザー入力に応答して部分集合を選択するよう構成されてもよい。たとえば、ユーザー・インターフェース403は、ユーザーが呈示されるフル3D画像のあらかじめ決定されたある数の部分領域または体積のうちの一つを選択できるようにするためにユーザーとのインターフェースとなってもよい。
選択器401は、ディスプレイ・ドライバ105と結合される。ディスプレイ・ドライバ105は部分集合選択を供給され、応答して、3D画像の対応する部分を選択し、これを3Dディスプレイ103の利用可能な全スクリーン領域で呈示する。
選択器401はさらに、3D画像についての奥行き情報(たとえば奥行きマップ)を受け取り、呈示のために選択されている3D特定の部分集合について、奥行き属性を判別するよう構成されている。特に、選択器401は、特定の選択された部分集合がまたがる奥行き範囲を表現してもよい。たとえば、全範囲が[0,1023]の範囲内のz値によって与えられるが選択された部分集合内のz値のみだとたとえば[612,784]の範囲内である場合、奥行き属性はこの範囲として決定されてもよい。次いで、この範囲は、マッピング器109によって、3Dディスプレイ103の奥行きレンダリング範囲の情報を使って、実際の物理的な範囲に変換されてもよい。
システムにおいて、マッピング器109は、部分集合についての奥行き属性に応答してマッピングを適応させるよう構成される。たとえば、選択された部分集合についてのレンダリング範囲が3Dディスプレイ103についての利用可能な奥行きレンダリング範囲全体にマッピングされるよう、オーディオ・オブジェクト位置マッピングを適応させてもよい。そのような手法は、こうして、画像のズームがxおよびy方向におけるオブジェクトのサイズに影響するのみならず画像オブジェクトの奥行き位置にも影響することを反映しうる。よって、この手法は、たとえ画像ズームがサポートされていてもよりよく維持されることのできる、改善された空間的同期を提供しうる。
この手法は、重要性および関心が増しつつある多くの用途において実質的に改善された性能を提供しうる。たとえば、ユーザー対話性は多くの仮想現実感および拡張現実感のマルチメディア・アプリケーションにおいてますます重要な要素である。そのようなアプリケーションにおいて、ユーザーは仮想または拡張オーディオビジュアル・シーンを通じてナビゲートすることができ、シーンを能動的に操作することもできる。ユーザーの視点の回転および並進のほかに、そのような操作は、特定の関心領域へのズームインも含んでいてもよい。
そのようなズーム対話性の関係した例は、たとえばMPEG-DASHの「Spatial Relationship Descriptor [空間関係記述子] (SRD)」特徴において、またMPEG-H 3Dオーディオ(3DA)において、現在見出すことができる。
SRDでは、高解像度の視覚的シーン(たとえばサッカー・ゲームの映像)が多数のタイルから構成され、ユーザーはシーンの一部(たとえばフィールドのうち現在ボールがある部分)にズームインすることができる。この場合、選択されたズーム領域(タイル)は、スクリーン全体を満たすように「拡大」される。SRDでは、視覚的シーンの空間的領域(タイル)とオーディオ・オブジェクトとの間の空間的関係を指定する可能性もある。ユーザーが選択された領域にズームインするとき、これらの空間的関係は、ズームされた視点を反映するよう、オーディオ再生について方位角および仰角を適応させるために使用されてもよい。
3DAでは、ユーザーが、ユーザーがスクリーン上で見ているものに関係するオーディオ・オブジェクトを含むオーディオビジュアル・シーンにズームインできるようにする同様の機構が提供されている。ズーム領域を選択することによって、選択されたビデオ領域はスクリーン全体を満たすよう拡張され、ズームされた領域に含まれるオーディオ・オブジェクトの位置が、やはりスクリーン領域を満たすよう再マッピングされる。すなわち、xおよびy位置が変更されうる。
しかしながら、これらの手法は、低計算量の2Dアプリケーションに基づき、そのために開発されており、奥行きズームを考えていない。奥行きズームは、(ディスプレイ・サイズに依存するだけの伝統的な2Dズームとは対照的に)個々の3Dディスプレイの特定の特性に強く依存するので、特に難しい。だが、図4のシステムは、高度の空間的同期を維持しつつ、そのような視覚的な奥行きズームをサポートしうる。
実際、図1のマッピング器109は、所与のディスプレイ・サイズをもつ三次元ディスプレイについての第一の視覚的奥行きレンダリング範囲を示す視覚的レンダリング奥行き範囲についてと、同じディスプレイ・サイズについての第二の異なる視覚的奥行きレンダリング範囲を示す視覚的レンダリング奥行き範囲についてとで、位置を、異なるようにマッピングするよう構成される。また、図1のマッピング器109は、異なるディスプレイ・サイズについて与えられる視覚的レンダリング奥行き範囲の同じ指標については、同じマッピングを適用するよう構成されていてもよい。
このように、本手法は、オーディオの単にディスプレイ・サイズに依存する調整ではなく、マッピングを、奥行きをレンダリングするときのディスプレイの固有の機能に適合させることを提供する。そのようなレンダリング機能は、部分的にはディスプレイ・サイズに依存していてもよいが、他の多くのパラメータおよび属性に依存してもよい。このように、異なるサイズのディスプレイが同じ奥行きレンダリング機能をもつことがあり、あるいは同じサイズのディスプレイが異なる奥行きレンダリング機能をもつことがある。このことが、マッピング器109のマッピングによって反映されてもよく、こうして、レンダリングされるオーディオの、特定のディスプレイ特性への改善された適応が達成できる。
多くの実施形態において、マッピング器109は、マッピングを、選択された部分集合において表わされている奥行き範囲の、目標三次元ディスプレイについての、すなわち3Dディスプレイ103についてのレンダリング奥行き範囲への単調マッピングであるよう適合させるよう構成されてもよい。先述したように、奥行き範囲は選択器401によって決定されてもよく、マッピング器はこれを3Dディスプレイ103の奥行きレンダリング属性に関係付けて、オーディオ・オブジェクトのマッピングを、部分集合についての奥行き範囲の、3Dディスプレイ103の奥行き範囲全体へのマッピングに対応するよう修正してもよい。いくつかの実施形態では、マッピングは(前記部分集合および3Dディスプレイ103の前記レンダリング範囲両方の)前記範囲の部分集合に適用されるだけであってもよいことは理解されるであろう。たとえば、スクリーンの前方のオブジェクトについての値のみがマッピングされてもよい。
マッピングは具体的には、選択された部分集合内の位置に対応するオーディオ・オブジェクトに適用されてもよい。こうして、選択された視覚的部分集合に関連付けられたオーディオ源が、ズームが適用されるときのこれらの位置のレンダリング位置を反映する位置に再マッピングされてもよい。具体的には、オーディオ・オブジェクトが、選択された部分集合内である特定の画像オブジェクトにリンクされている場合、そのオーディオ・オブジェクトは、ズームされるビューがレンダリングされるときにこの画像オブジェクトの位置に対応する位置にマッピングされてもよい。
しかしながら、多くの実施形態では、マッピングは代替的または追加的に、選択された部分集合の外部である位置をもつオーディオ・オブジェクトに適用されてもよい。こうして、マッピングは、可視の選択に対応するオーディオ源に適用されるのみならず、他のオーディオ・オブジェクトにも適用される。
そのような実施形態では、ズームされる部分集合の外部に位置する、あるいはビデオに関係していると示されていないオーディオ・オブジェクトが、そのレンダリングされる位置がズームされる部分集合に対して適応されるよう、レンダリングされてもよい。たとえば、ズームされていないシーンにおいてユーザーの視点と選択された部分集合との間にあるオブジェクトが、ズームされたレンダリングにおいて、ユーザーの背後にあるとしてレンダリングされてもよい。
いくつかの実施形態では、マッピングは代替的または追加的に、ビデオにおいて特定の属性にリンクされていないオーディオ・オブジェクト、たとえば環境音または背景音に適用されてもよい。しかしながら、多くの実施形態では、オーディオ環境成分(残響、群衆ノイズなど)は、適応されずに、すなわちズームされていないシーンと同じに、レンダリングされることになろう。ユーザーがズームされた領域の回転もする場合には、回転だけはする可能性がある。
上記の記述は明確のために本発明の実施形態を種々の機能的回路、ユニットおよびプロセッサに言及しつつ記述していることが理解されるであろう。しかしながら、本発明を損なうことなく、異なる機能的回路、ユニットまたはプロセッサの間の機能のいかなる好適な配分が使われてもよいことは明白であろう。たとえば、別個のプロセッサまたはコントローラによって実行されると例示されている機能が同じプロセッサまたはコントローラによって実行されてもよい。よって、特定の機能的ユニットまたは回路は、厳密な論理的または物理的な構造または編成を示すのではなく、記述される機能を与える好適な手段への言及としてのみ見られるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの任意の組み合わせを含むいかなる好適な形で実装されることもできる。本発明は任意的に、一つまたは複数のデータ・プロセッサおよび/またはデジタル信号プロセッサ上で走るコンピュータ・ソフトウェアとして少なくとも部分的に実装されてもよい。本発明のある実施形態の要素およびコンポーネントはいかなる好適な仕方で物理的、機能的および論理的に実装されてもよい。実際、機能は単一のユニットにおいて、複数のユニットにおいてまたは他の機能ユニットの一部として実装されてもよい。よって、本発明は、単一のユニットにおいて実装されてもよく、あるいは異なるユニット、回路およびプロセッサの間で物理的および機能的に分配されてもよい。
本発明はいくつかの実施形態との関連で記述されたが、本稿に記載される個別的な形に限定されることは意図されていない。むしろ、本発明の範囲は、付属の請求項によってのみ限定される。さらに、ある特徴が特定の実施形態との関連で記述されているように見えることがありうるが、当業者は、記述される実施形態のさまざまな特徴が本発明に基づいて組み合わされうることを認識するであろう。請求項においては、有する/含むの用語は、他の要素や段階の存在を排除するものではない。
さらに、個々に挙げられていても、複数の手段、要素、回路または方法段階はたとえば単一の回路、ユニットまたはプロセッサによって実装されてもよい。さらに、個々の特徴は異なる請求項に含まれることがあるが、これらは可能性としては有利に組み合わされてもよく、異なる請求項に含まれることは、特徴の組み合わせが実現可能でないおよび/または有利でないことを含意するものではない。また、ある特徴があるカテゴリーの請求項に含まれることは、このカテゴリーへの限定を含意するものではなく、もしろ、その特徴が他の請求項カテゴリーにも適宜等しく適用可能であることを示す。さらに、請求項における特徴の順序は、特徴が機能させられなければならないいかなる特定の順序を含意するものでもなく、特に、方法請求項における個々の段階の順序は、それらの段階がその順序で実行されなければならないことを含意するものではない。むしろ、それらの段階はいかなる好適な順序で実行されてもよい。さらに、単数形での言及は複数を排除しない。「ある」「第一の」「第二の」などの言及は複数を排除するものではない。請求項に参照符号があったとしても、単に明確にする例として与えられているのであって、いかなる仕方であれ請求項の範囲を限定するものと解釈してはならない。

Claims (13)

  1. 三次元画像によって視覚的に表現されるシーンにおけるオーディオ源を表現する少なくとも第一のオーディオ・オブジェクトについてのオーディオ・データを含むオーディオ信号を受領する受領器を有するオーディオ信号処理装置であって、前記オーディオ信号はさらに、前記第一のオーディオ・オブジェクトについての第一の奥行き位置を示す奥行き位置データを含み、
    当該オーディオ信号処理装置がさらに、
    前記三次元画像を呈示するための第一の三次元ディスプレイについての奥行きレンダリング属性を判別するための判別器であって、前記奥行きレンダリング属性は前記第一の三次元ディスプレイの視覚的レンダリング奥行き範囲を示す、判別器と;
    前記第一の奥行き位置を前記第一のオーディオ・オブジェクトについてのレンダリング奥行き位置にマッピングするためのマッピング器であって、マッピングは前記視覚的レンダリング奥行き範囲に依存する、マッピング器とを有し、
    前記マッピング器は、第一のディスプレイ・サイズを有する前記第一の三次元ディスプレイについての第一の視覚的レンダリング奥行き範囲を示す視覚的レンダリング奥行き範囲と、前記第一のディスプレイ・サイズを有する前記第一の三次元ディスプレイについての第二の視覚的レンダリング奥行き範囲を示す視覚的レンダリング奥行き範囲とについて、前記第一の奥行き位置を異なってマッピングするよう構成されており、前記第一の視覚的レンダリング奥行き範囲は前記第二の視覚的レンダリング奥行き範囲とは異なる、ことを特徴とする、
    オーディオ信号処理装置。
  2. 前記オーディオ信号はさらに、前記三次元画像のための第二のディスプレイについての奥行きレンダリング属性の指標を含み、前記マッピング器は、前記第一の三次元ディスプレイの視覚的レンダリング奥行き範囲と前記第二のディスプレイについての奥行きレンダリング属性が示す視覚的レンダリング奥行き範囲との比に応答して前記マッピングを適応させるよう構成される、請求項1記載のオーディオ信号処理装置。
  3. 前記マッピングは、前記第二のディスプレイについての視覚的レンダリング奥行き範囲の、前記第一の三次元ディスプレイについての視覚的レンダリング奥行き範囲への単調マッピングである、請求項2記載のオーディオ信号処理装置。
  4. 前記マッピングはスクリーン奥行きレベルに関して非対称的であり、該スクリーン奥行きレベルは左目と右目のビューの間のピクセル位置の視差ゼロに対応する、請求項1記載のオーディオ信号処理装置。
  5. 前記マッピングは非線形マッピングである、請求項1記載のオーディオ信号処理装置。
  6. 三次元画像によって視覚的に表現されるシーンにおけるオーディオ源を表現する少なくとも第一のオーディオ・オブジェクトについてのオーディオ・データを含むオーディオ信号を受領する受領器を有するオーディオ信号処理装置であって、前記オーディオ信号はさらに、前記第一のオーディオ・オブジェクトについての第一の奥行き位置を示す奥行き位置データを含み、
    当該オーディオ信号処理装置がさらに、
    前記三次元画像を呈示するための第一の三次元ディスプレイについての奥行きレンダリング属性を判別するための判別器であって、前記奥行きレンダリング属性は前記第一の三次元ディスプレイの視覚的レンダリング奥行き範囲を示す、判別器と;
    前記第一の奥行き位置を前記第一のオーディオ・オブジェクトについてのレンダリング奥行き位置にマッピングするためのマッピング器であって、マッピングは前記視覚的レンダリング奥行き範囲に依存する、マッピング器とを有し、
    前記オーディオ信号は、前記第一のオーディオ・オブジェクトについてのフラグであって、該オーディオ・オブジェクトがスクリーンに関係したオーディオ・オブジェクトであるか否かを示すフラグを含み、スクリーンに関係したオーディオ・オブジェクトとは、それについてのレンダリング・プロセスが前記第一の三次元ディスプレイの視覚的レンダリング属性に依存するオーディオ・オブジェクトであり、前記マッピング器は、このフラグが前記少なくとも一つのオーディオ・オブジェクトがスクリーンに関係したオーディオ・オブジェクトであることを示す場合にのみ、前記第一のオーディオ・オブジェクトの前記第一の奥行き位置に前記マッピングを適用するよう構成されている、
    ことを特徴とする、オーディオ信号処理装置。
  7. 三次元画像によって視覚的に表現されるシーンにおけるオーディオ源を表現する少なくとも第一のオーディオ・オブジェクトについてのオーディオ・データを含むオーディオ信号を受領する受領器を有するオーディオ信号処理装置であって、前記オーディオ信号はさらに、前記第一のオーディオ・オブジェクトについての第一の奥行き位置を示す奥行き位置データを含み、
    当該オーディオ信号処理装置がさらに、
    前記三次元画像を呈示するための第一の三次元ディスプレイについての奥行きレンダリング属性を判別するための判別器であって、前記奥行きレンダリング属性は前記第一の三次元ディスプレイの視覚的レンダリング奥行き範囲を示す、判別器と;
    前記第一の奥行き位置を前記第一のオーディオ・オブジェクトについてのレンダリング奥行き位置にマッピングするためのマッピング器であって、マッピングは前記視覚的レンダリング奥行き範囲に依存する、マッピング器とを有し、
    複数の二次元画像から前記三次元画像を生成するための変換器をさらに有しており、該三次元画像の生成は、前記三次元画像についての奥行きマップを決定することを含み、前記判別器は、該奥行きマップに応答して、前記奥行きレンダリング属性を決定するよう構成される、
    ことを特徴とする、オーディオ信号処理装置。
  8. 三次元画像によって視覚的に表現されるシーンにおけるオーディオ源を表現する少なくとも第一のオーディオ・オブジェクトについてのオーディオ・データを含むオーディオ信号を受領する受領器を有するオーディオ信号処理装置であって、前記オーディオ信号はさらに、前記第一のオーディオ・オブジェクトについての第一の奥行き位置を示す奥行き位置データを含み、
    当該オーディオ信号処理装置がさらに、
    前記三次元画像を呈示するための第一の三次元ディスプレイについての奥行きレンダリング属性を判別するための判別器であって、前記奥行きレンダリング属性は前記第一の三次元ディスプレイの視覚的レンダリング奥行き範囲を示す、判別器と;
    前記第一の奥行き位置を前記第一のオーディオ・オブジェクトについてのレンダリング奥行き位置にマッピングするためのマッピング器であって、マッピングは前記視覚的レンダリング奥行き範囲に依存する、マッピング器とを有し、
    当該オーディオ信号処理装置はさらに、前記奥行きレンダリング属性を示すディスプレイ・データを有し、前記判別器は、該ディスプレイ・データを抽出し、該ディスプレイ・データに応答して前記奥行きレンダリング属性を決定するよう構成される、
    ことを特徴とする、オーディオ信号処理装置。
  9. 三次元画像によって視覚的に表現されるシーンにおけるオーディオ源を表現する少なくとも第一のオーディオ・オブジェクトについてのオーディオ・データを含むオーディオ信号を受領する受領器を有するオーディオ信号処理装置であって、前記オーディオ信号はさらに、前記第一のオーディオ・オブジェクトについての第一の奥行き位置を示す奥行き位置データを含み、
    当該オーディオ信号処理装置がさらに、
    前記三次元画像を呈示するための第一の三次元ディスプレイについての奥行きレンダリング属性を判別するための判別器であって、前記奥行きレンダリング属性は前記第一の三次元ディスプレイの視覚的レンダリング奥行き範囲を示す、判別器と;
    前記第一の奥行き位置を前記第一のオーディオ・オブジェクトについてのレンダリング奥行き位置にマッピングするためのマッピング器であって、マッピングは前記視覚的レンダリング奥行き範囲に依存する、マッピング器とを有し、
    前記第一の三次元ディスプレイの全表示領域での呈示のために、前記三次元画像によって表現される三次元シーンの部分集合を選択するよう構成された選択器をさらに有しており、前記マッピング器は、前記部分集合の奥行き属性に応答して、前記マッピングを適応させるよう構成される、
    ことを特徴とする、オーディオ信号処理装置。
  10. 前記マッピング器は、前記マッピングを、前記部分集合の視覚的レンダリング奥行き範囲の、前記第一の三次元ディスプレイについての視覚的レンダリング奥行き範囲への単調マッピングとなるよう適応させるよう構成される、請求項記載のオーディオ信号処理装置。
  11. 前記第一のオーディオ・オブジェクトについての前記第一の奥行き位置は前記部分集合の外部である、請求項10記載のオーディオ信号処理装置。
  12. オーディオ信号を処理する方法であって:
    三次元画像によって視覚的に表現されるシーンにおけるオーディオ源を表現する少なくとも第一のオーディオ・オブジェクトについてのオーディオ・データを含むオーディオ信号を受領する段階を含み、前記オーディオ信号はさらに、前記第一のオーディオ・オブジェクトについての第一の奥行き位置を示す奥行き位置データを含み、
    当該方法がさらに、
    前記三次元画像を呈示するための第一の三次元ディスプレイについての奥行きレンダリング属性を判別する段階であって、前記奥行きレンダリング属性は前記第一の三次元ディスプレイの視覚的レンダリング奥行き範囲を示す、段階と;
    前記第一の奥行き位置を前記第一のオーディオ・オブジェクトについてのレンダリング奥行き位置にマッピングする段階であって、マッピングは前記視覚的レンダリング奥行き範囲に依存する、段階とを含み、
    前記オーディオ信号は、前記第一のオーディオ・オブジェクトについてのフラグであって、該オーディオ・オブジェクトがスクリーンに関係したオーディオ・オブジェクトであるか否かを示すフラグを含み、スクリーンに関係したオーディオ・オブジェクトとは、それについてのレンダリング・プロセスが前記第一の三次元ディスプレイの視覚的レンダリング属性に依存するオーディオ・オブジェクトであり、前記マッピングする段階は、このフラグが前記少なくとも一つのオーディオ・オブジェクトがスクリーンに関係したオーディオ・オブジェクトであることを示す場合にのみ、前記第一のオーディオ・オブジェクトの前記第一の奥行き位置に前記マッピングを適用することを含む、
    ことを特徴とする、
    方法。
  13. コンピュータ上で実行されたときに請求項12記載のすべての段階を実行するよう適応されたコンピュータ・プログラム・コード手段を有するコンピュータ・プログラム。
JP2018511228A 2015-09-04 2016-08-30 ビデオ画像に関連付けられているオーディオ信号を処理する方法および装置 Active JP6622388B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15183790.3 2015-09-04
EP15183790 2015-09-04
PCT/EP2016/070343 WO2017037032A1 (en) 2015-09-04 2016-08-30 Method and apparatus for processing an audio signal associated with a video image

Publications (3)

Publication Number Publication Date
JP2018530952A JP2018530952A (ja) 2018-10-18
JP2018530952A5 JP2018530952A5 (ja) 2019-03-14
JP6622388B2 true JP6622388B2 (ja) 2019-12-18

Family

ID=54106170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018511228A Active JP6622388B2 (ja) 2015-09-04 2016-08-30 ビデオ画像に関連付けられているオーディオ信号を処理する方法および装置

Country Status (6)

Country Link
US (1) US10575112B2 (ja)
EP (1) EP3345410B1 (ja)
JP (1) JP6622388B2 (ja)
CN (1) CN107925840B (ja)
TR (1) TR201910988T4 (ja)
WO (1) WO2017037032A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112019020887A2 (pt) * 2017-04-13 2020-04-28 Sony Corp aparelho e método de processamento de sinal, e, programa.
GB201800918D0 (en) 2018-01-19 2018-03-07 Nokia Technologies Oy Associated spatial audio playback
EP3595336A1 (en) * 2018-07-09 2020-01-15 Koninklijke Philips N.V. Audio apparatus and method of operation therefor
EP3623913A1 (en) * 2018-09-13 2020-03-18 Koninklijke Philips N.V. Apparatus and method for processing audiovisual data
KR102458962B1 (ko) * 2018-10-02 2022-10-26 한국전자통신연구원 가상 현실에서 음향 확대 효과 적용을 위한 음향 신호 제어 방법 및 장치
CN109327795B (zh) * 2018-11-13 2021-09-14 Oppo广东移动通信有限公司 音效处理方法及相关产品
GB201818959D0 (en) * 2018-11-21 2019-01-09 Nokia Technologies Oy Ambience audio representation and associated rendering
CN109814718A (zh) * 2019-01-30 2019-05-28 天津大学 一种基于Kinect V2的多模态信息采集系统
GB2592610A (en) * 2020-03-03 2021-09-08 Nokia Technologies Oy Apparatus, methods and computer programs for enabling reproduction of spatial audio signals
CN111641898B (zh) * 2020-06-08 2021-12-03 京东方科技集团股份有限公司 发声装置、显示装置、发声控制方法及装置
US20230098577A1 (en) * 2021-09-27 2023-03-30 Tencent America LLC Consistence of acoustic and visual scenes
CN115022710B (zh) * 2022-05-30 2023-09-19 咪咕文化科技有限公司 一种视频处理方法、设备及可读存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101580275B1 (ko) * 2008-11-25 2015-12-24 삼성전자주식회사 멀티 레이어 디스플레이에 3차원 영상을 표현하기 위한 영상 처리 장치 및 방법
JP5197525B2 (ja) 2009-08-04 2013-05-15 シャープ株式会社 立体映像・立体音響記録再生装置・システム及び方法
KR101844511B1 (ko) * 2010-03-19 2018-05-18 삼성전자주식회사 입체 음향 재생 방법 및 장치
US8665321B2 (en) 2010-06-08 2014-03-04 Lg Electronics Inc. Image display apparatus and method for operating the same
US8755432B2 (en) * 2010-06-30 2014-06-17 Warner Bros. Entertainment Inc. Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues
JP2012119738A (ja) * 2010-11-29 2012-06-21 Sony Corp 情報処理装置、情報処理方法およびプログラム
PL2475193T3 (pl) * 2011-01-05 2014-06-30 Advanced Digital Broadcast Sa Sposób odtwarzania treści multimedialnej zawierającej audio i stereoskopowe video
JP2012160984A (ja) * 2011-02-02 2012-08-23 Panasonic Corp 立体音響再生装置および立体音響再生方法
TR201819457T4 (tr) * 2011-06-22 2019-01-21 Koninklijke Philips Nv Bir sunum ekranı için bir sinyal oluşturmak üzere yöntem ve cihaz.
JP2015509212A (ja) * 2012-01-19 2015-03-26 コーニンクレッカ フィリップス エヌ ヴェ 空間オーディオ・レンダリング及び符号化
JP2013243626A (ja) * 2012-05-23 2013-12-05 Sony Corp 信号処理装置、信号処理方法、およびプログラム
US9621869B2 (en) * 2012-05-24 2017-04-11 Sony Corporation System and method for rendering affected pixels
EP2871842A4 (en) * 2012-07-09 2016-06-29 Lg Electronics Inc APPARATUS AND METHOD FOR PROCESSING IMPROVED 3-DIMENSIONAL AUDIO / VIDEO CONTENT (3D)
WO2014080074A1 (en) * 2012-11-20 2014-05-30 Nokia Corporation Spatial audio enhancement apparatus
TWI558166B (zh) * 2013-04-04 2016-11-11 杜比國際公司 用於多視點裸視立體顯示器的深度地圖遞送格式
US20140301463A1 (en) * 2013-04-05 2014-10-09 Nokia Corporation Method and apparatus for video coding and decoding
CN103699364B (zh) * 2013-12-24 2016-09-21 四川川大智胜软件股份有限公司 一种基于并行绘制技术的三维图形渲染方法

Also Published As

Publication number Publication date
US10575112B2 (en) 2020-02-25
WO2017037032A1 (en) 2017-03-09
EP3345410A1 (en) 2018-07-11
US20180192222A1 (en) 2018-07-05
EP3345410B1 (en) 2019-05-22
CN107925840B (zh) 2020-06-16
TR201910988T4 (tr) 2019-08-21
CN107925840A (zh) 2018-04-17
JP2018530952A (ja) 2018-10-18

Similar Documents

Publication Publication Date Title
JP6622388B2 (ja) ビデオ画像に関連付けられているオーディオ信号を処理する方法および装置
JP6422995B2 (ja) スクリーン関連オーディオオブジェクトリマッピングのための装置および方法
EP3729829B1 (en) Enhanced audiovisual multiuser communication
Domański et al. Immersive visual media—MPEG-I: 360 video, virtual navigation and beyond
JP7212622B2 (ja) コンピュータ媒介式の現実アプリケーションにおける送信器と受信器との間の通信を最適化する方法、装置およびシステム
US20140308024A1 (en) Method and apparatus for generating 3d audio positioning using dynamically optimized audio 3d space perception cues
TW201830380A (zh) 用於虛擬實境,增強實境及混合實境之音頻位差
CN112673649B (zh) 空间音频增强
JP7519991B2 (ja) オーディオビジュアルデータを処理するための装置及び方法
JP7457525B2 (ja) 受信装置、コンテンツ伝送システム、及びプログラム
WO2019155930A1 (ja) 送信装置、送信方法、処理装置および処理方法
JP6091850B2 (ja) テレコミュニケーション装置及びテレコミュニケーション方法
RU2805260C2 (ru) Устройство и способ обработки аудиовизуальных данных
EP3379533A2 (en) Method and apparatus for generating 3d audio positioning using dynamically optimized audio 3d space perception cues
CN114631332A (zh) 比特流中音频效果元数据的信令
GB2568726A (en) Object prioritisation of virtual content
WO2019216002A1 (ja) 情報処理装置、情報処理方法、およびプログラム
KR20140128185A (ko) 3d 오디오 재생을 위한 음원 위치 조정 방법
KR20140128566A (ko) 재생 디바이스의 위치 정보에 기반한 3d 오디오 재생 기술

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190204

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190204

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190204

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190423

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191001

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20191009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191121

R150 Certificate of patent or registration of utility model

Ref document number: 6622388

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250