[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6807033B2 - デコード装置、デコード方法、およびプログラム - Google Patents

デコード装置、デコード方法、およびプログラム Download PDF

Info

Publication number
JP6807033B2
JP6807033B2 JP2017550052A JP2017550052A JP6807033B2 JP 6807033 B2 JP6807033 B2 JP 6807033B2 JP 2017550052 A JP2017550052 A JP 2017550052A JP 2017550052 A JP2017550052 A JP 2017550052A JP 6807033 B2 JP6807033 B2 JP 6807033B2
Authority
JP
Japan
Prior art keywords
decoding
processing
boundary position
audio
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017550052A
Other languages
English (en)
Other versions
JPWO2017082050A1 (ja
Inventor
光行 畠中
光行 畠中
徹 知念
徹 知念
辻 実
実 辻
本間 弘幸
弘幸 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2017082050A1 publication Critical patent/JPWO2017082050A1/ja
Application granted granted Critical
Publication of JP6807033B2 publication Critical patent/JP6807033B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本開示は、デコード装置、デコード方法、およびプログラムに関し、特に、再生タイミングが同期されているオーディオ符号化ビットストリーム間で出力を切り替える場合に用いて好適なデコード装置、デコード方法、およびプログラムに関する。
例えば映画やニュース、スポーツ中継などのコンテンツでは、映像に対して複数の言語(例えば、日本語と英語)の音声が用意されているものがあり、この場合、複数の音声は再生タイミングが同期されたものとなる。
以下、再生タイミングが同期されている音声は、それぞれオーディオ符号化ビットストリームとして用意されており、該オーディオ符号化ビットストリームは、少なくともMDCT(Modified Discrete Cosine Transform)処理を含むAAC(Advanced Audio Coding)などのエンコード処理によって可変長符号化されていることを前提とする。なお、MDCT処理を含むMPEG-2 AAC音声符号化方式は地上デジタルテレビジョン放送に採用されている(例えば、非特許文献1参照)。
図1は、音声のソースデータに対してエンコード処理を行うエンコード装置と、エンコード装置から出力されるオーディオ符号化ビットストリームに対してデコード処理を行うデコード装置の従来の構成の一例を簡素化して示している。
エンコード装置10は、MDCT部11、量子化部12、および可変長符号化部13を有する。
MDCT部11は、前段から入力される音声のソースデータを所定の時間幅を有するフレーム単位に区分し、前後するフレームが重複するようにMDCT処理を行うことにより、時間領域の値であったソースデータを周波数領域の値に変換して量子化部12に出力する。量子化部12は、MDCT部11からの入力を量子化して可変長符号化部13に出力する。可変長符号化部13は、量子化された値を可変長符号化することによりオーディオ符号化ビットストリームを生成、出力する。
デコード装置20は、例えば、放送または配信されるコンテンツを受信する受信装置や、記録メディアに記録されているコンテンツを再生する再生装置などに搭載されるものであり、復号部21、逆量子化部22、およびIMDCT(Inverse MDCT)部23を有する。
可変長符号化部13に対応する復号部21は、オーディオ符号化ビットストリームに対してフレーム単位で復号処理を行い、復号結果を逆量子化部22に出力する。量子化部12に対応する逆量子化部22は、復号結果に対して逆量子化を行い、処理結果をIMDCT部23に出力する。MDCT部11に対応するIMDCT部23は、逆量子化結果に対してIMDCT処理を行うことにより、エンコード前のソースデータに対応するPCMデータを再構成する。IMDCT部23によるIMDCT処理について詳述する。
図2は、IMDCT部23によるIMDCT処理を示している。
同図に示されるように、IMDCT部23では、前後する2フレーム分(Frame#1とFrame#2)のオーディオ符号化ビットストリーム(の逆量子化結果)BS1-1とBS1-2を対象としてIMDCT処理を行うことによって逆変換結果としてIMDCT-OUT#1-1を得る。また、上記と重複する2フレーム分(Frame#2とFrame#3)のオーディオ符号化ビットストリーム(の逆量子化結果)BS1-2とBS1-3を対象としてIMDCT処理を行うことによって逆変換結果としてIMDCT-OUT#1-2を得る。さらに、IMDCT-OUT#1-1とIMDCT-OUT#1-2をオーバラップ加算することにより、Frame#2に対応するPCMデータであるPCM1-2が完全に再構成される。
同様の方法により、Frame#3以降に対応するPCMデータ1-3,・・・についても完全に再構成される。
ただし、ここで用いる「完全」の用語は、オーバラップ加算までの処理を含めてPCMデータを再構成できたことを意味するものであり、ソースデータが100%再現されていることを意味するものではない。
ARIB STD−B32 2.2版 平成27年7月29日
ここで、再生タイミングが同期されている複数のオーディオ符号化ビットストリームをできる限り速やかに切り替えてデコード、出力することを考える。
図3は、従来手法により、再生タイミングが同期されている第1のオーディオ符号化ビットストリームから第2のオーディオ符号化ビットストリームに切り替える場合の様子を示している。
同図に示されるように、Frame#2とFrame#3の間を切り替え境界位置として、第1のオーディオ符号化ビットストリームから第2のオーディオ符号化ビットストリームに切り替える場合、第1のオーディオ符号化ビットストリームについてはFrame#2に対応するPCM1-2までがデコード、出力される。そして、切り替え後の第2のオーディオ符号化ビットストリームについてはFrame#3に対応するPCM2-3以降がデコード、出力される。
ところで、図2を参照して説明したように、PCM1-2を得るためには、逆変換結果IMDCT-OUT#1-1とIMDCT-OUT#1-2が必要である。同様に、PCM2-3を得るためには、逆変換結果IMDCT-OUT#2-2とIMDCT-OUT#2-3が必要である。したがって、同図に示される切り替えを実行するためには、Frame#2からFrame#3の期間は、第1および第2のオーディオ符号化ビットストリームに対してIMDCT処理を含むデコード処理を平行して同時に実行しなければならない。
しかしながら、IMDCT処理を含むデコード処理を平行して同時に実行するには、IMDCT処理を含むデコード処理をハードウェアで実現する場合、同様に構成されたハードウェアが複数必要になり、回路規模の拡大やコスト高となる。
また、IMDCT処理を含むデコード処理をソフトウェアによって実現する場合、CPUの処理能力によっては音切れ、異音発生などの問題が生じ得るので、これを防ぐには高性能なCPUが必要となり、やはりコスト高となってしまう。
本開示はこのような状況に鑑みてなされたものであり、回路規模の拡大やコスト高を招くことなく、再生タイミングが同期されている複数のオーディオ符号化ビットストリームをできる限り速やかに切り替えてデコード、出力できるようにするものである。
本開示の一側面であるデコード装置は、再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得部と、前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定し、取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理部に供給する選択部と、前記選択部を介して入力される前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理部とを備え、前記デコード処理部は、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する。
本開示の一側面であるデコード装置は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前後のフレームのデコード処理結果に対してフェード処理を行うフェード処理部をさらに備えることができる。
前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してフェードアウト処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してフェードイン処理を行うことができる。
前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してフェードアウト処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してミュート処理を行うことができる。
前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してミュート処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してフェードイン処理を行うことができる。
前記選択部は、前記複数のオーディオ符号化ビットストリームの供給側において設定された、各フレームに付加されている切り替え最適位置フラグに基づいて前記境界位置を決定することができる。
前記切り替え最適位置フラグは、前記オーディオ符号化ビットストリームの供給側において、前記ソースデータのエネルギまたは文脈に基づいて設定されているようにすることができる。
前記選択部は、前記複数のオーディオ符号化ビットストリームのゲインに関する情報に基づいて前記境界位置を決定することができる。
本開示の一側面であるデコード方法は、デコード装置のデコード方法において、前記デコード装置による、再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得ステップと、前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定する決定ステップと、取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理ステップに供給する選択ステップと、選択的に供給された前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理ステップとを含み、前記デコード処理ステップは、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する。
本開示の一側面であるプログラムは、コンピュータを、再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得部と、前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定し、取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理部に供給する選択部と、前記選択部を介して入力される前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理部として機能させ、前記デコード処理部は、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する。
本開示の一側面においては、複数のオーディオ符号化ビットストリームが取得され、前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置が決定され、前記境界位置に応じて選択的に供給された前記複数のオーディオ符号化ビットストリームのうちの一つに対して、MDCT処理に対応するIMDCT処理を含むデコード処理が行われる。このデコード処理では、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算が省略される。
本開示の一側面によれば、再生タイミングが同期されている複数のオーディオ符号化ビットストリームをできる限り速やかに切り替えてデコード、出力することができる。
エンコード装置とデコード装置の構成の一例を示すブロック図である。 IMDCT処理を説明する図である。 オーディオ符号化ビットストリームの切り替えの様子を示す図である。 本開示を適用したデコード装置の構成例を示すブロック図である。 図4のデコード装置による、オーディオ符号化ビットストリームの第1の切り替え方法を示す図である。 音声切り替え処理を説明するフローチャートである。 切り替え最適位置フラグ設定処理を説明するフローチャートである。 切り替え最適位置フラグ設定処理の様子を示す図である。 切り替え境界位置決定処理を説明するフローチャートである。 切り替え境界位置決定処理の様子を示す図である。 図4のデコード装置による、オーディオ符号化ビットストリームの第2の切り替え方法を示す図である。 図4のデコード装置による、オーディオ符号化ビットストリームの第3の切り替え方法を示す図である。 汎用のコンピュータの構成例を示すブロック図である。
以下、本開示を実施するための最良の形態(以下、実施の形態と称する)について、図面を参照しながら詳細に説明する。
<本開示の実施の形態であるデコード装置の構成例>
図4は、本開示の実施の形態であるデコード装置の構成例を示している。
このデコード装置30は、例えば、放送または配信されるコンテンツを受信する受信装置や、記録メディアに記録されているコンテンツを再生する再生装置などに搭載されるものである。また、デコード装置30は、再生タイミングが同期されている第1および第2のオーディオ符号化ビットストリームを速やかに切り替えてデコードして出力できるものである。
第1および第2のオーディオ符号化ビットストリームは、音声のソースデータが少なくともMDCT処理を含むエンコード処理によって可変長符号化されているものとする。また、以下、第1および第2のオーディオ符号化ビットストリームを、単に、第1および第2の符号化ビットストリームとも記載する。
デコード装置30は、多重分離部31、復号部32−1および32−2、選択部33、デコード処理部34、並びにフェード処理部37を有する。
多重分離部11は、前段から入力される多重化ストリームから、再生タイミングが同期されている第1の符号化ビットストリームと第2の符号化ストリームを分離する。さらに、多重化部11は、第1の符号化ビットストリームを復号部32−1に出力し、第2の符号化ストリームを復号部32−2に出力する。
復号部32−1は、第1の符号化ビットストリームを対象としてその可変長符号を復号する復号処理を行い、処理結果(以下、量子化データと称する)を選択部33に出力する。復号部32−2は、第2の符号化ビットストリームを対象としてその可変長符号を復号する復号処理を行い、処理結果の量子化データを選択部33に出力する。
選択部33は、ユーザからの音声切り替え指示に基づいて切り替え境界位置を決定し、決定した切り替え境界位置に従い、復号部32−1または復号部32−2からの量子化データをデコード処理部34に出力する。
また、選択部33は、第1および第2の符号化ビットストリームにフレーム毎に付加されている切り替え最適位置フラグに基づいて切り替え境界位置を決定することもできる。これについては、図7乃至図10を参照して後述する。
デコード処理部34は、逆量子化部35およびIMDCT部36を有する。逆量子化部35は、選択部33を介して入力される量子化データに対して逆量子化を行い、その逆量子化結果(以下、MDCTデータと称する)をIMDCT部36に出力する。IMDCT部36は、MDCTデータに対してIMDCT処理を行うことにより、エンコード前のソースデータに対応するPCMデータを再構成する。
ただし、IMDCT部36は、全てのフレームにそれぞれ対応するPCMデータを完全に再構成するわけではなく、切り替え境界位置付近のフレームについては不完全な状態で再構成されたPCMデータも出力する。
フェード処理部37は、デコード処理部34から入力される切り替え境界位置付近のPCMデータに対してフェードアウト処理、フェードイン処理、またはミュート処理を行って後段に出力する。
なお、図4に示された構成例では、デコード装置30に対しては第1および第2の符号化ビットストリームが多重化されている多重化ストリームが入力される場合を示しているが、多重化ストリームにはより多くの符号化ビットストリームが多重化されていてもよい。その場合、多重化されている符号化ビットストリームの数に合わせて復号部32の数を増やしてもよい。
また、デコード装置30に対して多重化ストリームが入力されるのではなく、複数の符号化ビットストリームがそれぞれ個別に入力されるようにしてもよい。その場合、多重分離部31は省略できる。
<デコード装置30による符号化ビットストリームの第1の切り替え方法>
次に、図5は、デコード装置30による符号化ビットストリームの第1の切り替え方法を示している。
同図に示されるように、Frame#2とFrame#3の間を切り替え境界位置として、第1の符号化ビットストリームから第2の符号化ビットストリームに切り替える場合、第1の符号化ビットストリームについては、切り替え境界位置直前のFrame#2までをIMDCT処理の対象とする。この場合、Frame#1に対応するPCM1-1までは完全に再構成できるが、Frame#2に対応するPCM1-2の再構成は不完全なものとなる。
一方、第2の符号化ビットストリームについては、切り替え境界位置直後のFrame#3からをIMDCT処理の対象とする。この場合、Frame#3に対応するPCM2-3の再構成は不完全となり、Frame#4に対応するPCM2-4以降から完全に再構成するようにする。
ここで、「不完全な再構成」とは、オーバラップ加算を行うことなく、IMDCT-OUTの前半または後半をそのままPCMデータをして用いることを指す。
いまの場合、第1の符号化ビットストリームのFrame#2に対応するPCM1-2には、MDCT-OUT#1-1の後半をそのまま用いればよい。同様に、第2の符号化ビットストリームのFrame#3に対応するPCM2-3には、MDCT-OUT#2-3の前半をそのまま用いればよい。なお、当然ながら、不完全に再構成されたPCM1-2やPCM2-3は、完全に再構成された場合に比較して音質が劣化したものとなる。
そして、PCMデータの出力に際しては、Frame#1に対応する完全に再構成されたPCM1-1までは通常の音量で出力する。切り替え境界位置直前のFrame#2に対応する不完全なPCM1-2についてはフェードアウト処理によって徐々に音量を下げ、切り替え境界位置直後のFrame#3に対応する不完全なPCM2-3についてはフェードイン処理によって徐々に音量を上げるようにする。そして、Frame#4以降は完全に再構成されたPCM2-4,・・・を通常の音量で出力するようにする。
このように、替え境界位置直後では不完全に再構成されたPCMデータを出力することにより、2つのデコード処理を平行に実行する必要性を無くすることができる。また、不完全なPCMデータをフェードアウト処理とフェードイン処理で繋ぐことにより、音声の切り替えで生じる、フレームの不連続に起因する耳障りなグリッジノイズの音量を抑えることができる。
なお、デコード装置30による符号化ビットストリームの切り替え方法は、上述した第1の切り替え方法に限るものではなく、後述する第2または第3の切り替え方法を採用することもできる。
<デコード装置30による音声切り替え処理>
次に、図6は、図5に示された第1の切り替え方法に対応する、音声切り替え処理を説明するフローチャートである。
該音声切り替え処理の前提として、デコード装置30においては、多重化分離部11により、多重化ストリームから第1および第2の符号化ビットストリームが分離され、それぞれが復号部32−1または31−2によって復号されているものとする。また、選択部33により、復号部32−1および31−2からの量子化データの一方が選択されてデコード処理部34に入力されているものとする。
以下、選択部33により、復号部32−1からの量子化データが選択されてデコード処理部34に入力されている場合について説明する。これにより、現在、デコード装置30からは第1の符号化ビットストリームに基づくPCMデータが通常の音量で出力されている状態となっている。
ステップS1において、選択部33は、ユーザから音声切り替え指示があったか否かを判断し、音声切り替え指示があるまで待機する。この待機の間、選択部33による選択的な出力は維持される。すなわち、デコード装置30からは第1の符号化ビットストリームに基づくPCMデータが通常の音量で継続して出力される。
ユーザから音声切り替え指示があった場合、処理はステップS2に進められる。ステップS2において、選択部33は、音声の切り替え境界位置を決定する。例えば、音声切り替え指示があってから所定数のフレームが経過した後を音声の切り替え境界位置に決定する。ただし、符号化ビットストリームに含まれる切り替え最適位置フラグに基づいて決定してもよい(詳細後述)。
いまの場合、図5に示されたように、Frame#2とFrame#3の間が切り替え境界位置に決定されたものとする。
この後、ステップS3において、選択部33は、決定した切り替え境界位置の直前のフレームに対応する量子化データをデコード処理部34に出力するまで現在の選択を維持する。すなわち、復号部32−1からの量子化データを後段に出力する。
ステップS4において、デコード処理部34の逆量子化部35は、第1の符号化ビットストリームに基づく量子化データの逆量子化を行い、その結果得られたMDCTデータをIMDCT部36に出力する。IMDCT部36は、切り替え境界位置の直前のフレームに対応するMDCTデータまでを対象としてIMDCT処理を行うことにより、エンコード前のソースデータに対応するPCMデータを再構成してフェード処理部37に出力する。
いまの場合、Frame#1に対応するPCM1-1までは完全に再構成できるが、Frame#2に対応するPCM1-2の再構成は不完全なものとなる。
ステップS5において、フェード処理部37は、デコード処理部34から入力される切り替え境界位置の直前のフレームに対応する不完全なPCMデータ(いまの場合、Frame#2に対応するPCM1-2)に対してフェードアウト処理を行って後段に出力する。
次に、ステップS6において、選択部33は、デコード処理部34に対する出力を切り替える。すなわち、復号部32−2からの量子化データを後段に出力する。
ステップS7において、デコード処理部34の逆量子化部35は、第2の符号化ビットストリームに基づく量子化データの逆量子化を行い、その結果得られたMDCTデータをIMDCT部36に出力する。IMDCT部36は、切り替え境界位置の直後のフレームに対応するMDCTデータからを対象としてIMDCT処理を行うことにより、エンコード前のソースデータに対応するPCMデータを再構成してフェード処理部37に出力する。
いまの場合、Frame#3に対応するPCM2-3の再構成は不完全なものとなり、Frame#4に対応するPCM2-4以降は完全に再構成される。
ステップS8において、フェード処理部37は、デコード処理部34から入力される切り替え境界位置の直後のフレームに対応する不完全なPCMデータ(いまの場合、Frame#3に対応するPCM2-3)に対してフェードイン処理を行って後段に出力する。この後、処理はステップS1に戻されて、それ以降が繰り返される。
以上で、デコード装置30による音声切り替え処理の説明を終了する。上述した音声切り替え処理によれば、2つのデコード処理を平行に実行することなく、音声の符号化ビットストリームを切り替えることができる。また、音声に切り替えで生じる、フレームの不連続に起因する耳障りなグリッジノイズの音量を抑えることができる。
<切り替え最適位置フラグ設定処理>
上述した音声切り替え処理では、ユーザから音声切り替え指示に応じて、それから所定数のフレームが経過した後を音声の切り替え境界位置に決定していた。しかしながら、切り替え境界位置付近にフェードアウト処理およびフェードイン処理を実行することを考慮すると、切り替え境界位置としては、音声ができるだけ無音に近い状態の位置であるか、または、文脈に応じて一時的に音量を下げても一連の言葉や会話の意味が成立する位置であることが望ましい。
そこで、次に、コンテンツの供給側にて音声ができるだけ無音に近い状態(すなわち、ソースデータのゲインまたはエネルギが小さい状態)を検出して、そこに切り替え最適位置フラグを立てる処理(以下、切り替え最適位置フラグ設定処理)について説明する。
図7は、コンテンツの供給側にて実行される切り替え最適位置フラグ設定処理を説明するフローチャートである。図8は、切り替え最適位置フラグ設定処理の様子を示している。
ステップS21では、前段から入力される第1および第2のソースデータ(再生タイミングが同期されている第1および第2の符号化ビットストリームぞれぞれの元)がフレーム単位に区切られ、ステップS22では、区切られた各フレームにおけるエネルギが測定される。
ステップS23では、フレーム毎に第1および第2のソースデータのエネルギが所定の閾値以下であるか否かが判定される。第1および第2のソースデータのエネルギがともに所定の閾値以下である場合、処理はステップS24に進められて、該フレームに対する切り替え最適位置フラグは、切り替え最適位置であることを意味する「1」に設定される。
反対に、第1または第2のソースデータの少なくとも一方のエネルギが所定の閾値よりも大きい場合、処理はステップS25に進められて、該フレームに対する切り替え最適位置フラグは、切り替え最適位置ではないことを意味する「0」に設定される。
ステップS26では、第1および第2のソースデータの入力が終了したか否か判定され、第1および第2のソースデータの入力が継続している場合、処理はステップS21に戻されてそれ以降が繰り返される。第1および第2のソースデータの入力が終了した場合、切り替え最適位置フラグ設定処理は終了される。
次に、図9は、上述した切り替え最適位置フラグ設定処理によって第1および第2の符号化ビットストリームのフレーム毎に切り替え最適位置フラグが設定されている場合に対応する、デコード装置30における、音声の切り替え境界位置決定処理を説明するフローチャートである。図10は、切り替え境界位置決定処理の様子を示す図である。
この切り替え境界位置決定処理は、図6を参照して説明した音声切り替え処理のステップS1およびステップS2に代えて実行できる。
ステップS31において、デコード装置30の選択部33は、ユーザから音声切り替え指示があったか否かを判断し、音声切り替え指示があるまで待機する。この待機の間、選択部33による選択的な出力は維持される。すなわち、デコード装置30からは第1の符号化ビットストリームに基づくPCMデータが通常の音量で継続して出力される。
ユーザから音声切り替え指示があった場合、処理はステップS32に進められる。ステップS32において、選択部33は、前段から順次入力される第1および第2の符号化ビットストリーム(の復号結果である量子化データ)の各フレームに付加されている切り替え最適位置フラグが1になるまで待機する。この待機の間も、選択部33による選択的な出力は維持される。そして、切り替え最適位置フラグが1になった場合、処理をステップS33に進めて、切り替え最適位置フラグが1であるフレームとその次のフレームの間を、音声の切り替え境界位置に決定する。以上で、切り替え境界位置決定処理は終了される。
以上に説明した切り替え最適位置フラグ設定処理、および切り替え境界位置決定処理によれば、音声ができるだけ無音に近い状態の位置を切り替え境界位置に決定することができる。よって、フェードアウト処理およびフェードイン処理を実行することによる影響を抑止できる。
また、切り替え最適位置フラグが付加されていない場合であっても、デコード装置30内の選択部33などにおいて、符号化ビットストリームのゲインに関係する情報を参照し、指定された閾値以下の音量の位置を検出して切り替え境界位置を決定するようにしてもよい。ゲインに関係する情報としては、例えば、AAC、MP3などの符号化方式ではスケールファクタなどの情報を利用することができる。
<デコード装置30による符号化ビットストリームの第2の切り替え方法>
次に、図11は、デコード装置30による符号化ビットストリームの第2の切り替え方法を示している。
同図に示されるように、Frame#2とFrame#3の間を切り替え境界位置として、第1の符号化ビットストリームから第2の符号化ビットストリームに切り替える場合、第1の符号化ビットストリームについては、切り替え境界位置直前のFrame#2までをIMDCT処理の対象とする。この場合、Frame#1に対応するPCM1-1までは完全に再構成できるが、Frame#2に対応するPCM1-2の再構成は不完全なものとなる。
一方、第2の符号化ビットストリームについては、切り替え境界位置直後のFrame#3からをIMDCT処理の対象とする。この場合、Frame#3に対応するPCM2-3の再構成は不完全となり、Frame#4に対応するPCM2-4以降から完全に再構成するようにする。
そして、PCMデータの出力に際しては、Frame#1に対応する完全に再構成されたPCM1-1までは通常の音量で出力する。切り替え境界位置直前のFrame#2に対応する不完全なPCM1-2についてはフェードアウト処理によって徐々に音量を下げ、切り替え境界位置直後のFrame#3に対応する不完全なPCM2-3についてはミュート処理によって無音区間とする。また、完全に再構成されたPCM2-4についてはフェードイン処理によって徐々に音量を上げるようにし、Frame#5に対応するPCM2-5以降は通常の音量で出力するようにする。
このように、替え境界位置直後では不完全に再構成されたPCMデータを出力することにより、2つのデコード処理を平行に実行する必要性を無くすることができる。また、不完全なPCMデータをフェードアウト処理、ミュート処理、およびフェードイン処理で繋ぐことにより、音声の切り替えで生じる、フレームの不連続に起因する耳障りなグリッジノイズの音量を抑えることができる。
<デコード装置30による符号化ビットストリームの第3の切り替え方法>
次に、図12は、デコード装置30による符号化ビットストリームの第3の切り替え方法を示している。
同図に示されるように、Frame#2とFrame#3の間を切り替え境界位置として、第1の符号化ビットストリームから第2の符号化ビットストリームに切り替える場合、第1の符号化ビットストリームについては、切り替え境界位置直前のFrame#2までをIMDCT処理の対象とする。この場合、Frame#1に対応するPCM1-1までは完全に再構成できるが、Frame#2に対応するPCM1-2の再構成は不完全なものとなる。
一方、第2の符号化ビットストリームについては、切り替え境界位置直後のFrame#3からをIMDCT処理の対象とする。この場合、Frame#3に対応するPCM2-3の再構成は不完全となり、Frame#4に対応するPCM2-4以降から完全に再構成するようにする。
そして、PCMデータの出力に際しては、Frame#1に対応するPCM1-1の前までは通常の音量で出力し、PCM1-1についてはフェードアウト処理によって徐々に音量を下げ、切り替え境界位置直前のFrame#2に対応する不完全なPCM1-2についてはミュート処理によって無音区間とする。また、切り替え境界位置直後のFrame#3に対応する不完全なPCM2-3についてはフェードイン処理によって徐々に音量を上げるようにし、Frame#4に対応するPCM2-4以降は通常の音量で出力するようにする。
このように、替え境界位置直後では不完全に再構成されたPCMデータを出力することにより、2つのデコード処理を平行に実行する必要性を無くすることができる。また、不完全なPCMデータをフェードアウト処理、ミュート処理、およびフェードイン処理で繋ぐことにより、音声の切り替えで生じる、フレームの不連続に起因する耳障りなグリッジノイズの音量を抑えることができる。
<本開示の適用例>
本開示は、再生タイミングが同期されている第1および第2の符号化ビットストリームの切り替え用途以外にも、例えば、3D Audio符号化におけるオブジェクト間の切り替え用途にも適用することができる。より具体的には、オブジェクトデータがグループ化されたものをまとめて別グループ(Switch Group)に切り替えるといった場合、再生シーンや自由視点での視点位置の切り替えなどの理由で一斉に複数オブジェクトを切り替える用途に適用できる。
また、2chステレオ音声から5.1chなどのサラウンド音声にチャンネル環境を切り替える場合や、自由視点映像での各席でのサラウンドを持ったストリームで席の移動に合わせて切り替えるといった運用にも、本開示は適用することができる。
ところで、上述したデコード装置30による一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図13は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
該コンピュータ100において、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、入力部106、出力部107、記憶部108、通信部109、およびドライブ110が接続されている。
入力部106は、キーボード、マウス、マイクロフォンなどよりなる。出力部107は、ディスプレイ、スピーカなどよりなる。記憶部108は、ハードディスクや不揮発性のメモリなどよりなる。通信部109は、ネットワークインタフェースなどよりなる。ドライブ110は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア111を駆動する。
以上のように構成されるコンピュータ100では、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105およびバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
なお、コンピュータ100が実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。
本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
本開示は以下のような構成も取ることができる。
(1)
再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得部と、
前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定し、取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理部に供給する選択部と、
前記選択部を介して入力される前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理部とを備え、
前記デコード処理部は、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する
デコード装置。
(2)
前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前後のフレームのデコード処理結果に対してフェード処理を行うフェード処理部を
さらに備える前記(1)に記載のデコード装置。
(3)
前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してフェードアウト処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してフェードイン処理を行う
前記(2)に記載のデコード装置。
(4)
前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してフェードアウト処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してミュート処理を行う
前記(2)に記載のデコード装置。
(5)
前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してミュート処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してフェードイン処理を行う
前記(2)に記載のデコード装置。
(6)
前記選択部は、前記複数のオーディオ符号化ビットストリームの供給側において設定された、各フレームに付加されている切り替え最適位置フラグに基づいて前記境界位置を決定する
前記(1)から(5)のいずれかに記載のデコード装置。
(7)
前記切り替え最適位置フラグは、前記オーディオ符号化ビットストリームの供給側において、前記ソースデータのエネルギまたは文脈に基づいて設定されている
前記(6)に記載のデコード装置。
(8)
前記選択部は、前記複数のオーディオ符号化ビットストリームのゲインに関する情報に基づいて前記境界位置を決定する
前記(1)から(5)のいずれかに記載のデコード装置。
(9)
デコード装置のデコード方法において、
前記デコード装置による、
再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得ステップと、
前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定する決定ステップと、
取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理ステップに供給する選択ステップと、
選択的に供給された前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理ステップとを含み、
前記デコード処理ステップは、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する
デコード方法。
(10)
コンピュータを、
再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得部と、
前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定し、取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理部に供給する選択部と、
前記選択部を介して入力される前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理部として機能させ、
前記デコード処理部は、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する
プログラム。
30 デコード装置, 31 多重分離部, 32−1,32−2 復号部, 33 選択部, 34 デコード処理部, 35 逆量子化部, 36 IMDCT部, 37 フェード処理部, 100 コンピュータ, 101 CPU

Claims (10)

  1. 再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得部と、
    前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定し、取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理部に供給する選択部と、
    前記選択部を介して入力される前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理部とを備え、
    前記デコード処理部は、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する
    デコード装置。
  2. 前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前後のフレームのデコード処理結果に対してフェード処理を行うフェード処理部を
    さらに備える請求項1に記載のデコード装置。
  3. 前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してフェードアウト処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してフェードイン処理を行う 請求項2に記載のデコード装置。
  4. 前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してフェードアウト処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してミュート処理を行う
    請求項2に記載のデコード装置。
  5. 前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してミュート処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してフェードイン処理を行う
    請求項2に記載のデコード装置。
  6. 前記選択部は、前記複数のオーディオ符号化ビットストリームの供給側において設定された、各フレームに付加されている切り替え最適位置フラグに基づいて前記境界位置を決定する
    請求項1乃至5のいずれかに記載のデコード装置。
  7. 前記切り替え最適位置フラグは、前記オーディオ符号化ビットストリームの供給側において、前記ソースデータのエネルギまたは文脈に基づいて設定されている
    請求項6に記載のデコード装置。
  8. 前記選択部は、前記複数のオーディオ符号化ビットストリームのゲインに関する情報に基づいて前記境界位置を決定する
    請求項1乃至5のいずれかに記載のデコード装置。
  9. デコード装置のデコード方法において、
    前記デコード装置による、
    再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得ステップと、
    前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定する決定ステップと、
    取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理ステップに供給する選択ステップと、
    選択的に供給された前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理ステップとを含み、
    前記デコード処理ステップは、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する
    デコード方法。
  10. コンピュータを、
    再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得部と、
    前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定し、取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理部に供給する選択部と、
    前記選択部を介して入力される前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理部として機能させ、
    前記デコード処理部は、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する
    プログラム。
JP2017550052A 2015-11-09 2016-10-26 デコード装置、デコード方法、およびプログラム Active JP6807033B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015219415 2015-11-09
JP2015219415 2015-11-09
PCT/JP2016/081699 WO2017082050A1 (ja) 2015-11-09 2016-10-26 デコード装置、デコード方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2017082050A1 JPWO2017082050A1 (ja) 2018-08-30
JP6807033B2 true JP6807033B2 (ja) 2021-01-06

Family

ID=58695167

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017550052A Active JP6807033B2 (ja) 2015-11-09 2016-10-26 デコード装置、デコード方法、およびプログラム

Country Status (8)

Country Link
US (1) US10553230B2 (ja)
EP (1) EP3376500B1 (ja)
JP (1) JP6807033B2 (ja)
KR (1) KR20180081504A (ja)
CN (1) CN108352165B (ja)
BR (1) BR112018008874A8 (ja)
RU (1) RU2718418C2 (ja)
WO (1) WO2017082050A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10424311B2 (en) 2017-01-30 2019-09-24 Cirrus Logic, Inc. Auto-mute audio processing
CN110730408A (zh) * 2019-11-11 2020-01-24 北京达佳互联信息技术有限公司 一种音频参数切换方法、装置、电子设备及存储介质

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6151441A (en) * 1993-12-18 2000-11-21 Sony Corporation System for storing and reproducing multiplexed data
JPH08287610A (ja) * 1995-04-18 1996-11-01 Sony Corp オーディオデータの再生装置
JP3761639B2 (ja) 1995-09-29 2006-03-29 ユナイテッド・モジュール・コーポレーション オーディオ復号装置
US5867819A (en) 1995-09-29 1999-02-02 Nippon Steel Corporation Audio decoder
DE19861167A1 (de) * 1998-08-19 2000-06-15 Christoph Buskies Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten
GB9911737D0 (en) * 1999-05-21 1999-07-21 Philips Electronics Nv Audio signal time scale modification
US7792681B2 (en) * 1999-12-17 2010-09-07 Interval Licensing Llc Time-scale modification of data-compressed audio information
JP2002026738A (ja) * 2000-07-11 2002-01-25 Mitsubishi Electric Corp オーディオデータ復号処理装置および方法、ならびにオーディオデータ復号処理プログラムを記録したコンピュータ読取可能な記録媒体
US7113538B1 (en) * 2000-11-01 2006-09-26 Nortel Networks Limited Time diversity searcher and scheduling method
US7069208B2 (en) * 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
US7189913B2 (en) * 2003-04-04 2007-03-13 Apple Computer, Inc. Method and apparatus for time compression and expansion of audio data with dynamic tempo change during playback
US7260035B2 (en) * 2003-06-20 2007-08-21 Matsushita Electric Industrial Co., Ltd. Recording/playback device
US20050149973A1 (en) * 2004-01-06 2005-07-07 Fang Henry Y. Television with application/stream-specifiable language selection
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
ATE537536T1 (de) * 2004-10-26 2011-12-15 Panasonic Corp Sprachkodierungsvorrichtung und sprachkodierungsverfahren
SG124307A1 (en) * 2005-01-20 2006-08-30 St Microelectronics Asia Method and system for lost packet concealment in high quality audio streaming applications
DE102005014477A1 (de) * 2005-03-30 2006-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
WO2006137425A1 (ja) * 2005-06-23 2006-12-28 Matsushita Electric Industrial Co., Ltd. オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
CN101026725B (zh) * 2005-07-15 2010-09-29 索尼株式会社 再现设备及再现方法
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
US8010350B2 (en) * 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
DE102007028175A1 (de) * 2007-06-20 2009-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Automatisiertes Verfahren zur zeitlichen Segmentierung eines Videos in Szenen unter Berücksichtigung verschiedener Typen von Übergängen zwischen Bildfolgen
WO2009025142A1 (ja) * 2007-08-22 2009-02-26 Nec Corporation 話者速度変換システムおよびその方法ならびに速度変換装置
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
WO2010031049A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
US8185384B2 (en) * 2009-04-21 2012-05-22 Cambridge Silicon Radio Limited Signal pitch period estimation
US9992456B2 (en) * 2010-02-24 2018-06-05 Thomson Licensing Dtv Method and apparatus for hypothetical reference decoder conformance error detection
TWI476761B (zh) * 2011-04-08 2015-03-11 Dolby Lab Licensing Corp 用以產生可由實施不同解碼協定之解碼器所解碼的統一位元流之音頻編碼方法及系統
US20150309844A1 (en) * 2012-03-06 2015-10-29 Sirius Xm Radio Inc. Systems and Methods for Audio Attribute Mapping
JP6126006B2 (ja) * 2012-05-11 2017-05-10 パナソニック株式会社 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
TWI557727B (zh) * 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
US9685164B2 (en) * 2014-03-31 2017-06-20 Qualcomm Incorporated Systems and methods of switching coding technologies at a device
US20160071524A1 (en) * 2014-09-09 2016-03-10 Nokia Corporation Audio Modification for Multimedia Reversal
US10614609B2 (en) * 2017-07-19 2020-04-07 Mediatek Inc. Method and apparatus for reduction of artifacts at discontinuous boundaries in coded virtual-reality images

Also Published As

Publication number Publication date
EP3376500A4 (en) 2018-09-19
EP3376500B1 (en) 2019-08-21
CN108352165B (zh) 2023-02-03
US20180286419A1 (en) 2018-10-04
KR20180081504A (ko) 2018-07-16
RU2018115550A3 (ja) 2020-01-31
CN108352165A (zh) 2018-07-31
RU2018115550A (ru) 2019-10-28
RU2718418C2 (ru) 2020-04-02
WO2017082050A1 (ja) 2017-05-18
BR112018008874A8 (pt) 2019-02-26
US10553230B2 (en) 2020-02-04
JPWO2017082050A1 (ja) 2018-08-30
BR112018008874A2 (ja) 2018-11-06
EP3376500A1 (en) 2018-09-19

Similar Documents

Publication Publication Date Title
CA2933562C (en) Transitioning of ambient higher-order ambisonic coefficients
CN106796794B (zh) 环境高阶立体混响音频数据的归一化
KR101849612B1 (ko) 새로운 미디어 장치 상에 내장된 라우드니스 메타데이터를 갖거나 또는 갖지 않고 미디어의 정규화된 오디오 재생을 위한 방법 및 장치
CA2933734C (en) Coding independent frames of ambient higher-order ambisonic coefficients
US9875746B2 (en) Encoding device and method, decoding device and method, and program
JP6356832B2 (ja) 高次アンビソニックス信号の圧縮
WO2016033480A2 (en) Intermediate compression for higher order ambisonic audio data
CN106471578B (zh) 用于较高阶立体混响信号之间的交叉淡化的方法和装置
WO2020009842A1 (en) Embedding enhanced audio transports in backward compatible audio bitstreams
JP6807033B2 (ja) デコード装置、デコード方法、およびプログラム
KR20080066538A (ko) 멀티 채널 신호의 부호화/복호화 방법 및 장치
KR20230153402A (ko) 다운믹스 신호들의 적응형 이득 제어를 갖는 오디오 코덱
GB2614482A (en) Seamless scalable decoding of channels, objects, and hoa audio content

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191023

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201118

R151 Written notification of patent or utility model registration

Ref document number: 6807033

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151