[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2021517395A - ビデオ復号方法、装置およびコンピュータプログラム - Google Patents

ビデオ復号方法、装置およびコンピュータプログラム Download PDF

Info

Publication number
JP2021517395A
JP2021517395A JP2020546165A JP2020546165A JP2021517395A JP 2021517395 A JP2021517395 A JP 2021517395A JP 2020546165 A JP2020546165 A JP 2020546165A JP 2020546165 A JP2020546165 A JP 2020546165A JP 2021517395 A JP2021517395 A JP 2021517395A
Authority
JP
Japan
Prior art keywords
transformation
transformations
determined
image
encoded video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020546165A
Other languages
English (en)
Other versions
JP7013588B2 (ja
JP2021517395A5 (ja
Inventor
ジャオ,シン
リ,シアン
リィウ,シャン
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2021517395A publication Critical patent/JP2021517395A/ja
Publication of JP2021517395A5 publication Critical patent/JP2021517395A5/ja
Application granted granted Critical
Publication of JP7013588B2 publication Critical patent/JP7013588B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/625Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本開示の各態様は、ビデオ符号化および復号化のための方法および装置を提供する。いくつかの例では、装置は処理回路を含む。当該処理回路は、現在ブロックの予測画像を生成するためのフレーム内予測モードを決定し、符号化されたビデオビットストリームから抽出されたシグナリング情報に基づいて1つ以上の主変換を決定し、決定されたフレーム内予測モードおよび決定された1つ以上の主変換に基づいて二次変換を決定する。当該処理回路はまた、符号化されたビデオビットストリームから抽出された入力ブロックの1つ以上の係数、決定された1つ以上の主変換および決定された二次変換に基づいて、現在ブロックの残差画像を再構築する。そして、当該処理回路は、現在ブロックの予測画像および残差画像に基づいて、現在ブロックの画像を再構築する。

Description

「関連出願の相互参照」
本開示は、2018年3月7日に提出された米国仮出願第62/639,998号「主変換および二次変換に関する統一化および簡略化」、および、2018年11月21日に提出された米国出願第16/198,462号「ビデオ符号化/復号化のための方法および装置」に対する優先権の利益を主張し、それらの全ての内容が参照により本明細書に組み込まれる。
[技術分野]
本開示は、概してビデオ符号化/復号化に関連する実施形態を説明する。
本明細書で提供される背景技術の説明は、本開示のコンテキストを全体的に示すことを目的とする。この背景技術部分及び本明細書の各態様において説明された、現在署名されている発明者の作業の程度は、本開示の提出時に先行技術として示されておらず、また、本開示の先行技術として認められていることを明示または暗示していない。
ビデオ符号化と復号化は、動き補償を有するフレーム間画像予測を用いて実行されることができる。圧縮されていないデジタルビデオは、一連の画像を含むことができ、各画像が、例えば1920×1080の輝度サンプルおよび関連付けられた色度サンプルの空間的次元を有する。この一連の画像は、例えば1秒間に60枚の画像または60ヘルツ(Hz)の固定または可変の画像レート(非公式にはフレームレートとして知られている)を有することができる。圧縮されていないビデオには、非常に高いビットレート要件がある。例えば、サンプルあたり8ビットの1080p60 4:2:0のビデオ(60Hzのフレームレートでの1920x1080の輝度サンプル解像度)は、1.5Gbit/sの帯域幅に近い必要がある。このようなビデオは、一時間で600GB以上の記憶空間を必要とする。
ビデオ符号化および復号化の1つの目的は、入力ビデオ信号における冗長情報を圧縮により低減することである。圧縮は、上記の帯域幅または記憶空間に対する要件を低減することを助けることができ、いくつかの場合では、二桁以上程度を低減することができる。無損失性および損失性の圧縮、ならびに両方の組み合わせは、いずれも使用されることができる。無損失性の圧縮とは、元の信号の正確なコピーを圧縮された元の信号から再構築することができる、という技術を指す。損失性の圧縮が使用される場合、再構築された信号は、元の信号と同一ではない可能性があるが、元の信号と再構築された信号との間の歪みが十分に小さいので、再構築された信号が予想されるアプリケーションに利用されることができる。ビデオの場合、損失性の圧縮は広く使われている。許容される歪みの量は、アプリケーションに依存し、例えば、あるストリーミングアプリケーションを消費するユーザは、テレビ貢献アプリケーションのユーザより、高い歪みを許容することができる。実現可能な圧縮比は、より高い許可/許容可能な歪みがより高い圧縮比を生成することができる、ということを反映している。
ビデオエンコーダおよびデコーダは、例えば動き補償、変換、量子化およびエントロピー符号化を含む、いくつかの広範なカテゴリからの技術を利用することができる。
ビデオ符号化/復号化技術は、フレーム内符号化として知られている技術を含むことができる。フレーム内符号化では、サンプル値は、以前に再構築された参照画像からのサンプルまたは他のデータを参照せずに表現される。いくつかのビデオコーデックでは、画像は空間的にサンプルブロックに細分される。すべてのサンプルブロックがフレーム内モードで符号化された場合、その画像はフレーム内画像とすることができる。独立したデコーダリフレッシュ画像などのようなフレーム内画像およびそれらの派生は、デコーダの状態をリセットするために使用されることができ、したがって、符号化されたビデオビットストリームおよびビデオセッション中の1番目の画像または静止画像として使用されることができる。フレーム内ブロックのサンプルは変換に用いられ、また、変換係数はエントロピー符号化の前に量子化されることができる。フレーム内予測は、プリ変換ドメインにおけるサンプル値を最小化する技術であることができる。いくつかの場合では、変換後のDC値が小さくなり、AC係数が小さくなるほど、エントロピー符号化後のブロックを表すために、与えられた量子化ステップサイズで必要なビットが少なくなる。
例えばMPEG―2符号化技術から知られているような従来のフレーム内符号化は、フレーム内予測を使用していない。しかしながら、いくつかのより新しいビデオ圧縮技術は、例えば、周囲のサンプルデータおよび/またはメタデータからデータブロックを取得しようとする技術を含み、周囲のサンプルデータおよび/またはメタデータは、空間的に隣接するブロックの符号化/復号化期間で、かつ、復号化順の前に得られたものである。このような技術は、以降「フレーム内予測」技術と呼ばれる。少なくともいくつかの場合では、フレーム内予測は、参照画像からの参照データを使用せずに、再構築中の現在画像からの参照データのみを使用する、ということに留意されたい。
多くの異なる形態のフレーム内予測が存在することができる。与えられたビデオ符号化技術では、このような技術のうちの2つ以上を使用することができる場合、使用中の技術は、フレーム内予測モードで符号化を行うことができる。いくつかの場合では、モードは、サブモードおよび/またはパラメータを有してもよいし、これらのモードが、単独で符号化されてもよく、またはモードコードワードに含まれてもよい。どのコードワードを与えられたモード/サブモード/パラメータの組み合わせに使用するかは、フレーム内予測によって符号化効率利得に影響を及ぼすので、コードワードをビットストリームに変換するために使用されるエントロピー符号化技術には、このような場合もある。
フレーム内予測の特定のモードは、H.264で導入され、H.265において改善され、また、共同探索モデル(JEM:joint exploration model)、汎用ビデオ符号化(VVC:versatile video coding)、ベンチマークセット(BMS:benchmark set)などの、更新しい符号化/復号化技術においてさらに改善される。予測ブロックは、既に利用可能なサンプルに属する、隣接するサンプル値を使用して形成されることができる。隣接するサンプルのサンプル値は、ある方向に従って予測ブロックにコピーされる。使用中の方向への参照は、ビットストリームに符号化されてもよく、または、その自身が予測されてもよい。
図1を参照して、右下には、H.265の35個の予測可能な方向から知られている9つの予測方向のサブセットが描かれている。矢印が収束する点(101)は、予測されているサンプルを表す。矢印は、サンプルが予測されている方向を表す。例えば、矢印(102)は、サンプル(101)が水平から45度の角度になる右上の1つ以上のサンプルから予測されることを示す。同様に、矢印(103)は、サンプル(101)が水平から22.5度の角度になるサンプル(101)の左下の1つ以上のサンプルから予測されることを示す。
引き続き図1を参照すると、左上には4×4のサンプルの正方形ブロック(104)が描かれている(太い破線で示される)。正方形ブロック(104)は、16個のサンプルを含み、各サンプルが、「S」と、Y次元(例えば、行索引)での位置と、X次元(例えば、列索引)での位置とでラベル付けられている。例えば、サンプルS21は、Y次元での2番目のサンプル(上から)とX次元での1番目のサンプル(左から)である。同様に、サンプルS44は、Y次元およびX次元の両方でのブロック(104)の4番目のサンプルである。このブロックが4×4サイズのサンプルであるため、S44は右下にある。さらに、同様の番号付けスキームに従う参照サンプルも示されている。参照サンプルは、「R」と、ブロック(104)に対するY位置(例えば、行索引)およびX位置(例えば、列索引)とでラベル付けられている。H.264とH.265の両方では、予測サンプルは再構築中のブロックに隣接しているので、負の値を使用する必要はない。
フレーム内画像予測は、シグナルで通知された予測方向に応じて、隣接するサンプルから参照サンプル値をコピーすることによって機能することができる。例えば、符号化されたビデオビットストリームには、シグナリングが含まれていると仮定すると、このシグナリングは、このブロックに対して、矢印(102)と一致する予測方向を示し、すなわち、サンプルが水平と45度の角度になる右上の1つ以上の予測サンプルから予測される。この場合、サンプルS41、S32、S23、S14は、参照サンプルR05から予測される。そして、サンプルS44は、参照サンプルR08から予測される。
いくつかの場合では、参照サンプルを計算するために、特に、方向が45度で均等に割り切れない場合、例えば、補間を通じて複数の参照サンプルの値を組み合わせることができる。
ビデオ符号化技術の発展につれて、可能な方向の数が既に増加された。H.264(2003年)では、9つの異なる方向を表すことができた。これは、H.265(2013年)で33個に増加し、JEM/VC/BMSは、開示時点で最多65個の方向をサポートすることができる。最も可能な方向を識別するための実験が行われ、そして、エントロピー符号化におけるいくつかの技術は、少数のビットでそれらの可能性がある方向を表すために使用され、可能性が低い方向に対して、いくつかの代償を受ける。さらに、方向の自体は、隣接する既に復号化されたブロックで使用される隣接する方向から予測されることができる場合がある。
図2は、時間の経過とともに増加する予測方向の数を説明するために、JEMによる65個のフレーム内予測方向を描く概略図201である。
フレーム内予測方向から符号化されたビデオビットストリームにおける方向を表すビットへのマッピングは、ビデオ符号化技術によって異なることができ、また、例えば、予測方向への簡単な直接マッピングから、フレーム内予測モード、コードワード、最も可能性が高いモードを含む複雑な適応スキーム、および類似な技術まで、様々なものがある。しかしながら、すべての場合では、ビデオコンテンツにおいて、他の特定の方向よりも統計的に発生する可能性が低い特定の方向が存在する可能性がある。ビデオ圧縮の目的は冗長性の削減であるため、それらの可能性が低い方向は、適切に機能するビデオ符号化技術では、可能性が高い方向よりも多くのビットで表される。
本開示の各態様は、ビデオ符号化および復号化のための方法および装置を提供する。いくつかの例では、装置は処理回路を含む。当該処理回路は、現在ブロックの予測画像を生成するためのフレーム内予測モードを決定し、符号化されたビデオビットストリームから抽出されたシグナリング情報に基づいて1つ以上の主変換を決定し、決定されたフレーム内予測モードおよび決定された1つ以上の主変換に基づいて二次変換を決定する。当該処理回路はまた、符号化されたビデオビットストリームから抽出された入力ブロックの1つ以上の係数、決定された1つ以上の主変換および決定された二次変換に基づいて、現在ブロックの残差画像を再構築する。また、当該処理回路は、現在ブロックの予測画像および残差画像に基づいて、現在ブロックの画像を再構築する。
いくつかの例では、当該処理回路は、1つ以上の主変換に基づいて、二次変換を使用して二次変換処理を実行するかどうかを決定する。いくつかの例では、二次変換処理を実行すると決定された場合、当該処理回路は、前記二次変換を決定し、決定された二次変換に基づいて現在ブロックの残差画像を再構築する。
いくつかの例では、1つ以上の主変換を決定する場合、当該処理回路は、水平変換および垂直変換の複数のペアのうちの1つを決定する。いくつかの例では、当該処理回路は、複数の二次変換のうちの1つを識別し、ここで、前記識別される二次変換が、フレーム内予測モードと、水平変換および垂直変換の複数のペアのうちの1つとの組み合わせに関連つけられ、また、複数の二次変換のそれぞれが、水平変換および垂直変換の複数のペアのうちの異なるペアに関連付けられる。
いくつかの例では、符号化されたビデオビットストリームから抽出された第1フラグが第1値を有する場合、当該処理回路は、水平変換および垂直変換のペアがDCT−II(離散コサイン変換−タイプII)変換であると決定する。少なくとも1つの例では、符号化されたビデオビットストリームから抽出された第1フラグが第1値を有する場合、当該処理回路は、二次変換を使用するた二次変換処理を実行しないと決定する。
少なくとも別の例では、符号化されたビデオビットストリームから抽出された第1フラグが第2値を有する場合、当該処理回路は、符号化されたビデオビットストリームから抽出された変換インデックスに基づいて、水平変換および垂直変換のペアを決定し、符号化されたビデオビットストリームから抽出された第1フラグが第2値を有する場合、フレーム内予測モードと、水平変換および垂直変換のペアとに基づいて、前記二次変換を決定することを実行する。
少なくとも別の例では、符号化されたビデオビットストリームから抽出された第1フラグが第2値を有し、かつ、入力ブロックの1つ以上の係数が、複数個未満の係数のうちの1つに対応し、また高周波数領域に非ゼロの係数を有しなく、ここで、前記複数個の係数の量子化レベルが閾値より小さいである場合、当該水平変換がデフォルトの水平変換であり、当該垂直変換がデフォルトの垂直変換である。符号化されたビデオビットストリームから抽出された第1フラグが第2値を有する場合、当該処理回路は、フレーム内予測モードと、デフォルトの水平変換と、デフォルトの垂直変換とに基づいて、二次変換を決定する。
少なくとも1つの例では、現在ブロックが色度ブロックであり、かつ、決定されたフレーム内予測モードと、符号化されたビデオビットストリームから抽出されたシグナリング情報に基づいて1つ以上の同一の場所に配置された輝度ブロックに対して決定された1つ以上の主変換と、1つ以上の同一の場所に配置された輝度ブロックに対して決定された1つ以上の二次変換とに基づいて、前記1つ以上の主変換を決定することを実行する。
少なくとも1つの例では、現在ブロックが直接モードにより予測された色度成分を有する場合のみ、1つ以上の同一の場所に配置された輝度ブロックに対して決定された1つ以上の主変換と、1つ以上の同一の場所に配置された輝度ブロックに対して決定された1つ以上の二次変換とに基づいて、前記1つ以上の主変換を決定することを実行する。
いくつかの例では、前記1つ以上の主変換を決定するステップは、符号化されたビデオビットストリームから抽出された変換インデックスに基づいて、DCT−II(離散コサイン変換−タイプII)変換およびDST−VII(離散サイン変換−タイプVII)変換を含む候補変換のみから、水平変換および垂直変換のペアを決定するステップを含み、および、主変換処理を実行した後、さらに、決定されたフレーム内予測モードおよび変換インデックスに基づいて決定された置換処理を実行することに基づいて、残差画像を再構築することを実行する。
いくつかの例では、前記1つ以上の主変換を決定するステップは、フレーム内予測モードが垂直モードおよび水平モードのうちの一つに対応する場合、フレーム内予測モードと、符号化されたビデオビットストリームから抽出された変換インデックスとに基づいて、水平変換および垂直変換のペアを決定するステップを含む。
いくつかの例では、前記1つ以上の主変換を決定するステップは、符号化されたビデオビットストリームが水平変換および垂直変換のうちの一つのみに使用される変換インデックスを含む場合、符号化されたビデオビットストリームから抽出された変換インデックスに基づいて、水平変換および垂直変換のうちの一つを決定し、水平変換および垂直変換のうちのもう一つをデフォルト変換に決定するステップを含む。
本開示の各態様はまた、命令を記憶している不揮発性コンピュータ読み取り可能な記憶媒体を提供し、前記命令がビデオ復号化のためのコンピュータによって実行される場合、前記ビデオ復号化のための方法を前記コンピュータに実行させる。
開示された主題の更なる特徴、性質、および様々な利点は、以下の詳細な説明および添付図面からより明らかになり、ここで、
H.265によるフレーム内予測モードのサブセットの概略図である。 JEMによるフレーム内予測方向の概略図である。 一実施形態による通信システム(300)の簡略化されたブロック図の概略図である。 一実施形態による通信システム(400)の簡略化されたブロック図の概略図である。 一実施形態によるデコーダ(510)の簡略化されたブロック図の概略図である。 一実施形態によるエンコーダの簡略化されたブロック図の概略図である 別の実施形態によるエンコーダのブロック図を示す図である。 別の実施形態によるデコーダのブロック図を示す図である。 一実施形態によるデコーダ(900)におけるエントロピーデコーダ(910)および残差デコーダ(920)のブロック図を示す図である。 一実施形態によるギブンズ回転(Givens rotations)のグラフィック表現を示す図である。 一実施形態によるギブンズ回転の組み合わせに基づくハイパーキューブギブンズ変換(Hypercube−Givens Transform)のグラフィック表現を示す図である。 一実施形態によるギブンズ回転の組み合わせに基づく別のハイパーキューブギブンズ変換のグラフィック表現を示す図である。 一実施形態によるエンコーダ(1200)における残差エンコーダ(1210)およびエントロピーエンコーダ(1220)のブロック図を示す図である。 本開示の一実施形態による復号化プロセス(1300)を概説するフローチャートを示す図である。 本開示の一実施形態による符号化プロセス(1400)を概説するフローチャートを示す図である。 一実施形態によるコンピュータシステムの概略図である。s
図3は、本開示の実施形態による通信システム(300)の簡略化されたブロック図である。通信システム(300)は、例えばネットワーク(350)を介して相互に通信することができる複数の端末デバイスを含む。例えば、通信システム(300)は、ネットワーク(350)を介して相互接続された第1ペアの端末デバイス(310)と(320)を含む。図3の例では、第1ペアの端末デバイス(310)と(320)は、データの単方向伝送を行う。例えば、端末デバイス(310)は、ネットワーク(350)を介して他の端末デバイス(320)に伝送するために、ビデオデータ(例えば、端末デバイス(310)によって捕捉されたビデオ画像ストリーム)を符号化することができる。符号化されたビデオデータは、1つ以上の符号化されたビデオビットストリームの形で伝送されることができる。端末デバイス(320)は、ネットワーク(350)から、符号化されたビデオデータを受信し、符号化されたビデオデータを復号化してビデオ画像を復元し、復元されたビデオデータに基づいてビデオ画像を表示することができる。単方向データ伝送は、メディアサービングアプリケーションなどでは一般的である。
別の例では、通信システム(300)は、例えばビデオ会議中に発生する可能性がある、符号化されたビデオデータの双方向伝送を実行する第2ペアの端末デバイス(330)と(340)を含む。データの双方向伝送の場合、一例では、端末デバイス(330)と(340)の各端末デバイスは、ネットワーク(350)を介して端末デバイス(330)と(340)のうちの他方の端末デバイスに送信するために、ビデオデータ(例えば、端末デバイスによって捕捉されたビデオ画像ストリーム)を符号化することができる。端末デバイス(330)と(340)の各端末デバイスは、端末デバイス(330)と(340)のうちの他方の端末デバイスによって送信された、符号化されたビデオデータを受信することもでき、また、符号化されたビデオデータを復号化してビデオ画像を復元し、復元されたビデオデータに基づいて、アクセス可能な表示デバイスにビデオ画像を表示することもできる。
図3の例では、端末デバイス(310)、(320)、(330)および(340)は、サーバ、パーソナルコンピュータおよびスマートフォンとして示されてもよいが、本開示の原理は、これに限定されていない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレイヤーおよび/または専用のビデオ会議機器を有するアプリケーションを見つける。ネットワーク(350)は、端末デバイス(310)、(320)、(330)および(340)間で、符号化されたビデオデータを伝送する任意の数のネットワークを表し、有線(ワイヤード)および/または無線の通信ネットワークを含む。通信ネットワーク(350)は、回路交換および/またはパケット交換のチャネルでデータを交換することができる。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワークおよび/またはインターネットを含む。本開示の目的のために、ネットワーク(350)のアーキテクチャおよびトポロジは、以下に本明細書で説明されない限り、本開示の動作にとって重要ではない場合がある。
図4は、開示された主題に対するアプリケーションの例として、ストリーミング環境におけるビデオエンコーダおよびビデオデコーダの配置を示す。開示された主題は、例えば、CD、DVD、メモリスティックなどを含むデジタルメディアへの圧縮されたビデオの記憶、ビデオ会議、デジタルTVなどを含む、他のビデオサポートアプリケーションにも同等に適用可能である。
ストリーミングシステムは、捕捉サブシステム(413)を含むことができ、この捕捉サブシステムが、例えばデジタルカメラなどのビデオソース(401)を含むことができ、例えば圧縮されていないビデオ画像ストリーム(402)を作成する。一例では、ビデオ画像ストリーム(402)は、デジタルカメラによって撮影されたサンプルを含む。符号化されたビデオデータ(404)(または符号化されたビデオビットストリーム)と比較する際に、高いデータボリュームを強調するために太い線で描かれたビデオ画像ストリーム(402)は、ビデオソース(401)に結合されたビデオエンコーダ(403)を含む電子デバイス(420)によって処理されることができる。ビデオエンコーダ(403)は、以下でより詳細に説明するように、開示された主題の様々な態様を可能にするかまたは実現するために、ハードウェア、ソフトウェア、またはそれらの組み合わせを含むことができる。ビデオ画像ストリーム(402)と比較する際に、より低いデータボリュームを強調するために細い線で描かれた、符号化されたビデオデータ(404)(または符号化されたビデオビットストリーム(404))は、将来の使用のためにストリーミングサーバ(405)に記憶されることができる。図4のクライアントサブシステム(406)および(408)などのような1つ以上のストリーミングクライアントサブシステムは、符号化されたビデオデータ(404)のコピー(407)および(409)を検索するために、ストリーミングサーバー(405)にアクセスすることができる。クライアントサブシステム(406)は、例えば、電子デバイス(430)にビデオデコーダ(410)を含むことができる。ビデオデコーダ(410)は、伝入される、符号化されたビデオデータのコピー(407)を復号化して、伝出される、ビデオ画像ストリーム(411)を生成し、このビデオ画像ストリーム(411)が、ディスプレイ(412)(例えば、ディスプレイスクリーン)または他のレンダリングデバイス(図示せず)に表示されることができる。一部のストリーミングシステムでは、符号化されたビデオデータ(404)、(407)および(409)(例えば、ビデオビットストリーム)は、特定のビデオ符号化/圧縮規格に従って符号化されることができる。これらの規格の例は、ITU−T推薦H.265を含む。一例では、開発中のビデオ符号化規格は、非公式には次世代ビデオ符号化またはVVC(Versatile Video Coding)と呼ばれる。開示された主題は、VVCのコンテキストで使用されることができる。
なお、電子デバイス(420)および(430)は、他のコンポーネント(図示せず)を含むことができる。例えば、電子デバイス(420)は、ビデオデコーダ(図示せず)を含むことができ、電子デバイス(430)は、同様にビデオエンコーダ(図示せず)を含むことができる。
図5は、本開示の実施形態によるビデオデコーダ(510)のブロック図を示す。ビデオデコーダ(510)は、電子デバイス(530)に含まれることができる。電子デバイス(530)は、受信機(531)(例えば、受信回路)を含むことができる。ビデオデコーダ(510)は、図4の例におけるビデオデコーダ(410)の代わりに使用することができる。
受信機(531)は、ビデオデコーダ(510)によって復号化される1つ以上の符号化されたビデオシーケンスを受信することができ、同じまたは別の実施形態では、一度に1つの符号化されたビデオシーケンスを受信することができ、ここで、各符号化されたビデオシーケンスの復号化が、他の符号化されたビデオシーケンスから独立されている。符号化されたビデオシーケンスは、チャネル(501)から受信されることができ、このチャネルが、符号化されたビデオデータを記憶する記憶デバイスへのハードウェア/ソフトウェアのリンクであってもよい。受信機(531)は、それぞれの使用エンティティ(図示せず)に伝送されることができる、例えば符号化されたオーディオデータおよび/または補助データストリームなどのような他のデータとともに、符号化されたビデオデータを受信することができる。受信機(531)は、符号化されたビデオシーケンスを他のデータから分離することができる。ネットワークジッタを防止するために、バッファメモリ(515)は、受信機(531)とエントロピーデコーダ/解析器(Parser)(520)(以降「解析器(520)」)との間に結合されることができる。いくつかのアプリケーションでは、バッファメモリ(515)は、ビデオデコーダ(510)の一部である。他の場合では、バッファメモリ(515)は、ビデオデコーダ(510)の外部に配置されてもよい(図示せず)。さらに他の場合では、例えばネットワークジッタを防止するために、ビデオデコーダ(510)の外部にバッファメモリ(図示せず)があり得て、さらに、例えば再生タイミングを処理するために、ビデオデコーダ(510)の内部に別のバッファメモリ(515)があり得る。受信機(531)が十分な帯域幅および制御可能性を有するストア/フォワードデバイスからまたは等時性同期ネットワーク(isosynchronous network)からデータを受信する場合、バッファメモリ(515)は、必要ではないかまたは小さくてもよい。インターネットなどのようなベストエフォートパケットネットワークで使用するために、バッファメモリ(515)は、必要になる場合があり、比較的大きくすることができ、有利には適応性のサイズにすることができ、オペレーティングシステムまたはビデオデコーダ(510)の外部の類似要素(図示せず)に少なくとも部分的に実装されることができる。
ビデオデコーダ(510)は、符号化されたビデオシーケンスからシンボル(521)を再構築するための解析器(520)を含むことができる。これらのシンボルのカテゴリには、ビデオデコーダ(510)の動作を管理するために使用される情報と、電子デバイス(530)の不可欠な部分ではないが、図5に示すように、電子デバイス(530)に結合されることができるレンダリングデバイス(512)(例えば、ディスプレイスクリーン)などのようなレンダリングデバイスを制御するための潜在的情報とが含まれる。レンダリングデバイスの制御情報は、補足強化情報(SEIメッセージ:Supplementary Enhancement Information)またはビジュアルユーザビリティ情報(VUI)パラメータセットフラグメント(図示せず)の形であってもよい。解析器(520)は、受信された、符号化されたビデオシーケンスに対して解析/エントロピー復号化を行うことができる。符号化されたビデオシーケンスの符号化は、ビデオ符号化技術または規格に従うことができ、可変長符号化、ハフマン符号化、コンテキスト感度を有するかまたは有しないかの算術符号化などを含む、様々な原理に従うことができる。解析器(520)は、グループに対応する少なくとも1つのパラメータに基づいて、符号化されたビデオシーケンスから、ビデオデコーダにおける画素のサブグループのうちの少なくとも1つのサブグループパラメータのセットを抽出することができる。サブグループは、画像のグループ(GOP:Group of Pictures)、画像、タイル、スライス、マクロブロック、符号化ユニット(CU:Coding Unit)、ブロック、変換ユニット(TU:Trans form Unit)、予測ユニット(PU:Prection Unit)などを含むことができる。解析器(520)は、変換係数、量子化器パラメータ値、動きベクトルなどのような情報を符号化されたビデオシーケンスから抽出することもできる。
解析器(520)は、シンボル(521)を作成するために、バッファメモリ(515)から受信されたビデオシーケンスに対してエントロピー復号化/解析動作を実行することができる。
シンボル(521)の再構築は、符号化されたビデオ画像またはその一部(例えば、フレーム間画像およびフレーム内画像、フレーム間ブロックおよびフレーム内ブロック)のタイプおよび他の要因に応じて、複数の異なるユニットに関連することができる。どのようなユニットに関連するか、およびどのように関連するかは、解析器(520)によって、符号化されたビデオシーケンスから解析されたサブグループ制御情報によって制御されることができる。解析器(520)と以下の複数のユニットとの間のそのようなサブグループ制御情報のフローは、明瞭にするために示されていない。
既に言及された機能ブロックに加えて、ビデオデコーダ(510)は、以下に説明するように、いくつかの機能ユニットに概念的に細分されることができる。商業的制約で動作する実際の実施形態では、これらのユニットの多くは、互いに密接に相互作用し、少なくとも部分的には互いに統合されることができる。しかしながら、開示された主題を説明する目的のために、以下の機能ユニットへの概念的な細分は適切である。
第1ユニットは、スケーラ/逆変換ユニット(551)である。スケーラ/逆変換ユニット(551)は、量子化された変換係数と、どのような変換を使用するかということ、ブロックサイズ、量子化因子、量子化スケーリング行列などを含む制御情報とを、解析器(520)からシンボル(521)として受信する。スケーラ/逆変換ユニット(551)は、アグリゲータ(555)に入力できるサンプル値(残差画像とも呼ばれる)を含むブロックを出力することができる。
いくつかの場合では、スケーラ/逆変換ユニット(551)の出力サンプルは、フレーム内符号化ブロックに属することができ、即ち、以前に再構築された画像からの予測情報を使用していないが、現在画像の以前に再構築された部分からの予測情報を使用することができるブロックである。このような予測情報は、フレーム内画像予測ユニット(552)によって提供されてもよい。いくつかの場合では、フレーム内画像予測ユニット(552)は、現在画像バッファ(558)から抽出された、周囲の既に再構築された情報を使用して、再構築中のブロック(フレーム内予測画像とも呼ばれる)と同じサイズおよび形状のブロックを生成する。現在画像バッファ(558)は、例えば、部分的に再構築された現在画像および/または完全に再構築された現在画像をバッファリングする。アグリゲータ(555)は、いくつかの場合では、サンプルごとに基づいて、フレーム内予測ユニット(552)によって生成された予測情報を、スケーラ/逆変換ユニット(551)によって提供される出力サンプル情報に追加する。
他の場合では、スケーラ/逆変換ユニット(551)の出力サンプルは、フレーム間符号化されたブロックおよび潜在的に動き補償されたブロックに属することができる。このような場合、動き補償予測ユニット(553)は、参照画像メモリ(557)にアクセスして、予測に用いられるサンプルを抽出することができる。抽出されたサンプルが、ブロックに関連するシンボル(521)に基づいて動き補償された後、これらのサンプル(フレーム間予測画像とも呼ばれる)は、出力サンプル情報を生成するために、アグリゲータ(555)によってスケーラ/逆変換ユニット(551)の出力(この場合、残差サンプルまたは残差信号と呼ばれる)に追加されることができる。動き補償予測ユニット(553)が予測サンプルを抽出するときの参照画像メモリ(557)内のアドレスは、例えば、X、Y、および参照画像成分を有することができるシンボル(521)の形で、動き補償予測ユニット(553)に利用可能な動きベクトルによって制御されることができる。動き補償は、サブサンプルの正確な動きベクトルが使用中であるときに、参照画像メモリ(557)から抽出されたサンプル値の補間、運動ベクトル予測メカニズムなどを含むこともできる。
アグリゲータ(555)の出力サンプルは、ループフィルタユニット(556)において様々なループフィルタリング技術によって採用されてもよい。ビデオ圧縮技術は、符号化されたビデオシーケンス(符号化されたビデオビットストリームとも呼ばれる)に含まれ、解析器(520)からのシンボル(521)としてループフィルタユニット(556)に利用可能になるパラメータによって制御されるループ内フィルタ技術を含むことができ、また、符号化された画像または符号化されたビデオシーケンスの前の部分(復号化順序で)を復号化する期間で得られたメタ情報に応答し、および、以前に再構築されてループフィルタリングされたサンプル値に応答することもできる。
ループフィルタユニット(556)の出力は、レンダリングデバイス(512)に出力することができ、および、将来のフレーム間画像予測で使用するために参照画像メモリ(557)に記憶することができるサンプルストリームとすることができる。
特定の符号化された画像は、完全に再構築されると、将来の予測のための参照画像として使用することができる。例えば、現在画像に対応する符号化された画像が完全に再構築され、符号化された画像が(例えば、解析器(520)によって)参照画像として識別されると、現在画像バッファ(558)は、参照画像メモリ(557)の一部になることができ、そして、後続の符号化された画像の再構築を開示する前に、新しい現在画像バッファを再割り当てることができる。
ビデオデコーダ(510)は、例えばITU−T Rec.H.265.などのような規格における所定のビデオ圧縮技術に従って復号化動作を実行することができる。符号化されたビデオシーケンスは、符号化されたビデオシーケンスがビデオ圧縮技術または規格の構文と、ビデオ圧縮技術または規格の文書としてのプロファイルとの両方に従うという意味で、使用されているビデオ圧縮技術または規格によって指定された構文に従うことができる。具体的には、プロファイルは、ビデオ圧縮技術または規格で使用可能なすべてのツールから、そのプロファイルで使用できる唯一のツールとしていくつかのツールを選択することができる。符号化されたビデオシーケンスの複雑さが、ビデオ圧縮技術または規格の階層によって定義された範囲内にあるということもコンプライアンスに必要である。いくつかの場合では、階層は、最大画像サイズ、最大フレームレート、(例えば、毎秒メガ(mega)個のサンプルを単位として測定された)最大再構築サンプルレート、最大参照画像サイズなどを制限する。階層によって設定された制限は、いくつかの場合では、仮想参照デコーダ(HRD:Hypthetical Reference Decoder)仕様と、符号化されたビデオシーケンスにおいてシグナルで通知されるHRDバッファ管理のメタデータとによって、さらに制限されることができる。
一実施形態では、受信機(531)は、符号化されたビデオとともに付加(冗長)的なデータを受信することができる。付加的なデータは、符号化されたビデオシーケンスの一部として含まれることができる。付加的なデータは、データを適切に復号化し、および/または元のビデオデータをより正確に再構築するために、ビデオデコーダ(510)によって使用されることができる。付加的なデータは、例えば、時間的、空間的、または信号雑音比(SNR:signal noise ratio)拡張層、冗長スライス、冗長画像、前方誤り訂正符号などのような形式にすることができる。
図6は、本開示の一実施形態によるビデオエンコーダ(603)のブロック図を示す。ビデオエンコーダ(603)は、電子デバイス(620)に含まれる。電子デバイス(620)は、送信機(640)(例えば、送信回路)を含む。ビデオエンコーダ(603)は、図4の例におけるビデオエンコーダ(403)の代わりに使用することができる。
ビデオエンコーダ(603)は、ビデオエンコーダ(603)によって符号化されるビデオ画像を捕捉するビデオソース(601)(図6の例における電子デバイス(620)の一部ではない)から、ビデオサンプルを受信することができる。別の例では、ビデオソース(601)は、電子デバイス(620)の一部である。
ビデオソース(601)は、ビデオエンコーダ(603)によって符号化されたソースビデオシーケンスをデジタルビデオサンプルストリームの形式で提供することができ、前記デジタルビデオサンプルストリームは、任意の適切なビット深度(例えば、8ビット、10ビット、12ビット…)、任意の色空間(例えば、BT.601 Y CrCB、RGB…)及び任意の適切なサンプリング構造(例えば、Y CrCb 4:2:0、Y CrCb 4:4:4)を有することができる。メディアサービスシステムでは、ビデオソース(601)は、以前に準備されたビデオを記憶する記憶デバイスであってもよい。ビデオ会議システムでは、ビデオソース(601)は、ローカル画像情報をビデオシーケンスとして捕捉するカメラであってもよい。ビデオデータは、順番に見られるときに動きを与える複数の個別の画像として提供されることができる。画像自体は、空間画素アレイとして構成されてもよく、ここで、各画素は、使用中のサンプリング構造、色空間などに応じて、1つ以上のサンプルを含むことができる。当業者は、画素とサンプルとの間の関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てる。
一実施形態によれば、ビデオエンコーダ(603)は、リアルタイムで、またはアプリケーションによって要求される任意の他の時間制約の下で、ソースビデオシーケンスの画像を、符号化されたビデオシーケンス(643)に符号化し圧縮することができる。適切な符号化速度を実施することは、コントローラ(650)の1つの機能である。いくつかの実施形態では、コントローラ(650)は、以下で説明するように他の機能ユニットを制御し、他の機能ユニットに機能的に結合される。該結合は、明瞭にするために図示されていない。コントローラ(650)によって設定されたパラメータは、レート制御関連パラメータ(画像スキップ、量子化器、レート歪み最適化技術のλ(ラムダ)値…)、画像サイズ、画像のグループ(GOP:group of pictures)レイアウト、最大動きベクトル探索範囲などを含むことができる。コントローラ(650)は、特定のシステム設計に対して最適化されたビデオエンコーダ(603)に関連する他の適切な機能を有するように構成されることができる。
いくつかの実施形態では、ビデオエンコーダ(603)は、符号化ループで動作するように構成される。過度に簡単化された説明として、一例では、符号化ループは、ソースコーダ(630)(例えば、符号化される入力画像と、参照画像とに基づいて、シンボルストリームなどのようなシンボルを作成することを担当する)と、ビデオエンコーダ(603)に埋め込まれた(ローカル)デコーダ(633)とを含むことができる。デコーダ(633)は、(リモート)デコーダがサンプルデータを作成すると同様の方法でシンボルを再構築してサンプルデータを作成する(開示された主題で考慮されているビデオ圧縮技術では、シンボルと符号化されたビデオビットストリームとの間の任意の圧縮が無損失であるからである)。再構築されたサンプルストリーム(サンプルデータ)は、参照画像メモリ(634)に入力される。シンボルストリームの復号化により、デコーダの位置(ローカルまたはリモート)に関係なくビット正確な結果が得られるため、参照画像メモリ(634)のコンテンツは、「ローカル」)デコーダ(633)と「リモート」)デコーダの間でもビットで正確に対応する。言い換えれば、エンコーダの予測部分が「見た」参照画像サンプルは、デコーダが復号化期間に予測を使用する際に「見た」サンプル値と全く同じである。この参照画像の同期性の基本原理(および、例えばチャネル誤差の原因で同期性が維持されない場合に生じるドリフト)は、いくつかの関連技術でも使用されている。
「ローカル」デコーダ(633)の動作は、既に図5に関連して以上で詳細に説明された、ビデオデコーダ(510)などのような「リモート」デコーダの動作と同じであってもよい。しかし、図5をさらに簡単に参照すると、シンボルが利用可能であり、かつ、エントロピーコーダ(645)および解析器(520)によって符号化されたビデオシーケンスへのシンボルの符号化/復号化が無損失であることができるため、バッファメモリ(515)と解析器(520)を含むビデオデコーダ(510)のエントロピーデコード部分は、ローカルデコーダ(633)で完全に実行できない可能性がある。
この時点で、デコーダに存在する解析/エントロピー復号化以外のいかなるデコーダ技術も、対応するエンコーダにおいて、実質的に同一の機能形式で必ず存在する必要がある、ということが観察されている。このため、開示された主題は、デコーダ動作に焦点を合わせる。エンコーダ技術の説明は、包括的に説明されたデコーダ技術の逆であるため、省略されることができる。特定の領域だけで、より詳細な説明が必要であり、以下で提供される。
動作中に、いくつかの実施形態では、ソースコーダ(630)は、動き補償予測符号化を実行することができ、前記動き補償予測符号化は、ビデオシーケンスから「参照画像」として指定された1つ以上の以前に符号化された画像を参照して、入力画像を予測的に符号化する。このようにして、符号化エンジン(632)は、入力画像の画素ブロックと、入力画像に対する予測参照として選択されることができる参照画像の画素ブロックとの間の差分を符号化する。
ローカルビデオデコーダ(633)は、ソースコーダ(630)によって生成されたシンボルに基づいて、参照画像として指定されることができる画像の符号化されたビデオデータを復号化することができる。符号化エンジン(632)の動作は、有利には損失性プロセスであってもよい。符号化されたビデオデータがビデオデコーダ(図6に示されない)で復号化された場合、再構築されたビデオシーケンスは、通常、いくつかの誤差を伴うソースビデオシーケンスのレプリカであってもよい。ローカルビデオデコーダ(633)は、参照画像に対してビデオデコーダによって実行されることができる復号化プロセスをコピーして、再構築された参照画像を参照画像キャッシュ(634)に記憶することができる。このようにして、ビデオエンコーダ(603)は、遠端ビデオデコーダによって得られる(伝送誤差が存在しない)再構築された参照画像と共通のコンテンツを有する再構築された参照画像のコピーを、ローカルに記憶することができる。
予測器(635)は、符号化エンジン(632)に対して予測検索を実行することができる。すなわち、符号化される新しい画像について、予測器(635)は、新しい画像の適切な予測参照として機能するサンプルデータ(候補参照画素ブロックとして)または特定のメタデータ、例えば参照画像動きベクトル、ブロック形状などについて、参照画像メモリ(634)を検索することができる。予測器(635)は、適切な予測参照を見つけるために、サンプルブロックに基づいて、画素ブロックごとに動作することができる。いくつかの場合では、予測器(635)によって得られた検索結果によって決定されるように、入力画像は、参照画像メモリ(634)に記憶された複数の参照画像から引き出された予測参照を有することができる。
コントローラ(650)は、例えば、ビデオデータを符号化するために使用されるパラメータおよびサブグループパラメータの設定を含む、ソースコーダ(630)の符号化動作を管理することができる。
上述のすべての機能ユニットの出力は、エントロピーコーダ(645)でエントロピー符号化されることができる。エントロピーコーダ(645)は、例えばハフマン符号化、可変長符号化、算術符号化などのような、当業者に知られている技術に従って、シンボルを無損失で圧縮することにより、様々な機能ユニットによって生成されたシンボルを符号化されたビデオシーケンスに変換する。
送信機(640)は、符号化されたビデオデータを記憶する記憶デバイスへのハードウェア/ソフトウェアリンクであることができる通信チャネル(660)を介した送信に備えるために、エントロピーコーダ(645)によって生成成された、符号化されたビデオシーケンスをバッファリングすることができる。送信機(640)は、ビデオコーダ(603)からの符号化されたビデオデータを、送信される他のデータ、例えば、符号化されたオーディオデータおよび/または補助データストリーム(ソースは図示せず)とマージすることができる。
コントローラ(650)は、ビデオエンコーダ(603)の動作を管理することができる。符号化する期間、コントローラ(650)は、各符号化された画像に、特定の符号化された画像タイプを割り当てることができ、これは、それぞれの画像に適用できる符号化技術に影響を与える可能性がある。例えば、画像は、以下の画像タイプのいずれかとして割り当てられることが多いし、即ち、フレーム内画像(I画像)は、シーケンス内の任意の他の画像を予測のソースとして使用せずに、符号化および復号化されることができるものであってもよい。いくつかのビデオコーデックは、独立したデコーダリフレッシュ(Independent Decoder Refresh、「IDR」)画像などの異なるタイプのフレーム内画像を許容する。当業者は、I画像の変種とそれらのアプリケーションおよび機能とを理解している。
予測画像(P画像)は、多くとも1つの動きベクトルおよび参照インデックスを使用して各ブロックのサンプル値を予測するフレーム内予測またはフレーム間予測を使用して符号化および復号化され得るものであってもよい。
双方向予測画像(B画像)は、多くとも2つの動きベクトルおよび参照インデックスを使用して各ブロックのサンプル値を予測するフレーム内予測またはフレーム間予測を使用して符号化および復号化され得るものであってもよい。同様に、複数の予測画像は、単一のブロックの再構築に、2つ以上の参照画像および関連付けられたメタデータを使用することができる。
ソース画像は、一般的に、複数のサンプルブロック(例えば、それぞれ4×4、8×8、4×8、または16×16個のサンプルのブロック)に空間的に細分され、ブロックごとに符号化されることができる。これらのブロックは、ブロックのそれぞれの画像に適用される符号化割り当てによって決定されるように、他の(既に符号化された)ブロックを参照して予測的に符号化されることができる。例えば、I画像のブロックは、非予測的に符号化されてもよく、またはそれらが同じ画像の既に符号化されたブロックを参照して予測的に符号化されてもよい(空間予測またはフレーム内予測)。P画像の画素ブロックは、1つ前に符号化された参照画像を参照して、空間的予測を介してまたは時間的予測を介して予測的に符号化されてもよい。B画像のブロックは、1つまたは2つ前に符号化された参照画像を参照して、空間的予測を介してまたは時間的予測を介して予測的に符号化されてもよい。
ビデオエンコーダ(603)は、例えばITU―T H.265などのような所定のビデオ符号化技術または規格に従って、符号化動作を実行することができる。その動作において、ビデオエンコーダ(603)は、入力ビデオシーケンスにおける時間的と空間的冗長性を利用する予測符号化動作を含む、様々な圧縮動作を実行することができる。したがって、符号化されたビデオデータは、使用されるビデオ符号化技術または規格によって指定された構文に従うことができる。
一実施形態では、送信機(640)は、符号化されたビデオとともに、付加的なデータを送信することができる。ソースコーダ(630)は、そのようなデータを、符号化されたビデオシーケンスの一部として含むことができる。付加的なデータは、時間的/空間的/SNR拡張層、冗長画像やスライスなどのような他の形式の冗長データ、SEI(Supplementary Enhancement Information)メッセージ、VUI(Visual Usability Information)パラメータセットフラグメントなどを含むことができる。
ビデオは、時系列で複数のソース画像(ビデオ画像)として捕捉されることができる。フレーム内画像予測(フレーム内予測と略称されることが多い)は、与えられた画像における空間的相関を利用し、フレーム間画像予測は、画像間の(時間的または他の)相関を利用する。一例では、現在画像と呼ばれる、符号化/復号化中の特定の画像がブロックに分割される。現在画像のブロックが、ビデオにおける以前に符号化され、まだバッファリングされている参照画像における参照ブロックに類似している場合、現在画像のブロックは、動きベクトルと呼ばれるベクトルによって符号化されることができる。動きベクトルは、参照画像における参照ブロックを指し、複数の参照画像が使用されている場合、参照画像を識別する3番目の次元を有することができる。
いくつかの実施形態では、双方向予測技術は、フレーム間画像予測に使用されることができる。双方向予測技術によれば、例えば、復号化の順で両方とも、ビデオにおける現在画像の前にある(ただし、表示の順でそれぞれ、過去と将来にあるかもしれない)第1および第2参照画像などのような2つの参照画像が使用される。現在画像におけるブロックは、第1参照画像における第1参照ブロックを指す第1動きベクトルと、第2参照画像における第2参照ブロックを指す第2動きベクトルによって符号化されることができる。ブロックは、第1参照ブロックおよび第2参照ブロックの組み合わせによって予測されることができる。
さらに、符号化効率を向上させるために、マージモード技術は、フレーム間画像予測で使用されることができる。
本開示のいくつかの実施形態によれば、フレーム間画像予測やフレーム内画像予測などのような予測は、ブロックの単位で実行される。例えば、HEVC規格に従って、ビデオ画像のシーケンスにおける画像は、圧縮のために符号化ツリーユニット(CTU:coding tree unit)に分割され、画像におけるCTUは同じサイズ、例えば64×64画素、32×32画素、または16×16画素を有する。一般的に、CTUは、1つの輝度CTBと2つの色度CTBである3つの符号化ツリーブロック(CTB)を含む。各CTUは、再帰的に四分木で1つ以上の符号化ユニット(CU)に分割されてもよい。例えば、64×64画素のCTUは、1つの64×64画素のCU、4つの32×32画素のCU、または16つの16×16画素のCUに分割されることができる。一例では、各CUは、フレーム間予測タイプまたはフレーム内予測タイプなどのようなCUに対する予測タイプを決定するために分析される。CUは、時間的および/または空間的予測可能性に応じて、1つ以上の予測ユニット(PU)に分割される。通常、各PUは、輝度予測ブロック(PB)と2つの色度PBを含む。一実施形態では、符号化(エンコーディング/デコーディング)における予測動作は、予測ブロックの単位で実行される。輝度予測ブロックを予測ブロックの例として使用すると、予測ブロックは、8×8画素、16×16画素、8×16画素、16×8画素などのような画素値(例えば、輝度値)の行列を含む。
図7は、本開示の別の実施形態によるビデオエンコーダ(703)の図を示す。ビデオエンコーダ(703)は、ビデオ画像シーケンスにおける現在ビデオ画像内のサンプル値の処理ブロック(例えば、予測ブロック)を受信し、処理ブロックを符号化されたビデオシーケンスの一部である符号化された画像に符号化するように構成される。一例では、ビデオエンコーダ(703)は、図4の例におけるビデオエンコーダ(403)の代わりに使用される。
HEVCの例では、ビデオエンコーダ(703)は、例えば8×8サンプルの予測ブロックなど(例えば、ブロックの画像)のような処理ブロックのサンプル値の行列を受信する。ビデオエンコーダ(703)は、例えばレート歪み最適化を使用して、フレーム内モード、フレーム間モード、または双方向予測モードを使用して処理ブロックを符号化するかどうかを決定する。処理ブロックがフレーム内モードで符号化される場合、ビデオエンコーダ(703)は、フレーム内予測技術を使用して、処理ブロックを符号化された画像に符号化することができ、また、処理ブロックがフレーム間モードまたは双方向予測モードで符号化される場合、ビデオエンコーダ(703)は、それぞれフレーム間予測または双方向予測技術を使用して、処理ブロックを符号化された画像に符号化することができる。特定のビデオ符号化技術では、マージモードは、予測値以外にある符号化された動きベクトル成分の利点を利用しない場合に、動きベクトルが1つ以上の動きベクトル予測値から導出されるフレーム間画像予測サブモードにすることができる。特定の他のビデオ符号化技術では、主題ブロックに適用可能な動きベクトル成分が存在する場合がある。一例では、ビデオエンコーダ(703)は、処理ブロックのモードを決定するためのモード決定モジュール(図示せず)などのような他のコンポーネントを含む。
図7の例では、ビデオエンコーダ(703)は、図7に示すように一緒に結合された、フレーム間エンコーダ(730)と、フレーム内エンコーダ(722)と、残差計算器(723)と、スイッチ(726)と、残差エンコーダ(724)と、汎用コントローラ(721)と、エントロピーエンコーダ(725)とを含む。
フレーム間エンコーダ(730)は、現在ブロック(例えば、処理ブロック)のサンプルを受信し、そのブロックを参照画像(例えば、前の画像と後の画像におけるブロック)内の1つ以上の参照ブロックと比較し、フレーム間予測情報(例えば、フレーム間符号化技術による冗長情報説明、動きベクトル、マージモード情報)を生成して、任意の適切な技術を使用して、フレーム間予測情報に基づいてフレーム間予測結果(例えば、予測されたブロック)を計算するように構成される。
フレーム内エンコーダ(722)は、現在ブロック(例えば、処理ブロック)のサンプルを受信し、いくつかの場合では、そのブロックを同じ画像で既に符号化されたブロックと比較し、変換後に量子化された係数を生成して、いくつかの場合では、フレーム内予測情報(例えば、1つ以上のフレーム内符号化技術によるフレーム内予測方向情報)を生成するように構成される。
汎用コントローラ(721)は、汎用制御データを決定し、汎用制御データに基づいてビデオエンコーダ(703)の他のコンポーネントを制御するように構成される。一例では、汎用コントローラ(721)は、ブロックのモードを決定し、そのモードに基づいて制御信号をスイッチ(726)に提供する。例えば、モードがフレーム内である場合、汎用コントローラ(721)は、残差計算器(723)によって使用されるフレーム内モード結果(例えば、ブロックのフレーム内予測画像)を選択するように、スイッチ(726)を制御し、フレーム内予測情報を選択して、そのフレーム内予測情報をコードストリームに含めるように、エントロピーエンコーダ(725)を制御する。また、モードがフレーム間モードである場合、汎用コントローラ(721)は、残差計算器(723)によって使用されるフレーム間予測結果(例えば、ブロックのフレーム間予測画像)を選択するように、スイッチ(726)を制御し、フレーム間予測情報を選択して、そのフレーム間予測情報をコードストリームに含めるように、エントロピーエンコーダ(725)を制御する。
残差計算器(723)は、受信されたブロック(例えば、ブロックの画像)とフレーム内エンコーダ(722)またはフレーム間エンコーダ(730)から選択された予測結果(ブロックの予測画像)との間の差(残差データまたは残差画像)を計算するように構成される。残差エンコーダ(724)は、空間領域から周波数領域に残差データを変換するように構成される。一例では、残差エンコーダ(724)は、周波数領域で残差データを変換し、変換係数を生成するように構成される。次に、変換係数は量子化処理を受けて、量子化された変換係数が得られる。
エントロピーエンコーダ(725)は、符号化されたブロックを含むようにビットストリームをフォーマットするように構成される。エントロピーエンコーダ(725)は、HEVC規格などのような適切な規格に従って様々な情報を含むように構成される。一例では、エントロピーエンコーダ(725)は、汎用制御データ、選択された予測情報(例えば、フレーム内予測情報またはフレーム間予測情報)、残差情報、およびビットストリーム内の他の適切な情報を含むように構成される。開示された主題によれば、フレーム間モードまたは双方向予測モードのマージサブモードでブロックを符号化する場合、残差情報はないということに留意されたい。
図8は、本開示の別の実施形態によるビデオデコーダ(810)の図を示す。ビデオデコーダ(810)は、符号化されたビデオシーケンスの一部である符号化された画像を受信し、符号化された画像を復号化して再構築された画像を生成するように構成される。一例では、ビデオデコーダ(810)は、図4の例におけるビデオデコーダ(410)の代わりに使用される。
図8の例では、ビデオデコーダ(810)は、図8に示されるように一緒に結合された、エントロピーデコーダ(871)と、フレーム間デコーダ(880)と、残差デコーダ(873)と、再構築モジュール(874)と、フレーム内デコーダ(872)とを含む。
エントロピーデコーダ(871)は、符号化された画像から、符号化された画像を構成する構文要素を表す特定のシンボルを再構築するように構成されることができる。このようなシンボルは、例えば、ブロックを符号化するためのモード(例えば、フレーム内、フレーム間、双方向予測、後者の2つのマージサブモードまたは別のサブモード)と、フレーム内デコーダ(872)またはフレーム間デコーダ(880)による予測に使用される特定のサンプルまたはメタデータをそれぞれ識別できる予測情報(例えば、フレーム内予測情報またはフレーム間予測情報など)と、例えば量子化された変換係数の形式の残差情報などとを含む。一例では、予測モードがフレーム間予測モードまたは双方向予測モードである場合、フレーム間予測情報は、フレーム間デコーダ(880)に提供される。そして、予測タイプがフレーム内予測タイプである場合、フレーム内予測情報は、フレーム内デコーダ(872)に提供される。残差情報は、逆量子化を受けて、残差デコーダ(873)に提供されることができる。
フレーム間デコーダ(880)は、フレーム間予測情報を受信し、フレーム間予測情報に基づいてフレーム間予測結果(例えば、現在ブロックのフレーム間予測画像)を生成するように構成される。
フレーム内デコーダ(872)は、フレーム内予測情報を受信し、フレーム内予測情報に基づいて予測結果(例えば、現在ブロックのフレーム内予測画像)を生成するように構成される。
残差デコーダ(873)は、逆量子化を実行して、逆量子化された変換係数を抽出し、その逆量子化された変換係数を処理して、残差を周波数領域から空間領域に変換して現在ブロックの残差画像を取得するように構成される。残差デコーダ(873)はまた、特定の制御情報(量子化器パラメータ(QP)を含むように)も必要とする場合があり、その情報は、エントロピーデコーダ(871)によって提供される場合がある(これが低ボリューム制御情報のみであるため、データ経路は図示されていない)。
再構築モジュール(874)は、空間領域において、残差デコーダ(873)による出力としての現在ブロックの残差画像と、場合によってはフレーム間予測モジュールまたはフレーム内予測モジュールによる出力としての予測結果(例えば、現在ブロックの予測画像)とを組み合わせて、再構築されたブロック(例えば、現在ブロックの再構築された画像)を形成するように構成され、再構築されたブロックは、再構築された画像の一部とすることができ、その後、再構築された画像は、再構築されたビデオの一部とすることができる。それは、視覚的品質を改善するために、デブロッキング動作などのような他の適切な動作を実行することができる、ということに留意されたい。
ビデオエンコーダ(403)、(603)および(703)と、ビデオデコーダ(410)、(510)および(810)とは、任意の適切な技術を使用して実現されることができる、ということに留意されたい。一実施形態では、ビデオエンコーダ(403)、(603)および(703)と、ビデオデコーダ(410)、(510)および(810)とは、1つ以上の集積回路を使用して実現されることができる。別の実施形態では、ビデオエンコーダ(403)、(603)および(703)と、ビデオデコーダ(410)、(510)および(810)とは、ソフトウェア命令を実行する1つ以上のプロセッサを使用して実装されることができる。
図9は、一実施形態によるデコーダ(900)におけるエントロピーデコーダ(910)および残差デコーダ(920)のブロック図を示す。デコーダ(900)は、符号化されたビデオシーケンスの一部である符号化された画像を受信し、符号化された画像を復号化して再構築された画像を生成するように構成される。いくつかの例では、デコーダ(900)は、ビデオデコーダ(410)、(510)または(810)に対応する。
図9の例では、デコーダ(900)は、残差デコーダ(920)に結合されたエントロピーデコーダ(910)を含む。いくつかの例では、エントロピーデコーダ(910)は、解析器(520)またはエントロピーデコーダ(871)に対応し、残差デコーダ(920)は、スケーラ/逆変換ユニット(551)または残差デコーダ(873)に対応する。したがって、図4、図5および図8を参照して説明したものと同一または類似である、デコーダ(900)、エントロピーデコーダ(910)および残差デコーダ(920)の構成および特徴は、簡略化または省略されることができる。さらに、いくつかの実施形態では、デコーダ(900)は、エントロピーデコーダ(910)および残差デコーダ(920)以外の他のコンポーネントを含む。
エントロピーデコーダ(910)は、符号化されたビデオシーケンスを受信し、入力ブロック(932)および対応する制御情報を残差デコーダ(920)に出力することができる。いくつかの例では、入力ブロック(932)は、現在ブロックの符号化された残差画像を表す量子化された係数を含む。残差デコーダ(920)は、入力ブロック(932)の1つ以上の係数を受信し、入力ブロック(932)の1つ以上の係数および制御情報に基づいて、現在ブロックの残差画像を出力することができる。
図9の例では、残差デコーダ(920)は、逆量子化ユニット(922)、二次変換ユニット(924)、置換ユニット(926)および主変換ユニット(928)を含む。いくつかの実施形態では、残差デコーダ(920)のすべてのコンポーネントは、図9に描かれておらず、図示されていない。さらに、本明細書に記載された様々なユニットは、ハードウェア回路、命令を実行する処理回路、またはそれらの組み合わせを使用して実現されることができる。
逆量子化ユニット(922)は、エントロピーデコーダ(910)から入力ブロック(932)の1つ以上の係数を受信し、中間ブロック(934)を生成することができ、当該中間ブロック(934)は、エントロピーデコーダ(910)からの量子化因子および/または量子化スケーリング行列に基づく再スケーリングされた係数を含む。
二次変換ユニット(924)は、中間ブロック(934)の特定の部分に対する二次変換に基づいて二次変換処理を実行し、現在ブロックの残差画像の周波数領域表現に対応する変換ブロック(936)を取得することができる。いくつかの例では、中間ブロック(934)の特定の部分は、中間ブロック(934)の低周波数部分に対応する。いくつかの例では、中間ブロック(934)の特定の部分は、中間ブロック(934)の左上部分に対応する。
主変換ユニット(928)は、変換ブロック(936)を受信し、エントロピーデコーダ(910)からの制御情報に示される1つ以上の主変換に基づいて主変換処理を実行し、再構築されたブロック(938)を生成することができる。
置換ユニット(926)は、エントロピーデコーダ(910)からの制御情報に示される置換処理に基づいて、再構築されたブロック(938)を再び並べ替え、現在ブロックの再構築された残差画像を出力することができる。その後、現在ブロックの画像は、現在ブロックの残差画像と、フレーム内予測またはフレーム間予測などの予測スキームを使用して生成された現在ブロックの予測画像とに基づいて再構築されることができる。
いくつかの実施形態では、二次変換ユニット(924)および置換ユニット(926)のうちの1つまたは複数は、制御情報に従って無効化されてもよく、または必要に応じて省略されてもよい。二次変換ユニット(924)が無効化または省略された場合、逆量子化ユニット(922)の出力(934)は、変換されたブロック(936)として使用される。置換ユニット(926)が無効化または省略された場合、主変換ユニット(928)の出力(938)は、再構築された残差画像として使用される。
いくつかの実施形態では、デコーダによって実行される主変換処理は、エンコーダによって実行される対応する主変換処理の逆であってもよい。いくつかの実施形態では、デコーダによって実行される二次変換処理は、エンコーダによって実行される対応する二次変換処理の逆であってもよい。
主変換処理に関して、いくつかの例では、主変換処理は、水平変換および垂直変換を使用して実行されることができる。さまざまなタイプの変換基底関数は、主変換処理を実行するために使用されることができる。例えば、表1は、DCT−II(離散コサイン変換−タイプII)、DCT−V(離散コサイン変換−タイプV)、DCT−VIII(離散コサイン変換−タイプVIII)、DST−I(離散サイン変換−タイプI)およびDST−VII(離散サイン変換−タイプVII)を含む、適用可能な変換基底関数のタイプを示している。もちろん、他のタイプの変換基底関数は、残差符号化のために適用されることもできる。
Figure 2021517395
例えば、既にHEVCで採用されているDCT−IIおよび4×4 DST−VIIに加えて、適応マルチ変換(AMT:Adaptive Multiple Transform、またはエンハンスドマルチ変換(EMT:Enhanced Multiple Transform)として知られているか、あるいはマルチ変換選択(MTS:Multiple Transform Selectio)としてしられている)スキームは、フレーム間およびフレーム内の両方の符号化されたブロックの残差符号化に使用されることができる。
いくつかの例では、変換行列の直交性を維持するために、変換されたブロックは、例えばHEVCでの8ビットの代わりに10ビット表現を使用するなど、より高い精度で量子化されることができる。変換された係数の中間値が16ビットの範囲内に維持されるために、水平変換後かつ垂直変換後に、現在のHEVC変換で使用されている右シフトと比較して、全ての係数は、2ビット以上で右シフトされることができる。
いくつかの実施形態では、AMTは、幅および高さの両方が64以下であるCUに適用され、AMTが適用されるか否かは、CUレベルフラグによって制御される。CUレベルフラグが0に等しい場合、残差を符号化するために、DCT−IIをCUに適用することができる。AMTが有効なCU内の輝度符号化ブロックについて、使用される水平および垂直変換を識別するために、2つの付加的なフラグを信号で通知することができる。いくつかの例では、変換スキップモードを使用してブロックの残差を符号化することができる。いくつかの例では、構文符号化の冗長性を回避するために、CUレベルのAMTフラグが0に等しくない場合、変換スキップフラグは信号で通知されない。
フレーム内符号化ブロックのための残差符号化について、異なるフレーム内予測モードの異なる残差統計のため、モード依存の変換候補選択処理が使用される。いくつかの例では、表2に示すように3つの変換サブセットを定義でき、表3に示すように、フレーム内予測モードに基づいて変換サブセットを選択することができる。
Figure 2021517395
いくつかの実施形態では、サブセットの概念に関して、変換サブセットは、まず、CUレベルのAMTフラグが1に等しいCUのフレーム内予測モードを使用して、表2に基づいて識別される。その後、水平および垂直変換のそれぞれについて、表3に従って、識別された変換サブセットにおける2つの変換候補のうちの1つを、明示的に信号で通知されたフラグに基づいて選択することができる。
Figure 2021517395
フレーム間符号化ブロックの残差符号化について、いくつかの例では、DST−VIIおよびDCT−VIIIを含む、1つの変換セットのみが、水平および垂直変換の両方に使用される。
二次変換処理について、非分離二次変換(NSST:non−separable secondary transform)を適用することができる。いくつかの実施形態では、NSSTは、主変換後の低周波係数のみに適用される。いくつかの例では、変換係数ブロックの幅(W)および高さ(H)の両方が8以上である場合、8×8のNSSTが、変換係数ブロックの左上の8×8領域に適用される。そうでなければ、変換係数ブロックのWまたはHのいずれかが4に等しい場合、4×4のNSSTが適用され、また、4×4の非分離変換が変換係数ブロックの左上のmin(8,W)×min(8,H)領域で実行される。
いくつかの実施形態例では、非分離可能な変換の行列乗算の実装は、例として4×4の入力ブロックを用いて以下のように説明される。非分離可能な変換を適用するには、4×4の入力ブロックX
Figure 2021517395
は、ベクトル
Figure 2021517395
Figure 2021517395
として表現される。
非分離可能な変換は、
Figure 2021517395
として計算され、ここで、
Figure 2021517395
は、変換係数ベクトルを示し、Tは、16×16の変換行列である。その後、16×1の係数ベクトル
Figure 2021517395
は、そのブロックのスキャン順序(水平、垂直、または対角)を使用して4×4のブロックとして再編成される。より小さいインデックスを有する係数は、4×4の係数ブロック内に、より小さいスキャンインデックスで配置される。
いくつかの例では、バタフライ実現を有するハイパーキューブギブンス変換(HyGT:Hypercube−Givens Transform)が、行列乗算の代わりに使用され、非分離可能な変換の複雑さを低減させる。例えば、この直交変換の基本要素はギブンス回転であり、このギブンス回転が直交行列G(m,n,θ)で定義され、また、
Figure 2021517395
によって定義される要素を有する。
図10Aは、一実施形態によるギブンス回転のグラフィック表現を示す。これらの変換は、図10Aのようにグラフィックで表現することができ、ここで、

Figure 2021517395
かつ、
Figure 2021517395
である。
ハイパーキューブ配列にギブンス回転のセットを組み合わせることにより、HyGTを実現することができる。図10Bは、一実施形態によるギブンス回転の組み合わせに基づくハイパーキューブギブンス変換のグラフィック表現を示す。図10Bの例では、「バタフライ」形状のフローチャートに基づいて16個の要素(4×4非分離可能な変換)のためのHyGTを計算することができる。例えば、Nが2の累乗であると仮定すると、HyGTラウンド(round)は、log2(N)パス(pass)のシーケンスとして定義され、ここで、各パスでは、ベクトルmおよびnにおけるインデックスは、次元log2(N)を有するハイパーキューブのエッジによって、各方向に順次的に定義される。
良好な圧縮を得るために、2つ以上のHyGTラウンドを使用することができる。図11は、一実施形態によるギブンス回転の組み合わせに基づく別のハイパーキューブギブンス変換のグラフィック表現を示す。図11に示すように、完全な非分離可能ま二次変換は、RラウンドのHyGTから構成され、変換係数の分散に従って変換係数をソートするために、オプションの置換パスを含むことができる。いくつかの例では、2ラウンドのHyGTは、4×4の二次変換に適用され、4ラウンドのHyGTは、8×8の二次変換に適用される。
いくつかの実施形態では、現在ブロックがフレーム内符号化される場合、二次変換処理および/または二次変換処理を実行するための二次変換を実行するかスキップするかは、主変換処理のための1つ以上の主変換に基づいて決定されることができる。したがって、いくつかの例では、符号化されたビットストリームにおける特定のフレーム内符号化されたブロックのための二次変換処理を制御するためのパラメータを含む必要はない。このようにして、主変換処理と二次変換処理を実行するためのパラメータを個別に信号で通知する代わりに、二次変換処理が主変換処理に関連付けられ、そして、制御情報は、主変換処理と二次変換処理の組み合わせに対して信号で通知されると見なされている。
例えば、デコーダ(900)の復号化コントローラは、エントロピーデコーダ(932)と協働して、現在ブロックの予測画像を生成するためのフレーム内予測モードを決定し、符号化されたビデオシーケンスまたは符号化されたビデオビットストリームから抽出されたシグナリング情報に基づいて、1つ以上の主変換を決定することができる。復号化コントローラはさらに、1つ以上の主変換に基づいて、二次変換を使用して二次変換処理を実行するか否かをさらに決定することができる。
いくつかの例では、二次変換処理が実行されるべきであると決定された場合、デコーダ(900)の復号化コントローラは、決定されたフレーム内予測モードおよび決定された1つ以上の主変換に基づいて、二次変換を決定することができる。残差デコーダ(920)は、符号化されたビデオビットストリームから抽出された入力ブロックの1つ以上の係数、決定された1つ以上の主変換、および決定された二次変換に基づいて、現在ブロックの残差画像を再構築することができる。
いくつかの例では、二次変換処理が実行されないと決定された場合、残差デコーダ(920)は、入力ブロックの1つ以上の係数および決定された1つ以上の主変換に基づいて、現在ブロックの残差画像を再構築し、二次変換処理をスキップすることができる。
現在ブロックの残差画像が再構築された後、デコーダ(900)は、現在ブロックの予測画像および残差画像に基づいて、現在ブロックの画像を再構築することができる。
1つの例示的な実施形態では、DCT−IIが主水平および垂直変換として使用される場合、二次変換が使用されないが信号で通知されるか、または二次変換が信号で通知されないが使用されるか、あるいは二次変換が信号で通知されないが、復号化された情報から二次変換の使用が推定される。いくつかの例では、二次変換は、ブロック高さ、ブロック幅、ブロック形状、変換係数、およびフレーム内予測方向のうちの少なくとも1つ以上に基づいて決定され得る。
別の例示的な実施形態では、1つの二次変換は、1対の水平/垂直変換タイプのみに関連付けられる。いくつかの例では、1つの二次変換は、様々なフレーム内予測モードに使用されることができる。
別の例示的な実施形態では、1つの変換フラグは、デフォルト変換、例えばDCT−IIが使用されるかどうかを示すために信号で通知される。例えば、変換フラグが0である場合、DCT−IIは水平変換と垂直変換の両方に使用され、二次変換は適用されない。一方、変換フラグが1である場合、変換インデックスはさらに、主変換と二次変換のどの組み合わせが適用されるかを示すために信号で通知されてもよい。
いくつかの実施形態では、現在ブロックの残差画像を表す変換ブロックが変換スキップモードによって符号化されない場合、特定の条件下で、変換フラグも変換インデックスも信号で通知されず、DCT−IIのみが使用される。この条件は、(i)変換ブロックがN個(例えば、1、2または3)未満の係数を有し、ここで、その係数の量子化レベルが所定の閾値(例えば、1、2または3)より小さいこと、および(ii)変換ブロックが特定の位置(例えば、その高周波数部分)に非ゼロの係数を有しないこと、のうちの1つ以上を含むが、これらに限定されない。
いくつかの実施形態では、変換ブロックが変換スキップモードによって符号化されない場合、特定の条件下で、変換フラグは依然として信号で通知されるが、変換インデックスは信号で通知されず、また、主変換と二次変換のデフォルトの組み合わせが使用される。この条件は、(i)変換ブロックがN個(例えば、1、2または3)未満の係数を有し、ここで、その係数の量子化レベルが所定の閾値(例えば、1、2または3)より小さいこと、および(ii)変換ブロックが特定の位置(例えば、その高周波数部分)に非ゼロの係数を有しないこと、のうちの1つ以上を含むが、これらに限定されない。
いくつかの実施形態では、変換ブロックが変換スキップモードによって符号化されない場合、特定の条件下で主変換のみが使用され、二次変換が使用されない。この条件は、(i)変換ブロックがN個(例えば、1、2または3)未満の係数を有し、ここで、その係数の量子化レベルが所定の閾値(例えば、1、2または3)より小さいこと、および(ii)変換ブロックが特定の位置(例えば、その高周波数部分)に非ゼロの係数を有しないこと、のうちの1つ以上を含むが、これらに限定されない。
いくつかの例では、現在ブロックが色度ブロックである場合、現在色度ブロックのための主変換および/または二次変換は、1つ以上の同一の場所に配置された輝度ブロックの様々な設定から推定されることができる。したがって、輝度および色度ブロックのための変換シグナリングスキームがを統一されることができる。
1つの実施形態では、変換シグナリングは色度ブロックに適用されず、色度ブロックのための主変換および二次変換は、同一の場所に配置された輝度ブロックに適用される主変換および二次変換、および色度フレーム内予測方向に基づいて導出される。
いくつかの実施形態では、この導出は、直接モード(すなわち、DMモードであり、ここで、色度ブロックのためのフレーム内予測モードが、同一の場所に配置された輝度ブロックのためのフレーム内予測モードと同じである)によって色度成分が予測される場合のみに適用される。いくつかの実施形態では、色度ブロックのフレーム内予測モードが輝度ベースのモード(すなわち、LMモードであり、ここで、色度ブロックのためのフレーム内予測モードが、同一の場所に配置された輝度ブロックのためのフレーム内予測モードに基づいて推定される)である場合、他のデフォルトのフレーム内モード、例えば平面モードまたはDCモードに関連付けられる主変換および二次変換が使用される。
いくつかの実施形態では、主変換は、符号化されたビデオビットストリームから抽出された変換インデックスに基づいて、DCT−II(離散コサイン変換−タイプII)変換およびDST−VII(離散サイン変換−タイプVII)変換を含む候補変換から主決定される。デコーダ(900)では、まず、例えば各行/列の要素の反転や行/列の並べ替えなどの置換方法が、フレーム内予測モードおよび信号で通知された変換インデックスに基づいて選択され、そして、主逆変換処理が主変換ユニット(928)によって実行された後、この置換が置換ユニット(926)によって適用される。
いくつかの実施形態では、いくつかのフレーム内予測モードについて、主変換のシグナリングはモードに依存するものであってもよい。いくつかの実施形態では、いくつかのフレーム内予測モードについて、垂直または水平変換のみは信号で通知されてもよい。いくつかの実施形態では、垂直および水平変換が個別に信号で通知される代わりに、予め定義された垂直および水平変換ペアのみが信号で通知される。
1つの例では、変換タイプが水平(または垂直)方向に対して信号で通知されない場合、デフォルトの変換タイプ、例えば、DST−VIIまたはDST−IVが水平(または垂直)方向に対して使用される。いくつかの例では、DST−IVは、少なくとも、
Figure 2021517395
に基づく基底関数を有する。
別の例示的な実施形態では、垂直フレーム内予測、例えばHEVCにおけるフレーム内予測モードインデックス26、およびJEMにおけるフレーム内予測モードインデックス50について、水平変換選択のみが信号で通知される。
別の例示的な実施形態では、水平フレーム内予測、例えばHEVCにおけるフレーム内予測モードインデックス10、およびJEMにおけるフレーム内予測モードインデックス18について、垂直変換選択のみが信号で通知される。
図12は、一実施形態によるエンコーダ(1200)における残差エンコーダ(1210)およびエントロピーエンコーダ(1220)のブロック図を示す。エンコーダ(1200)は、現在ブロックの残差画像を受信し、当該残差画像を符号化されたビデオシーケンスに符号化するようお構成される。いくつかの例では、エンコーダ(1200)は、ビデオエンコーダ(403)、(603)または(703)に対応する。
図12の例では、エンコーダ(1200)は、エントロピーエンコーダ(1220)に結合された残差エンコーダ(1210)を含む。いくつかの例では、エントロピーコーダ(1220)は、エントロピーエンコーダ(645)またはエントロピーデコーダ(725)に対応し、残差エンコーダ(1210)は、符号化エンジン(632)または残差エンコーダ(724)に対応する。したがって、図4、図6および図7を参照して説明したものと同一または類似である、エンコーダ(1200)、エントロピーエンコーダ(1220)および残差エンコーダ(1210)の構成および特徴は、簡略化または省略されることができる。さらに、いくつかの実施形態では、エンコーダ(1200)は、エントロピーエンコーダ(1220)および残差エンコーダ(1210)に加えて、他の要素も含む。
図12の例では、残差エンコーダ(1210)は、置換ユニット(1214)、主変換ユニット(1212)、二次変換ユニット(1216)および量子化ユニット(1218)を含む。いくつかの実施形態では、残差エンコーダ(1210)の全てのコンポーネントが図12に描かれておらず、図示されていない。さらに、本明細書に記載される様々なユニットは、ハードウェア回路、命令を命令する処理回路、またはそれらの組み合わせを使用して実現されることができる。
置換ユニット(1214)は、置換処理に基づいて、現在ブロックの残差画像を再配置して、置換処理情報をエントロピーデコーダ(1220)に提供することができる。置換ユニット(1214)は、再配置されたブロック(1232)を出力することができる。いくつかの例では、置換ユニット(1214)が省略または無効化された場合、残差画像は、再配置されたブロック(1232)として使用される。
主変換ユニット(1212)は、再配置されたブロック(1232)を受信し、1つ以上の主変換に基づいて主変換処理を実行して、再配置されたブロック(1232)を空間領域から周波数領域に変換し、また、変換されたブロック(1234)を出力することができる。主変換ユニット(1212)は、主変換処理を実行するための1つ以上の主変換を、エントロピーエンコーダ(1220)に転送することができる。
二次変換ユニット(1216)は、中間ブロック(1236)を得るために、変換されたブロック(1234)の特定の部分に対する二次変換に基づいて、二次変換処理を実行し、中間ブロック(1236)を得ることができる。いくつかの例では、変換されたブロック(1234)の特定の部分は、変換ブロック(1234)の低周波数部分に対応する。いくつかの例では、変換されたブロック(1234)の特定の部分は、変換されたブロック(1234)の左上部分に対応する。いくつかの例では、二次変換ユニット(1216)が省略または無効化された場合、変換されたブロック(1234)は中間ブロック(1236)として使用される。
量子化ユニット(1218)は、中間ブロック(1236)を受信し、決定された量子化因子数および/または量子化スケーリング行列に基づいて、量子化されたブロック(1238)を生成し、量子化されたブロック(1238)をエントロピーエンコーダ(1220)に出力する。量子化ユニット(1218)はまた、採用された量子化因子および/または量子化スケーリング行列に関する情報を、エントロピーエンコーダ(1220)に転送することができる。
最後に、エントロピーエンコーダ(1220)は、量子化されたブロック(1238)および全ての関連付けられた制御情報を、符号化されたビデオシーケンスに符号化することができる。
いくつかの実施形態では、エンコーダによって実行される主変換処理は、デコーダによって実行される対応する主変換処理の逆であってもよい。いくつかの実施形態では、エンコーダによって実行される二次変換処理は、デコーダによって実行される対応する二次変換処理の逆であってもよい。
図9を参照して示されるように、現在ブロックのための二次変換は、現在ブロックのための1つ以上の主変換およびフレーム内予測モードに基づいて決定されることができ、そのため、二次変換のための制御情報またはインデックスについての別個のシグナリングが省略されることができる。また、符号化プロセス中に、色度ブロックのための二次変換および/または制御情報の一部または全部は、現在ブロックまたは同一の場所に配置された輝度ブロックのための1つ以上の主変換に関連付けることによって決定されることができ、また、このような制御情報のための付加的な符号化トライアルはスキップされることができる。これにより、符号化効率を向上させることができ、画像を符号化するための計算リソースが削減されることができる。
図13は、本開示の実施形態による復号化プロセス(1300)を概説するフローチャートを示す。当該プロセス(1300)は、フレーム内モードで符号化されたブロックの再構築に使用されることができ、ブロックの残差画像を再構築することを含む。いくつかの実施形態では、1つ以上の動作は、当該プロセス(1300)の前または後に実行されてもよく、図13に示されるいくつかの動作は、並べ替えまたは省略されてもよい。
様々な実施形態では、当該プロセス(1300)は、例えば、端末デバイス(310)、(320)、(330)および(340)における処理回路、ビデオデコーダ(410)、(510)および(810)の機能を実行する処理回路、ビデオデコーダ(900)の機能を実行する処理回路などの処理回路によって実行される。いくつかの実施形態では、当該プロセス(1300)はソフトウェア命令で実現され、したがって、処理回路が当該ソフトウェア命令を実行する場合、処理回路は当該プロセス(1300)を実行する。当該プロセスは(S1301)から始まり、(S1310)に進む。
(S1310)では、現在ブロックの予測画像を生成するためのフレーム内予測モードを決定する。いくつかの例では、フレーム内予測モードに基づいて、図4、図5、および図8を参照して示されるように、現在ブロックの予測画像を生成することができる。
(S1320)では、符号化されたビデオビットストリームから抽出されたシグナリング情報に基づいて、入力ブロックの1つ以上の係数を処理するための1つ以上の主変換を決定する。例えば、図9を参照して示されるように、復号化コントローラまたはエントロピーエンコーダは、符号化されたビデオビットストリームを使用して信号で通知された制御情報に基づいて、入力ブロックの1つ以上の係数を処理するための1つ以上の主変換を決定することができる。
(S1330)では、図9を参照して示されるように、入力ブロックの1つ以上の係数を処理するための少なくとも1つ以上の主変換に基づいて、入力ブロックの1つ以上の係数を処理するための二次変換処理を実行するかどうかを決定する。二次変換処理を実行すると決定された場合、当該プロセスは(S1340)に進む。二次変換処理を実行しないと決定された場合、当該プロセスは(S1355)に進む。
(S1340)では、決定されたフレーム内予測モードおよび決定された1つ以上の主変換に基づいて、入力ブロックの1つ以上の係数を処理するための二次変換を決定する。例えば、復号化コントローラまたはエントロピーエンコーダは、図9を参照して示されるように、決定されたフレーム内予測モードおよび決定された1つ以上の主変換に基づいて、入力ブロックの1つ以上の係数を処理するための二次変換を決定することができる。
(S1350)では、入力ブロックの1つ以上の係数、決定された1つ以上の主変換、および決定された二次変換に基づいて、現在ブロックの残差画像を再構築する。例えば、図9を参照して示されるように、残差デコーダは、残差画像を再構築することができる。
一方、(S1355)では、入力ブロックの1つ以上の係数、および決定された1つ以上の主変換に基づいて、現在ブロックの残差画像を再構築し、また、二次変換処理をスキップする。例えば、図9を参照して示されるように、残差デコーダは、残差画像を再構築することができる。
(S1360)では、図4、図5および図8を参照して示されるように、予測画像および残差画像に基づいて、現在ブロックの画像を再構築する。
その後、当該プロセスは、(S1399)に進み、終了する。
図14は、本開示の実施形態による符号化プロセス(1400)を概説するフローチャートを示す。当該プロセス(1400)は、フレーム内モードで符号化されたブロックの符号化に使用されることができ、ブロックの残差画像を符号化することを含む。いくつかの実施形態では、1つ以上の動作は、当該プロセス(1400)の前または後に実行されてもよく、図14に示されるいくつかの動作は、並べ替えまたは省略されてもよい。
様々な実施例では、当該プロセス(1400)は、例えば、端末デバイス(310)、(320)、(330)および(340)における処理回路、ビデオエンコーダ(403)、(603)および(703)の機能を実行する処理回路、ビデオエンコーダ(1200)の機能を実行する処理回路などの処理回路によって実行される。いくつかの実施形態では、当該プロセス(1400)はソフトウェア命令で実現され、したがって、処理回路が当該ソフトウェア命令を実行する場合、処理回路は当該プロセス(1400)を実行する。当該プロセスは(S1401)から始まり、(S1410)に進む。
(S1410)では、現在ブロックの予測画像を生成するためのフレーム内予測モードを決定する。いくつかの例では、フレーム内予測モードに基づいて、図4、図6、および図7を参照して示されるように、現在ブロックの予測画像を生成することができる。
(S1420)では、現在ブロックの予測画像に基づいて、現在ブロックの残差画像を生成する。例えば、図4、図6および図7を参照して示されるように、エンコーダは、残差画像を生成することができる。
(S1430)では、図4、図6および図7を参照してに示されるように、様々なトライアル符号化設定をテストすることにより、残差画像を処理するための1つ以上の主変換を決定する。
(S1440)では、図12を参照して示されるように、残差画像を処理するための少なくとも1つ以上の主変換に基づいて、残差画像を処理するための二次変換処理を実行するかどうかを決定する。二次変換処理を実行すると決定された場合、当該プロセスは、(S1450)に進む。二次変換処理を実行しないと決定された場合、当該プロセスは、(S1465)に進む。
(S1450)では、決定されたフレーム内予測モードおよび決定された1つ以上の主変換に基づいて、残差画像を処理するための二次変換を決定する。例えば、図12を参照して示されるように、符号化コントローラは、決定されたフレーム内予測モードおよび決定された1つ以上の主変換に基づいて、残差画像を処理するための二次変換を決定することができる。
(S1460)では、残差画像、決定された1つ以上の主変換、および決定された二次変換に基づいて、変換されたブロックを生成する。例えば、図12を参照して示されるように、残差エンコーダは、残差画像を再構築することができる。
一方、(S1465)では、残差画像および決定された1つ以上の主変換に基づいて、変換されたブロックを生成し、二次変換処理をスキップする。例えば、図12を参照して示されるように、残差エンコーダは、残差画像を再構築することができる。
(S1470)では、図4、図6および図7を参照して示されるように、決定されたフレーム内予測モードおよび変換されたブロックに基づいて、現在ブロックを符号化することができる。
その後、当該プロセスは、(S1499)に進み、終了する。
上記の技術は、コンピュータ読み取り可能な命令を使用するコンピュータソフトウェアとして実現され、また、物理的に1つ以上のコンピュータ読み取り可能な媒体に記憶されることができる。例えば、図15は、開示された主題の特定の実施形態を実現するのに適したコンピュータシステム(1500)を示す。
コンピュータソフトウェアは、任意の適切なマシンコードまたはコンピュータ言語を使用して符号化されることができ、アセンブリ、コンパイル、リンク、または同様のメカニズムを受けて命令を含むコードを作成することができ、命令は、1つ以上のコンピュータ中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)などによって、直接的に実行されてもよく、またはコード解釈、マイクロコード実行などによって実行されてもよい。
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、オブジェクトネットワークデバイス(internet of things devices)などを含む、様々なタイプのコンピュータまたはそのコンポーネントで実行されてもよい。
図15に示されるコンピュータシステム(1500)のコンポーネントは、本質的に例示的なものであり、本開示の実施形態を実現するコンピュータソフトウェアの使用範囲または機能に関するいかなる制限も示唆することが意図されていない。コンポーネントの構成は、コンピュータシステム(1500)の例示的な実施形態に示されているコンポーネントのいずれかまたは組み合わせに関連する任意の依存性または要件を有すると解釈されるべきではない。
コンピュータシステム(1500)は、いくつかのヒューマンインターフェース入力デバイスを含むことができる。このようなヒューマンインターフェース入力デバイスは、触覚入力(例えば、キーストローク、スワイプ、データグローブの動きなど)、オーディオ入力(例えば、音声、拍手など)、視覚入力(例えば、ジェスチャーなど)、嗅覚入力(図示せず)によって、1人以上のユーザによる入力に応答することができる。ヒューマンインタフェースデバイスはまた、例えばオーディオ(例えば、音声、音楽、環境音など)、画像(例えば、スキャンされた画像、静止画像カメラから得られた写真画像など)、ビデオ(例えば、2次元ビデオ、立体映像を含む3次元ビデオなど)などの、人間による意識的な入力に必ずしも直接関連されているとは限らない、特定のメディアを捕捉するために使用されることもできる。
ヒューマンインタフェース入力デバイスは、キーボード(1501)、マウス(1502)、トラックパッド(1503)、タッチスクリーン(1510)、データグローブ(図示せず)、ジョイスティック(1505)、マイクロホン(1506)、スキャナ(1507)、カメラ(1508)(それぞれの1つだけが図示された)のうちの1つまたは複数を含むことができる。
コンピューターシステム(1500)はまた、いくつかのヒューマンインターフェース出力デバイスを含むことができる。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および嗅覚/味覚によって、1人以上のユーザの感覚を刺激することができる。このようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン(1510)、データグローブ(図示せず)またはジョイスティック(1505)による触覚フィードバックであるが、入力デバイスとして作用しない触覚フィードバックデバイスであってもよい)、オーディオ出力デバイス(例えば、スピーカ(1509)、ヘッドホン(図示せず))、視覚出力デバイス(例えば、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン(1510)であり、各々は、タッチスクリーン入力機能を備えてもよく、あるいは備えていなくてもよいし、各々は、触覚フィードバック機能を備えてもよく、あるいは備えていなくてもよいし、これらのいくつかは、例えば、ステレオグラフィック出力、仮想現実メガネ(図示せず)、ホログラフィックディスプレイとスモークタンク(図示せず)、およびプリンタ(図示せず)などによって、2次元の視覚出力または3次元以上の視覚出力を出力することができる。
コンピューターシステム(1500)は、CD/DVDを有するCD/DVD ROM/RW(1520)を含む光学媒体または類似の媒体(1521)、サムドライブ(1522)、リムーバブルハードドライブまたはソリッドステートドライブ(1523)、テープおよびフロッピーディスク(図示せず)などのようなレガシー磁気媒体、セキュリティドングル(図示せず)などのような特殊なROM/ASIC/PLDベースのデバイスなどのような、人間がアクセス可能な記憶デバイスおよびそれらに関連する媒体を含むことができる。
当業者はまた、ここで開示されている主題に関連して使用される「コンピュータ読み取り可能な媒体」という用語は、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解すべきである。
コンピューターシステム(1500)はまた、一つ以上の通信ネットワークへのインターフェースを含むことができる。ネットワークは、例えば、無線、有線、光学的であってもよい。ネットワークはさらに、ローカルネットワーク、広域ネットワーク、大都市圏ネットワーク、車両用ネットワークおよび産業用ネットワーク、リアルタイムネットワーク、遅延耐性ネットワークなどであってもよい。ネットワークの例は、イーサネット(登録商標)、無線LAN、セルラーネットワーク(GSM(登録商標)、3G、4G、5G、LTEなど)などのLAN、テレビケーブルまたは無線広域デジタルネットワーク(有線テレビ、衛星テレビ、地上放送テレビを含む)、車両用および産業用ネットワーク(CANBusを含む)などを含む。いくつかのネットワークは、一般に、いくつかの汎用データポートまたは周辺バス(1549)(例えば、コンピュータシステム(1500)のUSBポート)に接続された外部ネットワークインターフェースアダプタが必要であり、他のシステムは、通常、以下に説明するようにシステムバスに接続することによって、コンピュータシステムシステム(1500)のコアに統合される(例えば、PCコンピュータシステムへのイーサネットインターフェース、またはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム(1500)は、他のエンティティと通信することができる。このような通信は、単方向の受信のみ(例えば、放送TV)、単方向の送信のみ(例えば、Canbusから特定のCanbusデバイスへ)、あるいは、双方向の、例えばローカルまたは広域デジタルネットワークを使用して他のコンピュータシステムへの通信であってもよい。上述のように、特定のプロトコルおよびプロトコルスタックは、それらのネットワークおよびネットワークインターフェースのそれぞれで使用されることができる。
上記のヒューマンインターフェースデバイス、ヒューマンアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピューターシステム(1500)のコア(1540)に接続されることができる。
コア(1540)は、1つ以上の中央処理ユニット(CPU)(1541)、グラフィック処理ユニット(GPU)(1542)、フィールドプログラマブルゲートアレイ(FPGA)(1543)の形式の専用プログラマブル処理ユニット、特定のタスクのためのハードウェア加速器(1544)などを含むことができる。これらのデバイスは、リードオンリーメモリ(ROM)(1545)、ランダムアクセスメモリ(1546)、例えば内部の非ユーザアクセスハードディスクドライブ、SSDなどの内部大容量ストレージ(1547)などとともに、システムバス(1548)を介して接続されてもよい。いくつかのコンピュータシステムでは、付加的なCPU、GPUなどによって拡張を可能にするために、システムバス(1548)に1つ以上の物理的プラグの形でアクセスすることができる。周辺デバイスは、コアのシステムバス(1548)に直接的に接続されてもよく、または周辺バス(1549)を介して接続されてもよい。周辺バスのアーキテクチャは、外部コントローラインターフェース(PCI)、汎用シリアルバス(USB)などを含む。
CPU(1541)、GPU(1542)、FPGA(1543)、および加速器(1544)は、いくつかの命令を実行することができ、これらの命令を組み合わせて上述のコンピュータコードを構成することができる。そのコンピュータコードは、ROM(1545)またはRAM(1546)に記憶されることができる。また、一時的なデータは、RAM(1546)に記憶されることができる一方、永久的なデータは、例えば内部大容量ストレージ(1547)に記憶されることができる。1つ以上のCPU(1541)、GPU(1542)、大容量ストレージ(1547)、ROM(1545)、RAM(15s46)などと密接に関連することができる、キャッシュメモリを使用することにより、任意のメモリデバイスに対する高速記憶および検索が可能になる。
コンピュータ読み取り可能な媒体は、様々なコンピュータ実行された動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構成されたものであってもよく、またはコンピュータソフトウェア分野の技術者によって知られ、利用可能な媒体およびコードであってもよい。
限定ではなく例として、アーキテクチャ(1500)、特にコア(1540)を有するコンピュータシステムは、1つ以上の有形な、コンピュータ読み取り可能な媒体に具体化されたソフトウェアを実行する、(CPU、GPU、FPGA、加速器などを含む)プロセッサとして機能を提供することができる。このようなコンピュータ読み取り可能な媒体は、上記のユーザがアクセス可能な大容量ストレージに関連する媒体であり、コア内部大容量ストレージ(1547)またはROM(1545)などの、不揮発性コア(1540)を有する特定のストレージであってもよい。本開示の様々な実施形態を実現するソフトウェアは、そのようなデバイスに記憶され、コア(1540)によって実行されてもよい。コンピュータ読み取り可能な媒体は、特定のニーズに応じて、1つ以上のメモリデバイスまたはチップを含むことができる。このソフトウェアは、コア(1540)、具体的にはその中のプロセッサ(CPU、GPU、FPGAなどを含む)に、RAM(1546)に記憶されているデータ構造を定義することと、ソフトウェアによって定義されたプロセスに従ってこのようなデータ構造を変更することとを含む、本明細書に説明された特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えてまたは代替として、コンピュータシステムは、ロジックハードワイヤードされているか、または別の方法で回路(例えば、アクセラレータ(1544))に組み込まれているため、機能を提供することができ、この回路は、ソフトウェアの代わりに動作し、またはソフトウェアと一緒に動作して、本明細書に説明された特定のプロセスの特定のプロセスまたは特定の部分を実行することができる。適切な場合には、ソフトウェアへの参照はロジックを含むことができ、逆もまた然りである。適切な場合には、コンピュータ読み取り可能な媒体への参照は、実行されるソフトウェアを記憶する回路(集積回路(IC)など)を含み、実行されるロジックを具体化する回路、またはその両方を兼ね備えることができる。本開示は、ハードウェアおよびソフトウェアの任意の適切な組み合わせを包含する。
付録A:頭字語
JEM:joint exploration model、共同探索モデル
VVC:versatile video coding、汎用ビデオ符号化
BMS:benchmark set、ベンチマークセット
MV:Motion Vector、モーションベクトル
HEVC:High Efficiency Video Coding、高効率ビデオ符号化/復号化
SEI:Supplementary Enhancement Information、補足強化情報
VUI:Visual Usability Information、ビジュアルユーザビリティ情報
GOPs:Groups of Pictures、画像のグループ
TUs:Transform Units、変換ユニット
PUs:Prediction Units、予測ユニット
CTUs:Coding Tree Units、符号化ツリーユニット
CTBs:Coding Tree Blocks、符号化ツリーブロック
PBs:Prediction Blocks、予測ブロック
HRD:Hypothetical Reference Decoder、仮想参照デコーダ
SNR:Signal Noise Ratio、信号雑音比
CPUs:Central Processing Units、中央処理ユニット
GPUs:Graphics Processing Units、グラフィック処理ユニット
CRT:Cathode Ray Tube、陰極線管
LCD:Liquid−Crystal Display、液晶ディスプレイ
OLED:Organic Light−Emitting Diode、有機発光ダイオード
CD:Compact Disc、コンパクトディスク
DVD:Digital Video Disc、デジタルビデオディスク
ROM:Read−Only Memory、読み取り専用メモリ
RAM:Random Access Memory、ランダムアクセスメモリ
ASIC:Application−Specific Integrated Circuit、特定用途向け集積回路
PLD:Programmable Logic Device、プログラマブルロジックデバイス
LAN:Local Area Network、ローカルエリアネットワーク
GSM:Global System for Mobile communications、モバイル通信のグローバルシステム
LTE:Long−Term Evolution、長期的な進化
CANBus:Controller Area Network Bus、コントローラエリアネットワークバス
USB:Universal Serial Bus、汎用シリアルバス
PCI:Peripheral Component Interconnect、外部コントローラインターフェース
FPGA:Field Programmable Gate Arrays、フィールドプログラマブルゲートアレイ
SSD:solid−state drive、ソリッドステートドライブ
IC:Integrated Circuit、集積回路
CU:Coding Unit、符号化ユニット
本開示は、いくつかの例示的な実施形態について説明したが、本開示の範囲内にある変更、配置、および様々な均等置換が存在している。したがって、当業者は、本明細書では明確に示されていないかまたは説明されていないが、本開示の原則を具現しているので、本開示の精神および範囲内にある、様々なシステムおよび方法を設計することができる、ということを理解されたい。
本明細書で提供される背景技術の説明は、本開示のコンテキストを全体的に示すことを目的とする。この背景技術部分及び本明細書の各態様において説明された、現在署名されている発明者の研究は、本開示の提出時に先行技術として示されていない可能性があり、また、明示的にも黙示的にも本開示の先行技術として認めていない。
図1を参照して、右下には、H.265の35個の予測可能な方向から知られている9つの予測方向のサブセットが描かれている。矢印が収束する点(101)は、予測されているサンプルを表す。矢印は、サンプルが予測されている方向を表す。例えば、矢印(102)は、サンプル(101)が水平から45度の角度にる右上の1つ以上のサンプルから予測されることを示す。同様に、矢印(103)は、サンプル(101)が水平から22.5度の角度にるサンプル(101)の左下の1つ以上のサンプルから予測されることを示す。
フレーム内予測方向から符号化されたビデオビットストリームにおける方向を表すビットへのマッピングは、ビデオ符号化技術によって異なる可能性があり、また、例えば、予測方向への簡単な直接マッピングから、フレーム内予測モード、コードワード、最も可能性が高いモードを含む複雑な適応スキーム、および類似な技術まで、様々なものがある。しかしながら、すべての場合、ビデオコンテンツにおいて、他の特定の方向よりも統計的に発生する可能性が低い特定の方向が存在する可能性がある。ビデオ圧縮の目的は冗長性の削減であるため、それらの可能性が低い方向は、適切に機能するビデオ符号化技術では、可能性が高い方向よりも多くのビットで表される。
ビデオソース(601)は、ビデオエンコーダ(603)によって符号化されたソースビデオシーケンスをデジタルビデオサンプルストリームの形式で提供することができ、デジタルビデオサンプルストリームは、任意の適切なビット深度(例えば、8ビット、10ビット、12ビット…)、任意の色空間(例えば、BT.601 Y CrCB、RGB…)及び任意の適切なサンプリング構造(例えば、Y CrCb 4:2:0、Y CrCb 4:4:4)を有することができる。メディアサービスシステムでは、ビデオソース(601)は、以前に準備されたビデオを記憶する記憶デバイスであってもよい。ビデオ会議システムでは、ビデオソース(601)は、ローカル画像情報をビデオシーケンスとして捕捉するカメラであってもよい。ビデオデータは、順番に見られるときに動きを与える複数の個別の画像として提供されることができる。画像自体は、空間画素アレイとして構成されてもよく、ここで、各画素は、使用中のサンプリング構造、色空間などに応じて、1つ以上のサンプルを含むことができる。当業者は、画素とサンプルとの間の関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てる。
いくつかの実施形態では、ビデオエンコーダ(603)は、符号化ループで動作するように構成される。過度に簡単化された説明として、一例では、符号化ループは、ソースコーダ(630)(例えば、符号化される入力画像と、参照画像とに基づいて、シンボルストリームなどのようなシンボルを作成することを担当する)と、ビデオエンコーダ(603)に埋め込まれた(ローカル)デコーダ(633)とを含むことができる。デコーダ(633)は、(リモート)デコーダがサンプルデータを作成すると同様の方法でシンボルを再構築してサンプルデータを作成する(開示された主題で考慮されているビデオ圧縮技術では、シンボルと符号化されたビデオビットストリームとの間の任意の圧縮が無損失であるからである)。再構築されたサンプルストリーム(サンプルデータ)は、参照画像メモリ(634)に入力される。シンボルストリームの復号化により、デコーダの位置(ローカルまたはリモート)に関係なくビット正確な結果が得られるため、参照画像メモリ(634)のコンテンツは、「ローカル」デコーダ(633)と「リモート」デコーダの間でもビット正確に対応する。言い換えれば、エンコーダの予測部分が「見た」参照画像サンプルは、デコーダが復号化期間に予測を使用する際に「見た」サンプル値と全く同じである。この参照画像の同期性の基本原理(および、例えばチャネル誤差の原因で同期性が維持されない場合にドリフトが生じる)は、いくつかの関連技術でも使用されている。
この時点で、デコーダに存在する解析/エントロピー復号化以外のいかなるデコーダ技術も、対応するエンコーダにおいて、実質的に同一の機能形式で必ず存在する必要がある、ということが分かる。このため、開示された主題は、デコーダ動作に焦点を合わせる。エンコーダ技術の説明は、包括的に説明されたデコーダ技術の逆であるため、省略されることができる。特定の領域だけで、より詳細な説明が必要であり、以下で提供される。
動作中に、いくつかの実施形態では、ソースコーダ(630)は、動き補償予測符号化を実行することができ、動き補償予測符号化は、ビデオシーケンスから「参照画像」として指定された1つ以上の以前に符号化された画像を参照して、入力画像を予測的に符号化する。このようにして、符号化エンジン(632)は、入力画像の画素ブロックと、入力画像に対する予測参照として選択されることができる参照画像の画素ブロックとの間の差分を符号化する。
付録A:
JEM:joint exploration model、共同探索モデル
VVC:versatile video coding、汎用ビデオ符号化
BMS:benchmark set、ベンチマークセット
MV:Motion Vector、モーションベクトル
HEVC:High Efficiency Video Coding、高効率ビデオ符号化/復号化
SEI:Supplementary Enhancement Information、補足強化情報
VUI:Visual Usability Information、ビジュアルユーザビリティ情報
GOPs:Groups of Pictures、画像のグループ
TUs:Transform Units、変換ユニット
PUs:Prediction Units、予測ユニット
CTUs:Coding Tree Units、符号化ツリーユニット
CTBs:Coding Tree Blocks、符号化ツリーブロック
PBs:Prediction Blocks、予測ブロック
HRD:Hypothetical Reference Decoder、仮想参照デコーダ
SNR:Signal Noise Ratio、信号雑音比
CPUs:Central Processing Units、中央処理ユニット
GPUs:Graphics Processing Units、グラフィック処理ユニット
CRT:Cathode Ray Tube、陰極線管
LCD:Liquid−Crystal Display、液晶ディスプレイ
OLED:Organic Light−Emitting Diode、有機発光ダイオード
CD:Compact Disc、コンパクトディスク
DVD:Digital Video Disc、デジタルビデオディスク
ROM:Read−Only Memory、読み取り専用メモリ
RAM:Random Access Memory、ランダムアクセスメモリ
ASIC:Application−Specific Integrated Circuit、特定用途向け集積回路
PLD:Programmable Logic Device、プログラマブルロジックデバイス
LAN:Local Area Network、ローカルエリアネットワーク
GSM:Global System for Mobile communications、モバイル通信のグローバルシステム
LTE:Long−Term Evolution、ロングタームエボリューション
CANBus:Controller Area Network Bus、コントローラエリアネットワークバス
USB:Universal Serial Bus、汎用シリアルバス
PCI:Peripheral Component Interconnect、外部コントローラインターフェース
FPGA:Field Programmable Gate Arrays、フィールドプログラマブルゲートアレイ
SSD:solid−state drive、ソリッドステートドライブ
IC:Integrated Circuit、集積回路
CU:Coding Unit、符号化ユニット
本開示は、いくつかの例示的な実施形態について説明したが、本開示の範囲内にある変更、配置、および様々な均等置換が存在している。したがって、当業者は、本明細書では明確に示されていないかまたは説明されていないが、本開示の原則を具現しているので、本開示の精神および範囲内にある、様々なシステムおよび方法を設計することができる、ということを理解されたい。

Claims (20)

  1. デコーダでビデオを復号化する方法であって、
    現在ブロックの予測画像を生成するためのフレーム内予測モードを決定するステップと、
    符号化されたビデオビットストリームから抽出されたシグナリング情報に基づいて、1つ以上の主変換を決定するステップと、
    前記決定されたフレーム内予測モードと、前記決定された1つ以上の主変換とに基づいて、二次変換を決定するステップと、
    前記符号化されたビデオビットストリームから抽出された入力ブロックの1つ以上の係数と、前記決定された1つ以上の主変換と、前記決定された二次変換とに基づいて、現在ブロックの残差画像を再構築するステップと、
    前記現在ブロックの予測画像および残差画像に基づいて、前記現在ブロックの画像を再構築するステップと、を含む、
    ことを特徴とする方法。
  2. 前記1つ以上の主変換に基づいて、前記二次変換を使用して二次変換処理を実行するかどうかを決定するステップ、をさらに含み、
    ここで、前記二次変換処理を実行すると決定された場合、前記二次変換を決定することと、前記決定された二次変換に基づいて前記現在ブロックの残差画像を再構築することとを実行する、
    ことを特徴とする請求項1に記載の方法。
  3. 前記1つ以上の主変換を決定するステップは、水平変換および垂直変換の複数のペアのうちの1つを決定するステップ、を含み、
    前記二次変換を決定するステップは、複数の二次変換のうちの1つを識別し、ここで、前記識別される二次変換が、前記フレーム内予測モードと、前記水平変換および垂直変換の複数のペアのうちの1つとの組み合わせに関連付けられるステップ、を含み、また、
    前記複数の二次変換のそれぞれが、前記水平変換および垂直変換の複数のペアのうちの異なるペアに関連付けられる、
    ことを特徴とする請求項1に記載の方法。
  4. 前記1つ以上の主変換を決定するステップは、前記符号化されたビデオビットストリームから抽出された第1フラグが第1値を有する場合、水平変換および垂直変換のペアがDCT−II(離散コサイン変換−タイプII)変換であると決定するステップ、を含む、
    ことを特徴とする請求項1に記載の方法。
  5. 前記符号化されたビデオビットストリームから抽出された第1フラグが前記第1値を有する場合、前記二次変換を使用する二次変換処理を実行しないと決定するステップ、をさらに含む、
    ことを特徴とする請求項4に記載の方法。
  6. 前記1つ以上の主変換を決定するステップは、前記符号化されたビデオビットストリームから抽出された第1フラグが第2値を有する場合、前記符号化されたビデオビットストリームから抽出された変換インデックスに基づいて、前記水平変換および垂直変換のペアを決定するステップと、
    前記符号化されたビデオビットストリームから抽出された第1フラグが前記第2値を有する場合、前記フレーム内予測モードと、前記水平変換および垂直変換のペアとに基づいて、前記二次変換を決定することを実行するステップと、を含む、
    ことを特徴とする請求項4に記載の方法。
  7. 前記符号化されたビデオビットストリームから抽出された第1フラグが第2値を有し、かつ、前記入力ブロックの1つ以上の係数が、複数個未満の係数のうちの1つに対応し、また高周波数領域に非ゼロの係数を有しなく、ここで、前記複数個の係数の量子化レベルが閾値より小さいである場合、
    前記水平変換がデフォルトの水平変換であり、前記垂直変換がデフォルトの垂直変換であり、および、
    前記符号化されたビデオビットストリームから抽出された第1フラグが前記第2値を有する場合、前記フレーム内予測モードと、前記デフォルトの水平変換と、前記デフォルトの垂直変換とに基づいて、前記二次変換を決定することを実行する、
    ことを特徴とする請求項4に記載の方法。
  8. 前記前記ブロックが色度ブロックであり、かつ、
    前記決定されたフレーム内予測モードと、前記符号化されたビデオビットストリームから抽出されたシグナリング情報に基づいて1つ以上の同一の場所に配置された輝度ブロックに対して決定された1つ以上の主変換と、前記1つ以上の同一の場所に配置された輝度ブロックに対して決定された1つ以上の二次変換とに基づいて、前記1つ以上の主変換を決定することを実行する、
    ことを特徴とする請求項1に記載の方法。
  9. 前記前記ブロックが色度ブロックであり、かつ、
    前記現在ブロックが直接モードによって予測された色度成分を有する場合のみ、1つ以上の同一の場所に配置された輝度ブロックに対して決定された1つ以上の主変換と、前記1つ以上の同一の場所に配置された輝度ブロックに対して決定された1つ以上の二次変換とに基づいて、前記1つ以上の主変換を決定することを実行する、
    ことを特徴とする請求項1に記載の方法。
  10. 前記1つ以上の主変換を決定するステップは、前記符号化されたビデオビットストリームから抽出された変換インデックスに基づいて、DCT−II(離散コサイン変換−タイプII)変換およびDST−VII(離散サイン変換−タイプVII)変換を含む候補変換のみから、水平変換および垂直変換のペアを決定するステップを含み、および、
    前記主変換処理を実行した後に、さらに、前記決定されたフレーム内予測モードおよび前記変換インデックスに基づいて決定された置換処理を実行することに基づいて、前記残差画像を再構築することを実行する、
    ことを特徴とする請求項1に記載の方法。
  11. 前記1つ以上の主変換を決定するステップは、前記フレーム内予測モードが垂直モードおよび水平モードのうちの一つに対応する場合、前記フレーム内予測モードと、前記符号化されたビデオビットストリームから抽出された変換インデックスとに基づいて、水平変換および垂直変換のペアを決定するステップ、を含む、
    ことを特徴とする請求項1に記載の方法。
  12. 前記1つ以上の主変換を決定するステップは、前記符号化されたビデオビットストリームが水平変換および垂直変換のうちの一つのみに使用される変換インデックスを含む場合、
    前記符号化されたビデオビットストリームから抽出された変換インデックスに基づいて、前記水平変換および垂直変換のうちの一つを決定し、かつ、
    前記水平変換および垂直変換のうちのもう一つをデフォルト変換に決定するステップ、を含む、
    ことを特徴とする請求項1に記載の方法。
  13. 処理回路を含む装置であって、前記処理回路は、
    現在ブロックの予測画像を生成するためのフレーム内予測モードを決定し、
    符号化されたビデオビットストリームから抽出されたシグナリング情報に基づいて、1つ以上の主変換を決定し、
    前記決定されたフレーム内予測モードと、前記決定された1つ以上の主変換とに基づいて、二次変換を決定し、
    前記符号化されたビデオビットストリームから抽出された入力ブロックの1つ以上の係数と、前記決定された1つ以上の主変換と、前記決定された二次変換とに基づいて、現在ブロックの残差画像を再構築し、
    前記現在ブロックの予測画像および残差画像に基づいて、前記現在ブロックの画像を再構築するように構成される、
    ことを特徴とする装置。
  14. 前記処理回路は、
    前記1つ以上の主変換に基づいて、前記二次変換を使用して二次変換処理を実行するかどうかを決定し、
    前記二次変換処理を実行すると決定された場合、前記二次変換を決定し、前記決定された二次変換に基づいて現在ブロックの残差画像を再構築するように構成される、
    ことを特徴とする請求項13に記載の装置。
  15. 前記処理回路は、
    水平変換および垂直変換の複数のペアのうちの1つを決定し、
    複数の二次変換のうちの1つを識別し、ここで、前記識別される二次変換が、前記フレーム内予測モードと、前記水平変換および垂直変換の複数のペアのうちの1つとの組み合わせに関連付けられるように構成され、
    ここで、前記複数の二次変換のそれぞれが、前記水平変換および垂直変換の複数のペアのうちの異なるペアに関連付けられる、
    ことを特徴とする請求項13に記載の装置。
  16. 前記処理回路は、
    前記符号化されたビデオビットストリームから抽出された第1フラグが第1値を有する場合、水平変換および垂直変換のペアがDCT−II(離散コサイン変換−タイプII)変換であると決定するように構成される、
    ことを特徴とする請求項13に記載の装置。
  17. 前記処理回路は、
    前記符号化されたビデオビットストリームから抽出された第1フラグが第2値を有する場合、前記符号化されたビデオビットストリームから抽出された変換インデックスに基づいて、前記水平変換および垂直変換のペアを決定し、
    前記符号化されたビデオビットストリームから抽出された第1フラグが前記第2値を有する場合、前記フレーム内予測モードと、前記水平変換および垂直変換のペアとに基づいて、前記二次変換を決定するように構成される、
    ことを特徴とする請求項16に記載の装置。
  18. 前記符号化されたビデオビットストリームから抽出された第1フラグが第2値を有し、かつ
    前記入力ブロックの1つ以上の係数が、複数個未満の係数のうちの1つに対応し、また、高周波数領域に非ゼロの係数を有しなく、ここで、前記複数個の係数の量子化レベルが閾値より小さいである場合、
    前記水平変換がデフォルトの水平変換であり、前記垂直変換がデフォルトの垂直変換であり、および、
    前記処理回路は、前記符号化されたビデオビットストリームから抽出された第1フラグが第2値を有する場合、前記フレーム内予測モードと、前記デフォルトの水平変換と、前記デフォルトの垂直変換とに基づいて、前記二次変換を決定するように構成される、
    ことを特徴とする請求項16に記載の装置。
  19. 前記現在ブロックが色度ブロックであり、
    前記処理回路は、前記決定されたフレーム内予測モードと、前記符号化されたビデオビットストリームから抽出されたシグナリング情報に基づいて1つ以上の同一の場所に配置された輝度ブロックに対して決定された1つ以上の主変換と、前記1つ以上の同一の場所に配置された輝度ブロックに対して決定された1つ以上の二次変換とに基づいて、前記1つ以上の主変換を決定するように構成される、
    ことを特徴とする請求項13に記載の装置。
  20. 命令を記憶している不揮発性コンピュータ読み取り可能な記憶媒体であって、前記命令は、ビデオ復号化のためのコンピュータによって実行される場合、
    現在ブロックの予測画像を生成するためのフレーム内予測モードを決定することと、
    符号化されたビデオビットストリームから抽出されたシグナリング情報に基づいて、1つ以上の主変換を決定することと、
    前記決定されたフレーム内予測モードと、前記決定された1つ以上の主変換とに基づいて、二次変換を決定することと、
    前記符号化されたビデオビットストリームから抽出された入力ブロックの1つ以上の係数と、前記決定された1つ以上の主変換と、前記決定された二次変換とに基づいて、現在ブロックの残差画像を再構築することと、
    前記現在ブロックの予測画像および残差画像に基づいて、前記現在ブロックの画像を再構築することと、を前記コンピュータに実行させる、
    ことを特徴とする記憶媒体。
JP2020546165A 2018-03-07 2019-03-06 ビデオ復号方法、装置およびコンピュータプログラム Active JP7013588B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862639998P 2018-03-07 2018-03-07
US62/639,998 2018-03-07
US16/198,462 US10567801B2 (en) 2018-03-07 2018-11-21 Method and apparatus for video coding with primary and secondary transforms
US16/198,462 2018-11-21
PCT/US2019/021023 WO2019173522A1 (en) 2018-03-07 2019-03-06 Method and apparatus for video coding

Publications (3)

Publication Number Publication Date
JP2021517395A true JP2021517395A (ja) 2021-07-15
JP2021517395A5 JP2021517395A5 (ja) 2021-08-26
JP7013588B2 JP7013588B2 (ja) 2022-01-31

Family

ID=67842266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020546165A Active JP7013588B2 (ja) 2018-03-07 2019-03-06 ビデオ復号方法、装置およびコンピュータプログラム

Country Status (6)

Country Link
US (1) US10567801B2 (ja)
EP (1) EP3763121A1 (ja)
JP (1) JP7013588B2 (ja)
KR (1) KR102472686B1 (ja)
CN (1) CN111869218B (ja)
WO (1) WO2019173522A1 (ja)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3306937A1 (en) * 2016-10-05 2018-04-11 Thomson Licensing Method and apparatus for encoding and decoding a video
WO2019188466A1 (ja) * 2018-03-30 2019-10-03 ソニー株式会社 画像処理装置および方法
CN111937386B (zh) * 2018-04-01 2023-09-01 Lg电子株式会社 通过向分区块应用二次变换来处理视频信号的方法及设备
US11297348B2 (en) * 2018-04-13 2022-04-05 Mediatek Inc. Implicit transform settings for coding a block of pixels
US10999604B2 (en) * 2018-04-13 2021-05-04 Mediatek Inc. Adaptive implicit transform setting
CN118301346A (zh) * 2018-10-05 2024-07-05 韩国电子通信研究院 图像编码/解码方法和设备以及存储比特流的记录介质
KR20210089171A (ko) * 2018-12-06 2021-07-15 엘지전자 주식회사 이차 변환에 기반한 영상 코딩 방법 및 그 장치
PL3879835T3 (pl) * 2018-12-19 2023-10-09 Lg Electronics Inc. Sposób kodowania wideo na podstawie przekształcenia wtórnego, i przeznaczone do tego urządzenie
CN113347416B (zh) 2019-01-02 2023-06-02 Oppo广东移动通信有限公司 色度帧内预测方法和装置、及计算机存储介质
WO2020145720A1 (ko) * 2019-01-12 2020-07-16 엘지전자 주식회사 이차 변환에 기반한 영상 코딩 방법 및 그 장치
KR20210102462A (ko) * 2019-02-24 2021-08-19 엘지전자 주식회사 이차 변환에 기반한 영상 코딩 방법 및 그 장치
KR20210116676A (ko) * 2019-03-14 2021-09-27 엘지전자 주식회사 인트라 예측을 수행하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
US11616966B2 (en) * 2019-04-03 2023-03-28 Mediatek Inc. Interaction between core transform and secondary transform
US11172211B2 (en) * 2019-04-04 2021-11-09 Tencent America LLC Method and apparatus for video coding
US11134275B2 (en) 2019-06-04 2021-09-28 Tencent America LLC Method and apparatus for performing primary transform based on filtering of blocks
US11212545B2 (en) 2019-06-07 2021-12-28 Tencent America LLC Method and apparatus for improved implicit transform selection
CN116980597A (zh) * 2019-06-19 2023-10-31 Lg电子株式会社 图像解码和编码设备及发送设备
NO344797B1 (en) * 2019-06-20 2020-05-04 Pexip AS Early intra coding decision
EP4354863A3 (en) * 2019-06-25 2024-04-24 Samsung Electronics Co., Ltd. Video signal processing method and apparatus using secondary transform
MX2022003321A (es) * 2019-09-21 2022-05-06 Lg Electronics Inc Metodo de codificacion de imagenes a base de transformacion y dispositivo para el mismo.
EP4018648A4 (en) * 2019-09-21 2022-11-23 Beijing Bytedance Network Technology Co., Ltd. HIGH PRECISION TRANSFORMATION AND QUANTIZATION FOR IMAGE AND VIDEO CODING
WO2021060905A1 (ko) * 2019-09-25 2021-04-01 엘지전자 주식회사 변환에 기반한 영상 코딩 방법 및 그 장치
US11206400B2 (en) * 2019-09-26 2021-12-21 Qualcomm Incorporated Low-frequency non-separable transform (LFNST) simplifications
CN114731436B (zh) * 2019-10-04 2023-06-16 Lg电子株式会社 基于变换的图像编码方法及其设备
WO2021086149A1 (ko) * 2019-11-01 2021-05-06 엘지전자 주식회사 변환에 기반한 영상 코딩 방법 및 그 장치
US11228787B2 (en) * 2019-11-27 2022-01-18 Mediatek Inc. Signaling multiple transmission selection
JP7360984B2 (ja) * 2020-03-31 2023-10-13 Kddi株式会社 画像復号装置、画像復号方法及びプログラム
US11310529B2 (en) * 2020-05-27 2022-04-19 Tencent America LLC Mode-dependent joint component transform
US11206428B1 (en) 2020-07-14 2021-12-21 Tencent America LLC Method and apparatus for frequency-dependent joint component secondary transform
US11575937B2 (en) 2020-07-24 2023-02-07 Tencent America LLC Methods for efficient application of LGT
US11310504B2 (en) 2020-07-30 2022-04-19 Tencent America LLC Complexity reduction for 32-p and 64-p LGT
CN112055210B (zh) * 2020-08-19 2022-10-28 浙江大华技术股份有限公司 一种视频图像处理方法、编码器和计算机可读存储介质
US11683490B2 (en) * 2020-09-10 2023-06-20 Tencent America LLC Context adaptive transform set
CN112601081B (zh) * 2020-12-04 2022-06-24 浙江大华技术股份有限公司 一种自适应分区多次预测方法及装置
US11503336B2 (en) * 2020-12-07 2022-11-15 Tencent America LLC Method and apparatus for video coding
CN116848842A (zh) * 2021-02-22 2023-10-03 创峰科技 依赖性量化以及残差编码方法
US11792431B2 (en) * 2021-04-07 2023-10-17 Tencent America LLC Orthogonal transform generation with subspace constraint
KR20230169985A (ko) * 2021-04-12 2023-12-18 엘지전자 주식회사 저주파 비분리 변환 설계 방법 및 장치
US11800110B2 (en) * 2021-04-20 2023-10-24 Tencent America LLC Adaptive scanning with multiple transform selection
CN113992915B (zh) * 2021-12-28 2022-05-17 康达洲际医疗器械有限公司 一种可适用于vvc帧内预测的编码单元划分方法与系统
US20230291900A1 (en) * 2022-03-09 2023-09-14 Tencent America LLC Systems and methods for partition dependent secondary transform
WO2023197181A1 (zh) * 2022-04-12 2023-10-19 Oppo广东移动通信有限公司 解码方法、编码方法、解码器以及编码器
CN115190298A (zh) * 2022-05-23 2022-10-14 浙江大华技术股份有限公司 一种图像编码方法、编码设备及计算机可读存储介质
WO2023241347A1 (en) * 2022-06-13 2023-12-21 Mediatek Inc. Adaptive regions for decoder-side intra mode derivation and prediction

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017195476A1 (ja) * 2016-05-13 2017-11-16 ソニー株式会社 画像処理装置および方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9788018B2 (en) 2008-06-30 2017-10-10 Microsoft Technology Licensing, Llc Error concealment techniques in video decoding
US8526495B2 (en) 2010-11-22 2013-09-03 Mediatek Singapore Pte. Ltd. Apparatus and method of constrained partition size for high efficiency video coding
US9049452B2 (en) 2011-01-25 2015-06-02 Mediatek Singapore Pte. Ltd. Method and apparatus for compressing coding unit in high efficiency video coding
EP2745519B1 (en) 2011-08-17 2017-09-27 MediaTek Singapore Pte Ltd. Method and apparatus for intra prediction using non-square blocks
CN107959857B (zh) * 2011-10-18 2022-03-01 株式会社Kt 视频信号解码方法
US10306229B2 (en) 2015-01-26 2019-05-28 Qualcomm Incorporated Enhanced multiple transforms for prediction residual
US10491922B2 (en) 2015-09-29 2019-11-26 Qualcomm Incorporated Non-separable secondary transform for video coding
US10277896B2 (en) * 2016-01-22 2019-04-30 Apple Inc. Intra-frame prediction systems and methods
US10708164B2 (en) * 2016-05-03 2020-07-07 Qualcomm Incorporated Binarizing secondary transform index
US10972733B2 (en) 2016-07-15 2021-04-06 Qualcomm Incorporated Look-up table for enhanced multiple transform
JP6396385B2 (ja) * 2016-10-06 2018-09-26 ファナック株式会社 表示装置、検査方法及び検査プログラム
US11095893B2 (en) * 2016-10-12 2021-08-17 Qualcomm Incorporated Primary transform and secondary transform in video coding
US10750181B2 (en) * 2017-05-11 2020-08-18 Mediatek Inc. Method and apparatus of adaptive multiple transforms for video coding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017195476A1 (ja) * 2016-05-13 2017-11-16 ソニー株式会社 画像処理装置および方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ADAM WIECKOWSK, ET AL.: "NextSoftware: An alternative implementation the Joint Exploration Model (JEM)", JOINT VIDEO EXPLORATION TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11, vol. JVET-H0084, JPN6021036194, December 2017 (2017-12-01), pages 1 - 12, ISSN: 0004594527 *
JIANLE CHEN, ET AL.: "Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11", 7TH MEETING: TORINO, IT, vol. JVET-G1001-v1, JPN6021036199, August 2017 (2017-08-01), pages 28 - 32, ISSN: 0004594526 *
X. ZHAO, ET AL.: "TU-level non-separable secondary transform", JOINT VIDEO EXPLORATION TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11, vol. JVET-B0059, JPN6021036198, February 2016 (2016-02-01), pages 1 - 5, ISSN: 0004594525 *
XIN ZHAO, XIANG LI, AND SHAN LIU: "Coupled primary and secondary transform", JOINT VIDEO EXPERTS TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11, vol. JVET-J0054-v2, JPN6021036195, April 2018 (2018-04-01), pages 1 - 4, ISSN: 0004594528 *

Also Published As

Publication number Publication date
WO2019173522A1 (en) 2019-09-12
JP7013588B2 (ja) 2022-01-31
US20190281321A1 (en) 2019-09-12
KR102472686B1 (ko) 2022-11-30
KR20200124746A (ko) 2020-11-03
CN111869218B (zh) 2022-07-29
US10567801B2 (en) 2020-02-18
EP3763121A4 (en) 2021-01-13
CN111869218A (zh) 2020-10-30
EP3763121A1 (en) 2021-01-13

Similar Documents

Publication Publication Date Title
JP7013588B2 (ja) ビデオ復号方法、装置およびコンピュータプログラム
JP7062788B2 (ja) ビデオを復号する方法、装置およびコンピュータプログラム
JP7057448B2 (ja) ビデオ圧縮における複数ラインのフレーム内予測のための方法および装置
JP7026249B2 (ja) 映像復号化のための方法、装置及びコンピュータ・プログラム
KR102637562B1 (ko) 비디오 압축에서의 비-정사각형 블록들에 대한 인트라 예측을 위한 방법 및 장치
JP7413577B2 (ja) ビデオ符号化/復号化の方法及び装置
JP7189354B2 (ja) ビデオ・コーディングのための方法、装置及びコンピュータ・プログラム
JP2021513303A (ja) ビデオ復号化のための方法、装置およびコンピュータプログラム
JP2021518088A (ja) 小ブロックの予測と変換のための方法、装置、及びプログラム
JP7027617B2 (ja) ビデオエンコーディング及びデコーディングのための方法、装置、コンピュータプログラム、及び非一時的なコンピュータ可読媒体
CN111492661A (zh) 视频解码的方法和装置、及存储介质
JP2022505996A (ja) 動画の符号化及び復号方法、装置、並びにコンピュータプログラム
KR20240155383A (ko) 비디오 코딩을 위한 방법 및 장치
JP2021518091A (ja) ビデオ符号化のための方法並びにその装置及びコンピュータプログラム
JP2022521516A (ja) ビデオコーディングのための方法およびコンピュータプログラム
JP7420991B2 (ja) ビデオ符号化のための方法、及び装置
KR20200081460A (ko) 예측 오프셋을 갖는 단순화된 아핀 모션 모델 코딩을 위한 기술
KR20210074399A (ko) 비디오 디코딩 방법 및 장치, 저장 매체
JP2023547170A (ja) 改善されたイントラ予測のための方法および装置
JP2021516933A (ja) ビデオ符号化の方法および装置
CN112235573B (zh) 视频编解码的方法、装置、电子设备、存储介质
JP2022524783A (ja) ビデオコーディングのための方法および装置
JP2021521755A (ja) マルチラインイントラ予測のためのモードリストを生成する方法、並びにその装置及びコンピュータプログラム
CN112437306A (zh) 视频编解码方法、装置、计算机设备和存储介质
JP7392127B2 (ja) ビデオ符号化のための方法、装置およびコンピュータ・プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200928

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220119

R150 Certificate of patent or registration of utility model

Ref document number: 7013588

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150