JP2007295599A - Learning apparatus and learning method, program, and recording medium - Google Patents
Learning apparatus and learning method, program, and recording medium Download PDFInfo
- Publication number
- JP2007295599A JP2007295599A JP2007147720A JP2007147720A JP2007295599A JP 2007295599 A JP2007295599 A JP 2007295599A JP 2007147720 A JP2007147720 A JP 2007147720A JP 2007147720 A JP2007147720 A JP 2007147720A JP 2007295599 A JP2007295599 A JP 2007295599A
- Authority
- JP
- Japan
- Prior art keywords
- data
- unit
- learning
- tap
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本発明は、学習装置および学習方法、並びにプログラムおよび記録媒体に関し、特に、例えば、画像や音声等を符号化した符号化データを、高品質(高画質または高音質)の画像や音声に復号することができるようにするタップ係数を学習する学習装置および学習方法、並びにプログラムおよび記録媒体に関する。 The present invention relates to a learning apparatus, a learning method, a program, and a recording medium, and particularly, for example, decodes encoded data obtained by encoding an image, sound, or the like into a high-quality (high image quality or high sound quality) image or sound. The present invention relates to a learning device and a learning method for learning a tap coefficient so that the program can be performed, a program and a recording medium.
画像(動画像)データの高能率符号化方式としては、例えば、MPEG(Moving Picture Experts Group)方式が知られており、MPEG方式では、画像データが、横×縦が8×8画素のブロック単位で、水平および垂直の2方向について2次元DCT(Discrete Cosine Transform)変換され、さらに量子化される。 For example, MPEG (Moving Picture Experts Group) is known as a high-efficiency encoding method for image (moving image) data. In the MPEG method, image data is a block unit of 8 × 8 pixels in horizontal × vertical. Then, two-dimensional DCT (Discrete Cosine Transform) transformation is performed in two directions, horizontal and vertical, and further quantized.
このように、MPEG方式では、画像データが2次元DCT変換されるが、例えば、MPEG2では、2次元DCT変換の対象となるブロックのDCTタイプを、マクロブロック単位で、フレームDCTモードとフィールドDCTモードに切り替えることができる。フレームDCTモードでは、ブロックが、同一フレームの画素から構成され、そのようなブロックの画素値が2次元DCT変換される。また、フィールドDCTモードでは、ブロックが、同一フィールドの画素から構成され、そのようなブロックの画素値が2次元DCT変換される。 As described above, in the MPEG system, image data is subjected to two-dimensional DCT conversion. For example, in MPEG2, the DCT type of a block to be subjected to two-dimensional DCT conversion is changed into a frame DCT mode and a field DCT mode in macroblock units. You can switch to In the frame DCT mode, a block is composed of pixels of the same frame, and the pixel values of such a block are two-dimensionally DCT transformed. In the field DCT mode, a block is composed of pixels in the same field, and pixel values of such a block are two-dimensionally DCT transformed.
DCTタイプを、フレームDCTモードまたはフィールドDCTモードのうちのいずれとするかは、基本的には、例えば、画像の動きや、周辺のマクロブロックとの連続性等の画像の特性に基づき、復号画像におけるブロック歪みモスキートノイズ等を低減するように決定される。即ち、例えば、動きの大きい画像については、フィールドDCTモードが選択され、動きのほとんどない画像については、フレームDCTモードが選択される。 Whether the DCT type is the frame DCT mode or the field DCT mode is basically determined based on the characteristics of the image such as the motion of the image and continuity with the surrounding macroblocks. Is determined so as to reduce block distortion mosquito noise and the like. That is, for example, the field DCT mode is selected for an image with large motion, and the frame DCT mode is selected for an image with little motion.
ここで、画像をMPEG符号化することにより得られる符号化データには、画像を2次元DCT変換して量子化することにより得られる2次元DCT係数の他、DCTタイプ等も含まれるが、このDCTタイプは、上述のように、画像の動きなどに基づいて決定されるので、画像の特性を表しているということができる。 Here, the encoded data obtained by MPEG-encoding an image includes a DCT type and the like in addition to a two-dimensional DCT coefficient obtained by two-dimensional DCT transform and quantizing the image. As described above, the DCT type is determined based on the motion of the image and the like, and can be said to represent the characteristics of the image.
ところで、MPEG符号化においては、デコーダ側においてオーバーフローおよびアンダーフローが生じないように、符号化データのデータレートが制限される。そして、この符号化データのデータレートを制限するために、本来、フレームDCTモードまたはフィールドDCTモードに設定すべきDCTタイプが、フィールドDCTモードまたはフレームDCTモードに、いわば不適切に設定されることがある。 By the way, in MPEG encoding, the data rate of encoded data is limited so that overflow and underflow do not occur on the decoder side. In order to limit the data rate of the encoded data, the DCT type that should originally be set to the frame DCT mode or the field DCT mode may be inappropriately set to the field DCT mode or the frame DCT mode. is there.
しかしながら、このような不適切なDCTタイプが設定された場合であっても、デコーダ側では、その不適切なDCTタイプにしたがって、符号化データを復号しなければならず、復号画像の画質が劣化する課題があった。 However, even when such an inappropriate DCT type is set, the decoder side must decode the encoded data in accordance with the inappropriate DCT type, and the quality of the decoded image is deteriorated. There was a problem to do.
本発明は、このような状況に鑑みてなされたものであり、符号化データを、高品質の画像や音声に復号することができるタップ係数を学習するようにするものである。 The present invention has been made in view of such a situation, and is designed to learn tap coefficients that can decode encoded data into high-quality images and sounds.
本発明の学習装置は、学習用のデータから、タップ係数の学習の教師となる教師データを生成して出力する教師データ生成手段と、学習用のデータから、タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成手段と、学習用のデータを符号化し、そのデータについての特性データを含む学習用の符号化データを出力する符号化手段と、学習用の符号化データに含まれる特性データの正しさを判定し、その判定結果を表すミスマッチ情報を出力する判定手段と、ミスマッチ情報に基づき、教師データと生徒データを用いて、タップ係数を学習する学習手段とを備えることを特徴とする。 The learning device of the present invention includes teacher data generation means for generating and outputting teacher data serving as a tap coefficient learning teacher from learning data, and a student serving as a tap coefficient learning student from the learning data. Student data generating means for generating and outputting data; encoding means for encoding learning data; and outputting learning encoded data including characteristic data for the data; and encoded learning data A determination unit that determines the correctness of the included characteristic data and outputs mismatch information indicating the determination result; and a learning unit that learns tap coefficients using teacher data and student data based on the mismatch information. It is characterized by.
本発明の学習方法は、学習用のデータから、タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、学習用のデータから、タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、学習用のデータを符号化し、そのデータについての特性データを含む学習用の符号化データを出力する符号化ステップと、学習用の符号化データに含まれる特性データの正しさを判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、ミスマッチ情報に基づき、教師データと生徒データを用いて、タップ係数を学習する学習ステップとを備えることを特徴とする。 The learning method of the present invention includes a teacher data generation step for generating and outputting teacher data serving as a tap coefficient learning teacher from learning data, and a student serving as a tap coefficient learning student from the learning data. A student data generation step for generating and outputting data, an encoding step for encoding learning data, and outputting encoded learning data including characteristic data for the data, and encoded learning data A determination step for determining the correctness of the included characteristic data and outputting mismatch information representing the determination result; and a learning step for learning tap coefficients using teacher data and student data based on the mismatch information. It is characterized by.
本発明のプログラムは、学習用のデータから、タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、学習用のデータから、タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、学習用のデータを符号化し、そのデータについての特性データを含む学習用の符号化データを出力する符号化ステップと、学習用の符号化データに含まれる特性データの正しさを判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、ミスマッチ情報に基づき、教師データと生徒データを用いて、タップ係数を学習する学習ステップとを含む学習処理を、コンピュータに行わせることを特徴とする。 The program of the present invention includes a teacher data generation step for generating and outputting teacher data serving as a tap coefficient learning teacher from learning data, and student data serving as a tap coefficient learning student from the learning data. Included in student data generation step for generating and outputting learning data, encoding step for encoding learning data and outputting encoded data for learning including characteristic data about the data, and encoded data for learning A learning process including a determination step of determining the correctness of the characteristic data to be output, outputting mismatch information indicating the determination result, and a learning step of learning tap coefficients using teacher data and student data based on the mismatch information Is performed by a computer.
本発明の記録媒体は、学習用のデータから、タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、学習用のデータから、タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、学習用のデータを符号化し、そのデータについての特性データを含む学習用の符号化データを出力する符号化ステップと、学習用の符号化データに含まれる特性データの正しさを判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、ミスマッチ情報に基づき、教師データと生徒データを用いて、タップ係数を学習する学習ステップとを含む学習処理を、コンピュータに行わせるプログラムが記録されていることを特徴とする。 The recording medium of the present invention includes a teacher data generation step for generating and outputting teacher data serving as a tap coefficient learning teacher from learning data, and a student serving as a tap coefficient learning student from the learning data. A student data generation step for generating and outputting data, an encoding step for encoding learning data, and outputting encoded learning data including characteristic data for the data, and encoded learning data Learning including a determination step of determining correctness of included characteristic data and outputting mismatch information indicating the determination result, and a learning step of learning tap coefficients using teacher data and student data based on the mismatch information A program for causing a computer to perform processing is recorded.
本発明の学習装置および学習方法、並びにプログラムおよび記録媒体においては、学習用のデータから、タップ係数の学習の教師となる教師データと、生徒となる生徒データが生成されて出力される。さらに、学習用のデータが符号化され、そのデータについての特性データを含む学習用の符号化データが出力される。そして、学習用の符号化データに含まれる特性データの正しさが判定され、その判定結果を表すミスマッチ情報に基づき、教師データと生徒データを用いて、タップ係数の学習が行われる。 In the learning device, the learning method, the program, and the recording medium of the present invention, teacher data serving as a teacher for learning tap coefficients and student data serving as students are generated and output from learning data. Further, learning data is encoded, and encoded learning data including characteristic data for the data is output. Then, the correctness of the characteristic data included in the learning encoded data is determined, and the tap coefficient is learned using the teacher data and the student data based on the mismatch information representing the determination result.
本発明の学習装置および学習方法、並びにプログラムおよび記録媒体によれば、符号化データを、高品質のデータに復号することが可能となるタップ係数を学習することができる。 According to the learning device, the learning method, the program, and the recording medium of the present invention, it is possible to learn a tap coefficient that enables decoding of encoded data into high-quality data.
図1は、本発明を適用した復号装置の一実施の形態の構成例を示している。 FIG. 1 shows a configuration example of an embodiment of a decoding device to which the present invention is applied.
復号装置には、図示せぬ記録媒体(例えば、光ディスクや、光磁気ディスク、相変化ディスク、磁気テープ、半導体メモリ等)から再生された符号化データ、または伝送媒体(例えば、インターネットや、CATV網、衛星回線、地上波等)を介して伝送されてくる符号化データが、復号対象として入力されるようになっている。ここで、符号化データは、所定のデータを所定の符号化方式で符号化して得られるもので、少なくとも、所定のデータの特性を表す特性データを含んでいる。 The decoding apparatus includes encoded data reproduced from a recording medium (not shown) (for example, an optical disk, a magneto-optical disk, a phase change disk, a magnetic tape, a semiconductor memory, etc.) or a transmission medium (for example, the Internet or a CATV network). Encoded data transmitted via a satellite line, terrestrial wave, etc.) is input as a decoding target. Here, the encoded data is obtained by encoding predetermined data with a predetermined encoding method, and includes at least characteristic data representing characteristics of the predetermined data.
なお、符号化データとしては、例えば、後述するように、音声データをCELP(Code Excited Liner Prediction coding)方式で符号化したものや、画像データをMPEG2方式で符号化したもの等を採用することができる。 As the encoded data, for example, as described later, audio data encoded by CELP (Code Excited Linear Prediction coding) method, image data encoded by MPEG2 method, or the like may be employed. it can.
ここで、符号化データが、音声データをCELP方式で符号化したものである場合には、その符号化データには、ラグを表すLコードが含まれる。このラグは、符号化された音声データのピッチ周期に対応し、従って、ピッチ周期という音声データの特性を表すから、特性データということができる。 Here, when the encoded data is audio data encoded by the CELP method, the encoded data includes an L code representing a lag. Since this lag corresponds to the pitch period of the encoded voice data, and thus represents the characteristic of the voice data called the pitch period, it can be called characteristic data.
また、符号化データが、画像データをMPEG2方式で符号化したものである場合には、前述したように、その符号化データには、DCTタイプが含まれ、このDCTタイプは、画像の動きなどに基づいて決定されるので、画像の特性を表しており、やはり、特性データということができる。 In addition, when the encoded data is obtained by encoding image data by the MPEG2 system, as described above, the encoded data includes a DCT type. Therefore, it represents the characteristics of the image, and can also be referred to as characteristic data.
なお、復号装置において復号対象とする符号化データは、上述のようなCELP方式で符号化された音声データや、MPEG2方式で符号化された画像データに限定されるものではない。 Note that the encoded data to be decoded in the decoding device is not limited to audio data encoded by the CELP method as described above or image data encoded by the MPEG2 method.
復号装置に入力された符号化データは、ミスマッチ検出部1と復号処理部2に供給されるようになっている。
The encoded data input to the decoding device is supplied to the
ミスマッチ検出部1は、符号化データからミスマッチ情報を検出する。即ち、ミスマッチ検出部1は、符号化データに含まれる特性データの正しさを判定し、その判定結果を表すミスマッチ情報を、復号処理部2に出力する。復号処理部2は、ミスマッチ検出部1から供給されるミスマッチ情報に基づいて、符号化データを復号し、その結果得られる復号データを出力する。
The
次に、図2のフローチャートを参照して、図1の復号装置の処理(復号処理)について説明する。 Next, processing (decoding processing) of the decoding device in FIG. 1 will be described with reference to the flowchart in FIG.
ミスマッチ検出部1と復号処理部2には、符号化データが供給され、ミスマッチ検出部1は、まず最初に、ステップS1において、符号化データからミスマッチ情報を検出し、復号処理部2に供給して、ステップS2に進む。ステップS2では、復号処理部2が、ミスマッチ検出部1から供給されるミスマッチ情報に基づいて、そのミスマッチ情報が検出された符号化データを復号し、復号データを出力して、ステップS3に進む。ステップS3では、ミスマッチ検出部1または復号処理部2が、復号すべき符号化データが、まだ存在するかどうかを判定する。ステップS3において、復号すべき符号化データが、まだ存在すると判定された場合、ステップS1に戻り、以下、同様の処理が繰り返される。
Encoded data is supplied to the
また、ステップS3において、復号すべき符号化データが存在しないと判定された場合、処理を終了する。 If it is determined in step S3 that there is no encoded data to be decoded, the process ends.
次に、図3は、本発明を適用した復号装置の他の実施の形態の構成例を示している。なお、図中、図1における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図3の復号装置は、パラメータ記憶部3が、新たに設けられている他は、基本的に、図1の復号装置と同様に構成されている。 Next, FIG. 3 shows a configuration example of another embodiment of a decoding device to which the present invention is applied. In the figure, portions corresponding to those in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted below as appropriate. That is, the decoding apparatus in FIG. 3 is basically configured in the same manner as the decoding apparatus in FIG. 1 except that the parameter storage unit 3 is newly provided.
パラメータ記憶部3は、後述する学習装置による学習によって得られたパラメータを記憶しており、復号処理部2は、パラメータ記憶部3に記憶されたパラメータを用いて、そこに供給される符号化データを復号する。
The parameter storage unit 3 stores parameters obtained by learning by a learning device, which will be described later, and the
従って、図3の復号装置では、復号処理部2において、符号化データの復号が、パラメータ記憶部3に記憶されたパラメータを用いて行われる他は、図1の復号装置と同様の処理が行われるため、その処理についての説明は省略する。
Therefore, in the decoding device of FIG. 3, the
次に、図4は、図3のパラメータ記憶部3に記憶させるパラメータを学習する学習装置の一実施の形態の構成例を示している。 Next, FIG. 4 shows a configuration example of an embodiment of a learning device that learns parameters to be stored in the parameter storage unit 3 of FIG.
学習用データ記憶部11は、パラメータの学習に用いられるデータである学習用データを記憶している。
The learning
符号化部12は、学習用データ記憶部11に記憶されている学習用データを読み出し、図3の復号装置で復号対象とする符号化データと同一の符号化方式で、学習用データを符号化する。学習用データを符号化することにより得られる符号化データ(以下、適宜、学習用符号化データという)は、符号化部12からミスマッチ検出部13に供給されるようになっている。
The
ミスマッチ検出部13は、図3のミスマッチ検出部1と同様に構成され、符号化部12から供給される符号化データから、ミスマッチ情報を検出し、学習処理部14に供給する。
The
学習処理部14は、学習用データ記憶部11に記憶されている学習用データを読み出し、その学習用データから、パラメータについての学習の教師となる教師データと、その学習の生徒となる生徒データを生成する。さらに、学習処理部14は、ミスマッチ検出部13から供給されるミスマッチ情報に基づき、生成した教師データと生徒データを用いて、パラメータを学習する。
The
次に、図5のフローチャートを参照して、図4の学習装置の処理(学習処理)について説明する。 Next, processing (learning processing) of the learning device in FIG. 4 will be described with reference to the flowchart in FIG.
まず最初に、ステップS11において、符号化部12は、学習用データ記憶部11に記憶されている学習用データを読み出して符号化し、その結果得られる学習用符号化データを、ミスマッチ検出部13に供給して、ステップS12に進む。ステップS12では、ミスマッチ検出部13が、符号化部12から供給される符号化データから、ミスマッチ情報を検出し、学習処理部14に供給して、ステップS13に進む。
First, in step S <b> 11, the
ステップS13では、学習処理部14が、学習用データ記憶部11から、学習用データを読み出し、その学習用データから、教師データと生徒データを生成する。さらに、学習処理部14は、ミスマッチ検出部13から供給されるミスマッチ情報に基づき、生成した教師データと生徒データを用いて、パラメータを学習する。
In step S13, the
即ち、学習処理部14は、ミスマッチ情報に基づき、生徒データから、対応する教師データを得ることができるようにするのに最適なパラメータを算出することができるようにするための処理(学習)を行う。
That is, the
そして、ステップS14に進み、符号化部12または学習処理部14が、まだ処理していない学習用データが、学習用データ記憶部11に記憶されているかどうかを判定する。ステップS14において、まだ処理していない学習用データが、学習用データ記憶部11に記憶されていると判定された場合、ステップS11に戻り、その、まだ処理していない学習用データを対象に、以下、同様の処理が繰り返される。
In step S14, the
また、ステップS14において、まだ処理していない学習用データが、学習用データ記憶部11に記憶されていないと判定された場合、即ち、学習用データ記憶部11に記憶された学習用データすべてを用いて学習を行った場合、ステップS15に進み、学習処理部14は、ステップS13の学習結果に基づき、パラメータを算出し、処理を終了する。
If it is determined in step S14 that the learning data not yet processed is not stored in the learning
次に、符号化データが、音声データをCELP方式で符号化したものである場合の復号装置と学習装置の詳細について説明する。なお、本実施の形態では、復号装置および学習装置は、本件出願人が先に提案したクラス分類適応処理を利用したものとなっている。 Next, details of the decoding device and the learning device in the case where the encoded data is audio data encoded by the CELP method will be described. In the present embodiment, the decoding device and the learning device utilize the class classification adaptation process previously proposed by the applicant.
クラス分類適応処理は、クラス分類処理と適応処理とからなり、クラス分類処理によって、データが、その性質に基づいてクラス分けされ、各クラスごとに適応処理が施される。 The class classification adaptation process includes a class classification process and an adaptation process. By the class classification process, data is classified based on its property, and the adaptation process is performed for each class.
ここで、適応処理について、低音質の音声(以下、適宜、低音質音声という)を、高音質の音声(以下、適宜、高音質音声という)に変換する場合を例に説明する。 Here, the adaptive processing will be described by taking, as an example, a case where low-quality sound (hereinafter, appropriately referred to as low-quality sound) is converted into high-quality sound (hereinafter, appropriately referred to as high-quality sound).
この場合、適応処理では、低音質音声を構成する音声サンプル(以下、適宜、低音質音声サンプルという)と、所定のタップ係数との線形結合により、その低音質音声の音質を向上させた高音質音声の音声サンプルの予測値を求めることで、その低音質音声の音質を高くした音声が得られる。 In this case, in the adaptive processing, a high sound quality in which the sound quality of the low sound quality sound is improved by linear combination of a sound sample constituting the low sound quality sound (hereinafter referred to as a low sound quality sound sample as appropriate) and a predetermined tap coefficient. By obtaining the predicted value of the voice sample of the voice, it is possible to obtain a voice in which the quality of the low-quality voice is improved.
具体的には、例えば、いま、ある高音質音声データを教師データとするとともに、その高音質音声の音質を劣化させた低音質音声データを生徒データとして、高音質音声を構成する音声サンプル(以下、適宜、高音質音声サンプルという)yの予測値E[y]を、幾つかの低音質音声サンプル(低音質音声を構成する音声サンプル)x1,x2,・・・の集合と、所定のタップ係数w1,w2,・・・の線形結合により規定される線形1次結合モデルにより求めることを考える。この場合、予測値E[y]は、次式で表すことができる。 Specifically, for example, a certain high sound quality voice data is used as teacher data, and a low sound quality sound data obtained by degrading the sound quality of the high sound quality sound is used as student data, and a sound sample (hereinafter referred to as a high sound quality sound) is formed. The predicted value E [y] of y (referred to as a high-quality sound sample, as appropriate), a set of several low-quality sound samples (sound samples constituting low-quality sound) x 1 , x 2 ,. Suppose that it is obtained by a linear linear combination model defined by linear combination of tap coefficients w 1 , w 2 ,. In this case, the predicted value E [y] can be expressed by the following equation.
E[y]=w1x1+w2x2+・・・
・・・(1)
E [y] = w 1 x 1 + w 2 x 2 +...
... (1)
式(1)を一般化するために、タップ係数wjの集合でなる行列W、生徒データxijの集合でなる行列X、および予測値E[yj]の集合でなる行列Y’を、
XW=Y’
・・・(2)
XW = Y '
... (2)
ここで、行列Xの成分xijは、i件目の生徒データの集合(i件目の教師データyiの予測に用いる生徒データの集合)の中のj番目の生徒データを意味し、行列Wの成分wjは、生徒データの集合の中のj番目の生徒データとの積が演算されるタップ係数を表す。また、yiは、i件目の教師データを表し、従って、E[yi]は、i件目の教師データの予測値を表す。なお、式(1)の左辺におけるyは、行列Yの成分yiのサフィックスiを省略したものであり、また、式(1)の右辺におけるx1,x2,・・・も、行列Xの成分xijのサフィックスiを省略したものである。 Here, the component x ij of the matrix X means the j-th student data in the i-th set of student data (the set of student data used for prediction of the i-th teacher data y i ). A component w j of W represents a tap coefficient by which a product with the jth student data in the set of student data is calculated. Y i represents the i-th teacher data, and therefore E [y i ] represents the predicted value of the i-th teacher data. Note that y on the left side of the equation (1) is obtained by omitting the suffix i of the component y i of the matrix Y, and x 1 , x 2 ,. The suffix i of the component x ij is omitted.
式(2)の観測方程式に最小自乗法を適用して、高音質音声サンプルyに近い予測値E[y]を求めることを考える。この場合、教師データとなる高音質音声サンプルの真値yの集合でなる行列Y、および高音質音声サンプルyの予測値E[y]の残差(真値yに対する誤差)eの集合でなる行列Eを、
XW=Y+E
・・・(3)
XW = Y + E
... (3)
この場合、高音質音声サンプルyに近い予測値E[y]を求めるためのタップ係数wjは、自乗誤差
従って、上述の自乗誤差をタップ係数wjで微分したものが0になる場合、即ち、次式を満たすタップ係数wjが、高音質音声サンプルyに近い予測値E[y]を求めるため最適値ということになる。 Accordingly, when the above-mentioned square error differentiated by the tap coefficient w j is 0, that is, the tap coefficient w j satisfying the following equation is optimal for obtaining the predicted value E [y] close to the high-quality sound sample y. It will be value.
そこで、まず、式(3)を、タップ係数wjで微分することにより、次式が成立する。 Therefore, first, the following equation is established by differentiating the equation (3) by the tap coefficient w j .
式(4)および(5)より、式(6)が得られる。 From equations (4) and (5), equation (6) is obtained.
さらに、式(3)の残差方程式における生徒データxij、タップ係数wj、教師データyi、および残差eiの関係を考慮すると、式(6)から、次のような正規方程式を得ることができる。 Further, considering the relationship among the student data x ij , the tap coefficient w j , the teacher data y i , and the residual e i in the residual equation of Equation (3), the following normal equation is obtained from Equation (6): Obtainable.
なお、式(7)に示した正規方程式は、行列(共分散行列)Aおよびベクトルvを、
AW=v
・・・(8)で表すことができる。
In addition, the normal equation shown in Expression (7) has a matrix (covariance matrix) A and a vector v,
(8)
式(7)における各正規方程式は、生徒データxijおよび教師データyiのセットを、ある程度の数だけ用意することで、求めるべきタップ係数wjの数Jと同じ数だけたてることができ、従って、式(8)を、ベクトルWについて解くことで(但し、式(8)を解くには、式(8)における行列Aが正則である必要がある)、最適なタップ係数wjを求めることができる。なお、式(8)を解くにあたっては、例えば、掃き出し法(Gauss-Jordanの消去法)などを用いることが可能である。 Each normal equation in equation (7) can be set to the same number as the number J of tap coefficients w j to be obtained by preparing a certain number of sets of student data x ij and teacher data y i. Therefore, by solving the equation (8) with respect to the vector W (however, to solve the equation (8), the matrix A in the equation (8) needs to be regular), the optimal tap coefficient w j is calculated . Can be sought. In solving the equation (8), for example, a sweeping method (Gauss-Jordan elimination method) or the like can be used.
以上のように、生徒データと教師データを用いて、最適なタップ係数(ここでは、生徒データから教師データの予測値を求めた場合に、その予測値の自乗誤差の総和を最小にするタップ係数)wjを求める学習をしておき、さらに、そのタップ係数wjを用い、式(1)により、教師データyに近い予測値E[y]を求めるのが適応処理である。 As described above, the optimum tap coefficient using the student data and the teacher data (in this case, when the predicted value of the teacher data is obtained from the student data, the tap coefficient that minimizes the sum of the square errors of the predicted values) ) leave the learning for determining the w j, further using the tap coefficient w j, the equation (1), an adaptive processing determine the closest prediction value E [y] to the teacher data y.
なお、適応処理は、低音質音声には含まれていないが、高音質音声に含まれる成分が再現される点で、単なる補間とは異なる。即ち、適応処理では、式(1)だけを見る限りは、いわゆる補間フィルタを用いての単なる補間と同一に見えるが、その補間フィルタのタップ係数に相当するタップ係数wが、教師データyを用いての、いわば学習により求められるため、高音質音声に含まれる成分を再現することができる。このことから、適応処理は、いわば音声の創造作用がある処理ということができる。 Note that adaptive processing is not included in low-quality sound, but differs from simple interpolation in that a component included in high-quality sound is reproduced. That is, in the adaptive processing, as long as only the expression (1) is seen, it looks the same as simple interpolation using a so-called interpolation filter, but the tap coefficient w corresponding to the tap coefficient of the interpolation filter uses the teacher data y. In other words, since it is obtained by learning, it is possible to reproduce components included in high-quality sound. From this, it can be said that the adaptive process is a process having a voice creation action.
また、上述の場合には、教師データとして、高音質の音声データを用いるとともに、生徒データとして、教師データとしての音声データを低音質にした音声データを用いるようにしたが、その他、例えば、教師データとして、高画質の画像データを用いるとともに、生徒データとして、教師データとしての画像データに対して間引きを行ったり、ノイズを加えたり、あるいは、ローパスフィルタによるフィルタリングを施す等して低画質にしたものを用いるようにすることが可能である。この場合、低画質の画像を、高画質の画像(の予測値)に変換するタップ係数を得ることができる。 In the above-described case, high-quality sound data is used as teacher data, and sound data having low sound quality as teacher data is used as student data. High-quality image data was used as the data, and as the student data, the image data as the teacher data was thinned out, added with noise, or filtered with a low-pass filter to reduce the image quality. It is possible to use one. In this case, a tap coefficient for converting a low-quality image into a high-quality image (predicted value thereof) can be obtained.
さらに、例えば、教師データとして、高画質の画像データを用いるとともに、生徒データとして、教師データとしての画像データを2次元DCT変換し、さらに量子化、逆量子化して得られる2次元DCT係数を用いるようにすることも可能である。この場合、2次元DCT係数を、高画質の画像(の予測値)に変換するタップ係数を得ることができる。 Furthermore, for example, high-quality image data is used as the teacher data, and two-dimensional DCT coefficients obtained by performing two-dimensional DCT conversion on the image data as the teacher data, and further quantizing and dequantizing the student data are used. It is also possible to do so. In this case, a tap coefficient for converting the two-dimensional DCT coefficient into a high-quality image (predicted value thereof) can be obtained.
また、上述の場合には、高音質音声の予測値を、線形1次予測するようにしたが、その他、予測値は、2次以上の式によって予測することも可能である。 In the above-described case, the predicted value of high-quality sound is linearly predicted, but the predicted value can also be predicted by a quadratic or higher formula.
図6は、上述のようなクラス分類適応処理によって、低音質音声データを高音質音声データに変換する音声データ処理装置の構成例を示している。 FIG. 6 shows a configuration example of an audio data processing device that converts low-quality sound data into high-quality sound data by the class classification adaptive processing as described above.
低音質音声データは、ピッチ検出部21、並びにタップ抽出部22および23に供給されるようになっている。
The low sound quality voice data is supplied to the
ピッチ検出部21は、そこに供給される低音質音声データのピッチ周期を検出し、タップ抽出部22および23に供給する。
The
タップ抽出部22は、高音質音声データの音声サンプルを、順次、注目データとし、さらに、その注目データを予測するのに用いる低音質音声データの幾つかの音声サンプルを、予測タップとして抽出する。また、タップ抽出部23は、注目データをクラス分類するのに用いる低音質音声データの幾つかの音声サンプルを、クラスタップとして抽出する。
The
ここで、タップ抽出部22は、低音質音声データの音声サンプルのうち、注目データに対応する音声サンプルに近い位置にある幾つかの音声サンプルを、予測タップとして抽出する。また、タップ抽出部22は、ピッチ検出部21から供給される注目データに対応する位置のピッチ周期にしたがい、予測タップの構造を変更する。即ち、タップ抽出部22は、ピッチ周期に応じて、予測タップとする低音質音声データの音声サンプルを変更する。具体的には、例えば、ピッチ周期が長い場合には、タップ抽出部22は、低音質音声データの音声サンプルのうち、注目データに対応する音声サンプルから比較的広い範囲にわたって、所定数の音声サンプルを、予測タップとして抽出する。また、例えば、ピッチ周期が短い場合には、タップ抽出部22は、低音質音声データの音声サンプルのうち、注目データに対応する音声サンプルから比較的狭い範囲にわたって、所定数の音声サンプルを、予測タップとして抽出する。
Here, the
タップ抽出部23も、タップ抽出部22と同様にして、低音質音声データから、クラスタップを抽出する。
The
なお、ここでは、予測タップとクラスタップは、説明を簡単にするために、同一のタップ構造を有するものとする。但し、予測タップとクラスタップとは、異なるタップ構造とすることが可能である。 Here, the prediction tap and the class tap have the same tap structure in order to simplify the description. However, the prediction tap and the class tap can have different tap structures.
タップ抽出部22で得られた予測タップは、予測部26に供給され、タップ抽出部23で得られたクラスタップは、クラス分類部24に供給される。
The prediction tap obtained by the
クラス分類部24は、タップ抽出部23からのクラスタップに基づき、注目データをクラス分類し、その結果得られるクラスに対応するクラスコードを、係数メモリ25に出力する。
The
ここで、クラス分類を行う方法としては、例えば、ADRC(Adaptive Dynamic Range Coding)等を採用することができる。 Here, as a method of classifying, for example, ADRC (Adaptive Dynamic Range Coding) or the like can be employed.
ADRCを用いる方法では、クラスタップを構成する音声サンプルが、ADRC処理され、その結果得られるADRCコードにしたがって、注目データのクラスが決定される。 In the method using ADRC, voice samples constituting a class tap are subjected to ADRC processing, and the class of data of interest is determined according to the ADRC code obtained as a result.
なお、KビットADRCにおいては、例えば、クラスタップを構成する音声サンプルの最大値MAXと最小値MINが検出され、DR=MAX-MINを、集合の局所的なダイナミックレンジとし、このダイナミックレンジDRに基づいて、クラスタップを構成する音声サンプルがKビットに再量子化される。即ち、クラスタップを構成する各音声サンプルから、最小値MINが減算され、その減算値がDR/2Kで除算(量子化)される。そして、以上のようにして得られる、クラスタップを構成するKビットの各音声サンプルを、所定の順番で並べたビット列が、ADRCコードとして出力される。従って、クラスタップが、例えば、1ビットADRC処理された場合には、そのクラスタップを構成する各音声サンプルは、最小値MINが減算された後に、最大値MAXと最小値MINとの平均値で除算され(小数点以下切り捨て)、これにより、各音声サンプルが1ビットとされる(2値化される)。そして、その1ビットの音声サンプルを所定の順番で並べたビット列が、ADRCコードとして出力される。 In the K-bit ADRC, for example, the maximum value MAX and the minimum value MIN of the audio samples constituting the class tap are detected, and DR = MAX-MIN is set as the local dynamic range of the set, and the dynamic range DR Based on this, the speech samples that make up the class tap are requantized to K bits. That is, from each voice sample forming the class taps, the minimum value MIN is subtracted, and the subtracted value is divided (quantized) by DR / 2 K. Then, a bit string obtained by arranging the K-bit audio samples constituting the class tap in a predetermined order, which is obtained as described above, is output as an ADRC code. Therefore, when a class tap is subjected to, for example, 1-bit ADRC processing, each audio sample constituting the class tap is an average value of the maximum value MAX and the minimum value MIN after the minimum value MIN is subtracted. Division (rounded down after the decimal point) is performed, whereby each audio sample is converted into one bit (binarized). A bit string in which the 1-bit audio samples are arranged in a predetermined order is output as an ADRC code.
なお、クラス分類部24には、例えば、クラスタップを構成する音声サンプルのレベル分布のパターンを、そのままクラスコードとして出力させることも可能である。しかしながら、この場合、クラスタップが、N個の音声サンプルで構成され、各音声サンプルに、Kビットが割り当てられているとすると、クラス分類部24が出力するクラスコードの場合の数は、(2N)K通りとなり、音声サンプルのビット数Kに指数的に比例した膨大な数となる。
Note that the
従って、クラス分類部24においては、クラスタップの情報量を、上述のADRC処理や、あるいはベクトル量子化等によって圧縮することにより、クラス分類を行うのが好ましい。
Therefore, the
係数メモリ25は、各クラスコードに対応するアドレスに、そのクラスコードに対応するクラスのタップ係数を記憶しており、クラス分類部24から供給されるクラスコードに対応するアドレスに記憶されているタップ係数を、予測部26に供給する。
The
予測部26は、タップ抽出部22が出力する予測タップと、係数メモリ25が出力するタップ係数とを取得し、その予測タップとタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部26は、注目データとしての高音質音声データ(の予測値)を求めて出力する。
The
次に、図7は、図6の係数メモリ25に記憶させるタップ係数を学習する学習装置の構成例を示している。
Next, FIG. 7 shows a configuration example of a learning device that learns tap coefficients to be stored in the
学習装置には、高音質音声データが、学習用音声データとして入力されるようになっており、この学習用音声データは、時間間引きフィルタ31に供給されるとともに、教師データとして、足し込み部36に供給される。
High-quality sound data is input to the learning device as learning sound data. The learning sound data is supplied to the
時間間引きフィルタ31は、学習用音声データとしての高音質音声データの音声サンプルを、所定の間引き率で間引き、これにより、低音質音声データを生成し、生徒データとして、ピッチ検出部32、並びにタップ抽出部33および34に供給する。
The
ピッチ検出部32は、そこに供給される生徒データとしての低音質音声データのピッチ周期を検出し、タップ抽出部33および34に供給する。
The
タップ抽出部33は、教師データとしての高音質音声データの音声サンプルを、順次、注目データとし、その注目データについて、図6のタップ抽出部22が構成するのと同一構造の予測タップを、そこに供給される生徒データとしての低音質音声データから、幾つかの音声サンプルを抽出することにより構成する。タップ抽出部34も、注目データについて、図6のタップ抽出部23が構成するのと同一構造のクラスタップを、そこに供給される生徒データとしての低音質音声データから、幾つかの音声サンプルを抽出することにより構成する。
The
なお、タップ抽出部33と34は、それぞれ、図6のタップ抽出部22と23と同様に、ピッチ検出部32から供給される、注目データに対応する位置のピッチ周期に応じて、予測タップとクラスタップのタップ構造を変更するようになっている。
Note that the
タップ抽出部33で得られた予測タップは、足し込み部36に供給され、タップ抽出部34で得られたクラスタップは、クラス分類部35に供給される。
The prediction tap obtained by the
クラス分類部35は、図6のクラス分類部24における場合と同様に、タップ抽出部33からのクラスタップに基づき、注目データをクラス分類し、その結果得られるクラスに対応するクラスコードを、足し込み部36に出力する。
Similar to the case of the
足し込み部36は、そこに供給される教師データのうち、注目データとなっている教師データと、タップ抽出部33から供給される予測タップを構成する生徒データを対象とした足し込みを、クラス分類部35から供給されるクラスコードごとに行う。
The adding
即ち、足し込み部36は、クラス分類部35から供給されるクラスコードに対応するクラスごとに、予測タップ(生徒データ)を用い、式(8)の行列Aにおける各コンポーネントとなっている、生徒データどうしの乗算(xinxim)と、サメーション(Σ)に相当する演算を行う。
That is, the adding
さらに、足し込み部36は、やはり、クラス分類部35から供給されるクラスコードに対応するクラスごとに、予測タップ(生徒データ)および注目データ(教師データ)を用い、式(8)のベクトルvにおける各コンポーネントとなっている、生徒データと教師データの乗算(xinyi)と、サメーション(Σ)に相当する演算を行う。
Furthermore, the adding
即ち、足し込み部36は、前回、注目データとされた教師データについて求められた式(8)における行列Aのコンポーネントと、ベクトルvのコンポーネントを、その内蔵するメモリ(図示せず)に記憶しており、その行列Aまたはベクトルvの各コンポーネントに対して、新たに注目データとされた教師データについて、その教師データyiおよび生徒データxin(xim)を用いて計算される、対応するコンポーネントxinximまたはxinyiを足し込む(行列A、ベクトルvにおけるサメーションで表される加算を行う)。
In other words, the adding
そして、足し込み部36は、そこに供給される教師データすべてを注目データとして、上述の足し込みを行うことにより、各クラスについて、式(8)に示した正規方程式をたて、タップ係数算出部37に供給する。
Then, the adding
タップ係数算出部37は、足し込み部36から供給されるクラスごとの正規方程式を解くことにより、各クラスごとのタップ係数を求めて出力する。図6の係数メモリ25には、このようにして求められたクラスごとのタップ係数が記憶されている。
The tap
なお、入力される学習用音声データのサンプル数が十分でないこと等に起因して、タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じることがあり得るが、そのようなクラスについては、タップ係数算出部37は、例えば、デフォルトのタップ係数を出力するようになっている。
In addition, there may be a class in which the number of normal equations necessary for obtaining tap coefficients cannot be obtained due to an insufficient number of samples of input learning speech data. For the class, the tap
次に、図8および図9を参照して、CELP方式による音声データの符号化と復号について説明する。なお、CELP方式としては、広義には、VSELP(Vector Sum Excited Liner Prediction),PSI−CELP(Pitch Synchronous Innovation CELP),CS−ACELP(Conjugate Structure Algebraic CELP)等があるが、ここでは、例えば、VSELP方式を例に説明する。 Next, encoding and decoding of audio data by the CELP method will be described with reference to FIGS. As CELP methods, there are VSELP (Vector Sum Excited Linear Prediction), PSI-CELP (Pitch Synchronous Innovation CELP), CS-ACELP (Conjugate Structure Algebraic CELP), etc., but here, for example, VSELP A method will be described as an example.
図8は、音声データを、VSELP方式により符号化するVSELP符号化装置の構成例を示している。 FIG. 8 shows a configuration example of a VSELP encoding apparatus that encodes audio data by the VSELP method.
符号化対象の音声は、マイク(マイクロフォン)41に入力され、そこで、電気信号としての音声信号に変換され、A/D(Analog/Digital)変換部42に供給される。A/D変換部42は、マイク41からのアナログの音声信号を、例えば、8kHz等のサンプリング周波数でサンプリングすることにより、ディジタルの音声信号にA/D変換し、さらに、所定のビット数で量子化を行って、演算器43とLPC(Liner Prediction Coefficient)分析部44に供給する。
The audio to be encoded is input to a microphone (microphone) 41, where it is converted into an audio signal as an electrical signal, and supplied to an A / D (Analog / Digital) converter 42. The A / D converter 42 samples the analog audio signal from the microphone 41 at a sampling frequency such as 8 kHz to perform A / D conversion into a digital audio signal, and further performs quantum quantization with a predetermined number of bits. Then, the data is supplied to a
LPC分析部44は、A/D変換部42からの音声信号を、例えば、160サンプル分の長さのフレームごとにLPC分析し、P次の線形予測係数α1,α2,・・・,αPを求める。そして、LPC分析部44は、このP次の線形予測係数αp(p=1,2,・・・,P)を要素とするベクトルを、音声の特徴ベクトルとして、ベクトル量子化部45に供給する。 The LPC analysis unit 44 performs LPC analysis on the audio signal from the A / D conversion unit 42 for each frame having a length of 160 samples, for example, and P-order linear prediction coefficients α 1 , α 2 ,. Find α P. Then, the LPC analysis unit 44 supplies a vector having the P-th order linear prediction coefficient α p (p = 1, 2,..., P) as an element to the vector quantization unit 45 as a speech feature vector. To do.
ベクトル量子化部45は、線形予測係数を要素とするコードベクトルとコードとを対応付けたコードブックを記憶しており、そのコードブックに基づいて、LPC分析部44からの特徴ベクトルαをベクトル量子化し、そのベクトル量子化の結果得られるコード(以下、適宜、Aコード(A_code)という)を、コード決定部55に供給する。
The vector quantization unit 45 stores a code book in which a code vector having a linear prediction coefficient as an element and a code are associated with each other, and based on the code book, the feature vector α from the LPC analysis unit 44 is converted into a vector quantum. And a code obtained as a result of the vector quantization (hereinafter referred to as A code (A_code) as appropriate) is supplied to the
さらに、ベクトル量子化部45は、コード決定部55に出力したAコードに対応するコードベクトルα’を構成する要素となっている線形予測係数α1’,α2’,・・・,αP’を、音声合成フィルタ46に供給する。
Further, the vector quantizing unit 45 linear predictive coefficients α 1 ′, α 2 ′,..., Α P that are elements constituting the code vector α ′ corresponding to the A code output to the
音声合成フィルタ46は、例えば、IIR(Infinite Impulse Response)型のディジタルフィルタで、ベクトル量子化部45からの線形予測係数αp’(p=1,2,・・・,P)をIIRフィルタのフィルタ係数(タップ係数)とするとともに、演算器54から供給される残差信号eを入力信号として、音声合成を行う。
The
即ち、LPC分析部44で行われるLPC分析は、現在時刻nの音声信号(のサンプル値)sn、およびこれに隣接する過去のP個のサンプル値sn-1,sn-2,・・・,sn-Pに、式
sn+α1sn-1+α2sn-2+・・・+αPsn-P=en
・・・(9)で示す線形1次結合が成立すると仮定し、現在時刻nのサンプル値snの予測値(線形予測値)sn’を、過去のP個のサンプル値sn-1,sn-2,・・・,sn-Pを用いて、式
sn’=−(α1sn-1+α2sn-2+・・・+αPsn-P)
・・・(10)
によって線形予測したときに、実際のサンプル値snと線形予測値sn’との間の自乗誤差を最小にする線形予測係数αpを求めるものである。
That, LPC analysis performed by the LPC analysis section 44, the sample value s n-1 of the audio signal (sample value) s n, and past adjacent to P number of the current time n, s n-2, · ..., to s nP,
(9) Assuming that the linear primary combination shown in (9) is established, the predicted value (linear predicted value) s n ′ of the sample value s n at the current time n is used as the past P sample values s n−1. , S n-2 ,..., S nP , the expression s n ′ = − (α 1 s n−1 + α 2 s n−2 +... + Α P s nP )
... (10)
The linear prediction coefficient α p that minimizes the square error between the actual sample value s n and the linear prediction value s n ′ when linear prediction is performed by the above-described method is obtained.
ここで、式(9)において、{en}(・・・,en-1,en,en+1,・・・)は、平均値が0で、分散が所定値σ2の互いに無相関な確率変数である。 Here, in equation (9), {e n } (..., E n−1 , e n , e n + 1 ,...) Has an average value of 0 and a variance of the predetermined value σ 2 . They are random variables that are uncorrelated with each other.
式(9)から、サンプル値snは、式
sn=en−(α1sn-1+α2sn-2+・・・+αPsn-P)
・・・(11)で表すことができ、これを、Z変換すると、次式が成立する。
Equation (9), the sample value s n has the formula s n = e n - (α 1 s n-1 + α 2 s n-2 + ··· + α P s nP)
(11) When this is converted to Z, the following equation is established.
S=E/(1+α1z-1+α2z-2+・・・+αPz-P)
・・・(12)
但し、式(12)において、SとEは、式(11)におけるsnとenのZ変換を、それぞれ表す。
S = E / (1 + α 1 z −1 + α 2 z −2 +... + Α P z −P )
(12)
However, in the equation (12), S and E, the Z-transform of s n and e n in the equation (11) represents, respectively.
ここで、式(9)および(10)から、enは、式
en=sn−sn’
・・・(13)で表すことができ、実際のサンプル値snと線形予測値sn’との間の残差信号と呼ばれる。
Here, from equation (9) and (10), e n is the formula e n = s n -s n '
(13), which is called a residual signal between the actual sample value s n and the linear prediction value s n ′.
従って、式(12)から、線形予測係数αpをIIRフィルタのタップ係数とするとともに、残差信号enをIIRフィルタの入力信号とすることにより、音声信号snを求めることができる。 Therefore, from equation (12), the linear prediction coefficient alpha p with the tap coefficients of the IIR filter, by the residual signal e n as an input signal of the IIR filter, it is possible to obtain the speech signal s n.
そこで、音声合成フィルタ46は、上述したように、ベクトル量子化部45からの線形予測係数αp’をタップ係数とするとともに、演算器54から供給される残差信号eを入力信号として、式(12)を演算し(残差信号eをフィルタリングし)、音声信号(合成音信号)ssを求める。
Therefore, as described above, the
なお、音声合成フィルタ46では、LPC分析部44によるLPC分析の結果得られる線形予測係数αpではなく、そのベクトル量子化の結果得られるコードに対応するコードベクトルとしての線形予測係数αp’が、フィルタ係数として用いられるため、音声合成フィルタ46が出力する合成音信号は、A/D変換部42が出力する音声信号とは、基本的に同一にはならない。
Note that in the
音声合成フィルタ46が出力する合成音信号ssは、演算器43に供給される。演算器43は、音声合成フィルタ46からの合成音信号ssから、A/D変換部42が出力する音声信号sを減算し、その減算値を、自乗誤差演算部47に供給する。自乗誤差演算部47は、演算器43からの減算値の自乗和(第kフレームのサンプル値についての自乗和)を演算し、その結果得られる自乗誤差を、自乗誤差最小判定部48に供給する。
The synthesized sound signal ss output from the
自乗誤差最小判定部48は、自乗誤差演算部47が出力する自乗誤差に対応付けて、ラグを表すコードとしてのLコード(L_code)、ゲインを表すコードとしてのGコード(G_code)、および符号語を表すコードとしてのIコード(I_code)を記憶しており、自乗誤差演算部47が出力する自乗誤差に対応するLコード、Gコード、およびLコードを出力する。Lコードは、適応コードブック記憶部49に、Gコードは、ゲイン復号器50に、Iコードは、励起コードブック記憶部51に、それぞれ供給される。さらに、Lコード、Gコード、およびIコードは、コード決定部55にも供給される。
The square error
適応コードブック記憶部49は、例えば7ビットのLコードと、所定の遅延時間(ラグ)とを対応付けた適応コードブックを記憶しており、演算器54から供給される残差信号eを、自乗誤差最小判定部48から供給されるLコードに対応付けられた遅延時間だけ遅延して、演算器52に出力する。
The adaptive
ここで、適応コードブック記憶部49は、残差信号eを、Lコードに対応する時間だけ遅延して出力することから、その出力信号は、その遅延時間を周期とする周期信号に近い信号となる。この信号は、線形予測係数を用いた音声合成において、主として、有声音の合成音を生成するための駆動信号となる。従って、Lコードに対応する時間は、有声音のピッチ周期を表すことになる。
Here, since the adaptive
ゲイン復号器50は、Gコードと、所定のゲインβおよびγとを対応付けたテーブルを記憶しており、自乗誤差最小判定部48から供給されるGコードに対応付けられたゲインβおよびγを出力する。ゲインβとγは、演算器52と53に、それぞれ供給される。
The
励起コードブック記憶部51は、例えば9ビットのIコードと、所定の励起信号とを対応付けた励起コードブックを記憶しており、自乗誤差最小判定部48から供給されるIコードに対応付けられた励起信号を、演算器53に出力する。
The excitation code
ここで、励起コードブックに記憶されている励起信号は、例えば、ホワイトノイズ等に近い信号であり、線形予測係数を用いた音声合成において、主として、無声音の合成音を生成するための駆動信号となる。 Here, the excitation signal stored in the excitation codebook is, for example, a signal close to white noise or the like, and in speech synthesis using a linear prediction coefficient, mainly a drive signal for generating unvoiced synthesized sound and Become.
演算器52は、適応コードブック記憶部49の出力信号と、ゲイン復号器50が出力するゲインβとを乗算し、その乗算値lを、演算器54に供給する。演算器53は、励起コードブック記憶部51の出力信号と、ゲイン復号器50が出力するゲインγとを乗算し、その乗算値nを、演算器54に供給する。演算器54は、演算器52からの乗算値lと、演算器53からの乗算値nとを加算し、その加算値を、残差信号eとして、音声合成フィルタ46に供給する。
The
音声合成フィルタ46では、以上のようにして、演算器54から供給される残差信号eが、ベクトル量子化部45から供給される線形予測係数αp’をタップ係数とするIIRフィルタでフィルタリングされ、その結果得られる合成音信号が、演算器43に供給される。そして、演算器43および自乗誤差演算部47において、上述の場合と同様の処理が行われ、その結果得られる自乗誤差が、自乗誤差最小判定部48に供給される。
In the
自乗誤差最小判定部48は、自乗誤差演算部47からの自乗誤差が最小(極小)になったかどうかを判定する。そして、自乗誤差最小判定部48は、自乗誤差が最小になっていないと判定した場合、上述のように、その自乗誤差に対応するLコード、Gコード、およびLコードを出力し、以下、同様の処理が繰り返される。
The square error
一方、自乗誤差最小判定部48は、自乗誤差が最小になったと判定した場合(例えば、自乗誤差が、所定の閾値以下となった場合)、確定信号を、コード決定部55に出力する。コード決定部55は、ベクトル量子化部45から供給されるAコードをラッチするとともに、自乗誤差最小判定部48から供給されるLコード、Gコード、およびIコードを順次ラッチするようになっており、自乗誤差最小判定部48から確定信号を受信すると、そのときラッチしているAコード、Lコード、Gコード、およびIコードを、チャネルエンコーダ56に供給する。チャネルエンコーダ56は、コード決定部55からのAコード、Lコード、Gコード、およびIコードを多重化し、符号化データとして出力する。
On the other hand, when the square error
なお、以下では、説明を簡単にするため、Aコード、Lコード、Gコード、およびIコードは、フレームごとに求められるものとする。但し、例えば、1フレームを、4つのサブフレームに分割し、Lコード、Gコード、およびIコードは、サブフレームごとに求めるようにすること等が可能である。 Hereinafter, in order to simplify the description, it is assumed that the A code, the L code, the G code, and the I code are obtained for each frame. However, for example, one frame can be divided into four subframes, and the L code, G code, and I code can be obtained for each subframe.
ここで、図8(後述する図9乃至図11においても同様)では、各変数に、[k]が付され、配列変数とされている。このkは、フレーム数を表すが、明細書中では、その記述は、適宜省略する。 Here, in FIG. 8 (the same applies to FIGS. 9 to 11 to be described later), [k] is added to each variable, which is an array variable. Although k represents the number of frames, the description thereof is omitted as appropriate in the specification.
次に、図9は、図8のVSELP符号化装置が出力する符号化データを、VSELP方式で復号するVSELP復号装置の構成例を示している。 Next, FIG. 9 shows a configuration example of a VSELP decoding apparatus that decodes encoded data output from the VSELP encoding apparatus of FIG. 8 by the VSELP method.
図8のVSELP符号化装置が出力する符号化データは、チャネルデコーダ61に供給される。チャネルデコーダ61は、符号化データから、Lコード、Gコード、Iコード、Aコードを分離し、それぞれを、適応コードブック記憶部62、ゲイン復号器63、励起コードブック記憶部64、フィルタ係数復号器65に供給する。
The encoded data output from the VSELP encoding apparatus in FIG. 8 is supplied to the
適応コードブック記憶部62、ゲイン復号器63、励起コードブック記憶部64、演算器66乃至68は、図8の適応コードブック記憶部49、ゲイン復号器50、励起コードブック記憶部51、演算器52乃至54とそれぞれ同様に構成されるもので、図8で説明した場合と同様の処理が行われることにより、Lコード、Gコード、およびIコードが、残差信号eに復号される。この残差信号eは、音声合成フィルタ69に対して、入力信号として与えられる。
The adaptive
フィルタ係数復号器65は、図8のベクトル量子化部45が記憶しているのと同一のコードブックを記憶しており、Aコードを、線形予測係数αp’に復号し、音声合成フィルタ69に供給する。
The
音声合成フィルタ69は、図8の音声合成フィルタ46と同様に構成されており、フィルタ係数復号器65からの線形予測係数αp’をフィルタ係数(タップ係数)とするとともに、演算器68から供給される残差信号eを入力信号として、式(12)を演算し、これにより、図8の自乗誤差最小判定部48において自乗誤差が最小と判定されたときの合成音信号を生成し、復号音声データとして出力する。
The
以上のように、図8のVSELP符号化装置では、図9のVSELP復号装置の音声合成フィルタ69に与えられる残差信号と線形予測係数がコード化されて送信されてくるため、図9のVSELP復号装置では、そのコードが、残差信号と線形予測係数に復号され、音声合成フィルタ69に与えられる。
As described above, since the residual signal and the linear prediction coefficient given to the
しかしながら、この復号された残差信号や線形予測係数(以下、適宜、それぞれを、復号残差信号または復号線形予測係数という)には、量子化誤差(ベクトル量子化による誤差)等の誤差が含まれるため、音声をLPC分析して得られる残差信号と線形予測係数には一致しない。 However, the decoded residual signal and linear prediction coefficient (hereinafter, appropriately referred to as a decoded residual signal or a decoded linear prediction coefficient) include errors such as quantization error (error due to vector quantization). Therefore, the residual signal obtained by LPC analysis of speech does not match the linear prediction coefficient.
このため、図9のVSELP復号装置の音声合成フィルタ69が出力する復号音声データは、歪みを有する、音質の劣化したものとなる。
For this reason, the decoded speech data output from the
そこで、VSELP復号装置において、上述したクラス分類適応処理を行うようにすることにより、音質を向上させた復号音声データを得ることが可能となる。 Therefore, by performing the above-described class classification adaptive processing in the VSELP decoding device, it is possible to obtain decoded speech data with improved sound quality.
図10は、そのようなVSELP復号装置の構成例を示している。なお、図中、図9における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。 FIG. 10 shows a configuration example of such a VSELP decoding device. In the figure, portions corresponding to those in FIG. 9 are denoted by the same reference numerals, and description thereof will be omitted below as appropriate.
タップ抽出部81には、音声合成フィルタ69が出力する復号音声データが供給されるようになっており、タップ抽出部81は、図6のタップ抽出部22と同様に、その復号音声データから、予測タップとするもの(サンプル値)を抽出し、予測部85に供給する。
The
タップ抽出部82にも、音声合成フィルタ69が出力する復号音声データが供給されるようになっており、タップ抽出部82は、図6のタップ抽出部23と同様に、その復号音声データから、クラスタップとするもの(サンプル値)を抽出し、クラス分類部83に供給する。
The tap extraction unit 82 is also supplied with the decoded voice data output from the
クラス分類部83は、図6のクラス分類部24と同様に、タップ抽出部82から供給されるクラスタップに基づいて、クラス分類を行い、そのクラス分類結果としてのクラスコードを、係数メモリ84に供給する。
Similar to the
係数メモリ84は、後述する図11の学習装置において学習処理が行われることにより得られる、クラスごとのタップ係数を記憶しており、クラス分類部83が出力するクラスコードに対応するアドレスに記憶されているタップ係数を、予測部85に供給する。
The
予測部85は、図6の予測部26と同様に、タップ抽出部81が出力する予測タップと、係数メモリ84が出力するタップ係数とを取得し、その予測タップとタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部85は、音声合成フィルタ69が出力する低音質の復号音声データを高音質にした高音質音声データを出力する。
The
なお、タップ抽出部81には、チャネルデコーダ61が出力する、フレーム(またはサブフレーム)ごとのLコード、Gコード、Iコード、およびAコードが供給されるようになっている。そして、タップ抽出部81では、Lコード、Gコード、Iコード、またはAコードからも、予測タップを抽出することができるようになっている。さらに、タップ抽出部81では、Lコード、Gコード、Iコード、またはAコードに基づいて、予測タップのタップ構造を変更することも可能となっている。
Note that the
タップ抽出部82にも、チャネルデコーダ61が出力するLコード、Gコード、Iコード、およびAコードが供給されるようになっており、タップ抽出部82でも、タップ抽出部81における場合と同様に、Lコード、Gコード、Iコード、またはAコードからも、クラスタップを抽出し、さらには、Lコード、Gコード、Iコード、またはAコードに基づいて、クラスタップのタップ構造を変更することが可能となっている。
The tap extraction unit 82 is also supplied with the L code, G code, I code, and A code output from the
次に、図11は、図10の係数メモリ84に記憶させるタップ係数の学習処理を行う学習装置の構成例を示している。
Next, FIG. 11 shows a configuration example of a learning device that performs learning processing of tap coefficients stored in the
演算器93乃至コード決定部105は、図8の演算器43乃至コード決定部45とそれぞれ同様に構成される。演算器93には、学習用音声信号が入力されるようになっており、従って、演算器93乃至コード決定部105では、その学習用音声信号に対して、図8における場合と同様の処理が施される。
The
そして、タップ抽出部111と112には、自乗誤差最小判定部98において自乗誤差が最小になったと判定されたときの音声合成フィルタ96が出力する復号音声データが、生徒データとして供給される。また、足し込み部114には、学習用音声信号が、そのまま教師データとして供給される。
The
タップ抽出部111は、音声合成フィルタ96が出力する復号音声データの音声サンプルから、図10のタップ抽出部81と同一構造の予測タップを抽出し、足し込み部114に供給する。
The
タップ抽出部112も、音声合成フィルタ96が出力する復号音声データの音声サンプルから、図10のタップ抽出部82と同一構造のクラスタップを抽出し、クラス分類部113に供給する。
The
クラス分類部113は、タップ抽出部112からのクラスタップに基づいて、図10のクラス分類部83における場合と同様のクラス分類を行い、その結果得られるクラスコードを、足し込み部114に供給する。
Based on the class tap from the
足し込み部114は、学習用音声信号を、教師データとして受信するとともに、タップ抽出部111からの予測タップを、生徒データとして受信し、その教師データおよび生徒データを対象として、クラス分類部113からのクラスコードごとに、図7の足し込み部36における場合と同様の足し込みを行うことにより、各クラスについて、式(8)に示した正規方程式をたてる。
The adding
タップ係数算出部115は、図7のタップ係数算出部37と同様に、足し込み部114においてクラスごとに生成された正規方程式を解くことにより、クラスごとに、タップ係数を求めて出力する。
The tap
図10の係数メモリ84には、以上のようにして、タップ係数算出部115から出力されるクラスごとのタップ係数が記憶されている。
The
従って、図10の係数メモリ84に記憶されたタップ係数は、線形予測演算を行うことにより得られる高音質の音声の予測値の予測誤差(自乗誤差)が、統計的に最小になるように学習を行うことにより求められたものであるから、図10の予測部85が出力する音声データは、高音質のものとなる。
Therefore, the tap coefficients stored in the
なお、タップ抽出部111と112には、コード決定部105が、自乗誤差最小判定部98から確定信号を受信したときに出力するLコード、Gコード、Iコード、およびAコードが供給されるようになっており、図10のタップ抽出部81や82において、Lコード、Gコード、Iコード、またはAコードを用いて予測タップやクラスタップが構成される場合には、タップ抽出部111や112でも、Lコード、Gコード、Iコード、またはAコードを用いて予測タップやクラスタップが構成されるようになっている。
The
次に、図12は、図3の復号装置の詳細構成例を示している。 Next, FIG. 12 shows a detailed configuration example of the decoding device of FIG.
符号化特性情報抽出部121には、復号対象の符号化データが供給されるようになっており、符号化特性情報抽出部121は、符号化データから、その符号化データに含まれる特性データを抽出して、判定部123に供給する。
The encoded characteristic
実特性抽出部122にも、復号対象の符号化データが供給されるようになっており、実特性抽出部122は、符号化データに対応する元のデータの実際の特性である実特性を抽出し、判定部123に供給する。
The actual
ここで、例えば、符号化データが、音声データを符号化したものである場合には、実特性抽出部122は、例えば、その音声データのピッチ周期を、実特性として求める。また、例えば、符号化データが、画像データを符号化したものである場合には、実特性抽出部122は、例えば、その画像データの動きを評価する評価値を、実特性として求める。
Here, for example, when the encoded data is encoded audio data, the actual
判定部123は、符号化特性情報抽出部121から供給される特性データと、実特性抽出部122から供給される実特性とを比較することにより、特性データの正しさを判定する。そして、判定部123は、その特性データの正しさの判定結果としてのミスマッチ情報を、復号処理部2に出力する。
The
なお、以上の符号化特性情報抽出部121、実特性抽出部122、および判定部123が、ミスマッチ検出部1を構成している。
The encoding characteristic
前処理部131には、復号対象の符号化データが供給されるようになっており、前処理部131は、符号化データに対して、所定の前処理を施し、その結果得られる前処理データを、クラス分類適応処理部132に供給する。
The
クラス分類適応処理部132は、前処理部131から供給される前処理データから、予測タップおよびクラスタップを構成し、係数メモリ141を参照することで、上述したようなクラス分類適応処理を行う。そして、クラス分類適応処理部132は、クラス分類適応処理を行うことによって得られるデータ(以下、適宜、適応処理データという)を、後処理部133に出力する。
The class classification
ここで、クラス分類適応処理部132には、ミスマッチ検出部1の判定部123が出力するミスマッチ情報が供給されるようになっており、クラス分類適応処理部132では、このミスマッチ情報に基づき、クラス分類適応処理が行われるようになっている。
Here, the class classification
後処理部133は、クラス分類適応処理部132が出力するデータに対して、所定の後処理を施し、これにより、符号化データを、高品質の復号データに復号したものを得て出力する。
The
なお、以上の前処理部131、クラス分類適応処理部132、および後処理部133が、復号処理部2を構成している。
The
係数メモリ141は、クラス分類適応処理部132がクラス分類適応処理を行うのに用いるクラスごとのタップ係数を記憶している。
The
なお、この係数メモリ141によって、パラメータ記憶部3が構成されている。
Note that the parameter storage unit 3 is configured by the
次に、図13は、図12のクラス分類適応処理部132の構成例を示している。
Next, FIG. 13 shows a configuration example of the class classification
前処理部131が出力する前処理データは、タップ抽出部151および152に供給されるようになっている。
The preprocessing data output from the
タップ抽出部151は、得ようとしている適応処理データを、注目データとし、さらに、その注目データを予測するのに用いる前処理データの幾つかを、予測タップとして抽出する。また、タップ抽出部152は、注目データをクラス分類するのに用いる前処理データの幾つかを、クラスタップとして抽出する。
The
ここで、タップ抽出部151および152には、判定部123(図12)が出力するミスマッチ情報も供給されるようになっている。そして、タップ抽出部151と152は、ミスマッチ情報に基づき、予測タップとクラスタップの構造を、それぞれ変更するようになっている。
Here, mismatch information output from the determination unit 123 (FIG. 12) is also supplied to the
なお、ここでは、説明を簡単にするために、予測タップとクラスタップは、同一のタップ構造を有するものとする。但し、予測タップとクラスタップとは、異なるタップ構造とすることが可能である。 Here, in order to simplify the description, it is assumed that the prediction tap and the class tap have the same tap structure. However, the prediction tap and the class tap can have different tap structures.
タップ抽出部151で得られた予測タップは、予測部154に供給され、タップ抽出部152で得られたクラスタップは、クラス分類部153に供給される。
The prediction tap obtained by the
クラス分類部153には、クラスタップの他、ミスマッチ情報も供給されるようになっており、クラス分類部153は、タップ抽出部152からのクラスタップとミスマッチ情報に基づき、注目データをクラス分類し、その結果得られるクラスに対応するクラスコードを、係数メモリ141に供給する。
In addition to the class tap, mismatch information is also supplied to the
係数メモリ141は、各クラスコードに対応するアドレスに、そのクラスコードに対応するクラスのタップ係数を記憶しており、クラス分類部153から供給されるクラスコードに対応するアドレスに記憶されているタップ係数を、予測部154に供給する。
The
予測部154は、タップ抽出部151が出力する予測タップと、係数メモリ141が出力するタップ係数とを取得し、その予測タップとタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部154は、適応処理データ(の予測値)を求めて出力する。
The
次に、図14のフローチャートを参照して、図12の復号装置の処理(復号処理)について説明する。 Next, processing (decoding processing) of the decoding device in FIG. 12 will be described with reference to the flowchart in FIG.
クラス分類適応処理部132(図13)のタップ抽出部151では、得ようとしている適応処理データが、注目データとされ、ステップS21において、ミスマッチ検出部1が、その注目データに対応する符号化データ(以下、適宜、注目符号化データという)から、ミスマッチ情報を生成する。
In the
即ち、ミスマッチ検出部1では、符号化特性情報抽出部121が、注目符号化データから、その注目符号化データに含まれる特性データを抽出し、判定部123に供給するとともに、実特性抽出部122が、注目符号化データに対応する元のデータの実際の特性である実特性を抽出し、判定部123に供給する。そして、判定部123は、符号化特性情報抽出部121から供給される特性データと、実特性抽出部122から供給される実特性とを比較することにより、特性データの正しさを判定し、その判定結果としてのミスマッチ情報を、クラス分類適応処理部132に供給する。
That is, in the
そして、ステップS22に進み、前処理部131は、注目データについての予測タップとクラスタップを構成するのに必要な前処理データを得るための符号化データに対して、前処理を施し、その結果得られる前処理データを、クラス分類適応処理部132に供給する。
Then, the process proceeds to step S22, and the
クラス分類適応処理部132(図13)では、ステップS23において、タップ抽出部151と152が、前処理部131から供給される前処理データを用い、ミスマッチ検出部1からのミスマッチ情報に基づくタップ構造の予測タップとクラスタップを、それぞれ構成する。そして、予測タップは、タップ抽出部151から予測部154に供給され、クラスタップは、タップ抽出部152からクラス分類部153に供給される。
In the class classification adaptive processing unit 132 (FIG. 13), in step S23, the
クラス分類部153は、タップ抽出部152から、注目データについてのクラスタップを受信し、ステップS24において、そのクラスタップと、ミスマッチ検出部1から供給されるミスマッチ情報に基づき、注目データをクラス分類し、注目データのクラスを表すクラスコードを、係数メモリ141に出力する。
The
係数メモリ141は、クラス分類部153から供給されるクラスコードに対応するアドレスに記憶されているタップ係数を読み出して出力する。予測部154は、ステップS25において、係数メモリ141が出力するタップ係数を取得し、ステップS26に進む。
The
ステップS26では、予測部154が、タップ抽出部151が出力する予測タップと、係数メモリ141から取得したタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部154は、注目データとしての適応処理データ(の予測値)を求め、後処理部133に供給する。
In step S <b> 26, the
後処理部133(図12)は、ステップS27において、クラス分類適応処理部132(の予測部154)からの注目データに対して、所定の後処理を施し、これにより、復号データを得て出力する。
In step S27, the post-processing unit 133 (FIG. 12) performs predetermined post-processing on the data of interest from the class classification adaptive processing unit 132 (
その後、ステップS28に進み、まだ、注目データとしていない適応処理データがあるかどうかが判定される。ステップS28において、まだ、注目データとしていない適応処理データがあると判定された場合、その、まだ注目データとされていない適応処理データのうちの1つが、新たに注目データとされ、ステップS21に戻り、以下、同様の処理が繰り返される。 Thereafter, the process proceeds to step S28, where it is determined whether there is any adaptive processing data that has not yet been set as the data of interest. If it is determined in step S28 that there is adaptation processing data that has not yet been set as attention data, one of the adaptation processing data that has not yet been set as attention data is newly set as attention data, and the process returns to step S21. Thereafter, the same processing is repeated.
また、ステップS28において、まだ、注目データとされていない適応処理データがないと判定された場合、処理を終了する。 If it is determined in step S28 that there is no adaptive process data that has not yet been set as attention data, the process ends.
次に、図15は、図12の係数メモリ141に記憶させるタップ係数を学習する場合の、図4の学習装置の詳細構成例を示している。
Next, FIG. 15 shows a detailed configuration example of the learning device in FIG. 4 when learning tap coefficients to be stored in the
図15の実施の形態において、ミスマッチ検出部13は、符号化特性情報抽出部171、実特性抽出部172、および判定部173から構成されており、符号化部12が出力する符号化データは、符号化特性情報抽出部171、実特性抽出部172に供給されるようになっている。符号化特性情報抽出部171、実特性抽出部172、または判定部173は、図12の符号化特性情報抽出部121、実特性抽出部122、または判定部123とそれぞれ同様に構成されており、図12で説明した場合と同様に、後述する注目教師データに対応する符号化データから、ミスマッチ情報を求めて、学習処理部14に供給する。
In the embodiment of FIG. 15, the
学習処理部14は、適応学習部160、教師データ生成部161、および生徒データ生成部163から構成されている。
The
適応学習部160は、教師データ記憶部162、生徒データ記憶部164、タップ抽出部165および166、クラス分類部167、足し込み部168、およびタップ係数算出部169から構成され、教師データ生成部161は、逆後処理部161Aから構成され、生徒データ生成部163は、符号化部163Aおよび前処理部163Bから構成されている。
The
逆後処理部161Aは、学習用データ記憶部11から学習用データを読み出し、図12の後処理部133が行う処理と相補的な関係にある処理(以下、適宜、逆後処理という)を行う。即ち、例えば、学習用データをyとするとともに、図12の後処理部133が、適応処理データxに対して施す後処理を、関数f(x)で表すとすると、逆後処理部161Aは、学習用データyに対して、関数f-1(y)(f-1()は、関数f()の逆関数を表す)で表される処理を逆後処理として施し、その結果得られるデータを、教師データとして、適応学習部160に出力する。なお、逆後処理部161Aが出力する教師データは、図12のクラス分類適応処理部132から後処理部133に供給される適応データに相当する。
The
教師データ記憶部162は、教師データ生成部161(の逆後処理部161A)が出力する教師データを一時記憶する。
The teacher
符号化部163Aは、学習用データ記憶部11から学習用データを読み出し、符号化部12と同一の符号化方式で符号化して出力する。従って、符号化部163Aは、符号化部12が出力するのと同一の符号化データを出力する。なお、符号化部12と163Aとは、1つの符号化部で共用することが可能である。
The
前処理部163Bは、符号化部163Aが出力する符号化データに対して、図12の前処理部131が行うのと同一の前処理を施し、その結果得られる前処理データを、生徒データとして、適応学習部160に出力する。なお、前処理部163Bが出力する生徒データは、図12の前処理部131からクラス分類適応処理部132に供給される前処理データに相当する。
The
生徒データ記憶部164は、生徒データ生成部163(の前処理部163B)が出力する生徒データを一時記憶する。
The student
タップ抽出部165は、教師データ記憶部162に記憶された教師データを、順次、注目教師データとし、その注目教師データについて、生徒データ記憶部164に記憶された生徒データを抽出することにより、図13のタップ抽出部151が構成するのと同一のタップ構造の予測タップを構成して出力する。なお、タップ抽出部165には、ミスマッチ検出部13(の判定部173)が出力するミスマッチ情報が供給されるようになっており、タップ抽出部165は、図13のタップ抽出部151と同様に、注目教師データについてのミスマッチ情報に基づいて、予測タップのタップ構造を変更するようになっている。
The
タップ抽出部166は、注目教師データについて、生徒データ記憶部164に記憶された生徒データを抽出することにより、図13のタップ抽出部152が構成するのと同一のタップ構造のクラスタップを構成して出力する。なお、タップ抽出部166には、ミスマッチ検出部13が出力するミスマッチ情報が供給されるようになっており、タップ抽出部166は、図13のタップ抽出部152と同様に、注目教師データについてのミスマッチ情報に基づいて、クラスタップのタップ構造を変更するようになっている。
The
クラス分類部167には、タップ抽出部166が出力するクラスタップと、ミスマッチ検出部13が出力するミスマッチ情報が供給されるようになっている。クラス分類部167は、注目教師データについてのクラスタップとミスマッチ情報に基づき、図13のクラス分類部153と同一のクラス分類を行い、その結果得られるクラスに対応するクラスコードを、足し込み部168に出力する。
The
足し込み部168は、教師データ記憶部162から、注目教師データを読み出し、その注目教師データと、タップ抽出部165から供給される注目教師データについて構成された予測タップを構成する生徒データを対象とした足し込みを、クラス分類部167から供給されるクラスコードごとに行う。
The adding
即ち、足し込み部168は、クラス分類部167から供給されるクラスコードに対応するクラスごとに、予測タップ(生徒データ)を用い、式(8)の行列Aにおける各コンポーネントとなっている、生徒データどうしの乗算(xinxim)と、サメーション(Σ)に相当する演算を行う。
In other words, the adding
さらに、足し込み部168は、やはり、クラス分類部167から供給されるクラスコードに対応するクラスごとに、予測タップ(生徒データ)および教師データを用い、式(8)のベクトルvにおける各コンポーネントとなっている、生徒データと教師データの乗算(xinyi)と、サメーション(Σ)に相当する演算を行う。
Furthermore, the adding
即ち、足し込み部168は、前回、注目教師データとされた教師データについて求められた式(8)における行列Aのコンポーネントと、ベクトルvのコンポーネントを、その内蔵するメモリ(図示せず)に記憶しており、その行列Aまたはベクトルvの各コンポーネントに対して、新たに注目教師データとされた教師データについて、その教師データyiおよび生徒データxin(xim)を用いて計算される、対応するコンポーネントxinximまたはxinyiを足し込む(行列A、ベクトルvにおけるサメーションで表される加算を行う)。
In other words, the adding
そして、足し込み部168は、教師データ記憶部162に記憶された教師データすべてを注目教師データとして、上述の足し込みを行うことにより、各クラスについて、式(8)に示した正規方程式をたてると、その正規方程式を、タップ係数算出部169に供給する。
Then, the
タップ係数算出部169は、足し込み部168から供給されるクラスごとの正規方程式を解くことにより、各クラスごとのタップ係数を求めて出力する。
The tap
次に、図16のフローチャートを参照して、図15の学習装置の処理(学習処理)について、説明する。 Next, processing (learning processing) of the learning device in FIG. 15 will be described with reference to the flowchart in FIG.
まず最初に、ステップS31において、教師データ生成部161と生徒データ生成部163が、学習用データ記憶部11に記憶された学習用データから、教師データと生徒データを、それぞれ生成する。教師データは、教師データ生成部161から教師データ記憶部162に供給されて記憶され、生徒データは、生徒データ生成部163から生徒データ記憶部164に供給されて記憶される。
First, in step S31, the teacher
その後、タップ抽出部165は、教師データ記憶部162に記憶された教師データのうち、まだ、注目教師データとしていないものを、注目教師データとする。そしてステップS32において、符号化部12は、学習用データ記憶部11に記憶された学習用データを符号化し、これにより、注目教師データに対応する符号化データ(注目教師データに対応する学習用データを符号化したもの)を得て、ミスマッチ検出部13に供給する。
Thereafter, the
ミスマッチ検出部13は、符号化部12から供給される符号化データから、注目教師データについてのミスマッチ情報を生成し、学習処理部14のタップ抽出部165および166、並びにクラス分類部167に供給する。
The
そして、ステップS34に進み、タップ抽出部165が、ミスマッチ情報に基づき、注目教師データについて、生徒データ記憶部164に記憶された生徒データを読み出して予測タップを構成し、足し込み部168に供給するとともに、タップ抽出部166が、やはり、ミスマッチ情報に基づき、注目教師データについて、生徒データ記憶部164に記憶された生徒データを読み出してクラスタップを構成し、クラス分類部167に供給する。
In
クラス分類部167は、ステップS35において、注目教師データについてのクラスタップとミスマッチ情報に基づき、注目教師データについてクラス分類を行い、その結果得られるクラスに対応するクラスコードを、足し込み部168に出力する。
In step S35, the
足し込み部168は、ステップS36において、教師データ記憶部162から注目教師データを読み出し、その注目教師データと、タップ抽出部165からの予測タップを用い、式(8)の行列Aとベクトルvのコンポーネントを計算する。さらに、足し込み部168は、既に得られている行列Aとベクトルvのコンポーネントのうち、クラス分類部167からのクラスコードに対応するものに対して、注目データと予測タップから求められた行列Aとベクトルvのコンポーネントを足し込み、ステップS37に進む。
In step S36, the adding
ステップS37では、タップ抽出部165が、教師データ記憶部162に、まだ、注目教師データとしていない教師データが記憶されているかどうかを判定する。ステップS37において、注目教師データとしていない教師データが、まだ、教師データ記憶部162に記憶されていると判定された場合、タップ抽出部165は、まだ注目教師データとしていない教師データを、新たに、注目教師データとして、ステップS32に戻り、以下、同様の処理が繰り返される。
In step S <b> 37, the
また、ステップS37において、注目教師データとしていない教師データが、教師データ記憶部162に記憶されていないと判定された場合、足し込み部168は、いままでの処理によって得られたクラスごとの行列Aおよびベクトルvのコンポーネントで構成される式(8)の正規方程式を、タップ係数算出部169に供給し、ステップS38に進む。
If it is determined in step S37 that the teacher data that is not the attention teacher data is not stored in the teacher
ステップS38では、タップ係数算出部169は、足し込み部168から供給される各クラスごとの正規方程式を解くことにより、各クラスごとに、タップ係数を求めて出力し、処理を終了する。
In step S38, the tap
なお、学習用データ記憶部11に記憶されているる学習用データの数が十分でないこと等に起因して、タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じることがあり得るが、そのようなクラスについては、タップ係数算出部169は、例えば、デフォルトのタップ係数を出力するようになっている。
It should be noted that due to the fact that the number of learning data stored in the learning
次に、図17は、符号化データが音声データをCELP方式で符号化したものである場合の、図12の復号装置の第1の詳細構成例を示している。 Next, FIG. 17 illustrates a first detailed configuration example of the decoding device in FIG. 12 when the encoded data is audio data encoded by the CELP method.
図17の実施の形態では、符号化特性情報抽出部121は、チャネルデコーダ181で構成されている。チャネルデコーダ181は、例えば、図9のチャネルデコーダ61と同様に構成されており、符号化データから、Lコードを抽出し、特性データとして、判定部123に供給する。
In the embodiment of FIG. 17, the encoding characteristic
実特性抽出部122は、VSELP復号装置182およびピッチ検出部183で構成されている。VSELP復号装置182は、図9に示したVSELP復号装置と同様に構成され、符号化データを、VSELP方式で復号し、その結果得られる復号音声データを、ピッチ検出部183に供給する。
The actual
ピッチ検出部183は、VSELP復号装置182が出力する復号音声データのピッチ周期を検出する。即ち、ピッチ検出部183は、例えば、復号音声データの自己相関を計算し、その自己相関に基づいて、ピッチ周期を検出し、実特性として、判定部123に供給する。
The
判定部123は、差分演算部184で構成されている。差分演算部184は、チャネルデコーダ181からのLコードに対応する時間(音声のピッチ周期を表す時間)と、実際に得られた復号音声データのピッチ周期との差分を演算し、その差分値を、ミスマッチ情報として、クラス分類適応処理部132に供給する。
The
一方、前処理部131は、VSELP復号装置185で構成されている。VSELP復号装置185は、VSELP復号装置182と同様に、符号化データを、VSELP方式で復号し、復号音声データを、前処理データとして、クラス分類適応処理部132に出力する。
On the other hand, the
クラス分類適応処理部132では、前処理部131のVSELP復号装置185が出力する復号音声データを対象に、クラス分類適応処理が行われ、その結果得られる適応処理データが、後処理部133に出力される。後処理部133は、クラス分類適応処理部132からの適応処理データを、そのまま、高音質音声データとして出力する。
In the class classification
従って、図17の実施の形態においては、クラス分類適応処理部132では、クラス分類適応処理が行われることにより、前処理部131のVSELP復号装置185が出力する、符号化データをVSELP方式で復号した復号音声データが、高音質音声データに変換されて出力される。
Therefore, in the embodiment of FIG. 17, the class classification
即ち、クラス分類適応処理部132(図13)では、前処理部131のVSELP復号装置185が出力する復号音声データが、タップ抽出部151と152に供給される。
That is, in the class classification adaptive processing unit 132 (FIG. 13), the decoded speech data output from the
タップ抽出部151は、まだ、注目データとしていない高音質音声データを注目データとして、その注目データを予測するのに用いる復号音声データの幾つかの音声サンプルを、予測タップとして抽出する。タップ抽出部152も、注目データをクラス分類するのに用いる復号音声データの幾つかの音声サンプルを、クラスタップとして抽出する。
The
ここで、上述したように、タップ抽出部151および152には、判定部123からミスマッチ情報も供給されるようになっており、タップ抽出部151と152は、ミスマッチ情報に基づき、予測タップとクラスタップの構造を、それぞれ変更するようになっている。
Here, as described above, mismatch information is also supplied from the
即ち、符号化特性情報抽出部121(図17)のチャネルデコーダ181では、例えば、注目データに対応する位置の復号音声データを含むサブフレーム(またはフレーム)のLコードが抽出され、判定部123の差分演算部184に供給される。
That is, in the
また、実特性抽出部122のVSELP復号装置182では、例えば、注目データに対応する位置の復号音声データ(以下、適宜、注目復号音声データという)を含むフレームの前後それぞれ数10フレーム等が復号され、その結果得られる復号音声データが、ピッチ検出部183に供給される。ピッチ検出部183では、VSELP復号装置182から供給される復号音声データの自己相関が計算され、その自己相関に基づき、注目復号音声データ付近のピッチ周期が検出される。このピッチ周期は、差分演算部184に供給される。差分演算部184は、チャネルデコーダ181から供給されるLコードに対応する時間T1と、ピッチ検出部183から供給されるピッチ周期T2との差分を演算し、その差分値△T(=T1−T2)を、注目データについてのミスマッチ情報として出力する。
In addition, in the
タップ抽出部151(図13)は、以上のような、注目データについてのミスマッチ情報としての差分値△Tを受信すると、例えば、その差分値△Tの絶対値を、所定の閾値THTと比較する。 When the tap extraction unit 151 (FIG. 13) receives the difference value ΔT as mismatch information for the data of interest as described above, for example, the absolute value of the difference value ΔT is compared with a predetermined threshold value TH T. To do.
そして、タップ抽出部151は、差分値△Tの絶対値が、閾値THT以下(または未満)である場合、即ち、注目復号音声データを含むサブフレームのLコードに対応する時間が、注目復号音声データのピッチ周期を正しく表している場合、例えば、注目復号音声データを含むサブフレーム(以下、適宜、注目サブフレームという)の音声サンプルすべてと、注目サブフレームの1つ前のサブフレームの1サンプルおきの音声サンプルと、注目サブフレームの1つ後のサブフレームの1サンプルおきの音声サンプルとを、予測タップとして抽出する。
Then, when the absolute value of the difference value ΔT is equal to or less than the threshold value TH T (ie, the time corresponding to the L code of the subframe including the focused decoded speech data), the
また、タップ抽出部151は、差分値△Tの絶対値が、閾値THTより大きい(または以上である)場合、即ち、注目復号音声データを含むサブフレームのLコードに対応する時間が、注目復号音声データのピッチ周期を正しく表していない場合、例えば、注目サブフレームの音声サンプルすべてと、注目サブフレームの1つ前と2つ前のサブフレームの2サンプルおきの音声サンプルと、注目サブフレームの1つ後と2つ後のサブフレームの2サンプルおきの音声サンプルとを、予測タップとして抽出する。
Further, when the absolute value of the difference value ΔT is greater than (or greater than) the threshold value TH T , the
タップ抽出部152も、タップ抽出部151と同様に、ミスマッチ情報に基づいてタップ構造を変更したクラスタップを、復号音声データから抽出する。
Similarly to the
なお、ここでは、ミスマッチ情報に基づいて、予測タップとして抽出する音声サンプルの位置を変更するだけで、予測タップを構成する音声サンプルの数は変更しないようにしたが、タップ抽出部151では、ミスマッチ情報に基づいて、予測タップを構成する復号音声データの音声サンプルの数を変更するようにすることも可能である。
Here, based on the mismatch information, only the position of the speech sample extracted as the prediction tap is changed, and the number of speech samples constituting the prediction tap is not changed. However, in the
また、タップ抽出部151では、図10で説明した場合と同様に、VSELP復号装置185において得られるLコード、Gコード、Iコード、またはAコードも予測タップとして抽出することが可能であるが、この場合も、予測タップとするLコード、Gコード、Iコード、またはAコードのサブフレームの位置や数を、ミスマッチ情報に基づいて変更することが可能である。
Further, in the
さらに、ミスマッチ情報には、差分値△Tだけでなく、その差分値△Tを得るのに用いられたLコードや復号音声データのピッチ周期T2、即ち、チャネルデコーダ181が出力するLコードや、ピッチ検出部183が出力するピッチ周期T2を含めることが可能である。この場合、タップ抽出部151では、上述のような予測タップのタップ構造の変更を、差分値△Tだけでなく、Lコードや、復号音声データのピッチ周期T2にも基づいて行うようにすることが可能である。
Further, the mismatch information includes not only the difference value ΔT but also the L code used to obtain the difference value ΔT, the pitch period T2 of the decoded audio data, that is, the L code output by the
タップ抽出部152でも、タップ抽出部151における場合と同様にして、クラスタップを構成することができる。
The
タップ抽出部151で得られた予測タップは、予測部154に供給され、タップ抽出部152で得られたクラスタップは、クラス分類部153に供給される。
The prediction tap obtained by the
クラス分類部153には、クラスタップの他、注目データについてのミスマッチ情報も供給され、クラス分類部153では、上述したように、クラスタップとミスマッチ情報に基づき、注目データがクラス分類される。
In addition to the class tap, mismatch information about the attention data is also supplied to the
即ち、クラス分類部153は、例えば、注目データについてのクラスタップに基づき、上述のADRC処理を行うことにより、クラスコードを求める。ここで、クラスタップから得られるクラスコードを、以下、適宜、クラスタップコードという。
That is, the
さらに、クラス分類部153は、例えば、注目データについてのミスマッチ情報としての差分値△Tの絶対値を、所定の閾値THTと比較することにより、1ビットのクラスコードを求める。
Furthermore, the
即ち、クラス分類部153は、差分値△Tの絶対値が、閾値THT以下である場合、即ち、注目復号音声データを含むサブフレームのLコードに対応する時間が、注目復号音声データのピッチ周期を正しく表している場合、0または1のうちの、例えば、1をクラスコードとする。また、クラス分類部153は、差分値△Tの絶対値が、閾値THTより大きい場合、即ち、注目復号音声データを含むサブフレームのLコードに対応する時間が、注目復号音声データのピッチ周期を正しく表していない場合、0または1のうちの、例えば、0をクラスコードとする。ここで、ミスマッチ情報から得られるクラスコードを、以下、適宜、ミスマッチコードという。
That is, the
その後、クラス分類部153は、例えば、注目データについて得られたクラスタップコードの上位ビットとして、注目データについて得られたミスマッチコードを付加し、このクラスタップコードとミスマッチコードとで構成されるコードを、注目データについての最終的なクラスコードとして出力する。
Thereafter, the
このクラスコードは、係数メモリ141に供給される。係数メモリ141では、そのクラスコードに対応するタップ係数が読み出され、予測部154に供給される。
This class code is supplied to the
なお、上述のように、ミスマッチ情報に、差分値△Tだけでなく、その差分値△Tを得るのに用いられたLコードや復号音声データのピッチ周期T2、即ち、チャネルデコーダ181が出力するLコードや、ピッチ検出部183が出力するピッチ周期T2を含める場合には、クラス分類部153では、ミスマッチ情報に含まれるLコードやピッチ周期T2にも基づいて、クラス分類を行うようにすることが可能である。
As described above, not only the difference value ΔT but also the L code used to obtain the difference value ΔT or the pitch period T2 of the decoded audio data, that is, the
また、上述の場合には、差分値△Tの絶対値と閾値THTとの大小関係に対応して、1ビットのミスマッチコードを決定するようにしたが、ミスマッチコードとしては、その他、例えば、差分値△Tの2の補数表示などを採用すること等が可能である。
Further, in the above case, in response to the magnitude relationship between the absolute value and the threshold value TH T of the difference value △ T, has been to determine the
予測部154は、タップ抽出部151が出力する予測タップと、係数メモリ141から取得したタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部154は、注目データ(の予測値)、即ち、高音質音声データを求め、後処理部133に供給する。
The
後処理部133では、上述したように、クラス分類適応処理部132(の予測部154)の出力、即ち、高音質音声データが、そのまま出力される。
In the
次に、図18は、図17の復号装置の係数メモリ141に記憶させるタップ係数を学習する場合の、図15の学習装置の詳細構成例を示している。
Next, FIG. 18 illustrates a detailed configuration example of the learning device in FIG. 15 when learning tap coefficients to be stored in the
図18の実施の形態では、学習用データ記憶部11に、学習用データとして、高音質の音声データ(学習用音声データ)が記憶されている。
In the embodiment of FIG. 18, high-quality sound data (learning sound data) is stored as learning data in the learning
符号化部12は、VSELP符号化装置191で構成されており、VSELP符号化装置191は、例えば、図8に示したVSELP符号化装置と同様に構成されている。但し、VSELP符号化装置191は、図8のVSELP符号化装置のマイク41およびA/D変換部42が設けられていないものとなっている。
The
VSELP符号化装置191は、学習用データ記憶部11から学習用音声データを読み出して、VSELP方式で符号化し、その結果得られる符号化データを、符号化特性情報抽出部171および実特性抽出部172に供給する。
The
符号化特性情報抽出部171は、チャネルデコーダ192で、実特性抽出部172は、VSELP復号装置193およびピッチ検出部194で、判定部173は、差分演算部195で、それぞれ構成されている。チャネルデコーダ192、VSELP復号装置193、ピッチ検出部194、または差分演算部195は、図17のチャネルデコーダ181、VSELP復号装置182、ピッチ検出部183、または差分演算部184とそれぞれ同様の処理を行い、これにより、注目教師データについてのミスマッチ情報として、図17で説明した差分値△Tを得て、適応学習部160に出力する。
The encoding characteristic
逆後処理部161Aは、学習用データ記憶部11から学習用音声データを読み出し、そのまま、教師データとして、適応学習部160に出力する。適応学習部160(図15)では、教師データ記憶部162において、後処理部161Aからの教師データが記憶される。
The
符号化部163Aは、VSELP符号化装置196で構成され、VSELP符号化装置196は、VSELP符号化装置191と同様に、学習用データ記憶部11から学習用音声データを読み出して、VSELP方式で符号化し、その結果得られる符号化データを、前処理部163Bに出力する。
The
前処理部163Bは、図9のVSELP復号装置と同様に構成されるVSELP復号装置197で構成され、VSELP復号装置197は、VSELP符号化装置196からの符号化データを、VSELP方式で復号し、その結果得られる復号音声データを、生徒データとして、適応学習部160に出力する。適応学習部160(図15)では、生徒データ記憶部164において、VSELP復号装置197からの生徒データが記憶される。
The
そして、適応学習部160では、教師データおよび生徒データを用い、生徒データから抽出される予測タップとタップ係数から、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われる。
Then, the
即ち、適応学習部160(図15)では、タップ抽出部165が、教師データ記憶部162に記憶された教師データのうち、まだ、注目教師データとしていないものを、注目教師データとし、注目教師データについて、生徒データ記憶部164に記憶された生徒データから予測タップを構成して、足し込み部168に供給する。さらに、タップ抽出部166が、注目教師データについて、生徒データ記憶部164に記憶された生徒データからクラスタップを構成し、クラス分類部167に供給する。
That is, in the adaptive learning unit 160 (FIG. 15), the
ここで、チャネルデコーダ192、VSELP復号装置193、ピッチ検出部194、または差分演算部195では、図17のチャネルデコーダ181、VSELP復号装置182、ピッチ検出部183、または差分演算部184とそれぞれ同様の処理が行われ、これにより、注目教師データについてのミスマッチ情報としての差分値△Tが、タップ抽出部165および166、並びにクラス分類部167に供給されるようになっている。
Here, the
そして、タップ抽出部165または166では、図17で説明したタップ抽出部151または152(図13)における場合とそれぞれ同様に、ミスマッチ情報に基づいてタップ構造を変更した予測タップまたはクラスタップが、生徒データ記憶部164に記憶された生徒データとしての復号音声データから構成される。
Then, in the
なお、タップ抽出部165または166では、図17で説明したタップ抽出部151または152(図13)における場合とそれぞれ同一のタップ構造の予測タップまたはクラスタップが構成される。このため、タップ抽出部151または152において、VSELP復号装置185で得られるLコード、Gコード、Iコード、またはAコードも用いて、予測タップまたはクラスタップが構成される場合には、タップ抽出部165または166でも、VSELP復号装置197で得られるLコード、Gコード、Iコード、またはAコードを用いて、タップ抽出部151または152における場合とそれぞれ同一のタップ構造の予測タップまたはクラスタップが構成される。
In
さらに、タップ抽出部165または166それぞれでは、ミスマッチ情報に、差分値△Tだけでなく、その差分値△Tを得るのに用いられたLコードや復号音声データのピッチ周期T2が含まれる場合には、図17で説明したタップ抽出部151または152(図13)における場合と同様に、予測タップまたはクラスタップのタップ構造の変更が、差分値△Tだけでなく、Lコードや、復号音声データのピッチ周期T2にも基づいて行われる。
Further, in each of the
その後、クラス分類部167は、注目教師データについてのクラスタップとミスマッチ情報に基づき、注目教師データについて、図17で説明したクラス分類部153(図13)における場合と同様のクラス分類を行い、その結果得られるクラスに対応するクラスコードを、足し込み部168に出力する。
After that, the
足し込み部168は、教師データ記憶部162から注目教師データを読み出し、その注目教師データと、タップ抽出部165からの予測タップを用い、式(8)の行列Aとベクトルvのコンポーネントを計算する。さらに、足し込み部168は、既に得られている行列Aとベクトルvのコンポーネントのうち、クラス分類部167からのクラスコードに対応するものに対して、注目教師データと予測タップから求められた行列Aとベクトルvのコンポーネントを足し込む。
The adding
以上の処理が、教師データ記憶部162に記憶された教師データすべてを、注目教師データとして行われると、足し込み部168は、いままでの処理によって得られたクラスごとの行列Aおよびベクトルvのコンポーネントで構成される式(8)の正規方程式を、タップ係数算出部169に供給し、タップ係数算出部169は、その各クラスごとの正規方程式を解くことにより、各クラスごとに、タップ係数を求めて出力する。
When the above processing is performed on all the teacher data stored in the teacher
次に、図19は、符号化データが音声データをCELP方式で符号化したものである場合の、図12の復号装置の第2の詳細構成例を示している。なお、図中、図17における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。 Next, FIG. 19 shows a second detailed configuration example of the decoding device in FIG. 12 when the encoded data is audio data encoded by the CELP method. In the figure, portions corresponding to those in FIG. 17 are denoted by the same reference numerals, and description thereof will be omitted below as appropriate.
即ち、図19の復号装置は、後処理部133が、図9の音声合成フィルタ69と同様に構成される音声合成フィルタ201で構成されている他は、基本的に、図17の復号装置と同様に構成されている。
That is, the decoding apparatus of FIG. 19 is basically the same as the decoding apparatus of FIG. 17 except that the
但し、前処理部131のVSELP復号装置185は、図9において、音声合成フィルタ69が出力する復号音声データではなく、フィルタ係数復号器65が出力する線形予測係数と、演算器68が出力する残差信号を、前処理データとして、クラス分類適応処理部132に出力するようになっている。
However, in FIG. 9, the
クラス分類適応処理部132では、前処理部131のVSELP復号装置185が出力する残差信号(復号残差信号)と線形予測係数(復号線形予測係数)を対象に、クラス分類適応処理が行われ、これにより、音声合成フィルタ201において、高音質音声データ(の予測値)を得ることができる残差信号と線形予測係数(以下、適宜、それぞれを、高音質残差信号と高音質線形予測係数という)が、適応処理データとして求められる。
In the class classification
即ち、クラス分類適応処理部132(図13)では、前処理部131のVSELP復号装置185が出力する復号残差信号が、タップ抽出部151と152に供給される。
That is, in the class classification adaptive processing unit 132 (FIG. 13), the decoding residual signal output from the
タップ抽出部151は、まだ、注目データとしていない高音質残差信号のサンプルを注目データとして、その注目データを予測するのに用いる復号残差信号の幾つかのサンプルを、予測タップとして抽出する。タップ抽出部152も、注目データをクラス分類するのに用いる復号残差信号の幾つかのサンプルを、クラスタップとして抽出する。
The
なお、タップ抽出部151および152には、図17で説明したように、注目データについてのミスマッチ情報が供給されるようになっており、タップ抽出部151または152では、そのミスマッチ情報に基づいて、図17で説明したようなタップ構造の予測タップまたはクラスタップが、それぞれ構成される。
As described with reference to FIG. 17, the
タップ抽出部151で得られた予測タップは、予測部154に供給され、タップ抽出部152で得られたクラスタップは、クラス分類部153に供給される。
The prediction tap obtained by the
クラス分類部153には、クラスタップの他、注目データについてのミスマッチ情報も供給され、クラス分類部153では、図17で説明した場合と同様にして、クラスタップとミスマッチ情報に基づき、注目データがクラス分類され、注目データについてのクラスコードが、係数メモリ141に供給される。係数メモリ141では、注目データについてのクラスコードに対応するタップ係数が読み出され、予測部154に供給される。
In addition to the class tap, mismatch information about the attention data is also supplied to the
予測部154は、タップ抽出部151が出力する予測タップと、係数メモリ141から取得したタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部154は、注目データ(の予測値)、即ち、高音質残差信号を求め、後処理部133に供給する。
The
図19の実施の形態では、クラス分類適応処理部132と係数メモリ141が2系統設けられており、一方の系統のクラス分類適応処理部132および係数メモリ141では、復号残差信号が、上述のように処理される。そして、他方の系統のクラス分類適応処理部132および係数メモリ141では、前処理部131のVSELP復号装置185が出力する復号線形予測係数について、復号残差残差信号における場合と同様の処理が行われ、これにより、高音質線形予測係数が求められて、後処理部133に供給される。
In the embodiment of FIG. 19, two classes of class classification
後処理部133では、音声合成フィルタ201において、クラス分類適応処理部132からの高音質線形予測係数をフィルタ係数として、同じくクラス分類適応処理部132からの高音質復号残差信号がフィルタリングされることにより、高音質音声データが求められて出力される。
In the
次に、図20および図21は、図19の復号装置の係数メモリ141に記憶させるタップ係数を学習する場合の、図15の学習装置の詳細構成例を示している。なお、図中、図18における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
Next, FIG. 20 and FIG. 21 illustrate a detailed configuration example of the learning device in FIG. 15 when learning the tap coefficients to be stored in the
図20は、復号残差信号を高音質残差信号に変換するタップ係数を学習する学習装置の構成例を示しており、図21は、復号線形予測係数を高音質線形予測係数に変換するタップ係数を学習する学習装置の構成例を示している。 FIG. 20 shows a configuration example of a learning device that learns tap coefficients for converting a decoded residual signal into a high sound quality residual signal, and FIG. 21 shows a tap for converting a decoded linear prediction coefficient into a high sound quality linear prediction coefficient. The example of a structure of the learning apparatus which learns a coefficient is shown.
図20の実施の形態では、逆後処理部161Aが、LPC分析部211および予測フィルタ212で構成されており、また、前処理部163Bを構成するVSELP復号装置197は、復号残差信号(図9の演算器68が出力する残差信号)を、生徒データとして、適応学習部160に供給するようになっている。
In the embodiment of FIG. 20, the
LPC分析部211は、学習用データ記憶部11から学習用音声データを読み出し、図8のLPC分析部44における場合と同様に、学習用音声データをLPC分析することで、P次の線形予測係数を求めて、予測フィルタ212に供給する。
The
予測フィルタ212は、学習用データ記憶部11から、LPC分析部211がLPC分析を行った学習用データを読み出し、その学習用データと、LPC分析部211から供給される線形予測係数を用いて、例えば、式(9)にしたがった演算を行うことにより、残差信号を求め、教師データとして、適応学習部160に供給する。
The
ここで、式(9)における音声データ(音声信号)snと残差信号enのZ変換を、SとEとそれぞれ表すと、式(9)は、次式のように表すことができる。 Here, the Z transform of the audio data (audio signal) s n and the residual signal e n in the equation (9), when expressed respectively S and E, the formula (9) can be expressed as: .
E=(1+α1z-1+α2z-2+・・・+αPz-P)S
・・・(14)
E = (1 + α 1 z −1 + α 2 z −2 +... + Α P z −P ) S
(14)
式(14)から、残差信号eは、音声データsと線形予測係数αPとの積和演算で求めることができ、従って、残差信号eを求める予測フィルタ212は、FIR(Finite Impulse Response)型のディジタルフィルタで構成することができる。
From equation (14), the residual signal e can be obtained by the product-sum operation of the speech data s and the linear prediction coefficient α P, and therefore the
適応学習部160(図15)では、教師データ記憶部162において、予測フィルタ212から供給される教師データとしての残差信号(上述の高音質残差信号に相当する)が記憶されるとともに、生徒データ記憶部164において、VSELP復号装置197から供給される生徒データとしての復号残差信号が記憶される。
In the adaptive learning unit 160 (FIG. 15), the teacher
そして、適応学習部160では、図18で説明した場合と同様に、教師データおよび生徒データを用い、生徒データから抽出される予測タップとタップ係数から、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われ、これにより、復号残差信号を高音質残差信号に変換するクラスごとのタップ係数が求められる。
Then, as in the case described with reference to FIG. 18, the
次に、図21の実施の形態では、逆後処理部161Aが、LPC分析部221で構成されており、また、前処理部163Bを構成するVSELP復号装置197は、復号線形予測係数(図9のフィルタ係数復号器65が出力する線形予測係数)を、生徒データとして、適応学習部160に供給するようになっている。
Next, in the embodiment of FIG. 21, the
LPC分析部221は、学習用データ記憶部11から学習用音声データを読み出し、図8のLPC分析部44における場合と同様に、学習用音声データをLPC分析することで、P次の線形予測係数を求め、教師データとして、適応学習部160に供給する。
The
適応学習部160(図15)では、教師データ記憶部162において、LPC分析部221から供給される教師データとしての線形予測係数(上述の高音質線形予測係数に相当する)が記憶されるとともに、生徒データ記憶部164において、VSELP復号装置197から供給される生徒データとしての復号線形予測係数が記憶される。
In the adaptive learning unit 160 (FIG. 15), in the teacher
そして、適応学習部160では、図18で説明した場合と同様に、教師データおよび生徒データを用い、生徒データから抽出される予測タップとタップ係数から、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われ、これにより、復号線形予測係数を高音質線形予測係数に変換するクラスごとのタップ係数が求められる。
Then, as in the case described with reference to FIG. 18, the
次に、図22は、符号化データが画像データをMPEG2方式で符号化したものである場合の、図12の復号装置の第1の詳細構成例を示している。 Next, FIG. 22 shows a first detailed configuration example of the decoding device of FIG. 12 when the encoded data is obtained by encoding image data by the MPEG2 system.
図17の実施の形態では、符号化特性情報抽出部121は、逆VLC部231で構成されている。逆VLC部231は、例えば、後述するMPEGデコーダ232を構成する逆VLC部241(図23)と同様に構成されており、符号化データから、DCTタイプを抽出し、特性データとして、判定部123に供給する。
In the embodiment of FIG. 17, the encoding characteristic
実特性抽出部122は、MPEGデコーダ232および相関演算部233で構成されている。MPEGデコーダ232は、符号化データをMPEG方式で復号し、その結果得られる復号画像データを、相関演算部233に供給する。
The actual
ここで、図23は、MPEGデコーダ232の構成例を示している。
Here, FIG. 23 shows a configuration example of the
符号化データは、逆VLC部241に供給される。逆VLC部241は、符号化データに含まれる量子化DCT係数(量子化された2次元DCT係数)のVLCコード(量子化DCT係数を可変長符号化したもの)、量子化ステップ、動きベクトル、ピクチャタイプ、テンポラルリファレンス、その他の情報を分離する。
The encoded data is supplied to the
そして、逆VLC部241は、量子化DCT係数のVLCコードを逆VLC処理することで、量子化DCT係数に復号し、逆量子化部242に供給する。さらに、逆VLC部241は、量子化ステップを逆量子化部242に、動きベクトルを動き補償部246に、ピクチャタイプをメモリ245に、テンポラルリファレンスをピクチャ選択部247に、それぞれ供給する。
Then, the
逆量子化部242は、逆VLC部241から供給される量子化DCT係数を、同じく逆VLC部242から供給される量子化ステップで逆量子化し、その結果得られる2次元DCT係数を、逆DCT変換部242に供給する。逆DCT変換部243は、逆量子化部242から供給される2次元DCT係数を、2次元逆DCT変換し、演算部244に供給する。
The
演算部244には、逆DCT変換部243の出力の他、動き補償部246の出力も供給されるようになっており、演算部244は、逆DCT変換部243の出力に対して、動き補償部246の出力を、必要に応じて加算することにより、復号画像データを得て出力する。
The
即ち、MPEG符号化では、ピクチャタイプとして、I,P,Bの3つが定義されており、各ピクチャは、横×縦が8×8画素単位で、2次元DCT変換されるが、その際、Iピクチャのブロックは、イントラ(intra)符号化され、Pピクチャのブロックは、イントラ符号化、または前方予測符号化され、Bピクチャのブロックは、イントラ符号化、前方予測符号化、後方予測符号化、または両方向予測符号化される。 That is, in MPEG encoding, three picture types, I, P, and B, are defined, and each picture is two-dimensionally DCT-converted in units of 8 × 8 pixels in width × length. The I picture block is intra-coded, the P picture block is intra-coded or forward-predicted, and the B-picture block is intra-coded, forward-predicted and backward-predicted. Or bi-directional predictive coding.
ここで、前方予測符号化では、符号化対象のブロックのフレーム(またはフィールド)より時間的に先行するフレーム(またはフィールド)の画像を参照画像として、その参照画像を動き補償することにより得られる、符号化対象のブロックの予測画像と、符号化対象のブロックとの差分が求められ、その差分値(以下、適宜、残差画像という)が2次元DCT変換される。 Here, in forward predictive coding, an image of a frame (or field) temporally preceding the frame (or field) of the block to be coded is used as a reference image, and the reference image is obtained by motion compensation. The difference between the prediction image of the block to be encoded and the block to be encoded is obtained, and the difference value (hereinafter referred to as a residual image as appropriate) is subjected to two-dimensional DCT transform.
また、後方予測符号化では、符号化対象のブロックのフレームより時間的に後行するフレームの画像を参照画像として、その参照画像を動き補償することにより得られる、符号化対象のブロックの予測画像と、符号化対象のブロックとの差分が求められ、その差分値(残差画像)が2次元DCT変換される。 Further, in backward predictive coding, a predicted image of a block to be encoded, which is obtained by performing motion compensation on the reference image using a frame image temporally following the frame of the block to be encoded as a reference image. And the difference from the block to be encoded are obtained, and the difference value (residual image) is subjected to two-dimensional DCT transform.
さらに、両方向予測符号化では、符号化対象のブロックのフレームより時間的に先行するフレームと後行するフレームの2フレーム(またはフィールド)の画像を参照画像として、その参照画像を動き補償することにより得られる、符号化対象のブロックの予測画像と、符号化対象のブロックとの差分が求められ、その差分値(残差画像)が2次元DCT変換される。 Furthermore, in bi-directional predictive coding, two frames (or fields) of a frame temporally preceding and following a frame of a block to be encoded are used as reference images, and the reference image is subjected to motion compensation. The obtained difference between the prediction image of the encoding target block and the encoding target block is obtained, and the difference value (residual image) is subjected to two-dimensional DCT transform.
従って、ブロックが、ノンイントラ(non-intra)符号化(前方予測符号化、後方予測符号化、または両方向予測符号化)されている場合、逆DCT変換部243の出力は、残差画像(元の画像と、その予測画像との差分値)を復号したものとなっており、演算部244は、この残差画像の復号結果(以下、適宜、復号残差画像という)と、動き補償部246から供給される予測画像とを加算することで、ノンイントラ符号化されたブロックを復号し、その結果得られる復号画像データを出力する。
Therefore, when the block is non-intra coded (forward prediction coding, backward prediction coding, or bidirectional prediction coding), the output of the inverse
一方、逆DCT変換部243が出力するブロックが、イントラ符号化されたものであった場合には、逆DCT変換部243の出力は、元の画像を復号したものとなっており、演算部244は、逆DCT変換部243の出力を、そのまま、復号画像データとして出力する。
On the other hand, when the block output from the inverse
演算部244が出力する復号画像データは、メモリ245とピクチャ選択部247に供給される。
The decoded image data output from the
メモリ245は、演算部244から供給される復号画像データが、IピクチャまたはPピクチャの画像データである場合、その復号画像データを、その後に復号される符号化データの参照画像として一時記憶する。ここで、MPEG2では、Bピクチャは参照画像とされないことから、演算部244から供給される復号画像が、Bピクチャの画像である場合には、メモリ245では、Bピクチャの復号画像は記憶されない。なお、メモリ245は、演算部244から供給される復号画像が、I,P,Bのうちのいずれのピクチャであるかは、逆VLC部241から供給されるピクチャタイプを参照することにより判断する。
When the decoded image data supplied from the
ピクチャ選択部247は、演算部244が出力する復号画像、またはメモリ245に記憶された復号画像のフレーム(またはフィールド)を、表示順に選択して出力する。即ち、MPEG2方式では、画像のフレーム(またはフィールド)の表示順と復号順(符号化順)とが一致していないため、ピクチャ選択部247は、復号順に得られる復号画像のフレーム(またはフィールド)を表示順に並べ替えて出力する。なお、ピクチャ選択部247は、表示順を、逆VLC部241から供給されるテンポラルリファレンスを参照することにより判断する。
The
一方、動き補償部246は、逆VLC部241が出力する動きベクトルを受信するとともに、参照画像となるフレーム(またはフィールド)を、メモリ245から読み出し、その参照画像に対して、逆VLC部241からの動きベクトルにしたがった動き補償を施し、その結果得られる予測画像を、演算部244に供給する。演算部244では、上述したように、動き補償部246からの予測画像と、逆DCT変換部243が出力する残差画像と加算され、これにより、ノンイントラ符号化されたブロックが復号される。
On the other hand, the
図22に戻り、相関演算部233は、MPEGデコーダ232が出力する復号画像データの各ブロックについて、ライン間の相関を演算する。
Returning to FIG. 22, the
即ち、相関演算部233は、ブロックにおけるフレームを構成するライン間の相関(以下、適宜、フレームライン相関という)と、フィールドを構成するライン間の相関(以下、適宜、フィールドライン相関という)を計算する。
That is, the
具体的には、相関演算部233は、図24に示すように、ブロックにおける隣接する第iライン(上からi番目のライン)と第i+1ラインとの間の相関P(i,i+1)を、例えば、次式にしたがって求める。
Specifically, as shown in FIG. 24, the
P(i,i+1)=1/(Σ(x(i,j)−x(i+1,j))
・・・(15)
P (i, i + 1) = 1 / (Σ (x (i, j) −x (i + 1, j))
(15)
但し、x(i,j)は、第iラインの左からj番目(第j列)の画素の画素値を表す。また、Σは、jを1乃至8に変えてのサメーションを表す。 However, x (i, j) represents the pixel value of the j-th (j-th column) pixel from the left of the i-th line. Σ represents a summation with j changed from 1 to 8.
そして、相関演算部233は、例えば、相関P(i,i+1)の平均値((P(1,2)+P(2,3)+P(3,4)+P(4,5)+P(5,6)+P(6,7)+P(7,8))/7)を求め、この平均値を、フレームライン相関として出力する。
Then, for example, the
また、相関演算部233は、図24に示すように、ブロックにおける1ラインおきに隣接する第iラインと第i+2ラインとの間の相関P(i,i+2)を、例えば、式(15)にしたがって求める。
Further, as shown in FIG. 24, the
そして、相関演算部233は、例えば、相関P(i,i+2)の平均値((P(1,3)+P(2,4)+P(3,5)+P(4,6)+P(5,7)+P(6,8))/6)を求め、この平均値を、フィールドライン相関として出力する。
Then, for example, the
相関演算部233が出力するフレームライン相関とフィールドライン相関は、実特性として、判定部123に供給される。
The frame line correlation and field line correlation output from the
ここで、あるブロックにおいて、そのブロックにおける画像の動きが比較的小さい場合には、一般に、フレームライン相関が大になり、フィールドライン相関が小になる。また、そのブロックにおける画像の動きが比較的大きい場合には、一般に、フィールドライン相関が大になり、フレームライン相関が小になる。従って、フレームライン相関とフィールドライン相関は、画像の実際の特性(実特性)を表しているということができる。 Here, when the motion of an image in a certain block is relatively small, generally, the frame line correlation becomes large and the field line correlation becomes small. When the motion of the image in the block is relatively large, generally, the field line correlation becomes large and the frame line correlation becomes small. Therefore, it can be said that the frame line correlation and the field line correlation represent the actual characteristics (actual characteristics) of the image.
判定部123は、ブロック特性判定部234と比較部235で構成されている。ブロック特性判定部234は、クラス分類適応処理部132における注目データに対応する画素を含むブロック(以下、適宜、注目ブロック)のフレームライン相関とフィールドライン相関に基づき、注目ブロックが、フレームDCTモードまたはフィールドDCTモードのうちのいずれで符号化されるべき特性を有するものであるかを判定し、その判定結果(以下、適宜、実特性タイプという)を、比較部235に供給する。
The
即ち、ブロック特性判定部234は、例えば、注目ブロックのフレームライン相関が、フィールドライン相関より小さい(または以下である)場合には、注目ブロックがフィールドDCTモードで符号化されるべき特性を有するという実特性タイプを、比較部235に供給する。また、ブロック特性判定部234は、注目ブロックのフレームライン相関が、フィールドライン相関より小さくない場合には、注目ブロックがフレームDCTモードで符号化されるべき特性を有するという実特性タイプを、比較部235に供給する。
That is, for example, when the frame line correlation of the block of interest is smaller than (or less than) the field line correlation, the block
比較部235は、符号化特性情報抽出部121の逆VLC部231から供給される注目ブロックのDCTタイプ(注目ブロックを含むマクロブロックのDCTタイプ)と、ブロック特性判定部234から供給される注目ブロックの実特性タイプとを比較し、その比較結果、即ち、例えば、注目ブロックのDCTタイプを表すフラグと実特性タイプを表すフラグのセットを、ミスマッチ情報として、クラス分類適応処理部132に供給する。
The
一方、前処理部131は、MPEGデコーダ236で構成されている。MPEGデコーダ236は、MPEGデコーダ232と同様に、符号化データを、MPEG方式で復号し、復号画像データを、前処理データとして、クラス分類適応処理部132に出力する。
On the other hand, the
クラス分類適応処理部132では、前処理部131のMPEGデコーダ236が出力する復号画像データを対象に、クラス分類適応処理が行われ、その結果得られる適応処理データが、後処理部133に出力される。後処理部133は、クラス分類適応処理部132からの適応処理データを、そのまま、高画質の画像データ(高画質画像データ)として出力する。
In the class classification
従って、図22の実施の形態においては、クラス分類適応処理部132では、クラス分類適応処理が行われることにより、前処理部131のMPEGデコーダ236が出力する、符号化データをMPEG方式で復号した復号画像データが、高画質画像データに変換されて出力される。
Therefore, in the embodiment of FIG. 22, the class classification
即ち、クラス分類適応処理部132(図13)では、前処理部131のMPEGデコーダ236が出力する復号画像データが、タップ抽出部151と152に供給される。
That is, in the class classification adaptive processing unit 132 (FIG. 13), the decoded image data output from the
タップ抽出部151は、まだ、注目データとしていない高画質画像データの画素を注目データとして、その注目データ(の画素値)を予測するのに用いる復号画像データの幾つか(の画素)を、予測タップとして抽出する。タップ抽出部152も、注目データをクラス分類するのに用いる復号画像データの幾つかを、クラスタップとして抽出する。
The
ここで、上述したように、タップ抽出部151および152には、判定部123からミスマッチ情報も供給されるようになっており、タップ抽出部151と152は、ミスマッチ情報に基づき、予測タップとクラスタップの構造を、それぞれ変更するようになっている。
Here, as described above, mismatch information is also supplied from the
即ち、上述したように、判定部123(の比較部235)からクラス分類適応処理部132には、注目ブロックについてのDCTタイプと実特性タイプとのセットが、注目データについてのミスマッチ情報として供給される。
That is, as described above, the set of the DCT type and the actual characteristic type for the block of interest is supplied as mismatch information for the data of interest from the determination unit 123 (the comparison unit 235) to the class classification
タップ抽出部151は、ミスマッチ情報としての、注目ブロックについてのDCTタイプと実特性タイプとのセットを受信すると、MPEGデコーダ236から供給される復号画像データから、例えば、図25に示すようなタップ構造設定テーブルにしたがったタップ構造の予測タップを抽出する。
When the
即ち、タップ抽出部151は、ミスマッチ情報としてのDCTタイプと実特性タイプが、いずれもフィールドDCTモードである場合、後述するフィールドタップのみからなるパターンAのタップ構造の予測タップを構成する。また、タップ抽出部151は、ミスマッチ情報としてのDCTタイプと実特性タイプが、それぞれフィールドDCTモードとフレームDCTモードである場合、フィールドタップの数が、後述するフレームタップの数より多いパターンBのタップ構造の予測タップを構成する。さらに、タップ抽出部151は、ミスマッチ情報としてのDCTタイプと実特性タイプが、それぞれフレームDCTモードとフィールドDCTモードである場合、フレームタップの数が、フィールドタップの数より多いパターンCのタップ構造の予測タップを構成する。また、タップ抽出部151は、ミスマッチ情報としてのDCTタイプと実特性タイプが、いずれもフレームDCTモードである場合、フレームタップのみからなるパターンDのタップ構造の予測タップを構成する。
That is, when both the DCT type and the actual characteristic type as mismatch information are in the field DCT mode, the
ここで、図26は、パターンA乃至Dのタップ構造を示している。なお、図26において、○印が、復号画像データの画素を表している。また、斜線を付してある○印は、フィールドタップとなっている画素を表し、●印は、フレームタップとなっている画素を表している。 Here, FIG. 26 shows a tap structure of patterns A to D. In FIG. 26, the circles represent the pixels of the decoded image data. In addition, a circle mark with a hatched line represents a pixel that is a field tap, and a mark ● represents a pixel that is a frame tap.
図26(A)は、パターンAのタップ構造を示している。パターンAのタップ構造は、注目データに対応する復号画像データの画素(以下、適宜、注目画素という)、注目画素の左右それぞれに隣接する2画素、注目画素の上方向に1画素おいて隣接する画素、その画素の左右それぞれに隣接する2画素、注目画素の上方向に3画素おいて隣接する画素、その画素の左右それぞれに隣接する2画素、注目画素の下方向に1画素おいて隣接する画素、その画素の左右それぞれに隣接する2画素、注目画素の下方向に3画素おいて隣接する画素、その画素の左右それぞれに隣接する2画素の合計25画素で構成される。 FIG. 26A shows the tap structure of pattern A. FIG. The tap structure of the pattern A is adjacent to the pixel of the decoded image data corresponding to the target data (hereinafter referred to as the target pixel as appropriate), two pixels adjacent to the left and right of the target pixel, and one pixel above the target pixel. Pixel, 2 pixels adjacent to the left and right of the pixel, 3 pixels above the pixel of interest adjacent to each other, 2 pixels adjacent to the left and right of the pixel, and 1 pixel below the pixel of interest The pixel is composed of a total of 25 pixels: two pixels adjacent to the left and right sides of the pixel, pixels adjacent to each other in the downward direction of the pixel of interest, and two pixels adjacent to the left and right sides of the pixel.
ここで、フィールドタップとは、その上下に隣接する2画素が、いずれもタップ(ここでは、予測タップまたはクラスタップ)となっていない画素を意味する。図26(A)のパターンAのタップ構造では、いずれのタップも、その上下に隣接する画素がタップになっていないので、すべてフィールドタップである。 Here, the field tap means a pixel in which two adjacent pixels above and below are not taps (here, prediction taps or class taps). In the tap structure of the pattern A in FIG. 26A, all the taps are field taps because the adjacent pixels above and below the taps are not taps.
図26(B)は、パターンBのタップ構造を示している。パターンBのタップ構造は、注目画素、注目画素の左右それぞれに隣接する2画素、注目画素の上方向に1画素おいて隣接する画素の左右それぞれに隣接する2画素、注目画素の上方向に3画素おいて隣接する画素の左右それぞれに隣接する1画素、注目画素の下方向に1画素おいて隣接する画素の左右それぞれに隣接する2画素、注目画素の下方向に3画素おいて隣接する画素の左右それぞれに隣接する1画素、注目画素の上に隣接する4画素、注目画素の下に隣接する4画素の合計25画素で構成される。
FIG. 26B shows a tap structure of the pattern B. The tap structure of the pattern B includes the target pixel, two pixels adjacent to the left and right of the target pixel, two pixels adjacent to the left and right of the adjacent pixel in the upper direction of the target pixel, and three upwards of the target pixel. 1 pixel adjacent to the left and right of each adjacent pixel in the pixel, 2 pixels adjacent to the left and right of each adjacent pixel in the downward direction of the target pixel, and 3 pixels adjacent in the downward direction of the
ここで、フレームタップとは、その上または下に隣接する画素のうちの少なくとも一方がタップとなっている画素を意味する。図26(B)のパターンBのタップ構造では、注目画素と、注目画素の上下それぞれに隣接する4画素の合計9画素がフレームタップとなっており、残りの16画素がフィールドタップとなっている。 Here, the frame tap means a pixel in which at least one of the adjacent pixels above or below is a tap. In the tap structure of the pattern B in FIG. 26B, a total of nine pixels of the target pixel and four pixels adjacent to the top and bottom of the target pixel are frame taps, and the remaining 16 pixels are field taps. .
図26(C)は、パターンCのタップ構造を示している。パターンCのタップ構造は、注目画素、注目画素の左右それぞれに隣接する2画素、注目画素の上方向に1画素おいて隣接する画素の左右それぞれに隣接する2画素、注目画素の下方向に1画素おいて隣接する画素の左右それぞれに隣接する2画素、注目画素の上下それぞれに隣接する4画素、注目画素の上に隣接する画素の左右それぞれに隣接する1画素、注目画素の下に隣接する画素の左右それぞれに隣接する1画素の合計25画素で構成される。 FIG. 26C shows the tap structure of the pattern C. The tap structure of the pattern C includes a pixel of interest, two pixels adjacent to the left and right of the pixel of interest, two pixels adjacent to the left and right of each adjacent pixel in the upper direction of the pixel of interest, and 1 downward of the pixel of interest. 2 pixels adjacent to the left and right of the adjacent pixel, 4 pixels adjacent to the upper and lower sides of the target pixel, 1 pixel adjacent to the left and right of the adjacent pixel above the target pixel, and adjacent to the lower side of the target pixel It consists of a total of 25 pixels, one pixel adjacent to the left and right of each pixel.
パターンCのタップ構造では、注目画素、注目画素の上下それぞれに隣接する4画素、注目画素の左に隣接する画素、その画素の上下それぞれに隣接する2画素、注目画素の右に隣接する画素、その画素の上下それぞれに隣接する2画素の合計19画素がフレームタップとなっており、残りの6画素がフィールドタップになっている。 In the tap structure of pattern C, the pixel of interest, the four pixels adjacent to the top and bottom of the pixel of interest, the pixel adjacent to the left of the pixel of interest, the two pixels adjacent to the top and bottom of the pixel, the pixel adjacent to the right of the pixel of interest, A total of 19 pixels, which are two adjacent pixels above and below the pixel, are frame taps, and the remaining 6 pixels are field taps.
図26(D)は、パターンDのタップ構造を示している。パターンDのタップ構造は、注目画素を中心として隣接する、横×縦が5×5画素の合計25画素で構成される。 FIG. 26D shows the tap structure of the pattern D. The tap structure of the pattern D is composed of a total of 25 pixels, with 5 × 5 pixels in the horizontal and vertical directions that are adjacent to each other with the pixel of interest at the center.
パターンDのタップ構造では、いずれのタップも、その上または下の少なくとも一方の画素がタップとなっているので、すべてフレームタップである。 In the tap structure of the pattern D, all the taps are frame taps because at least one pixel above or below is a tap.
タップ抽出部151(図13)は、ミスマッチ情報に基づき、注目データについて、図26に示したパターンA乃至Dのうちのいずれかのタップ構造の予測タップを構成する。 Based on the mismatch information, the tap extraction unit 151 (FIG. 13) configures a prediction tap having a tap structure of any one of the patterns A to D illustrated in FIG.
タップ抽出部152も、タップ抽出部151と同様に、ミスマッチ情報に基づくタップ構造のクラスタップを構成する。
Similarly to the
なお、ここでは、ミスマッチ情報に基づいて、予測タップとして抽出する復号画像データの画素の位置を変更するだけで、予測タップを構成する画素数は、25画素のまま変更しないようにしたが、タップ抽出部151では、ミスマッチ情報に基づいて、予測タップを構成する復号画像データの画素の数を変更するようにすることも可能である。
Here, based on the mismatch information, only the pixel position of the decoded image data extracted as the prediction tap is changed, and the number of pixels constituting the prediction tap remains 25 pixels. The
また、前処理部131のMPEGデコーダ236では、符号化データが、その符号化データに含まれる量子化DCT係数以外の動きベクトルや、DCTタイプ、量子化ステップその他の復号を制御する情報(以下、適宜、復号制御情報という)を用いて、画像に復号されるが、タップ抽出部151では、このような復号制御情報も、予測タップに含めることが可能である。さらに、この場合、ミスマッチ情報に基づいて、予測タップとする復号制御情報を変更することも可能である。さらに、タープ抽出部151では、符号化データに含まれる量子化DCT係数や、その量子化DCT係数を逆量子化して得られる2次元DCT係数も、予測タップに含めるようにすることが可能である。
Also, in the
タップ抽出部152でも、タップ抽出部151における場合と同様にして、クラスタップを構成することができる。
The
タップ抽出部151で得られた予測タップは、予測部154に供給され、タップ抽出部152で得られたクラスタップは、クラス分類部153に供給される。
The prediction tap obtained by the
クラス分類部153には、クラスタップの他、注目データについてのミスマッチ情報も供給され、クラス分類部153では、上述したように、クラスタップとミスマッチ情報に基づき、注目データがクラス分類される。
In addition to the class tap, mismatch information about the attention data is also supplied to the
即ち、クラス分類部153は、例えば、注目データについてのクラスタップに基づき、上述のADRC処理を行うことにより、クラスコード(クラスタップコード)を求める。
That is, the
さらに、クラス分類部153は、例えば、注目データについてのミスマッチ情報としてのDCTタイプと実特性タイプのセットに基づいて、2ビットのクラスコード(ミスマッチコード)を求める。
Furthermore, the
即ち、クラス分類部153は、DCTタイプと実特性タイプが、いずれもフィールドDCTモードの場合には、2ビットのミスマッチコードを、例えば「00」とする。また、クラス分類部153は、DCTタイプと実特性タイプが、それぞれフィールドDCTモードとフレームDCTモードの場合には、2ビットのミスマッチコードを、例えば「01」とする。さらに、クラス分類部153は、DCTタイプと実特性タイプが、それぞれフレームDCTモードとフィールドDCTモードの場合には、2ビットのミスマッチコードを、例えば「10」とする。また、クラス分類部153は、DCTタイプと実特性タイプが、いずれもフレームDCTモードの場合には、2ビットのミスマッチコードを、例えば「11」とする。
That is, the
その後、クラス分類部153は、例えば、注目データについて得られたクラスタップコードの上位ビットとして、注目データについて得られたミスマッチコードを付加し、このクラスタップコードとミスマッチコードとで構成されるコードを、注目データについての最終的なクラスコードとして出力する。
Thereafter, the
なお、クラス分類部153では、その他、例えば、復号制御情報にも基づいて、クラス分類を行うようにすることが可能である。
In addition, the
クラス分類部153が出力するクラスコードは、係数メモリ141に供給される。係数メモリ141では、そのクラスコードに対応するタップ係数が読み出され、予測部154に供給される。
The class code output from the
予測部154は、タップ抽出部151が出力する予測タップと、係数メモリ141から取得したタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部154は、注目データ(の予測値)、即ち、高画質画像データを求め、後処理部133に供給する。
The
後処理部133では、上述したように、クラス分類適応処理部132(の予測部154)の出力、即ち、高画質画像データが、そのまま出力される。
As described above, the
なお、図22の実施の形態では、ブロック特性判定部234において、フレームDCTモードとフィールドDCTモードのうちのいずれか一方のみを表す実特性タイプを出力するようにしたが、実特性タイプとしては、その他、例えば、注目ブロックのフレームライン相関とフィールドライン相関を、そのまま用いることも可能である。この場合、比較部235においては、注目ブロックのフレームライン相関とフィールドライン相関に基づき、逆VLC部231が出力する注目ブロックのDCTタイプが、その注目ブロックにとって、どの程度適切であるかを表す評価値を求め、その評価値を、ミスマッチ情報として出力するようにすることが可能である。ここで、注目ブロックのフレームライン相関とフィールドライン相関を、それぞれF1とF2と表すとすれば、注目ブロックのDCTタイプがフレームDCTモードである場合は、評価値として、例えば、F1/(F1+F2)を採用し、注目ブロックのDCTタイプがフィールドDCTモードである場合は、評価値として、例えば、F2/(F1+F2)を採用することが可能である。
In the embodiment of FIG. 22, the block
さらに、タップ抽出部151や152では、ミスマッチ情報としての評価値を、1つ以上の閾値と比較し、その比較結果に基づいて、予測タップやクラスタップのタップ構造を変更するようにすることが可能である。
Furthermore, the
また、クラス分類部153では、ミスマッチ情報としての評価値を量子化し、その量子化値を、ミスマッチコードとして用いることが可能である。
The
さらに、図22の実施の形態では、注目ブロックのフレームライン相関とフィールドライン相関から、その注目ブロックの実特性タイプを決定するようにしたが、注目ブロックの実特性タイプは、その他、例えば、注目ブロックの周辺のブロックにも基づいて決定することが可能である。即ち、注目ブロックの最終的な実特性タイプは、例えば、注目ブロックのフレームライン相関とフィールドライン相関から決定される実特性タイプと、注目ブロックに隣接する1以上のブロックのフレームライン相関とフィールドライン相関から決定される、それぞれのブロックの実特性タイプとの多数決によって決定することが可能である。 Further, in the embodiment of FIG. 22, the actual characteristic type of the target block is determined from the frame line correlation and the field line correlation of the target block. It is possible to make a determination based on blocks around the block. That is, the final actual characteristic type of the target block is, for example, an actual characteristic type determined from the frame line correlation and field line correlation of the target block, and the frame line correlation and field line of one or more blocks adjacent to the target block. It can be determined by majority voting with the actual characteristic type of each block, determined from the correlation.
次に、図22の実施の形態では、実特性抽出部122において、符号化データをMPEG方式で復号し、その結果得られる復号画像データから、フレームライン相関とフィールドライン相関を求め、判定部123において、そのフレームライン相関とフィールドライン相関から、実特性タイプを求めるようにしたが、判定部123では、その他、例えば、符号化データに含まれる2次元DCT係数から、実特性タイプを求めることが可能である。
Next, in the embodiment of FIG. 22, the actual
即ち、実特性抽出部122では、例えば、図27に示すように、符号化データから得られるブロックの2次元DCT係数のうちの、水平の横縞を基底とするもの、つまり、ブロックの左端の、DC(Direct Current)係数を除く7個の2次元DCT係数(以下、適宜、横縞2次元DCT係数という)(図27において、斜線を付して示す部分)を実特性として求め、判定部123では、その実特性としての横縞2次元DCT係数に基づいて、実特性タイプを求めることが可能である。
That is, in the real
また、実特性抽出部122では、例えば、符号化データから得られるブロックの2次元DCT係数のうちの、任意の横縞2次元DCT係数と、横縞2次元DCT係数を除く任意のAC(Alternating Current)係数との差(以下、適宜、係数差分という)、または任意の横縞2次元DCT係数のパワー(例えば、2次元DCT係数を2乗したもの)と、横縞2次元DCT係数を除く任意のAC係数のパワーとの差(以下、適宜、パワー差分という)を求め、判定部123では、その係数差分またはパワー差分に基づいて、実特性タイプを求めることが可能である。
Further, in the actual
そこで、図28は、係数差分またはパワー差分を完特性タイプとして求める実特性抽出部122の構成例を示している。
Therefore, FIG. 28 illustrates a configuration example of the actual
符号化データは、逆VLC部251とMPEGデコーダ254に供給される。
The encoded data is supplied to the
逆VLC部251は、符号化データに含まれる量子化DCT係数のVLCコード、量子化ステップ、動きベクトル、その他の情報を分離する。そして、逆VLC部251は、量子化DCT係数のVLCコードを逆VLC処理することで、量子化DCT係数に復号し、逆量子化部252に供給する。さらに、逆VLC部251は、量子化ステップを、逆量子化部252に、動きベクトルを、動き補償部256に、それぞれ供給する。
The
逆量子化部252は、逆VLC部251から供給される量子化DCT係数を、同じく逆VLC部251から供給される量子化ステップで逆量子化し、その結果得られる8×8画素のブロックの2次元DCT係数を、演算部253に供給する。
The
一方、MPEGデコーダ254では、符号化データが、MPEG方式で符号化され、復号画像データが出力される。MPEGデコーダ254が出力する復号画像のうち、参照画像とされ得るIピクチャとPピクチャは、メモリ255に供給されて記憶される。
On the other hand, in the
そして、動き補償部256は、メモリ255に記憶された参照画像を読み出し、その参照画像に対して、逆VLC部251から供給される動きベクトルにしたがい、動き補償を施すことで、逆量子化部252から演算部253に供給されたブロックの予測画像を生成し、DCT変換部257に供給する。DCT変換部257は、動き補償部256から供給される予測画像を2次元DCT変換し、その結果得られる2次元DCT係数を、演算部253に供給する。
Then, the motion compensation unit 256 reads the reference image stored in the
演算部253は、逆量子化部252から供給されるブロックの各2次元DCT係数と、DCT変換部257から供給される、対応する2次元DCT係数とを、必要に応じて加算することで、そのブロックの画素値を2次元DCT変換した2次元DCT係数を求める。
The
即ち、逆量子化部252から供給されるブロックがイントラ符号化されているものである場合、逆量子化部252から供給されるブロックの2次元DCT係数は、元の画素値を2次元DCT変換したものとなっているから、演算部253は、逆量子化部252から供給されるブロックの2次元DCT係数を、そのまま出力する。
That is, when the block supplied from the
また、逆量子化部252から供給されるブロックがノンイントラ符号化されているものである場合、逆量子化部252から供給されるブロックの2次元DCT係数は、元の画素値と予測画像との差分値(残差画像)を2次元DCT変換したものとなっているから、演算部253は、逆量子化部252から供給されるブロックの各DCT係数と、DCT変換部257から供給される、予測画像を2次元DCT変換して得られる2次元DCT係数の対応するものとを加算することにより、元の画素値を2次元DCT変換して得られる2次元DCT係数を求めて出力する。
When the block supplied from the
演算部253が出力するブロックの2次元DCT係数は、DCT係数差分演算部258に供給される。
The two-dimensional DCT coefficient of the block output from the
DCT係数差分演算部258では、ブロックの2次元DCT係数を用いて、上述したような係数差分やパワー差分が求められ、実特性として、判定部123に供給される。
In the DCT coefficient
なお、この場合、判定部123では、例えば、注目ブロックの係数差分またはパワー差分を参照することにより、その係数差分またはパワー差分を求めるのに用いられた横縞2次元DCT係数とAC係数の大小関係が判定される。さらに、判定部123では、例えば、注目ブロックの係数差分またはパワー差分を求めるのに用いられた横縞2次元DCT係数が、AC係数より小さい(または以下である)場合、実特性タイプがフィールドDCTモードであると認識され、横縞2次元DCT係数が、AC係数より小さくない場合は、実特性タイプがフレームDCTモードであると認識される。なお、注目ブロックの係数差分またはパワー差分を求めるのに用いられた横縞2次元DCT係数が、AC係数より小さい場合には、その注目ブロックの画像が、フィールドDCTモードで符号化すべきものであることを表す他、横縞の多い画像であることも表す。
In this case, the
ここで、判定部123では、係数差分またはパワー差分、さらには、その係数差分またはパワー差分を求めるのに用いられた2次元DCT係数を、ミスマッチ情報に含めて出力するようにすることが可能である。そして、この場合、例えば、クラス分類適応処理部132(図13)では、タップ抽出部151と152それぞれにおいて、ミスマッチ情報に含まれる係数差分またはパワー差分や、2次元DCT係数にも基づいて、予測タップとクラスタップのタップ構造を変更し、さらに、クラス分類部153においても、ミスマッチ情報に含まれる係数差分またはパワー差分や、2次元DCT係数にも基づいて、クラス分類を行うようにすることが可能である。
Here, the
次に、注目ブロックのフレームライン相関とフィールドライン相関は、その他、例えば、注目ブロックの1次元DCT係数から求めることも可能である。 Next, the frame line correlation and the field line correlation of the block of interest can be obtained from, for example, the one-dimensional DCT coefficient of the block of interest.
ここで、図29および図30を参照して、1次元DCT係数について説明する。 Here, the one-dimensional DCT coefficient will be described with reference to FIGS. 29 and 30. FIG.
MPEGやJPEG(Joint Photographic Experts Group)等のDCT変換を利用した画像の符号化方式では、画像データが、水平方向および垂直方向の2次元のDCT変換(2次元DCT変換)/逆DCT変換(2次元逆DCT変換)が行われる。 In an image encoding method using DCT conversion such as MPEG or JPEG (Joint Photographic Experts Group), image data is converted into two-dimensional DCT conversion (two-dimensional DCT conversion) / inverse DCT conversion (2 Dimensional inverse DCT transform) is performed.
図29(A)に示すような8×8画素のブロックにおける画素値を、8行×8列の行列Xで表すとともに、図29(B)に示すような8×8のブロックにおける2次元DCT係数を、8行×8列の行列Fで表すこととすると、2次元DCT変換/2次元逆DCT変換は、次式で表すことができる。 A pixel value in an 8 × 8 pixel block as shown in FIG. 29A is represented by a matrix X of 8 rows × 8 columns, and a two-dimensional DCT in an 8 × 8 block as shown in FIG. If the coefficient is represented by a matrix F of 8 rows × 8 columns, the two-dimensional DCT transformation / two-dimensional inverse DCT transformation can be represented by the following equation.
CXCT=F
・・・(16)
CTFC=X
・・・(17)
CXC T = F
... (16)
C T FC = X
... (17)
ここで、上付のTは、転置を表す。また、Cは、8行×8列のDCT変換行列で、その第i+1行第j+1列のコンポーネントcijは、次式で表される。 Here, the superscript T represents transposition. C is a DCT transformation matrix of 8 rows × 8 columns, and a component c ij of the (i + 1) th row and the (j + 1) th column is expressed by the following equation.
cij=Ai×cos((2j+1)×i×π/16)
・・・(18)
c ij = A i × cos ((2j + 1) × i × π / 16)
... (18)
但し、式(18)において、i=0のときは、Ai=1/(2√2)であり、i≠0のときは、Ai=1/2である。また、iとjは、0乃至7の範囲の整数値である。 However, in Expression (18), when i = 0, A i = 1 / (2√2), and when i ≠ 0, A i = 1/2. I and j are integer values ranging from 0 to 7.
式(16)は、画素値Xを、2次元DCT係数Fに変換する2次元DCT変換を表し、式(17)は、2次元DCT係数Fを、画素値Xに変換する2次元逆DCT変換を表す。 Equation (16) represents a two-dimensional DCT transformation that transforms the pixel value X into a two-dimensional DCT coefficient F, and Equation (17) represents a two-dimensional inverse DCT transformation that transforms the two-dimensional DCT coefficient F into a pixel value X. Represents.
従って、式(17)によれば、2次元DCT係数Fは、その左側から行列CTをかけるとともに、その右側から行列Cをかけることにより、画素値Xに変換されるが、2次元DCT係数Fに対して、その左側から行列CTをかけるだけか、または、その右側から行列Cをかけるだけかすることで、1次元DCT係数を求めることができる。 Therefore, according to equation (17), two-dimensional DCT coefficients F, as well as applying a matrix C T from the left, by multiplying the matrix C from the right side, is converted into the pixel value X, two-dimensional DCT coefficients against F, or just make a matrix C T from the left side, or, by either simply multiplying the matrix C from the right side, it is possible to obtain the one-dimensional DCT coefficients.
即ち、2次元DCT係数Fに対して、その左側から行列CTだけをかける場合、図29(C)に示すように、2次元DCT係数Fにおける垂直方向が空間領域に変換され、水平方向が周波数領域のままとされる垂直1次元逆DCT変換が行われることとなり、その結果、水平方向の空間周波数成分を表す水平1次元DCT係数vXhFを得ることができる。 That is, the two-dimensional DCT coefficients F, when applying only the left from the matrix C T, as shown in FIG. 29 (C), the vertical direction in the two-dimensional DCT coefficients F is converted to the spatial domain, horizontal The vertical one-dimensional inverse DCT transformation that remains in the frequency domain is performed, and as a result, a horizontal one-dimensional DCT coefficient vXhF that represents the spatial frequency component in the horizontal direction can be obtained.
また、2次元DCT係数Fに対して、その右側から行列Cだけをかける場合、図29(D)に示すように、2次元DCT係数Fにおける水平方向が空間領域に変換され、垂直方向が周波数領域のままとされる水平1次元逆DCT変換が行われることとなり、その結果、垂直方向の空間周波数成分を表す垂直1次元DCT係数hXvFを得ることができる。 Also, when only the matrix C is applied to the two-dimensional DCT coefficient F from the right side, the horizontal direction in the two-dimensional DCT coefficient F is converted into a spatial domain, and the vertical direction is the frequency as shown in FIG. The horizontal one-dimensional inverse DCT transformation that remains in the region is performed, and as a result, the vertical one-dimensional DCT coefficient hXvF representing the vertical spatial frequency component can be obtained.
なお、横×縦が8×8の2次元DCT係数Fを、垂直1次元逆DCT変換した場合には、8×1の水平1次元DCT係数が、8セット(8行分)得られることになる(図29(C))。また、2次元DCT係数Fを、水平1次元逆DCT変換した場合には、1×8の垂直1次元DCT係数が、8セット(8列分)得られることになる(図29(D))。 In addition, when a two-dimensional DCT coefficient F of horizontal × vertical 8 × 8 is subjected to a vertical one-dimensional inverse DCT transform, eight sets (eight lines) of 8 × 1 horizontal one-dimensional DCT coefficients are obtained. (FIG. 29C). Further, when the two-dimensional DCT coefficient F is subjected to the horizontal one-dimensional inverse DCT transform, 8 sets (for eight columns) of 1 × 8 vertical one-dimensional DCT coefficients are obtained (FIG. 29D). .
そして、ある行における8×1の水平1次元DCT係数については、その左端のDCT係数が、その行の8画素の画素値の直流成分(DC成分)(8画素の画素値の平均値)を表し、他の7つのDCT係数が、その行の水平方向の交流成分を表す。また、ある列における1×8の垂直1次元DCT係数については、その最上行のDCT係数が、その列の8画素の画素値の直流成分を表し、他の7つのDCT係数が、その列の垂直方向の交流成分を表す。 Then, for an 8 × 1 horizontal one-dimensional DCT coefficient in a certain row, the DCT coefficient at the left end represents the direct current component (DC component) of the pixel values of the eight pixels in the row (average value of the pixel values of eight pixels). And the other seven DCT coefficients represent the horizontal AC component of the row. For a 1 × 8 vertical one-dimensional DCT coefficient in a certain column, the DCT coefficient in the uppermost row represents the DC component of the pixel value of the eight pixels in the column, and the other seven DCT coefficients are in the column. Represents the AC component in the vertical direction.
ここで、式(16)によれば、水平1次元DCT係数は、2次元DCT係数Fに対応する画素値Xに対して、その右側から行列CTをかける水平1次元DCT変換を行うことによっても求めることができる。また、垂直1次元DCT係数は、2次元DCT係数Fに対応する画素値Xに対して、その左側から行列Cをかける垂直1次元DCT変換を行うことによっても求めることができる。 Here, according to the equation (16), the horizontal one-dimensional DCT coefficients, the pixel value X corresponding to the two-dimensional DCT coefficients F, by performing a horizontal one-dimensional DCT transform to apply a matrix C T from the right Can also be sought. The vertical one-dimensional DCT coefficient can also be obtained by performing a vertical one-dimensional DCT transform that applies the matrix C from the left side to the pixel value X corresponding to the two-dimensional DCT coefficient F.
図30は、実際の画像と、その画像についての2次元DCT係数、水平1次元DCT係数、および垂直1次元DCT係数を示している。 FIG. 30 shows an actual image and a two-dimensional DCT coefficient, a horizontal one-dimensional DCT coefficient, and a vertical one-dimensional DCT coefficient for the image.
なお、図30は、8×8ブロックの画像と、その画像についての2次元DCT係数、水平1次元DCT係数、および垂直1次元DCT係数を示している。また、図30(A)が、実際の画像を、図30(B)が、2次元DCT係数を、図30(C)が、水平1次元DCT係数を、図30(D)が、垂直1次元DCT係数を、それぞれ示している。 FIG. 30 shows an 8 × 8 block image, a two-dimensional DCT coefficient, a horizontal one-dimensional DCT coefficient, and a vertical one-dimensional DCT coefficient for the image. 30A shows an actual image, FIG. 30B shows a two-dimensional DCT coefficient, FIG. 30C shows a horizontal one-dimensional DCT coefficient, and FIG. 30D shows a vertical 1 The dimensional DCT coefficients are shown respectively.
ここで、図30(A)の画像は、8ビットの画素値を有するものであり、そのような画素値から求められるDCT係数は、負の値も取り得る。但し、図30(B)乃至図30(D)の実施の形態では、求められたDCT係数に対して、128(=27)を加算し、その加算値が0未満となるものは0にクリップするとともに、加算値が256以上となるものは255にクリップすることにより、0乃至255の範囲のDCT係数を、図示してある。 Here, the image in FIG. 30A has an 8-bit pixel value, and the DCT coefficient obtained from such a pixel value can take a negative value. However, in the embodiment shown in FIGS. 30B to 30D, 128 (= 2 7) is added to the obtained DCT coefficient, and the addition value less than 0 is clipped to 0 In addition, the DCT coefficients in the range of 0 to 255 are shown by clipping to 255 when the added value is 256 or more.
2次元DCT係数には、8×8画素のブロック全体の情報が反映されているため、2次元DCT係数からでは、ブロック内の特定の画素の情報等の局所的な情報を把握するのは困難である。これに対して、水平1次元DCT係数または垂直1次元DCT係数には、ブロックのある1行または1列だけの情報が、それぞれ反映されているため、2次元DCT係数に比較して、ブロック内の局所的な情報を容易に把握することができる。 Since the information of the entire block of 8 × 8 pixels is reflected in the two-dimensional DCT coefficient, it is difficult to grasp local information such as information on specific pixels in the block from the two-dimensional DCT coefficient. It is. On the other hand, since the horizontal one-dimensional DCT coefficient or the vertical one-dimensional DCT coefficient reflects information of only one row or one column of the block, it is compared with the two-dimensional DCT coefficient. The local information of can be easily grasped.
即ち、ブロックのある行の特徴は、その行の8×1の水平1次元DCT係数から把握することができ、ある列の特徴は、その列の1×8の垂直1次元DCT係数から把握することができる。さらに、ブロックのある画素の特徴は、その画素が位置する行の8×1の水平1次元DCT係数と、その画素が位置する列の1×8の垂直1次元DCT係数とから把握することができる。 That is, the feature of a certain row of a block can be grasped from the 8 × 1 horizontal one-dimensional DCT coefficient of the row, and the feature of a certain column can be grasped from the 1 × 8 vertical one-dimensional DCT coefficient of the column. be able to. Furthermore, the characteristics of a pixel with a block can be grasped from the 8 × 1 horizontal one-dimensional DCT coefficient of the row where the pixel is located and the 1 × 8 vertical one-dimensional DCT coefficient of the column where the pixel is located. it can.
また、左右に隣接するブロックどうしの境界の状態は、ブロック全体の情報が反映された2次元DCT係数よりも、ブロックの境界部分の垂直方向の空間周波数成分を表す垂直1次元DCT係数を用いた方が、より正確に把握することができる。さらに、上下に隣接するブロックどうしの境界の状態も、ブロック全体の情報が反映された2次元DCT係数よりも、ブロックの境界部分の水平方向の空間周波数成分を表す水平1次元DCT係数を用いた方が、より正確に把握することができる。 In addition, for the state of the boundary between adjacent blocks on the left and right, a vertical one-dimensional DCT coefficient representing a spatial frequency component in the vertical direction of the boundary portion of the block is used rather than a two-dimensional DCT coefficient reflecting the information of the entire block. It is possible to grasp more accurately. Further, for the state of the boundary between adjacent blocks, a horizontal one-dimensional DCT coefficient representing a horizontal spatial frequency component of the boundary part of the block is used rather than a two-dimensional DCT coefficient reflecting the information of the entire block. It is possible to grasp more accurately.
実特性抽出部122において、上述のような1次元DCT係数を用いた注目ブロックのフレームライン相関とフィールドライン相関の演算は、例えば、次のように行われる。
In the actual
即ち、実特性抽出部122は、図31に示すように、ブロックにおける隣接する第iライン(上からi番目のライン)と第i+1ラインとの間の相関Q(i,i+1)を、例えば、次式にしたがって求める。
That is, as shown in FIG. 31, the actual
Q(i,i+1)=1/(Σ(dH(i,j)−dH(i+1,j))
・・・(19)
Q (i, i + 1) = 1 / (Σ (d H (i, j) −d H (i + 1, j))
... (19)
但し、dH(i,j)は、第iラインの左からj番目(第j列)の水平1次元DCT係数を表す。また、Σは、jを1乃至8に変えてのサメーションを表す。 Here, d H (i, j) represents the j-th (j-th column) horizontal one-dimensional DCT coefficient from the left of the i-th line. Σ represents a summation with j changed from 1 to 8.
そして、実特性抽出部122は、例えば、相関Q(i,i+1)の平均値((Q(1,2)+Q(2,3)+Q(3,4)+Q(4,5)+Q(5,6)+Q(6,7)+Q(7,8))/7)を求め、この平均値を、フレームライン相関として出力する。
Then, the actual
また、実特性抽出部122は、図31に示すように、ブロックにおける1ラインおきに隣接する第iラインと第i+2ラインとの間の相関Q(i,i+2)を、例えば、式(19)にしたがって求める。
Further, as shown in FIG. 31, the actual
そして、実特性抽出部122は、例えば、相関Q(i,i+2)の平均値((Q(1,3)+Q(2,4)+Q(3,5)+Q(4,6)+Q(5,7)+Q(6,8))/6)を求め、この平均値を、フィールドライン相関として出力する。
Then, the actual
次に、図32は、上述のように、1次元DCT係数を用いてフレームライン相関とフィールドライン相関を求める実特性抽出部122の構成例を示している。なお、図中、図28における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図32の実特性抽出部122は、DCT係数差分演算部258に代えて、垂直1次元逆DCT変換部261および相関演算部262が設けられている他は、図28における場合と同様に構成されている。
Next, FIG. 32 illustrates a configuration example of the actual
垂直1次元逆DCT変換部261には、演算部253が出力するブロックの2次元DCT係数が供給されるようになっている。垂直1次元逆DCT変換部261は、演算部253からの2次元DCT係数のブロックを、垂直1次元逆DCT変換することにより、水平1次元DCT係数のブロックを求め、相関演算部262に供給する。相関演算部262は、垂直1次元逆DCT変換部261からの水平1次元DCT係数から、図31で説明したように、フレームライン相関とフィールドライン相関を求めて出力する。
The vertical one-dimensional inverse
なお、図28や図32の実施の形態では、MPEGデコーダ254が出力する復号画像データから予測画像を生成して、その予測画像を2次元DCT係数に変換し、演算部253において、符号化データから得られる残差画像の2次元DCT係数と、予測画像の2次元DCT係数とを加算することにより、元の画像の2次元DCT係数を求めるようにしたが、実特性抽出部122では、その他、例えば、MPEGデコーダ254が出力する復号画像データを2次元DCT変換し、その結果得られる2次元DCT係数を、元の画像の2次元DCT係数として用い、図28のDCT係数差分演算部258や図32の垂直1次元DCT逆DCT変換部261において、処理を行うことが可能である。
In the embodiment of FIGS. 28 and 32, a predicted image is generated from the decoded image data output from the
また、図28や図32の実特性抽出部122では、DCT係数差分演算部258や垂直1次元逆DCT変換部261において、演算部253が出力する元の画像の2次元DCT係数ではなく、符号化データから得られる残差画像の2次元DCT係数(逆量子化部252の出力)を用いて処理を行うようにすることが可能である。
Also, in the actual
次に、図33は、図22の係数メモリ141に記憶させるタップ係数を学習する場合の、図15の学習装置の詳細構成例を示している。
Next, FIG. 33 shows a detailed configuration example of the learning device in FIG. 15 when learning the tap coefficients to be stored in the
図33の実施の形態では、学習用データ記憶部11に、学習用データとして、高画質の画像データ(学習用画像データ)が記憶されている。
In the embodiment of FIG. 33, high-quality image data (learning image data) is stored in the learning
図33の実施の形態において、符号化部12は、MPEGエンコーダ271で構成されており、MPEGエンコーダ271は、学習用データ記憶部11から学習用画像データを読み出して、MPEG2方式で符号化し、その結果られる符号化データを出力する。
In the embodiment of FIG. 33, the
即ち、図34は、図33のMPEGエンコーダ271の構成例を示している。
That is, FIG. 34 shows a configuration example of the
学習用画像データは、動きベクトル検出部321と演算部323に供給される。動きベクトル検出部321は、学習用画像データを対象に、例えば、ブロックマッチングを行うことにより、学習用画像データの動きベクトルを検出し、動き補償部322に供給する。
The learning image data is supplied to the motion
また、演算部323は、必要に応じて、学習用画像データ(原画像)から、動き補償部322から供給される予測画像を減算し、その結果得られる残差画像を、DCT変換部324に供給する。DCT変換部324は、演算部323からの残差画像を2次元DCT変換し、その結果得られる2次元DCT係数を、量子化部325に供給する。量子化部325は、DCT変換部324から供給される2次元DCT係数を、所定の量子化ステップで量子化することにより、量子化DCT係数を得て、VLC部326および逆量子化部327に供給する。
Further, the
VLC部326は、量子化部325から供給される量子化DCT係数をVLCコードに可変長符号化し、さらに、必要な復号制御情報(例えば、動きベクトル検出部321で検出された動きベクトルや、量子化部325で用いられた量子化ステップなど)を多重化することで、符号化データを得て出力する。
The
一方、逆量子化部327では、量子化部325が出力する量子化DCT係数が逆量子化され、2次元DCT係数が求められて、逆DCT変換部328に供給される。逆DCT変換部328は、逆量子化部327からの2次元DCT係数を、2次元逆DCT変換することにより、残差画像に復号し、演算部329に供給する。
On the other hand, in the inverse quantization unit 327, the quantized DCT coefficient output from the
演算部329には、逆DCT変換部328から、残差画像が供給される他、動き補償部322から、その残差画像を求めるのに演算部323で用いられたのと同一の予測画像が供給されるようになっており、演算部329は、残差画像と予測画像とを加算することで、元の画像を復号(ローカルデコード)する。この復号画像は、メモリ330に供給され、参照画像として記憶される。
The
そして、動き補償部322では、メモリ330に記憶された参照画像が読み出され、動きベクトル検出部321から供給される動きベクトルにしたがって動き補償が施されることにより、予測画像が生成される。この予測画像は、動き補償部322から演算部323および329に供給される。
Then, the
上述したように、演算部323では、動き補償部322からの予測画像を用いて、残差画像が求められ、また、演算部329では、動き補償部322からの予測画像を用いて、元の画像が復号される。
As described above, the
図33に戻り、MPEGデコーダ271が出力する符号化データは、符号化特性情報抽出部171および実特性抽出部172に供給される。
Returning to FIG. 33, the encoded data output from the
符号化特性情報抽出部171は、逆VLC部272で構成されており、実特性抽出部172は、MPEGデコーダ273および相関演算部274で構成されている。逆VLC部272、MPEGデコーダ273、または相関演算部274は、図22の逆VLC部231、MPEGデコーダ232、または相関演算部233とそれぞれ同様の処理を行い、これにより、逆VLC部272は、注目ブロックのDCTタイプを、相関演算部274は、注目ブロックのフレームライン相関およびフィールドライン相関を、それぞれ、判定部173に供給する。
The encoding characteristic
判定部173は、ブロック特性判定部275および比較部276で構成されており、ブロック特性判定部275と比較部276では、そこに供給される注目ブロックのDCTタイプとフレームライン相関およびフィールドライン相関を用いて、図22のブロック特性判定部234と比較部235における場合とそれぞれ同様の処理が行われることにより、適応学習部160において注目教師データとされている教師データについてのミスマッチ情報が生成される。このミスマッチ情報は、比較部276から適応学習部160に供給される。
The
なお、図22の復号装置における符号化特性情報抽出部121、実特性抽出部122、および判定部123において、図27乃至図32で説明したようにして、ミスマッチ情報が求められる場合には、図33の学習装置における符号化特性情報抽出部171、実特性抽出部172、および判定部173でも、同様にして、ミスマッチ情報が求められる。
In the case where mismatch information is obtained in the encoding characteristic
逆後処理部161Aは、学習用データ記憶部11から学習用画像データを読み出し、そのまま、教師データとして、適応学習部160に出力する。適応学習部160(図15)では、教師データ記憶部162において、後処理部161Aからの教師データが記憶される。
The
符号化部163Aは、MPEGエンコーダ277で構成され、MPEGエンコーダ277は、MPEGエンコーダ271と同様に、学習用データ記憶部11から学習用画像データを読み出して、MPEG2方式で符号化し、その結果得られる符号化データを、前処理部163Bに出力する。
The
前処理部163Bは、図23のMPEGデコーダ232と同様に構成されるMPEGデコーダ278で構成され、MPEGデコーダ278は、MPEGエンコーダ277からの符号化データを、MPEG2方式で復号し、その結果得られる復号画像データを、生徒データとして、適応学習部160に出力する。適応学習部160(図15)では、生徒データ記憶部164において、MPEGデコーダ278からの生徒データが記憶される。
The
そして、適応学習部160では、教師データおよび生徒データを用い、生徒データから抽出される予測タップとタップ係数から、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われる。
Then, the
即ち、適応学習部160(図15)では、タップ抽出部165が、教師データ記憶部162に記憶された教師データのうち、まだ、注目教師データとしていないものを、注目教師データとし、注目教師データについて、生徒データ記憶部164に記憶された生徒データから予測タップを構成して、足し込み部168に供給する。さらに、タップ抽出部166が、注目教師データについて、生徒データ記憶部164に記憶された生徒データからクラスタップを構成し、クラス分類部167に供給する。
That is, in the adaptive learning unit 160 (FIG. 15), the
ここで、タップ抽出部165および166には、ミスマッチ情報が供給されるようになっており、タップ抽出部165または166では、ミスマッチ情報に基づき、注目教師データについて、図22で説明したクラス分類適応処理部132のタップ抽出部151または152(図13)が構成するのと同一のタップ構造の予測タップまたはクラスタップを構成する。
Here, mismatch information is supplied to the
従って、例えば、タップ抽出部151または152において、図22で説明したように、復号制御情報をも用いて、予測タップまたはクラスタップがそれぞれ構成される場合には、図33の学習装置でも、タップ抽出部165または166(図15)において、復号制御情報をも用いて、予測タップまたはクラスタップがそれぞれ構成される。
Therefore, for example, in the
その後、クラス分類部167(図15)では、注目教師データについてのクラスタップとミスマッチ情報に基づき、注目教師データについて、図22で説明したクラス分類部153における場合と同様のクラス分類を行い、その結果得られるクラスに対応するクラスコードを、足し込み部168に出力する。
Thereafter, in the class classification unit 167 (FIG. 15), based on the class tap and mismatch information for the attention teacher data, the same class classification as that in the
足し込み部168は、教師データ記憶部162から注目教師データを読み出し、その注目教師データと、タップ抽出部165からの予測タップを用い、式(8)の行列Aとベクトルvのコンポーネントを計算する。さらに、足し込み部168は、既に得られている行列Aとベクトルvのコンポーネントのうち、クラス分類部167からのクラスコードに対応するものに対して、注目教師データと予測タップから求められた行列Aとベクトルvのコンポーネントを足し込む。
The adding
以上の処理が、教師データ記憶部162に記憶された教師データすべてを、注目教師データとして行われると、足し込み部168は、いままでの処理によって得られたクラスごとの行列Aおよびベクトルvのコンポーネントで構成される式(8)の正規方程式を、タップ係数算出部169に供給し、タップ係数算出部169は、その各クラスごとの正規方程式を解くことにより、各クラスごとに、タップ係数を求めて出力する。
When the above processing is performed on all the teacher data stored in the teacher
なお、図33の学習装置では、例えば、符号化部163AのMPEGエンコーダ277において学習用画像データをMPEG符号化する前に、その学習用画像データの画素数を,1/Nに間引くようにすることで、適応学習部160において、MPEG復号された画像データを、高画質で、かつ画素数をN倍にする(解像度を高くする)タップ係数を得ることができる。
In the learning apparatus of FIG. 33, for example, before the learning image data is MPEG-encoded by the
次に、図35は、符号化データが画像データをMPEG2方式で符号化したものである場合の、図12の復号装置の第2の詳細構成例を示している。なお、図中、図22における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。 Next, FIG. 35 shows a second detailed configuration example of the decoding apparatus of FIG. 12 when the encoded data is obtained by encoding image data by the MPEG2 system. In the figure, portions corresponding to those in FIG. 22 are denoted by the same reference numerals, and description thereof will be omitted below as appropriate.
図35の実施の形態では、前処理部131が、逆VLC部281、逆量子化部282、演算部283、MPEGデコーダ284、メモリ285、動き補償部286、およびDCT変換部287で構成されている。
In the embodiment of FIG. 35, the
逆VLC部281、逆量子化部282、演算部283、MPEGデコーダ284、メモリ285、動き補償部286、またはDCT変換部287は、図28の逆VLC部251、逆量子化部252、演算部253、MPEGデコーダ254、メモリ255、動き補償部256、またはDCT変換部257とそれぞれ同様に構成されるもので、前処理部131に供給される符号化データに対して、図28で説明した場合と同様の処理を施し、これにより、前処理部131では、元の画像の2次元DCT係数が求められ、前処理データとして、クラス分類適応処理部132に供給される。
The
クラス分類適応処理部132では、前処理部131が出力する2次元DCT係数を対象に、クラス分類適応処理が行われ、これにより、高画質画像データ(の予測値)が、適応処理データとして求められる。
The class classification
即ち、クラス分類適応処理部132(図13)では、前処理部131が出力する2次元DCT係数が、タップ抽出部151と152に供給される。
That is, in the class classification adaptive processing unit 132 (FIG. 13), the two-dimensional DCT coefficient output from the
タップ抽出部151は、まだ、注目データとしていない高画質画像データの画素を注目データとして、その注目データを予測するのに用いる前処理データとしての2次元DCT係数の幾つかを、予測タップとして抽出する。タップ抽出部152も、注目データをクラス分類するのに用いる前処理データとしての2次元DCT係数の幾つかを、クラスタップとして抽出する。
The
なお、タップ抽出部151または152は、注目データについてのミスマッチ情報に基づいて、予測タップまたはクラスタップのタップ構造を、それぞれ変更する。
Note that the
即ち、タップ抽出部151は、例えば、注目データのブロック(注目ブロック)の2次元DCT係数すべての他、注目ブロックの上下左右それぞれに隣接するブロックにおける2次元DCT係数を、ミスマッチ情報に応じて抽出して、予測タップを構成する。タップ抽出部151も、タップ抽出部151と同様にして、クラスタップを構成する。
That is, the
そして、タップ抽出部151で得られた予測タップは、予測部154に供給され、タップ抽出部152で得られたクラスタップは、クラス分類部153に供給される。
Then, the prediction tap obtained by the
クラス分類部153では、クラスタップと、注目データについてのミスマッチ情報に基づき、図22で説明した場合と同様にして、注目データがクラス分類され、注目データについてのクラスコードが、係数メモリ141に供給される。係数メモリ141では、注目データについてのクラスコードに対応するタップ係数が読み出され、予測部154に供給される。
The
予測部154は、タップ抽出部151が出力する予測タップと、係数メモリ141から取得したタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部154は、注目データ(の予測値)、即ち、高画質画像データを求め、後処理部133に供給する。
The
後処理部133では、クラス分類適応処理部132からの高画質画像データが、そのまま出力される。
The
従って、図35の実施の形態では、クラス分類適応処理部132において、2次元DCT係数が高画質画像データに変換される。
Therefore, in the embodiment of FIG. 35, the class classification
次に、図36は、図35の復号装置の係数メモリ141に記憶させるタップ係数を学習する場合の、図15の学習装置の詳細構成例を示している。なお、図中、図33における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
Next, FIG. 36 illustrates a detailed configuration example of the learning device in FIG. 15 when learning tap coefficients to be stored in the
図36の実施の形態では、前処理部163Bが、逆VLC部291、逆量子化部292、演算部293、MPEGデコーダ294、メモリ295、動き補償部296、およびDCT変換部297で構成されており、これらの逆VLC部291乃至DCT変換部297は、図35の逆VLC部281乃至DCT変換部287とそれぞれ同様に構成されている。
In the embodiment of FIG. 36, the
従って、前処理部163Bでは、符号化部163AのMPEGエンコーダ277が出力する符号化データに対して、図35の前処理部131における場合と同様の処理が施され、これにより得られる2次元DCT係数が、生徒データとして、適応学習部160に供給される。
Accordingly, in the
適応学習部160(図15)では、生徒データ記憶部164において、前処理部163Bから供給される2次元DCT係数が、生徒データとして記憶され、図33で説明した場合と同様に、教師データおよび生徒データを用い、生徒データから抽出される予測タップとタップ係数から、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われ、これにより、生徒データとしての2次元DCT係数を、高画質画像データに変換するクラスごとのタップ係数が求められる。
In the adaptive learning unit 160 (FIG. 15), the student
但し、図36の実施の形態において、適応学習部160(図15)では、そのタップ抽出部165または166それぞれにおいて、図35のクラス分類適応処理部132(図13)におけるタップ抽出部151または152が構成するのと同一のタップ構造の予測タップまたはクラスタップが、ミスマッチ情報に基づいて構成される。さらに、図36の適応学習部160(図15)におけるクラス分類部167でも、図35のクラス分類適応処理部132(図13)におけるクラス分類部153と同様のクラス分類が行われる。
However, in the embodiment of FIG. 36, in the adaptive learning unit 160 (FIG. 15), the
次に、図37は、符号化データが画像データをMPEG2方式で符号化したものである場合の、図12の復号装置の第3の詳細構成例を示している。なお、図中、図35における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。 Next, FIG. 37 shows a third detailed configuration example of the decoding device of FIG. 12 when the encoded data is obtained by encoding image data by the MPEG2 system. In the figure, portions corresponding to those in FIG. 35 are denoted by the same reference numerals, and description thereof will be omitted below as appropriate.
図37の復号装置は、後処理部133が、逆DCT変換部301で構成されていることを除いて、図35における場合と同様に構成されている。
The decoding apparatus in FIG. 37 is configured in the same manner as in FIG. 35 except that the
図37の実施の形態では、クラス分類適応処理部132において、前処理部131が出力する2次元DCT係数を対象に、クラス分類適応処理が行われ、これにより、2次元逆DCT変換を行った場合に、高画質画像データを得ることのできる2次元DCT係数(以下、適宜、高画質2次元DCT係数という)(の予測値)が、適応処理データとして求められる。
In the embodiment of FIG. 37, the class classification
即ち、クラス分類適応処理部132(図13)では、前処理部131が出力する前処理データとしての2次元DCT係数が、タップ抽出部151と152に供給される。
That is, in the class classification adaptive processing unit 132 (FIG. 13), the two-dimensional DCT coefficient as the preprocessing data output from the
タップ抽出部151は、まだ、注目データとしていない高画質2次元DCT係数を注目データとして、その注目データを予測するのに用いる前処理データとしての2次元DCT係数の幾つかを、予測タップとして抽出する。即ち、タップ抽出部151は、ミスマッチ情報に基づき、注目データについて、図35における場合と同様のタップ構造の予測タップを構成する。タップ抽出部152も、ミスマッチ情報に基づき、注目データについて、図35における場合と同様のタップ構造のクラスタップを構成する。
The
そして、タップ抽出部151で得られた予測タップは、予測部154に供給され、タップ抽出部152で得られたクラスタップは、クラス分類部153に供給される。
Then, the prediction tap obtained by the
クラス分類部153では、クラスタップと、注目データについてのミスマッチ情報に基づき、図35における場合と同様にして、注目データがクラス分類され、注目データについてのクラスコードが、係数メモリ141に供給される。係数メモリ141では、注目データについてのクラスコードに対応するタップ係数が読み出され、予測部154に供給される。
The
予測部154は、タップ抽出部151が出力する予測タップと、係数メモリ141から取得したタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部154は、注目データ(の予測値)、即ち、高画質2次元DCT係数を求め、後処理部133に供給する。
The
後処理部133では、逆DCT変換部301において、クラス分類適応処理部132が出力する高画質2次元DCT係数が、2次元逆DCT変換され、これにより、高画質画像データが求められて出力される。
In the
次に、図38は、図37の復号装置の係数メモリ141に記憶させるタップ係数を学習する場合の、図15の学習装置の詳細構成例を示している。なお、図中、図36における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
Next, FIG. 38 shows a detailed configuration example of the learning device in FIG. 15 when learning tap coefficients to be stored in the
図38の学習装置は、逆後処理部161Aが、DCT変換部311で構成されていることを除いて、図36における場合と同様に構成されている。
The learning device in FIG. 38 is configured in the same manner as in FIG. 36 except that the
従って、逆後処理部161Aでは、DCT変換部311において、学習用データ記憶部11から読み出された学習用画像データとしての高画質画像データが、ブロック単位で2次元DCT変換され、その結果得られる高画質2次元DCT係数が、教師データとして、適応学習部160に供給される。
Therefore, in the
適応学習部160(図15)では、教師データ記憶部162において、逆後処理部161Aから供給される高画質2次元DCT係数が、教師データとして記憶され、その教師データと、生徒データ記憶部164に記憶された生徒データとしての2次元DCT係数とを用い、生徒データから抽出される予測タップとタップ係数から、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われ、これにより、生徒データとしての2次元DCT係数を、高画質2次元DCT係数に変換するクラスごとのタップ係数が求められる。
In the adaptive learning unit 160 (FIG. 15), the high-quality two-dimensional DCT coefficient supplied from the
即ち、いまの場合、生徒データされている2次元DCT係数は、前処理部163Bにおいて、符号化データから求められたものであり、量子化誤差を含んでいるため、その2次元DCT係数を2次元逆DCT変換して得られる画像は、いわゆるブロック歪み等を有する低画質のものとなる。
That is, in this case, the two-dimensional DCT coefficient that is student data is obtained from the encoded data in the
そこで、適応学習部160では、上述のように、式(1)の線形予測演算を行うことにより得られる教師データ(学習用画像データを2次元DCT変換して得られる高画質2次元DCT係数)の予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われることにより、生徒データされている2次元DCT係数を、高画質2次元DCT係数に変換するクラスごとのタップ係数が求められる。
Therefore, in the
なお、図38の実施の形態において、適応学習部160(図15)では、そのタップ抽出部165または166それぞれにおいて、図37のクラス分類適応処理部132(図13)におけるタップ抽出部151または152が構成するのと同一のタップ構造の予測タップまたはクラスタップが、ミスマッチ情報に基づいて構成される。さらに、図38の適応学習部160(図15)におけるクラス分類部167でも、図37のクラス分類適応処理部132(図13)におけるクラス分類部153と同様のクラス分類が行われる。
38, in the adaptive learning unit 160 (FIG. 15), the
以上のように、符号化データに含まれる特性データの正しさを判定し、その判定結果を表すミスマッチ情報に基づいて、符号化データの復号、およびその復号に用いるタップ係数の学習等を行うようにしたので、例えば、符号化データに含まれる特性データが、元のデータの特性を正しく表していないものであっても、符号化データを、高品質のデータに復号することが可能となる。 As described above, the correctness of the characteristic data included in the encoded data is determined, and based on the mismatch information indicating the determination result, decoding of the encoded data, learning of tap coefficients used for the decoding, and the like are performed. Therefore, for example, even if the characteristic data included in the encoded data does not correctly represent the characteristics of the original data, the encoded data can be decoded into high-quality data.
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。 Next, the series of processes described above can be performed by hardware or software. When a series of processing is performed by software, a program constituting the software is installed in a general-purpose computer or the like.
そこで、図39は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。 Therefore, FIG. 39 shows a configuration example of an embodiment of a computer in which a program for executing the series of processes described above is installed.
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク405やROM403に予め記録しておくことができる。
The program can be recorded in advance on a
あるいはまた、プログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体411に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体411は、いわゆるパッケージソフトウエアとして提供することができる。
Alternatively, the program is stored temporarily on a
なお、プログラムは、上述したようなリムーバブル記録媒体411からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部408で受信し、内蔵するハードディスク405にインストールすることができる。
The program is installed in the computer from the
コンピュータは、CPU(Central Processing Unit)402を内蔵している。CPU402には、バス401を介して、入出力インタフェース410が接続されており、CPU402は、入出力インタフェース410を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部407が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)403に格納されているプログラムを実行する。あるいは、また、CPU402は、ハードディスク405に格納されているプログラム、衛星若しくはネットワークから転送され、通信部408で受信されてハードディスク405にインストールされたプログラム、またはドライブ409に装着されたリムーバブル記録媒体411から読み出されてハードディスク405にインストールされたプログラムを、RAM(Random Access Memory)404にロードして実行する。これにより、CPU402は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU402は、その処理結果を、必要に応じて、例えば、入出力インタフェース410を介して、LCD(Liquid CryStal Display)やスピーカ等で構成される出力部406から出力、あるいは、通信部408から送信、さらには、ハードディスク405に記録等させる。
The computer includes a CPU (Central Processing Unit) 402. An input / output interface 410 is connected to the
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。 Here, in this specification, the processing steps for describing a program for causing a computer to perform various types of processing do not necessarily have to be processed in time series according to the order described in the flowchart, but in parallel or individually. This includes processing to be executed (for example, parallel processing or processing by an object).
また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。 Further, the program may be processed by a single computer, or may be processed in a distributed manner by a plurality of computers. Furthermore, the program may be transferred to a remote computer and executed.
なお、本実施の形態では、画像データをMPEG方式で符号化した場合と、音声データをCELP方式で符号化した場合とについて説明したが、本発明は、これらの符号化方式に限定されるものではなく、例えば、音声データをMP3(MPEG-1 Audio Layer 3)方式で符号化した符号化データ等にも適用可能である。 In this embodiment, the case where the image data is encoded by the MPEG system and the case where the audio data is encoded by the CELP system have been described. However, the present invention is limited to these encoding systems. Instead, for example, the present invention can also be applied to encoded data obtained by encoding audio data using the MP3 (MPEG-1 Audio Layer 3) method.
また、本発明を適用した復号装置および復号方法、並びに第1のプログラムおよび第1の記録媒体によれば、特性データの正しさが判定され、その判定結果を表すミスマッチ情報が出力される。そして、そのミスマッチ情報に基づいて、符号化データが復号される。従って、符号化データを、高品質のデータに復号することが可能となる。 In addition, according to the decoding device and decoding method, the first program, and the first recording medium to which the present invention is applied, the correctness of the characteristic data is determined, and mismatch information representing the determination result is output. Then, the encoded data is decoded based on the mismatch information. Therefore, the encoded data can be decoded into high quality data.
さらに、本発明を適用した学習装置および学習方法、並びに第2のプログラムおよび第2の記録媒体によれば、学習用のデータから、タップ係数の学習の教師となる教師データと、生徒となる生徒データが生成されて出力される。さらに、学習用のデータが符号化され、そのデータについての特性データを含む学習用の符号化データが出力される。そして、学習用の符号化データに含まれる特性データの正しさが判定され、その判定結果を表すミスマッチ情報に基づき、教師データと生徒データを用いて、タップ係数の学習が行われる。従って、そのタップ係数により、符号化データを、高品質のデータに復号することが可能となる。 Furthermore, according to the learning device and the learning method, the second program, and the second recording medium to which the present invention is applied, the teacher data serving as a teacher for learning the tap coefficient and the student serving as the student from the learning data. Data is generated and output. Further, learning data is encoded, and encoded learning data including characteristic data for the data is output. Then, the correctness of the characteristic data included in the learning encoded data is determined, and the tap coefficient is learned using the teacher data and the student data based on the mismatch information representing the determination result. Therefore, the encoded data can be decoded into high quality data by the tap coefficient.
1 ミスマッチ検出部, 2 復号処理部, 3 パラメータ記憶部, 11 学習用データ記憶部, 12 符号化部, 13 ミスマッチ検出部, 14 学習処理部, 21 ピッチ検出部, 22,23 タップ抽出部, 24 クラス分類部, 25 係数メモリ, 26 予測部, 31 時間間引きフィルタ, 32 ピッチ検出部, 33,34 タップ抽出部, 35 クラス分類部, 36 足し込み部, 37 タップ係数算出部, 41 マイク, 42 A/D変換部, 43 演算器, 44 LPC分析部, 45 ベクトル量子化部, 46 音声合成フィルタ, 47 自乗誤差演算部, 48 自乗誤差最小判定部, 49 適応コードブック記憶部, 50 ゲイン復号器, 51 励起コードブック記憶部, 52乃至54 演算器, 55 コード決定部, 56 チャネルエンコーダ, 61 チャネルデコーダ, 62 適応コードブック記憶部, 63 ゲイン復号器, 64 励起コードブック記憶部, 65 フィルタ係数復号器, 66乃至68 演算器, 69 音声合成フィルタ, 81,82 タップ抽出部, 83 クラス分類部, 84 係数メモリ, 85 予測部, 92 A/D変換部, 93 演算器, 94 LPC分析部, 95 ベクトル量子化部, 96 音声合成フィルタ, 97 自乗誤差演算部, 98 自乗誤差最小判定部, 99 適応コードブック記憶部, 100 ゲイン復号器, 101 励起コードブック記憶部, 102乃至104 演算器, 105 コード決定部, 111,112 タップ抽出部, 113 クラス分類部, 114 足し込み部, 115 タップ係数算出部, 121 符号化特性情報抽出部, 122 実特性抽出部, 123 判定部, 131 前処理部, 132 クラス分類適応処理部, 133 後処理部, 141 係数メモリ, 151,152 タップ抽出部, 153 クラス分類部, 154 予測部, 160 適応学習部, 161 教師データ生成部, 161A 逆後処理部, 162 教師データ記憶部, 163 生徒データ生成部, 163A 符号化部, 163B 前処理部, 164 生徒データ記憶部, 165,166 タップ抽出部, 167 クラス分類部, 168 足し込み部, 169 タップ係数算出部, 171 符号化特性情報抽出部, 172 実特性抽出部, 173 判定部, 181 チャネルデコーダ, 182 VSELP復号装置, 183 ピッチ検出部, 184 差分演算部, 185 VSELP復号装置, 191 VSELP符号化装置, 192 チャネルデコーダ, 193 VSELP復号装置, 194 ピッチ検出部, 195 差分演算部, 196 VSELP符号化装置, 197 VSELP復号装置, 201 音声合成フィルタ, 211 LPC分析部, 212 予測フィルタ, 221 LPC分析部, 231 逆VLC部, 232 MPEGデコーダ, 233 相関演算部, 234 ブロック特性判定部, 235 比較部, 236 MPEGデコーダ, 241 逆VLC部, 242 逆量子化部, 243 逆DCT変換部, 244 演算部, 245 メモリ, 246 動き補償部, 247 ピクチャ選択部, 251 逆VLC部, 252 逆量子化部, 253 演算部, 254 MPEGデコーダ, 255 メモリ, 256 動き補償部, 257 DCT変換部, 258 DCT係数差分演算部, 261 垂直1次元逆DCT変換部, 262 相関演算部, 271 MPEGエンコーダ, 272 逆VLC部, 273 MPEGデコーダ, 274 相関演算部, 275 ブロック特性判定部, 276 比較部, 277 MPEGエンコーダ, 278 MPEGデコーダ, 281 逆VLC部, 282 逆量子化部, 283 演算部, 284 MPEGデコーダ, 285 メモリ, 286 動き補償部, 287 DCT変換部, 291 逆VLC部, 292 逆量子化部, 293 演算部, 294 MPEGデコーダ, 295 メモリ, 296 動き補償部, 297 DCT変換部, 301 逆DCT変換部, 311 DCT変換部, 321 動きベクトル検出部, 322 動き補償部, 323 演算部, 324 DCT変換部, 325 量子化部, 326 VLC部, 327 逆量子化部, 328 逆DCT変換部, 329 演算部, 330 メモリ, 401 バス, 402 CPU, 403 ROM, 404 RAM, 405 ハードディスク, 406 出力部, 407 入力部, 408 通信部, 409 ドライブ, 410 入出力インタフェース, 411 リムーバブル記録媒体 DESCRIPTION OF SYMBOLS 1 Mismatch detection part, 2 Decoding processing part, 3 Parameter storage part, 11 Learning data storage part, 12 Coding part, 13 Mismatch detection part, 14 Learning processing part, 21 Pitch detection part, 22, 23 Tap extraction part, 24 Class classification unit, 25 coefficient memory, 26 prediction unit, 31 time decimation filter, 32 pitch detection unit, 33, 34 tap extraction unit, 35 class classification unit, 36 addition unit, 37 tap coefficient calculation unit, 41 microphone, 42 A / D conversion unit, 43 arithmetic unit, 44 LPC analysis unit, 45 vector quantization unit, 46 speech synthesis filter, 47 square error calculation unit, 48 square error minimum determination unit, 49 adaptive codebook storage unit, 50 gain decoder, 51 Excitation code book storage unit, 52 to 54 computing unit, 55 Code determination unit, 56 channel encoder, 61 channel decoder, 62 adaptive codebook storage unit, 63 gain decoder, 64 excitation codebook storage unit, 65 filter coefficient decoder, 66 to 68 arithmetic unit, 69 speech synthesis filter, 81, 82 tap extraction unit, 83 class classification unit, 84 coefficient memory, 85 prediction unit, 92 A / D conversion unit, 93 calculator, 94 LPC analysis unit, 95 vector quantization unit, 96 speech synthesis filter, 97 square error calculation unit , 98 square error minimum determination unit, 99 adaptive codebook storage unit, 100 gain decoder, 101 excitation codebook storage unit, 102 to 104 arithmetic unit, 105 code determination unit, 111, 112 tap extraction unit, 113 class classification unit, 114 addition part, 115 tap coefficient calculation unit, 121 encoding characteristic information extraction unit, 122 actual characteristic extraction unit, 123 determination unit, 131 preprocessing unit, 132 class classification adaptive processing unit, 133 post processing unit, 141 coefficient memory, 151, 152 tap extraction 153 class classification unit, 154 prediction unit, 160 adaptive learning unit, 161 teacher data generation unit, 161A inverse post-processing unit, 162 teacher data storage unit, 163 student data generation unit, 163A encoding unit, 163B pre-processing unit, 164 Student data storage unit, 165, 166 tap extraction unit, 167 class classification unit, 168 addition unit, 169 tap coefficient calculation unit, 171 encoding characteristic information extraction unit, 172 actual characteristic extraction unit, 173 determination unit, 181 channel decoder , 182 VSELP decoding Device, 183 pitch detector, 184 difference calculator, 185 VSELP decoder, 191 VSELP encoder, 192 channel decoder, 193 VSELP decoder, 194 pitch detector, 195 difference calculator, 196 VSELP encoder, 197 VSELP Decoding apparatus, 201 speech synthesis filter, 211 LPC analysis unit, 212 prediction filter, 221 LPC analysis unit, 231 inverse VLC unit, 232 MPEG decoder, 233 correlation operation unit, 234 block characteristic determination unit, 235 comparison unit, 236 MPEG decoder, 241 inverse VLC unit, 242 inverse quantization unit, 243 inverse DCT transform unit, 244 calculation unit, 245 memory, 246 motion compensation unit, 247 picture selection unit, 251 inverse VLC unit, 252 Inverse quantization unit, 253 calculation unit, 254 MPEG decoder, 255 memory, 256 motion compensation unit, 257 DCT conversion unit, 258 DCT coefficient difference calculation unit, 261 vertical one-dimensional inverse DCT conversion unit, 262 correlation calculation unit, 271 MPEG Encoder, 272 Inverse VLC section, 273 MPEG decoder, 274 Correlation calculation section, 275 Block characteristic determination section, 276 comparison section, 277 MPEG encoder, 278 MPEG decoder, 281 Inverse VLC section, 282 Inverse quantization section, 283 calculation section, 284 MPEG decoder, 285 memory, 286 motion compensation unit, 287 DCT conversion unit, 291 inverse VLC unit, 292 inverse quantization unit, 293 arithmetic unit, 294 MPEG decoder, 295 memory, 296 motion Compensation unit, 297 DCT conversion unit, 301 inverse DCT conversion unit, 311 DCT conversion unit, 321 motion vector detection unit, 322 motion compensation unit, 323 calculation unit, 324 DCT conversion unit, 325 quantization unit, 326 VLC unit, 327 inverse Quantization unit, 328 inverse DCT conversion unit, 329 operation unit, 330 memory, 401 bus, 402 CPU, 403 ROM, 404 RAM, 405 hard disk, 406 output unit, 407 input unit, 408 communication unit, 409 drive, 410 I / O Interface, 411 removable recording media
Claims (4)
学習用のデータから、前記タップ係数の学習の教師となる教師データを生成して出力する教師データ生成手段と、
前記学習用のデータから、前記タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成手段と、
前記学習用のデータを符号化し、そのデータについての前記特性データを含む学習用の符号化データを出力する符号化手段と、
前記学習用の符号化データに含まれる前記特性データの正しさを判定し、その判定結果を表すミスマッチ情報を出力する判定手段と、
前記ミスマッチ情報に基づき、前記教師データと生徒データを用いて、前記タップ係数を学習する学習手段と
を備えることを特徴とする学習装置。 In a learning device that learns tap coefficients used to decode encoded data that is encoded data and includes at least characteristic data that represents the characteristic of the data,
Teacher data generation means for generating and outputting teacher data serving as a teacher for learning the tap coefficient from learning data;
Student data generation means for generating and outputting student data to be students of learning of the tap coefficient from the learning data;
Encoding means for encoding the learning data and outputting encoded learning data including the characteristic data for the data;
Determination means for determining the correctness of the characteristic data included in the encoded data for learning and outputting mismatch information representing the determination result;
A learning apparatus comprising: learning means for learning the tap coefficient using the teacher data and student data based on the mismatch information.
学習用のデータから、前記タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、
前記学習用のデータから、前記タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、
前記学習用のデータを符号化し、そのデータについての前記特性データを含む学習用の符号化データを出力する符号化ステップと、
前記学習用の符号化データに含まれる前記特性データの正しさを判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記ミスマッチ情報に基づき、前記教師データと生徒データを用いて、前記タップ係数を学習する学習ステップと
を備えることを特徴とする学習方法。 In a learning method for learning tap coefficients used for decoding encoded data including encoded data including at least characteristic data representing the characteristics of the data, which is encoded data obtained by encoding data,
A teacher data generation step for generating and outputting teacher data to be a teacher for learning the tap coefficient from the learning data;
A student data generation step of generating and outputting student data to be students of learning of the tap coefficient from the learning data;
An encoding step of encoding the learning data and outputting encoded learning data including the characteristic data for the data;
A determination step of determining the correctness of the characteristic data included in the learning encoded data and outputting mismatch information indicating the determination result;
A learning method comprising: a learning step of learning the tap coefficient using the teacher data and student data based on the mismatch information.
学習用のデータから、前記タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、
前記学習用のデータから、前記タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、
前記学習用のデータを符号化し、そのデータについての前記特性データを含む学習用の符号化データを出力する符号化ステップと、
前記学習用の符号化データに含まれる前記特性データの正しさを判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記ミスマッチ情報に基づき、前記教師データと生徒データを用いて、前記タップ係数を学習する学習ステップと
を含む学習処理を、コンピュータに行わせることを特徴とするプログラム。 In a program for causing a computer to perform learning processing for learning tap coefficients used to decode encoded data including encoded data including at least characteristic data representing encoded data, wherein the encoded data is data encoded.
A teacher data generation step for generating and outputting teacher data to be a teacher for learning the tap coefficient from the learning data;
A student data generation step of generating and outputting student data to be students of learning of the tap coefficient from the learning data;
An encoding step of encoding the learning data and outputting encoded learning data including the characteristic data for the data;
A determination step of determining the correctness of the characteristic data included in the learning encoded data and outputting mismatch information indicating the determination result;
A program causing a computer to perform a learning process including a learning step of learning the tap coefficient using the teacher data and student data based on the mismatch information.
学習用のデータから、前記タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、
前記学習用のデータから、前記タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、
前記学習用のデータを符号化し、そのデータについての前記特性データを含む学習用の符号化データを出力する符号化ステップと、
前記学習用の符号化データに含まれる前記特性データの正しさを判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記ミスマッチ情報に基づき、前記教師データと生徒データを用いて、前記タップ係数を学習する学習ステップと
を含む学習処理を、コンピュータに行わせるプログラムが記録されている
ことを特徴とする記録媒体。 A program that causes a computer to perform a learning process of learning tap coefficients used to decode at least encoded data including encoded data that is encoded data and includes characteristic data representing the characteristics of the data is recorded. In the recorded recording medium,
A teacher data generation step for generating and outputting teacher data to be a teacher for learning the tap coefficient from the learning data;
A student data generation step of generating and outputting student data to be students of learning of the tap coefficient from the learning data;
An encoding step of encoding the learning data and outputting encoded learning data including the characteristic data for the data;
A determination step of determining the correctness of the characteristic data included in the learning encoded data and outputting mismatch information indicating the determination result;
A recording medium in which a program for causing a computer to perform a learning process including a learning step of learning the tap coefficient using the teacher data and student data based on the mismatch information is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007147720A JP4748113B2 (en) | 2007-06-04 | 2007-06-04 | Learning device, learning method, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007147720A JP4748113B2 (en) | 2007-06-04 | 2007-06-04 | Learning device, learning method, program, and recording medium |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002061400A Division JP4000589B2 (en) | 2002-03-07 | 2002-03-07 | Decoding device, decoding method, program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007295599A true JP2007295599A (en) | 2007-11-08 |
JP4748113B2 JP4748113B2 (en) | 2011-08-17 |
Family
ID=38765689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007147720A Expired - Fee Related JP4748113B2 (en) | 2007-06-04 | 2007-06-04 | Learning device, learning method, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4748113B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2574848C2 (en) * | 2010-01-12 | 2016-02-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангеванден Форшунг Е.Ф. | Audio encoder, audio decoder, method of encoding audio information, method of decoding audio information and computer programme using hash table describing significant state values and interval boundaries |
US9633664B2 (en) | 2010-01-12 | 2017-04-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a modification of a number representation of a numeric previous context value |
US9978380B2 (en) | 2009-10-20 | 2018-05-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a detection of a group of previously-decoded spectral values |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0937250A (en) * | 1995-07-24 | 1997-02-07 | Sony Corp | Image data decoder and image data decoding method |
JP2000152233A (en) * | 1998-11-13 | 2000-05-30 | Sony Corp | Image information converter and conversion method |
JP2001320277A (en) * | 2000-05-09 | 2001-11-16 | Sony Corp | Device and method for processing data and recording medium |
JP2001346209A (en) * | 2000-06-01 | 2001-12-14 | Sony Corp | Data processing unit and data processing method, and recording medium |
JP2002049395A (en) * | 2000-08-02 | 2002-02-15 | Sony Corp | Digital signal processing method, learning method, and their apparatus, and program storage media therefor |
JP2002062899A (en) * | 2000-08-23 | 2002-02-28 | Sony Corp | Device and method for data processing, device and method for learning and recording medium |
-
2007
- 2007-06-04 JP JP2007147720A patent/JP4748113B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0937250A (en) * | 1995-07-24 | 1997-02-07 | Sony Corp | Image data decoder and image data decoding method |
JP2000152233A (en) * | 1998-11-13 | 2000-05-30 | Sony Corp | Image information converter and conversion method |
JP2001320277A (en) * | 2000-05-09 | 2001-11-16 | Sony Corp | Device and method for processing data and recording medium |
JP2001346209A (en) * | 2000-06-01 | 2001-12-14 | Sony Corp | Data processing unit and data processing method, and recording medium |
JP2002049395A (en) * | 2000-08-02 | 2002-02-15 | Sony Corp | Digital signal processing method, learning method, and their apparatus, and program storage media therefor |
JP2002062899A (en) * | 2000-08-23 | 2002-02-28 | Sony Corp | Device and method for data processing, device and method for learning and recording medium |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9978380B2 (en) | 2009-10-20 | 2018-05-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a detection of a group of previously-decoded spectral values |
US11443752B2 (en) | 2009-10-20 | 2022-09-13 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a detection of a group of previously-decoded spectral values |
US12080300B2 (en) | 2009-10-20 | 2024-09-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a detection of a group of previously-decoded spectral values |
RU2574848C2 (en) * | 2010-01-12 | 2016-02-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангеванден Форшунг Е.Ф. | Audio encoder, audio decoder, method of encoding audio information, method of decoding audio information and computer programme using hash table describing significant state values and interval boundaries |
US9633664B2 (en) | 2010-01-12 | 2017-04-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a modification of a number representation of a numeric previous context value |
Also Published As
Publication number | Publication date |
---|---|
JP4748113B2 (en) | 2011-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7082220B2 (en) | Data processing apparatus | |
KR20080018469A (en) | Method and apparatus for transforming and inverse-transforming image | |
JP4507046B2 (en) | Data processing apparatus, data processing method, program, and recording medium | |
KR100968987B1 (en) | Data converting apparatus, data converting method, learning apparatus, learning method, and recording medium | |
JP4748113B2 (en) | Learning device, learning method, program, and recording medium | |
JP4000589B2 (en) | Decoding device, decoding method, program, and recording medium | |
JP5303074B2 (en) | Encoding method, decoding method, apparatus thereof, program, and recording medium | |
KR20160065860A (en) | Method for encoding and decoding a media signal and apparatus using the same | |
JP4517448B2 (en) | Data processing apparatus, data processing method, and recording medium | |
WO2002059876A1 (en) | Data processing apparatus | |
JP5351094B2 (en) | Image coding method, image coding apparatus, and image coding program | |
JP4081745B2 (en) | Decoding device and decoding method, learning device and learning method, program, and recording medium | |
JP4505729B2 (en) | Image processing apparatus, image processing method, program, and recording medium | |
JP4154902B2 (en) | Image processing apparatus, image processing method, program, and recording medium | |
WO2011087333A2 (en) | Method and apparatus for processing an audio signal | |
JP4678454B2 (en) | Data processing apparatus, data processing method, and recording medium | |
JP4438655B2 (en) | Encoding device, decoding device, encoding method, and decoding method | |
JP4154647B2 (en) | Data processing apparatus, data processing method, program, and recording medium | |
JP5351093B2 (en) | Image coding method, image coding apparatus, and image coding program | |
JP2003264466A5 (en) | ||
JP2003303330A (en) | Data converter, data conversion method, learning device and learning method, program and storage medium | |
JP4538699B2 (en) | Data processing apparatus, data processing method, and recording medium | |
JP4154903B2 (en) | Image processing apparatus, image processing method, program, and recording medium | |
JP4448055B2 (en) | Image signal conversion method, image signal inverse conversion method, image encoding device, image decoding device, image encoding method, image decoding method, image encoding program, and image decoding program | |
JP2003264837A5 (en) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100518 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100520 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110113 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110307 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110419 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110502 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140527 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |