[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2004350300A - Decoding device for image signal - Google Patents

Decoding device for image signal Download PDF

Info

Publication number
JP2004350300A
JP2004350300A JP2004169169A JP2004169169A JP2004350300A JP 2004350300 A JP2004350300 A JP 2004350300A JP 2004169169 A JP2004169169 A JP 2004169169A JP 2004169169 A JP2004169169 A JP 2004169169A JP 2004350300 A JP2004350300 A JP 2004350300A
Authority
JP
Japan
Prior art keywords
mode
image signal
data
error
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004169169A
Other languages
Japanese (ja)
Other versions
JP4013921B2 (en
Inventor
Mikio Sasaki
美樹男 笹木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2004169169A priority Critical patent/JP4013921B2/en
Publication of JP2004350300A publication Critical patent/JP2004350300A/en
Application granted granted Critical
Publication of JP4013921B2 publication Critical patent/JP4013921B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an error correction function strong for transmission errors, and to suppress retransmission signals and picture freeze generation for the dynamic image transmission of super low rate transmission. <P>SOLUTION: Encoded bitstreams, for which improvement for turning to a super low rate is executed to an existing dynamic image compression standard H.261, are received, and the error correction function is organically executed for them in the respective levels of codes, syntax, patterns, signals, and recognition with a protocol as a base by a communication path decoding part 35, a pattern signal level error correction part 37, and a processing part 38 of a recognition level, etc., in a stage of decoding processing. Further, by the global check of the encoded bit streams for which a required bit amount is considered, the error correction of the patterns, the signal, and the syntax is driven, and an error correction based on the evaluation of the recognition level is performed by using mode information, and area information (human being or the like) based on a 2D template. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、画像信号を可変長符号を用いて圧縮した符号化ビットストリームとして受信し、これを画像信号に復号化すると共に、その画像信号の誤りを訂正する機能を有する画像信号の復号化装置に関する。   The present invention provides an image signal decoding apparatus having a function of receiving an image signal as an encoded bit stream compressed using a variable length code, decoding the image signal into an image signal, and correcting an error of the image signal. About.

近年、情報通信端末のマルチメディア化が急速に進んでおり、電話においてもデジタルデータ伝送に基づく様々な付加価値を創成していくことが今後のビジネス展開において必須である。特に、PHS(personal handy phone system)では、既に従来の音声,文字情報のみならず、自然静止画さらには動画をも伝送することが本格的に検討されており、電話機のマルチメディア化はごく近い将来に当たり前のことになることが予想される。   2. Description of the Related Art In recent years, multimedia use of information communication terminals has been rapidly progressing, and it is indispensable in the future business development to create various added values based on digital data transmission in telephones. In particular, in PHS (personal handy phone system), transmission of not only conventional voice and text information but also natural still images and moving images has been seriously studied, and multimedia of telephones is very near. It is expected to be commonplace in the future.

しかし、このような画像信号を伝送するにあたって、無圧縮状態では約166Mbpsに相当する信号量のTV映像をどうやってPHS(384kbpsの内、画像の割り当ては32kbpsあるいは48kbps)や既存の電話回線の伝送レート(10kbps程度)で伝送するかという問題がある。
ここで、従来のTV会議やビデオCDに用いられている動画像圧縮技術が要求される。しかし、この規格においても、例えば現行のTV会議用規格ITU−T/H.261では、64kbps〜2Mbps、ISO/MPEG1では1.5Mbps程度を対象としており、64kbps以下の超低レート伝送には対応するようになっていない。なお、1995年11月に勧告されるH.263規格は4.8kbps〜64kbpsを対象としているが、内容が未公開となっているので、その方式を認識することができない実情である。また、その規格では、H.261との接続性が保証されていないものである。
However, in transmitting such an image signal, in a non-compressed state, a TV image having a signal amount equivalent to about 166 Mbps is assigned to PHS (384 kbps, image allocation is 32 kbps or 48 kbps) or the transmission rate of an existing telephone line. (About 10 kbps).
Here, a moving image compression technique used for a conventional TV conference or video CD is required. However, even in this standard, for example, the current TV conference standard ITU-T / H. H.261 targets 64 kbps to 2 Mbps, and ISO / MPEG1 targets about 1.5 Mbps, and does not support ultra-low-rate transmission of 64 kbps or less. Note that H.264 recommended in November 1995 The H.263 standard covers 4.8 kbps to 64 kbps, but since the contents are not disclosed, the actual situation cannot be recognized. Also, the standard states that 261 is not guaranteed.

さらには、このような動画像圧縮技術は、有線系を対象としたものが主であり、例えば、移動体通信における無線系の通信において発生するデータ伝送誤りのレベル(10の−2〜−3乗程度)に対する対策が完全に施されておらず、無線系におていは、通常は、ARQ(automatic repeat request)による再送要求を用いたデマンドリフレッシュと呼ばれる方法が用いられる。ところが、このようなARQを用いる場合には、受信側においては、画像情報の再送が完了するまでは、ピクチャーがフリーズすることが避けられない。したがって、電波事情が悪い所ではピクチャーがフリーズした状態が継続してしまうということになって実質的に動画伝送が不可能になる不具合がある。   Furthermore, such a moving image compression technique is mainly intended for a wired system. For example, the level of a data transmission error occurring in wireless communication in mobile communication (10-2 to -3) No countermeasures have been taken completely, and a method called demand refresh using a retransmission request by ARQ (automatic repeat request) is usually used in a wireless system. However, when such ARQ is used, it is inevitable that the picture freezes on the receiving side until the retransmission of the image information is completed. Therefore, in a place where the radio wave condition is bad, a state in which the picture is frozen is continued, and there is a problem that moving image transmission becomes substantially impossible.

一方で、静止画伝送では、データを重要度に応じてグループ分割し、レート制御するという方法が提案されてはいるが、実用には至っていない。また、384kbps程度の伝送レートではデータ伝送順序の変更と誤り訂正符号により伝送誤りに対処した例が報告されているが、64kbps以下の超低レート無線伝送における報告はまだない。
本発明は、上記事情に鑑みてなされたもので、その目的は、復号化装置の機能として伝送誤りに対して強い誤り訂正機能を持たせることにより、PHSやデジタル携帯電話などの超低レート伝送で動画像を伝送する際においても、データ再送モードの発生やピクチャーフリーズの発生を極力抑制することができるようにした画像信号の復号化装置を提供することにある。
On the other hand, in still image transmission, a method of dividing data into groups according to importance and controlling the rate has been proposed, but has not been put to practical use. At a transmission rate of about 384 kbps, there has been reported an example in which a transmission error is dealt with by changing the data transmission order and using an error correction code, but there is no report on ultra-low-rate wireless transmission of 64 kbps or less.
The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a strong error correction function against transmission errors as a function of a decoding device, thereby enabling ultra-low-rate transmission of PHS and digital mobile phones. Another object of the present invention is to provide an image signal decoding apparatus capable of minimizing the occurrence of a data retransmission mode and the occurrence of a picture freeze even when a moving image is transmitted by using.

請求項1のようにすることにより、モード制御手段は、画像信号にモード情報が含まれている場合には、そのモード情報によって指定されているモード条件を設定して復号化処理動作を行うようになる。誤り訂正手段は、画像信号の復号化処理結果が設定されたモード条件に適合しない場合にモード条件を優先して誤り訂正の処理を行うことができるようになる。これにより、画像信号としての情報量が低減されるが、送信側のモード条件と同様の付帯状況が設定されることから、復号化処理に際しては誤りに対する訂正能力の向上が図れる。   According to the present invention, when the mode information is included in the image signal, the mode control means sets the mode condition specified by the mode information to perform the decoding operation. become. The error correction means can perform the error correction process by giving priority to the mode condition when the decoding result of the image signal does not conform to the set mode condition. As a result, the amount of information as an image signal is reduced, but the incidental condition similar to the mode condition on the transmission side is set, so that the decoding capability can be improved in error correction.

請求項2ないし5では、上述のモード制御におけるモード条件として、使用環境や被写体を設定するもので、これによって、設定された使用環境あるいは被写体に応じて、人物情報記憶手段や背景情報記憶手段に記憶しているデータを利用して復号化処理を行うと共に、復号誤りの訂正処理を行うことができるようになる。そして、具体的には、自動車内,屋内あるいは屋外の様々な使用環境とカメラが固定,可動に応じた違いや、人物あるいは風景などの被写体の違いに応じて、自ずと決まる限定要素があるので、設定された使用環境モードに応じて復号化処理の誤り訂正機能を向上させることができるようになる。   According to the second to fifth aspects, a use environment and a subject are set as the mode conditions in the above-described mode control, whereby the personal information storage means and the background information storage means are set according to the set use environment or the subject. The decoding process can be performed by using the stored data, and the decoding error can be corrected. More specifically, there are limited elements that are determined by the camera depending on whether the camera is fixed or movable in various usage environments in a car, indoors or outdoors, or a subject such as a person or landscape. The error correction function of the decoding process can be improved according to the set use environment mode.

請求項6では、モード制御におけるモード条件として、符号化モードの設定が可能となっており、モード制御手段は、設定された符号化モード情報に基づいて復号化条件を設定すると共に、誤り訂正手段は、その符号化モードの条件に対しても適合しているか否かを判断することにより誤り訂正を行うことができるので、誤り訂正能力の向上が図れる。この場合に、符号化モードとして、請求項7および8では、動画,準動画,静止画の各符号化モードや、あるいはモデルベースモードの設定が可能であり、これらは、例えば、通信路の条件や、伝送レートの制限などに応じて選択設定されるものである。   According to the sixth aspect, the coding mode can be set as the mode condition in the mode control. The mode control means sets the decoding condition based on the set coding mode information, and sets the error correction means. Can perform error correction by judging whether or not the coding mode conditions are satisfied, thereby improving the error correction capability. In this case, according to claims 7 and 8, as the encoding mode, it is possible to set each encoding mode of a moving image, a quasi-moving image, and a still image, or a model-based mode. And the setting is made in accordance with the transmission rate limitation.

請求項9では、誤り訂正手段の機能として、復号化処理中に画像信号に含まれる誤り等に基づいて発生する復号停止の事態が発生したときに、送信側に対して送信する要求信号のレベルを4つの場合に分けて選択的に設定できるようになっており、これによって、通信路の状態などに応じて段階的に再生画像のレベルを切り換えて、復号停止が継続しないように対応することができる。   In the ninth aspect, as a function of the error correction means, the level of a request signal to be transmitted to the transmission side when a decoding stoppage occurs due to an error or the like included in an image signal during a decoding process. Can be selectively set in four cases, whereby the level of the reproduced image is switched stepwise according to the state of the communication path, etc., so that the stop of decoding is not continued. Can be.

請求項10では、人物情報記憶手段に必要に応じて特定人物の人物画像を個人情報として登録可能としたので、モード制御手段によるモード制御時に適宜に読出して利用することができると共に、通信以外のときでも必要に応じて読出すことにより、人物の登録状態を確認することができるようになり、使い勝手が向上する。そして、請求項11では、その人物情報記憶手段の個人情報をモデルベースモードで使用するので、例えば、通信事情が悪化した場合でも、登録された個人情報としての人物画像に基づいて通信中の相手の動きをモデルベースモード制御によりある程度再現することができるようになる。   According to the tenth aspect, a personal image of a specific person can be registered as personal information in the personal information storage means as required, so that the personal information can be appropriately read and used at the time of mode control by the mode control means. At any time, by reading as needed, the registered state of the person can be confirmed, and the usability is improved. According to the eleventh aspect, the personal information stored in the personal information storage means is used in the model-based mode. For example, even if the communication situation deteriorates, the communication partner based on the registered personal information is used. Can be reproduced to some extent by the model-based mode control.

請求項12のようにすることにより、色情報推定手段は、復号化処理された画素データの各ブロックについて、その色情報を過去の色情報あるいは周囲のブロックの色情報から推定する。この場合、このような推定が可能となる根拠は、正常な画像信号としては、画素ブロックの格子に対応したタイル状をなす形状で周囲のブロックと異なる色が偶然に発生するうという確率が非常に小さいという事実に基づくものである。そして、誤差評価手段により、対象となるブロックについて推定色情報と復号化処理により得られた色情報との誤差量が計算されると、誤り訂正手段により、その誤差量の値が小さければ正しい画像信号と判断し、誤差量の値が大きいときにはその対象ブロックの色情報データを推定色情報データに置き換えることにより誤り訂正を行うようになる。これによって、符号レベルやパターンレベルでは訂正不能であった信号レベルの色情報の復号化処理に際して誤りに対する訂正能力の向上が図れる。   According to the twelfth aspect, the color information estimating means estimates the color information of each block of the decoded pixel data from the past color information or the color information of surrounding blocks. In this case, the reason that such estimation is possible is that the probability that a normal image signal will accidentally generate a color different from that of the surrounding blocks in a tile-shaped shape corresponding to the grid of the pixel blocks is extremely high. It is based on the fact that it is small. Then, when the error amount between the estimated color information and the color information obtained by the decoding process for the target block is calculated by the error evaluating unit, the error correcting unit calculates a correct image if the value of the error amount is small. If the signal is determined to be a signal and the value of the error amount is large, error correction is performed by replacing the color information data of the target block with the estimated color information data. As a result, it is possible to improve the ability to correct errors when decoding color information at the signal level that cannot be corrected at the code level or the pattern level.

そして、上述の場合に、請求項13では、対象ブロックの色情報データと推定色情報データとの誤差量が大きい場合に、その誤り訂正に際して、符号レベルに戻って直交変換係数データを記述したコードが可変長符号ではなく固定長符号で記述されたことを示すESCコードを検索して誤り訂正処理を行う。すなわち、変換係数復号化手段によりESCコードの検索を行い、そのときのESCコードと訂正前に復号化した可変長符号との類似度を求めてそのビット一致率が所定以上(例えば6ビット中の5ビット)であるものの位置をESC位置記憶手段により記憶しておき、信号レベルの誤りが検出された時点で、記憶されている別のESC位置に戻って再び復号化処理を行って画像信号の復号化を行い、誤り訂正手段により再評価を行うようになる。これにより、信号レベルにおける復号誤りを検出したときに符号レベルに戻って高い精度で誤り訂正の機能を発揮させることができるようになる。   In the above case, according to the thirteenth aspect, when the error amount between the color information data of the target block and the estimated color information data is large, a code describing the orthogonal transform coefficient data by returning to the code level upon error correction. Is searched for an ESC code indicating that it is described not as a variable-length code but as a fixed-length code, and error correction is performed. That is, the ESC code is searched by the transform coefficient decoding means, the similarity between the ESC code at that time and the variable-length code decoded before correction is obtained, and the bit coincidence ratio is equal to or more than a predetermined value (for example, 6 bits (5 bits) is stored in the ESC position storage means, and when an error in the signal level is detected, the process returns to another stored ESC position and performs the decoding process again to execute the decoding of the image signal. Decoding is performed, and re-evaluation is performed by the error correction means. As a result, when a decoding error at the signal level is detected, the signal level returns to the code level and the function of error correction can be exhibited with high accuracy.

さらに、請求項14では、画像信号の復号化処理で検出された色情報データの誤りに対して推定色情報等で置き換えた場合には、次のブロックの復号化処理を行うに当たっては、符合レベルで符号化ビットストリームの復号再開の位置を決める必要があるので、このために、ブロック単位のデータの終了位置を示すEOBコードを検索する。すなわち、EOB検出手段によるEOBコードの検索で、対象ブロック内の所定条件範囲内で前記EOB検出手段によりEOBコードが検出されないときには1ビットの誤りを想定してEOBコードの検出を再度実行し、所定条件範囲を満たすときにこれをEOBコードとして特定することで復号化処理を再開できるようにする。   Further, according to claim 14, when the error of the color information data detected in the decoding process of the image signal is replaced with the estimated color information or the like, the code level is used in the decoding process of the next block. Since it is necessary to determine the position at which decoding of the coded bit stream is restarted, an EOB code indicating the end position of data in block units is searched for this purpose. That is, in the search for the EOB code by the EOB detection means, when the EOB code is not detected by the EOB detection means within a predetermined condition range in the target block, the EOB code is detected again by assuming a one-bit error, and When the condition range is satisfied, the decoding process can be restarted by specifying this as an EOB code.

請求項15のようにすることにより、誤り訂正手段により、ブロック単位で復号化処理して得られた画素データの色情報に誤りが含まれる場合に、過去の色情報データあるいは周囲のブロックの色情報データから推定して誤り訂正を行うと共に、誤差伝播防止手段により、この誤り訂正手段による誤り訂正実施の頻度に応じて、復号画像の重要領域となる部分のブロック単位の画像信号について送信側に対して周期的に強制イントラブロックデータを送信するように要求するので、誤り訂正による誤差が累積した場合でも、周期的に強制イントラブロックデータによってリフレッシュしたブロックデータを得て累積誤差による画像信号の乱れを防止することができるようになる。   According to the present invention, when the error correction means includes an error in the color information of the pixel data obtained by performing the decoding process in units of blocks, the color information of the past color information data or the color of the surrounding blocks is used. The error correction is performed by estimating from the information data, and the error propagation preventing means transmits the image signal of the block unit which is the important area of the decoded image to the transmission side in accordance with the frequency of the error correction performed by the error correction means. Since the forced intra block data is periodically transmitted, even if errors due to error correction are accumulated, the image data is disturbed due to the accumulated error by periodically obtaining block data refreshed by the forced intra block data. Can be prevented.

請求項16のようにすることにより、領域特定手段は、符号化ビットストリームデータ中のユーザーデータエリアに記述された領域情報データに基づいて対象となる領域の特定を行うので、誤り訂正手段により、特定された対象領域における復号化処理過程で画像信号に含まれる誤りを領域情報に基づいて訂正することができるようになる。
この場合、請求項17では、基本テンプレートを複数設けて、領域特定手段により、送信側からの符号化ビットストリームデータに記述された領域情報により指定された基本テンプレートを選択設定し、これを対象領域に対応するように変形させてその部位を特定するようにしている。そして、請求項18では、このような基本テンプレートを階層的に設けて、特定した部位を基本テンプレート中の二次元座標として表現することができるようになる。
According to claim 16, the area specifying means specifies the target area based on the area information data described in the user data area in the coded bit stream data. An error included in the image signal in the decoding process of the specified target area can be corrected based on the area information.
In this case, in claim 17, a plurality of basic templates are provided, and the area specifying means selects and sets the basic template specified by the area information described in the coded bit stream data from the transmitting side, and sets this as the target area. The part is deformed so as to correspond to. According to the eighteenth aspect, such a basic template is provided in a hierarchical manner, and the specified portion can be expressed as two-dimensional coordinates in the basic template.

さらに、請求項19では、動き補償手段を設けることにより、領域特定手段により現在復号中のブロックが含まれる領域が特定されている場合には、すでに復号した領域内のブロックの動きベクトルに基づいてそのブロックの動き補償を行うことができる。そして、請求項20では、色情報補償手段を設けることにより、すでに復号した領域内のブロックの輝度,色,テクスチャーなどの色情報データに基づいてそのブロックの色情報データの修正を行うことができるようになる。また、請求項21では、誤り訂正手段により、背景領域の画像データの復号中に誤りが生じたときに、背景情報記憶手段の背景情報に基づいて訂正を行うことができるようになる。   Furthermore, in claim 19, by providing the motion compensating means, when the area including the block currently being decoded is specified by the area specifying means, based on the motion vector of the block in the already decoded area. Motion compensation of the block can be performed. According to the twentieth aspect, by providing the color information compensating means, it is possible to correct the color information data of the block in the already decoded area based on the color information data such as luminance, color and texture of the block. Become like According to the twenty-first aspect, when an error occurs during the decoding of the image data in the background area, the error correction unit can correct the error based on the background information in the background information storage unit.

請求項22のようにすることにより、画像信号を復号した結果その対象物が特定できない場合に、疑似領域特定手段により、過去のフレームのパターン情報データに基づいて画像重心を中心として評価演算を行うことにより疑似的な対象領域を特定することができるようになる。
請求項23のようにすることにより、符号チェック手段により、バッファに蓄積されたビットストリームデータに対して、1フレームの先頭位置を示す特定のビットパターンのスタートコードをグローバルにチェックすることができるので、復号化処理の開始に当たって、フレームのスタート位置を基準として得られる他の情報を効率的に得ることができるようになる。
According to the present invention, when the object cannot be specified as a result of decoding the image signal, the pseudo area specifying means performs an evaluation calculation centering on the image center of gravity based on the pattern information data of the past frame. This makes it possible to specify a pseudo target area.
According to the twenty-third aspect, the code checking means can globally check the start code of a specific bit pattern indicating the head position of one frame with respect to the bit stream data accumulated in the buffer. In starting the decoding process, other information obtained based on the start position of the frame can be efficiently obtained.

また、請求項24では、符号チェック手段により、同様にしてグローバルにチェックすることにより、1フレーム分の画素データの複数のブロックグループの最初のブロックグループの先頭に位置して付された特定のビットパターンのGOB(グループ・オブ・ブロックス)スタートコードを検出することができるので、復号化処理に際してさらに効率の向上を図ることができるようになる。   According to a twenty-fourth aspect of the present invention, a specific bit added at the beginning of a first block group of a plurality of block groups of one frame of pixel data is similarly globally checked by a code checking unit. Since the GOB (Group of Blocks) start code of the pattern can be detected, the efficiency of the decoding process can be further improved.

さらに、請求項25では、上述のようなグローバルなチェックを、特定のビットパターンの内のビット誤り率が所定レベル以下であるときにはこれをスタートコードとして特定するファジイマッチング処理により実施するので、ビット誤りが混入している場合でも、高い確率でスタートコードを特定することができるようになり、検索不能となるのを極力防止できる。   Furthermore, in the twenty-fifth aspect, the above-described global check is performed by a fuzzy matching process in which when a bit error rate of a specific bit pattern is equal to or lower than a predetermined level, this is specified as a start code. , Even if is mixed, the start code can be specified with a high probability, and it is possible to prevent the search from being disabled as much as possible.

そして、請求項26では、符号チェック手段によるスタートコードの特定に際して、スタートコードに続く所要ビット数を示すデータに基づいて他のスタートコードとの間の相関をとりながら確定することができるようになるので、所要ビット数を示すデータ自体に誤りがある場合でも正しいスタートコードの位置を特定することができるようになる。
また、請求項27では、上述の所要ビット数のデータの検出に当たって、符号チェック手段は、GBスタートコードの検出ビットパターンを上位側と下位側とを入れ替えた反転パターンとしたデータとして得る機能を備えている。これにより、送信側で設定する所要ビット数のデータが所定ビットの範囲にある場合にはそのデータのために使用するビット数を少なくすることができる。
According to the twenty-sixth aspect, when specifying the start code by the code checking means, the start code can be determined while correlating with another start code based on data indicating the required number of bits following the start code. Therefore, even when the data indicating the required number of bits has an error, the position of the correct start code can be specified.
Further, in detecting the data of the required number of bits, the code checking means has a function of obtaining the detected bit pattern of the GB start code as an inverted pattern in which the upper and lower sides are exchanged. ing. Thus, when the data of the required number of bits set on the transmission side is within a predetermined bit range, the number of bits used for the data can be reduced.

以下、本発明を自動車電話を想定した構成に適用した場合の一実施例について図面を参照しながら説明する。
図2には符号化装置としての符号化器1を、図1には復号化装置としての復号化器2の機能的なブロック構成をそれぞれ示している。以下、図1および図2を参照して全体構成について概略的に説明する。
Hereinafter, an embodiment in which the present invention is applied to a configuration assuming a car phone will be described with reference to the drawings.
FIG. 2 shows a functional block configuration of an encoder 1 as an encoder, and FIG. 1 shows a functional block configuration of a decoder 2 as a decoder. Hereinafter, the overall configuration will be schematically described with reference to FIGS.

図2に示す符号化器1において、撮像手段としてのカメラ3は対象物を撮影して画像データを通常のアナログ信号で映像ソースとして出力するようになっている。この場合、映像ソースとしては、カメラ3のような撮像手段によるものに限らずあらかじめ記憶されたビデオ信号などを用いることも利用可能である。このカメラ3により撮影された画像データによる映像ソースは、切換スイッチ4を介してA/D変換器5に入力され、デジタル信号に変換されるようになっている。A/D変換器5は切換スイッチ6を介して直交変換部7に接続されている。また、この場合、A/D変換器5は減算器8および切換スイッチ6を介した状態でも直交変換部7に接続されている。そして、切換スイッチ6の切換設定により減算器8を介在させるか否かを切換制御するようになっている。   In the encoder 1 shown in FIG. 2, a camera 3 as an image pickup means shoots an object and outputs image data as a video source as a normal analog signal. In this case, the video source is not limited to an image source such as the camera 3, but a video signal or the like stored in advance can be used. A video source based on image data captured by the camera 3 is input to an A / D converter 5 via a changeover switch 4 and is converted into a digital signal. The A / D converter 5 is connected to a quadrature converter 7 via a changeover switch 6. Also, in this case, the A / D converter 5 is connected to the orthogonal transform unit 7 even through the subtractor 8 and the changeover switch 6. The switching control of the changeover switch 6 controls whether or not the subtractor 8 is interposed.

直交変換部7は、H.261規格のものと同様にCIF形式に沿ってブロック単位で原画像または予測差分画像に二次元直交変換(この実施例ではH.261規格に従うので離散コサイン変換(DCT))を施すもので、その変換出力を量子化部9に出力するようになっている。量子化部9は、直交変換部7から与えられる変換係数データを直線量子化またはデッドゾーン付き量子化により9ビット精度で量子化変換するようになっており、通信路符号化部10に出力する。通信路符号化部10は、所定の変換ルールにしたがって量子化部9からの量子化変換された画像信号を符号化ビットストリームに変換するもので、FIFOバッファ11に一旦蓄積した後、有線路あるいは無線路などの通信路12に出力するようになっている。   The orthogonal transform unit 7 performs the H.264 conversion. Similar to that of the H.261 standard, the original image or the prediction difference image is subjected to a two-dimensional orthogonal transform (in this embodiment, a discrete cosine transform (DCT) according to the H.261 standard) in block units. The conversion output is output to the quantization unit 9. The quantization unit 9 is configured to quantize the transform coefficient data provided from the orthogonal transform unit 7 with 9-bit precision by linear quantization or quantization with a dead zone, and output it to the channel coding unit 10. . The communication path encoding unit 10 converts the image signal quantized and converted from the quantization unit 9 into an encoded bit stream in accordance with a predetermined conversion rule. The signal is output to a communication path 12 such as a wireless path.

さて、逆量子化部13は、量子化部9により変換された量子化信号が与えられるもので、量子化部9にて量子化した画像信号を再び量子化前のデジタルデータに変換して逆変換部14に出力する。逆変換部14は、デジタルデータをアナログデータに変換して映像ソースから取り込んだときの画像データとほぼ同じになるように復元して加算器15を介して予測メモリ16に出力する。予測メモリ16は、映像ソースから取り込んだ画像データに基づいて次のフレームにおける画像データの予測を行うためのもので、ループフィルタ17および切換スイッチ18を介して減算器8に減算信号として出力するようになっている。   The inverse quantization unit 13 receives the quantized signal converted by the quantization unit 9, converts the image signal quantized by the quantization unit 9 into digital data before quantization again, and inversely converts the image signal. Output to the converter 14. The inverse conversion unit 14 converts the digital data into analog data, restores the image data to be substantially the same as the image data obtained from the video source, and outputs the image data to the prediction memory 16 via the adder 15. The prediction memory 16 is for predicting image data in the next frame based on image data taken in from a video source, and outputs it as a subtraction signal to the subtractor 8 via the loop filter 17 and the changeover switch 18. It has become.

ループフィルタ17は、隣接するブロックとの間の色や輝度の急激な変化を抑制するためにスムージングを行う空間的ローパスフィルタの働きをするもので、その出力は、切換スイッチ18から他の切換スイッチ19を介して加算器15に加算信号として与えるようになっている。また、予測メモリ16の出力は動き検出部20に与えられるようになっており、この動き検出部20は、A/D変換器5から与えられる映像ソースの画像データとの両者のデータから、フレーム間の動きを補償するように量子化部9に信号を与えると共に通信路符号化部10に信号を与える。   The loop filter 17 functions as a spatial low-pass filter that performs smoothing to suppress a sudden change in color or luminance between adjacent blocks. The output of the loop filter 17 is transmitted from the changeover switch 18 to another changeover switch. A signal 19 is supplied to the adder 15 via an adder 19 as an addition signal. The output of the prediction memory 16 is provided to a motion detection unit 20. The motion detection unit 20 converts the output of the prediction memory 16 into a frame based on the image data of the video source supplied from the A / D converter 5 and both data. A signal is supplied to the quantization unit 9 and a signal is supplied to the communication channel coding unit 10 so as to compensate for the movement between them.

また、符号化制御部21は、符号化処理の各種の制御を実行するもので、直交変換部7から変換情報が与えられると共にFIFOバッファ11からバッファ使用率などのデータが与えられるようになっており、これらのデータに基づいて、量子化部9の量子化変換のレベルを設定する適応量子化制御を行うと共に、適応レート制御を行うようになっている。また、符号化した結果得られる画像信号の属性データを記憶する属性メモリ22は、符号化制御部21から記憶すべき属性データが入力されるようになっており、属性予測部23はその属性メモリ22に記憶されている過去の属性データに基づいて現在符号化処理中の属性データを予測して符号化制御部21に与えるようになっている。そして、以上により、H.261規格をベースとした符号化処理部24が構成されている。   The encoding control unit 21 performs various controls of the encoding process. The encoding control unit 21 receives conversion information from the orthogonal transformation unit 7 and data such as a buffer usage rate from the FIFO buffer 11. In addition, based on these data, adaptive quantization control for setting the level of quantization conversion of the quantization unit 9 and adaptive rate control are performed. An attribute memory 22 for storing attribute data of an image signal obtained as a result of encoding is configured to receive attribute data to be stored from an encoding control unit 21. The attribute data currently being encoded is predicted based on the past attribute data stored in the storage 22, and is provided to the encoding control unit 21. As described above, H. An encoding processing unit 24 based on the H.261 standard is configured.

次に、本実施例において付加されている特徴的な構成について説明する。すなわち、領域抽出・認識処理部25は、次のように構成される。対象領域抽出部26は、動き検出部20から与えられる動きベクトルの情報に基づいて後述するような対象領域抽出処理を実行するもので、テンプレートデータベース27に情報を出力する。2D(二次元)テンプレートマッチング部28はテンプレートデータベース27からのデータに基づいてマッチング処理を行い、対象領域抽出部26および通信路符号化部10に処理結果を出力する。   Next, a characteristic configuration added in the present embodiment will be described. That is, the area extraction / recognition processing unit 25 is configured as follows. The target area extracting unit 26 executes a target area extracting process as described later based on the information of the motion vector given from the motion detecting unit 20, and outputs information to the template database 27. The 2D (two-dimensional) template matching unit 28 performs a matching process based on the data from the template database 27, and outputs a processing result to the target region extracting unit 26 and the channel encoding unit 10.

モデルベース予測部29は、三次元形状データベース30からデータを呼び出すと共に人物メモリ31および背景メモリ32の記憶データに基づいてモデルベースモードにおける画像再生の処理を行うもので、その処理結果を通信路符号化部10および切換スイッチ18を介して減算器8に減算入力として与えるようになっている。人物メモリ31および背景メモリ32は、対象領域抽出部26から記憶すべき人物データおよび背景データが入力されるようになっている。   The model-based prediction unit 29 retrieves data from the three-dimensional shape database 30 and performs image reproduction processing in the model-based mode based on the data stored in the person memory 31 and the background memory 32. The signal is supplied to the subtractor 8 as a subtraction input via the conversion unit 10 and the changeover switch 18. The person memory 31 and the background memory 32 are configured to receive person data and background data to be stored from the target area extraction unit 26.

さらに、この符号化器1には、これのモード制御を行うためのモード制御部33が接続されており、後述するようにして種々のモード制御の詳細な内容が実施されるようになっている。また、このモード制御部33には、使用者との間の情報の授受を行うためのヒューマンインターフェイス34が接続されている。ヒューマンインターフェイス34は、具体的には、表示部,音声入出力部あるいは操作入力部等を備えたもので、モード制御を迅速且つ適切に実施するために制御されるようになっている。モード制御部33は、復号化器2側とも接続されており、作用の項にて説明するように、復号化器2の各部のモード制御についても同様に行うようになっており、同様にして復号化器2においてもヒューマンインターフェイス34を利用することができるようになっている。   Further, the encoder 1 is connected to a mode control unit 33 for controlling the mode of the encoder 1, and various details of the mode control are performed as described later. . Further, a human interface 34 for transmitting and receiving information to and from a user is connected to the mode control unit 33. Specifically, the human interface 34 includes a display unit, a voice input / output unit, an operation input unit, and the like, and is controlled so as to quickly and appropriately perform mode control. The mode control unit 33 is also connected to the decoder 2 side, and performs the mode control of each unit of the decoder 2 in the same manner as described in the operation section. The human interface 34 can also be used in the decoder 2.

なお、このヒューマンインターフェイス34を通じて人物画像情報を人物メモリ31内に個人識別情報として登録記憶することができるようになっており、この個人識別情報は、適宜のタイミングでヒューマンインターフェイス34を介して入力される情報に基づいて人物メモリ31から呼び出されると共に、登録された個人識別情報として通信以外の場合でも表示可能な構成とされている。   The personal image information can be registered and stored in the personal memory 31 as personal identification information through the human interface 34, and the personal identification information is input via the human interface 34 at an appropriate timing. It is configured to be called from the person memory 31 based on the information, and to be displayed as registered personal identification information even in cases other than communication.

次に、図1に示す復号化器2において、伝送路を介して送信される画像信号データの符号化されたビットストリームを受信する通信路復号化部35は、階層的符号化属性(マクロブロックタイプなど)を復号化して出力するもので、H.261規定に準じた基本構成をなす復号化処理部36に接続されている。また、誤り訂正機能を実行するための構成として、パターン・信号レベルの誤り訂正部37、認識レベルの処理部38および各種データを記憶するための記憶手段としてのメモリ39から構成されている。また、復号化処理に当たっては前述のモード制御部33が上述した各部と信号のやり取りを行うことにより制御するようになっており、最終的に復号化された画像信号は切換スイッチ40およびD/A変換器41を介して出力されるようになっている。   Next, in the decoder 2 shown in FIG. 1, the communication path decoding unit 35 that receives the coded bit stream of the image signal data transmitted via the transmission path has a hierarchical coding attribute (macro block attribute). Type, etc.) and output. It is connected to a decoding processing unit 36 having a basic configuration conforming to the H.261 standard. Further, the configuration for executing the error correction function includes a pattern / signal level error correction unit 37, a recognition level processing unit 38, and a memory 39 as storage means for storing various data. In the decoding process, the mode control unit 33 controls the above by exchanging signals with the above-described units, and the finally decoded image signal is supplied to the changeover switch 40 and the D / A The data is output via the converter 41.

上記した通信路復号化部35において、外部の通信路あるいは空中等の伝送路12を介して送信される画像信号の符号化ビットストリームデータは、FIFOバッファ42に入力され、少なくとも1フレーム分のデータが蓄積されるようになっている。FIFOバッファ42に蓄積された符号化ビットストリームデータは、パーザ43において符号レベルの文法的な解釈がなされるようになっている。ファジイマッチング部44は、FIFOバッファ42内に蓄積されているビットストリームデータをグローバルに検索し特定コードで記述されたPSC,GBSCをファジイマッチング処理により特定すると共に、同じく特定コードで記述されたESC,EOBなどを検索して特定し、それらの位置を記憶部45に記憶し、後述するように誤り訂正機能の実行時に利用するようになっている。   In the above-described communication path decoding unit 35, the coded bit stream data of the image signal transmitted via the external communication path or the transmission path 12 such as in the air is input to the FIFO buffer 42, and the data of at least one frame is transmitted. Is accumulated. The coded bit stream data stored in the FIFO buffer 42 is subjected to grammatical interpretation of the code level in the parser 43. The fuzzy matching unit 44 searches the bit stream data stored in the FIFO buffer 42 globally, specifies PSC and GBSC described by a specific code by fuzzy matching processing, and also specifies ESC and GBC described by the specific code. EOB and the like are searched for and specified, and their positions are stored in the storage unit 45, and are used when the error correction function is executed as described later.

また、パーザ43は、ファジイマッチング部44にて検索された特定コードの位置を基準として他のコードやデータの検索や文法解釈を行うようになっており、その際には、可変長符号(VLC)の対照表46を参照する。誤り判定部47は、ファジイマッチング部44により特定された特定コードの位置に基づいてパーザ43において文法的解釈を行う場合に、誤りがあるか否かを判定し、誤りを検出した場合にはこれを符号レベルで訂正して出力するようになっている。そして、パーザ43は、ビットストリームデータの復号化処理により得られたモード情報をモード制御部33に出力するようになっている。   Further, the parser 43 searches for other codes or data or interprets grammar based on the position of the specific code searched by the fuzzy matching unit 44, and in that case, the variable length code (VLC )). The error determining unit 47 determines whether or not there is an error when performing a grammatical interpretation in the parser 43 based on the position of the specific code specified by the fuzzy matching unit 44. Is corrected at the code level and output. Then, the parser 43 outputs mode information obtained by decoding the bit stream data to the mode control unit 33.

復号化処理部36において、逆量子化部48は、パーザ43から復号出力が与えられるようになっており、量子化されている画像信号のデータを逆量子化変換して逆変換部49に出力する。逆変換部49は、画像信号に含まれる周波数信号に対応した直交変換データを位置信号に対応したデータに逆変換することにより復号データとして出力する。
逆変換部49の出力は、パターン・信号レベルの誤り訂正部37の誤り判定・補正部50に入力される経路と、切換スイッチ51および加算器52を介して誤り判定・補正部50に入力される経路とが設けられている。予測メモリ53は、誤り判定・補正部50および動き補償部54からデータが与えられるようになっており、ループフィルタ55および切換スイッチ56を介して加算器52の加算入力に接続される。
In the decoding processing unit 36, an inverse quantization unit 48 receives a decoded output from the parser 43, and performs inverse quantization conversion on the quantized image signal data and outputs the data to an inverse transformation unit 49. I do. The inverse transform unit 49 inversely transforms the orthogonal transform data corresponding to the frequency signal included in the image signal into data corresponding to the position signal, and outputs the data as decoded data.
The output of the inverse conversion unit 49 is input to the error determination / correction unit 50 via the path input to the error determination / correction unit 50 of the pattern / signal level error correction unit 37 and the changeover switch 51 and the adder 52. Routes are provided. The prediction memory 53 receives data from the error determination / correction unit 50 and the motion compensation unit 54, and is connected to the addition input of the adder 52 via a loop filter 55 and a changeover switch 56.

パターン・信号レベルの誤り訂正部37において、誤り判定・補正部50は、フレームメモリ57にデータを与え、画素値推定部58,画像推定部59を介して推定画像データが与えられるようになっている。動ベクトル推定部60はメモリ39からデータを得て動き補償部54に推定された動ベクトルデータを出力する。また、属性推定部61は、メモリ39に記憶された過去の属性データを読出して復号化処理部36の復号化制御部62に与えて逆量子化部48および逆変換部49の復号動作に関する情報を与える。   In the pattern / signal level error correction section 37, the error determination / correction section 50 supplies data to the frame memory 57, and receives estimated image data via the pixel value estimation section 58 and the image estimation section 59. I have. The motion vector estimation unit 60 obtains data from the memory 39 and outputs the estimated motion vector data to the motion compensation unit 54. Further, the attribute estimating unit 61 reads out the past attribute data stored in the memory 39 and supplies the past attribute data to the decoding control unit 62 of the decoding processing unit 36 to obtain information on the decoding operation of the inverse quantization unit 48 and the inverse transform unit 49. give.

メモリ39は、モード情報部39a,領域情報部39b,パターン属性部39c,2D(二次元)動ベクトル部39dおよび個人識別情報部39eの各記憶部から構成される。
認識レベルの処理部38において、モデルベース予測部63は、三次元形状データベース64から3D(三次元)形状データ64aが与えられ、人物画像データベース65から人物画像のデータが与えられるもので、モデルベース予測を行って誤り判定・補正部50にデータを出力する。人物画像データベース65および三次元形状データベース64はメモリ39からデータが与えられる。
The memory 39 includes a storage unit including a mode information unit 39a, an area information unit 39b, a pattern attribute unit 39c, a 2D (two-dimensional) motion vector unit 39d, and a personal identification information unit 39e.
In the recognition level processing unit 38, the model-based prediction unit 63 receives 3D (three-dimensional) shape data 64 a from the three-dimensional shape database 64 and receives data of a person image from the person image database 65. The prediction is performed and the data is output to the error determination / correction unit 50. Data from the memory 39 is given to the person image database 65 and the three-dimensional shape database 64.

背景情報記憶手段としての背景メモリ66および人物情報記憶手段としての人物メモリ67は、D/A変換器41に出力される画像信号のうちの背景情報および人物情報が記憶可能に構成されており、フレームメモリ57にデータを出力すると共に、人物画像データベース65との間でデータの授受を行う。領域再生部68は、メモリ39からのデータに基づいてテンプレートデータベース69にて選択された2D(二次元)テンプレート69aが与えられ、領域再生を行ってフレームメモリ57に出力するようになっている。   The background memory 66 as the background information storage means and the person memory 67 as the person information storage means are configured to be able to store the background information and the person information of the image signal output to the D / A converter 41, Data is output to the frame memory 57, and data is exchanged with the person image database 65. The area reproducing unit 68 is provided with a 2D (two-dimensional) template 69a selected in the template database 69 based on the data from the memory 39, performs area reproduction, and outputs the area to the frame memory 57.

次に本実施例の作用について図3ないし図68を参照して説明する。なお、以下の説明においては、[A]符号化器にて符号化器1における画像信号の符号化処理の動作内容について説明し、[B]復号化器にて復号化器2における符号化ビットストリームの復号化処理の動作内容について説明する。そして、[A]符号化器においては、符号化処理過程における符号量の超低レート化のための各種の手法を項目別に列挙する([A−1]〜[A−4]の項)と共に、その動作説明を符号化処理プログラムのフローチャート(図5〜図7)を中心として説明し([A−5]の項)、[B]復号化器においては、復号化処理過程における復号誤りの検出と訂正の各種の手法を項目別に列挙する([B−1]〜[B−8]の項)と共に、その動作説明を復号化処理プログラムのフローチャート(図8〜図11)を中心として説明する([B−9]の項)。   Next, the operation of this embodiment will be described with reference to FIGS. In the following description, [A] the operation of the image signal encoding process in the encoder 1 will be described in the encoder, and the encoded bit in the decoder 2 will be described in [B] the decoder. The operation of the stream decoding process will be described. In the [A] encoder, various methods for reducing the code amount in the encoding process at an extremely low rate are listed for each item ([A-1] to [A-4]). The operation will be described mainly with reference to the flowchart of the encoding processing program (FIGS. 5 to 7) (section [A-5]), and in the [B] decoder, the decoding error in the decoding process will be described. Various methods of detection and correction are listed for each item (sections [B-1] to [B-8]), and the operation is described mainly with reference to the flowchart of the decoding processing program (FIGS. 8 to 11). (Section [B-9]).

[A]符号化器
[A−1]基本動作
符号化器1の動作について、まず、基本動作について説明する。符号化器1においては、その基本動作として、カメラ3により撮影した画像のデータを取り込んで、その画像信号の符号化処理を行って符号化ビットストリームのデータとして通信路12に出力するようになっており、この場合に、第1フレームの符号化処理と、第2フレーム以降の符号化処理とに分けて実施するようになっている。
[A] Encoder [A-1] Basic Operation First, the basic operation of the encoder 1 will be described. As a basic operation, the encoder 1 takes in data of an image captured by the camera 3, performs an encoding process of the image signal, and outputs the encoded signal to the communication channel 12 as encoded bit stream data. In this case, the encoding process for the first frame and the encoding process for the second and subsequent frames are performed separately.

まず、第1フレームでは、カメラ3により撮影された対象物を含むシーンを供給する映像ソースをA/D変換部5でデジタル信号に変換し、この後、H.261の規格に準じてCIF形式に沿ったマクロブロック単位でフレーム内符号化(INTRA)を実行し、これをINTRAピクチャーとして伝送する。
また、第2フレーム以降では、第1フレームに対する動き補償予測差分のみが2次元直交変換(ここではH.261に準拠したDCT(離散コサイン変換))を受けた後に、符号化制御部21によりバッファ量や符号化レートその他の符号化器1の状態値に応じた適応量子化を受けた後に通信路符号化部10を経て出力FIFOバッファ11に一時的に蓄積記憶されるようになる。この出力FIFOバッファ11によって、フレーム単位で情報量が異なる符号化ビットストリームが所定の符号化レートに合わせて通信路に送出されるようになる。
First, in the first frame, an A / D converter 5 converts a video source that supplies a scene including an object captured by the camera 3 into a digital signal. According to the H.261 standard, intra-frame coding (INTRA) is performed in units of macroblocks according to the CIF format, and this is transmitted as an INTRA picture.
Further, after the second frame, only the motion compensation prediction difference for the first frame is subjected to a two-dimensional orthogonal transform (here, DCT (discrete cosine transform) conforming to H.261), and then the encoding control unit 21 performs buffering. After undergoing adaptive quantization according to the amount, coding rate, and other state values of the encoder 1, the data is temporarily stored in the output FIFO buffer 11 via the channel coding unit 10. The output FIFO buffer 11 allows encoded bit streams having different amounts of information in frame units to be transmitted to a communication path in accordance with a predetermined encoding rate.

なお、符号化ビットストリームは、後述するようにCIF(common intermediate format;共通中間フォーマット)形式の基準にしたがって、PICTURE/GOB/MBK/BLK(図30参照)の4階層構造としたデータに変換されており、BLK(ブロック)階層のDCT有意係数の列を表現する可変長符号の集合に対して各階層毎に属性ヘッダを付した状態で生成される。一方、動き補償予測フレームは、図2のフレーム加算ループの出力として生成され、原画像と比較されて新たな差分情報を符号化機構に送り込むようになっている。   The coded bit stream is converted into data having a four-layer structure of PICTURE / GOB / MBK / BLK (see FIG. 30) according to the standard of the CIF (common intermediate format) format as described later. A set of variable length codes representing a sequence of DCT significant coefficients of the BLK (block) layer is generated with an attribute header attached to each layer. On the other hand, the motion-compensated prediction frame is generated as an output of the frame addition loop of FIG. 2, is compared with the original image, and sends new difference information to the encoding mechanism.

さて、上述の符号化過程において、本実施例の符号化器1では、以下に示すごとくの独自な処理を実施することにより、超低ビットレートの符号化処理を実行するようになっている。
すなわち、本実施例においては、既存のTV会議,TV電話用動画像圧縮国際標準であるH.261規格をベースとした前提において、独自な処理過程として、モード制御機能および領域抽出機能を付加した構成としている。そして、このような構成のもとで、符号化制御,シンタックス変更等の処理を、信号,パターン,符号,認識の各レベルで実行し、最終的に64kbps〜4.8kbps程度の超低レート画像符号化の実現を行ったものである。なお、これらの制御内容の概念的な相関関係を図3に示している。
In the above-described encoding process, the encoder 1 according to the present embodiment performs an encoding process at an extremely low bit rate by performing a unique process as described below.
That is, in the present embodiment, H.264, which is an existing international standard for video compression for video conferencing and video telephony, is used. On the premise based on the H.261 standard, a mode control function and a region extraction function are added as unique processing steps. Under such a configuration, processes such as encoding control and syntax change are executed at each level of signal, pattern, code, and recognition, and finally, an ultra-low rate of about 64 kbps to 4.8 kbps. This is an implementation of image coding. FIG. 3 shows a conceptual correlation between these control contents.

そして、以下においては、[A−2]モード制御,[A−3]対象領域の抽出,[A−4]符号化制御動作,[A−5]符号化処理プログラムに従った動作の説明の大項目に分け、各大項目中においてさらに小項目に分類して符号化方式の原理と方法について説明する。   In the following, description of [A-2] mode control, [A-3] extraction of a target area, [A-4] encoding control operation, and [A-5] operation according to an encoding processing program will be given. The principle and method of the coding method will be described by classifying the coding method into large items and further classifying the large items into small items.

[A−2]モード制御
図3は本実施例における符号化の超低レート化の内容について概念的に示しているもので、本実施例で行うモード制御については、例えば(1)使用環境,(2)被写体,(3)符号化制御の3つのカテゴリーでそれぞれモード制御を行うように構成されており、この場合に、それぞれのモード制御におけるモードの進行は全く独立に行われるとは限らず、例えば、各カテゴリー内で同時に2つ以上のモードを用いて符号化を行うこともあり得る。
[A-2] Mode Control FIG. 3 conceptually shows the contents of the ultra-low rate encoding in the present embodiment. The mode control performed in the present embodiment includes, for example, (1) usage environment, Mode control is performed for each of the three categories of (2) subject and (3) coding control. In this case, the progress of the mode in each mode control is not necessarily performed completely independently. For example, encoding may be performed using two or more modes simultaneously in each category.

そして、これらの遷移関係は符号化器1や復号化器2の状態つまり、FIFOバッファ11のバッファ量,現在設定されているモード状態,符号化レートあるいは動き発生量などの状態や判定情報によって支配される場合と、確率的状態遷移に依存する場合との2つのケースがある。以下においては、これらのカテゴリー(1)〜(3)および状態遷移の違いによるモード制御の動作についてそれぞれ説明する。   These transition relations are governed by the state of the encoder 1 and the decoder 2, that is, the buffer amount of the FIFO buffer 11, the currently set mode state, the state such as the coding rate or the amount of motion generation, and determination information. There are two cases: a case where the state is changed, and a case where the state depends on the stochastic state transition. In the following, the operation of mode control based on these categories (1) to (3) and the difference in state transition will be described.

(1)使用環境
使用環境のモード制御については、以下に示すように、自動車,屋内,屋外の各場所に対応して固定,可動の各態様を考えて、(a)自動車内固定モード, (b)自動車内可動モード,(c)屋内固定モード,(d)屋内可動モード, (e)屋外固定モード,(f)屋外可動モードの6つのモードに分類することができる。
(1) Usage environment Regarding the mode control of the usage environment, as shown below, fixed and movable modes corresponding to each place of the car, indoor and outdoor are considered, and (a) fixed mode in the car, The modes can be classified into six modes: b) a movable mode in a car, (c) an indoor fixed mode, (d) an indoor movable mode, (e) an outdoor fixed mode, and (f) an outdoor movable mode.

(a)自動車内固定モード
自動車用TV電話として最も考えやすい後部座席の使用環境を設定するもので、これは、例えば図12,図13に示すように、その位置関係から種々の条件を限定することができる特徴がある。これをまとめると、以下のようになる。
1)背景のうちの自動車内の部分はほぼ固定可能で、窓から見える車外の風景は走行中には動領域となる。
(A) In-vehicle fixed mode This mode sets the use environment of the rear seat that is most conceivable as a TV phone for a vehicle, and limits various conditions from its positional relationship as shown in FIGS. 12 and 13, for example. There are features that can be. This can be summarized as follows.
1) The portion of the background inside the car can be almost fixed, and the scenery outside the car seen from the window becomes a moving area during traveling.

2)カメラ3から人物Pまでの距離Lを限定できる(図12参照)。実際的な値としては距離Lは例えば1m以内の程度に設定可能である。
3)次の被写体モードの項で説明するように、この使用環境では被写体としては人物を中心とした人物モードが大半であり(図13参照)、動領域抽出の結果では、最も面積比率の大きい領域が人物である確率が非常に高くなる。
2) The distance L from the camera 3 to the person P can be limited (see FIG. 12). As a practical value, the distance L can be set to, for example, about 1 m or less.
3) As will be described in the section on the next subject mode, in this use environment, the subject is mostly a person mode centered on a person (see FIG. 13), and as a result of the moving area extraction, the area ratio is the largest. The probability that the region is a person becomes very high.

4)後部座席を対象として使用する場合には、撮影すべき人物Pの数は一人である確率が最も高くなる。
5)乗用車の場合には、カメラ3の視野内に入り得る人物Pの数は最大で4人程度と考えられる。
4) When the rear seat is used as a target, the number of persons P to be photographed is most likely to be one.
5) In the case of a car, the number of persons P that can enter the field of view of the camera 3 is considered to be at most about four.

(b)自動車内可動モード
このモードにおいては、人物モードに加えて、被写体モードとしての風景モードが使用される可能性が高くなる。
(c)屋内固定モード
自動車内固定モードとほぼ同じであるが、窓から見える外の風景は固定的である可能性が高く、情報量の削減には利点となる。
(d)屋内可動モード
人物モードの他に風景モードも使用される可能性が高い。
(B) In-vehicle movable mode In this mode, there is a high possibility that a landscape mode as a subject mode is used in addition to the person mode.
(C) Indoor fixed mode This is almost the same as the vehicle fixed mode, but the outside scenery seen from the window is likely to be fixed, which is advantageous for reducing the amount of information.
(D) Indoor movable mode There is a high possibility that a landscape mode is used in addition to the person mode.

(e)屋外固定モード
このモードでは、交通監視,セキュリティ,ペットの監視などへの応用が考えられる。また、この場合にはカメラ3を固定設置することから、有線系の伝送が可能となり、伝送誤り率の低下は少ない。
(f)屋外可動モード
使用環境としては最も過酷な条件であり、この場合には、可動であることから無線系の超低ビットレート伝送を行うことが前提条件となる。また、携帯型の装置を使用する場合には、人物モードの他に風景モードも使用される可能性が高くなる。加えて、通話中の手ぶれ等によりカメラ3の振動が多くなることが想定され、実際上は準動画モードあるいは静止画モードの動作が中心になることが想定される。
(E) Outdoor fixed mode This mode can be applied to traffic monitoring, security, pet monitoring, and the like. Also, in this case, since the camera 3 is fixedly installed, wired transmission becomes possible, and the transmission error rate is hardly reduced.
(F) Outdoor movable mode The use environment is the harshest condition. In this case, it is a prerequisite to perform ultra-low bit rate transmission in a wireless system because it is movable. In addition, when a portable device is used, there is a high possibility that a landscape mode is used in addition to the portrait mode. In addition, it is assumed that the camera 3 shakes more due to camera shake during a call or the like. In practice, it is assumed that the operation in the quasi-moving image mode or the still image mode is mainly performed.

(2)被写体
この場合には、符号化対象および用途に応じて以下のように4つの符号化モードを切り換え設定するようになっている。
(a)人物モード
この人物モードは通常の通信においては最優先で使用されるデフォルトモードに設定されている。そして、この人物モードにおいては、図14にも示すように、背景や使用環境に応じてさらに以下に示すようなモード切り換えを行うようになっている。なお、この場合のモード切り換えの条件は、通常、対象領域の抽出結果と距離判定により自動的に設定して切り換えるようになっている。
(2) Subject In this case, four encoding modes are switched and set as follows according to the encoding target and the application.
(A) Person mode This person mode is set as a default mode used with the highest priority in normal communication. In this person mode, as shown in FIG. 14, mode switching as described below is further performed according to the background and the use environment. In this case, the mode switching condition is normally set and switched automatically based on the extraction result of the target area and the distance determination.

ア)頭部モード (対象とする人物Pがひとりの場合)
イ)上半身モード (対象とする人物Pがひとりの場合)
ウ)全身モード (対象とする人物Pがひとりの場合)
エ)複数人物モード
例えば、図14に示す各使用環境においては、(a)自動車内ではア)の頭部モードが、(b)屋内ではイ)の上半身モードが、そして、(c)屋外ではイ)の上半身モードかあるいはウ)の全身モードに設定される。また、エ)の複数人物モードでは、特に詳細なテンプレート(図25参照、後述するテンプレートの説明参照)は用意されず、また、シーンとしても過渡的な短時間であることが想定されるので、符号化情報量の発生具合に応じた他の制御に委ねられる。
A) Head mode (when the target person P is one)
B) Upper body mode (when the target person P is one)
C) Full-body mode (when the target person P is one)
D) Multi-person mode For example, in each use environment shown in FIG. 14, (a) the head mode of a) in a car, (b) the upper body mode of a) indoors, and (c) the upper body mode outdoors. A) Upper body mode or C) Full body mode is set. In the multi-person mode d), a particularly detailed template (see FIG. 25, see the description of the template to be described later) is not prepared, and the scene is assumed to be a transient short time. It is left to another control according to the degree of generation of the encoded information amount.

(b)風景モード
例えば、走行中の自動車内においては、会話時には被写体が人物であることが多く、モード判定木では人物モードが設定される確率が高い。一方、ユーザが意図的に車外の風景や事物を画像として伝送したいと考えた場合、動きの有無やテクスチャーの細かさに起因する情報発生量の多さおよび人物の有無から判断して、符号化モードを準動画か静止画モードに移行させる。
(B) Landscape Mode For example, in a running car, the subject is often a person during conversation, and the mode determination tree has a high probability of setting the person mode. On the other hand, if the user intentionally wants to transmit the scenery or things outside the vehicle as an image, the coding is determined based on the presence or absence of motion, the amount of information generated due to the fineness of the texture, and the presence or absence of a person. Change the mode to the semi-moving image or still image mode.

(c)静止物体モード
静止物体を対象とする場合には、比較的符号化情報の発生量は少ないため、符号化モードとしては通常の動画モードを選択することができる。
(d)図面・文字モード
高解像度静止画モードを符号化モードとして選択することができる。
(C) Still Object Mode When a stationary object is targeted, the amount of encoded information is relatively small, so that a normal moving image mode can be selected as the encoding mode.
(D) Drawing / character mode The high-resolution still image mode can be selected as the encoding mode.

(3)符号化制御
(a)画像中心優先モード
このモードは、画面中の対象物に対して何ら先見情報がなく、しかもこれに優先してマニュアルで設定した初期設定モードがない場合に設定される。すなわち、状況としては、ただ漫然と撮影したいものにカメラ3を向けているような場合が想定される。この場合には、通常、カメラ3を向けることによって対象物が画像中心に位置する場合には、注視する領域も画像中心に近い部分であることが仮定できる(つまり、対象物中心に対するカメラ3の姿勢の水平および垂直角度α,βはゼロに近い値となることが仮定できる)。
(3) Coding control (a) Image center priority mode This mode is set when there is no foresight information for the object on the screen and there is no manual initial setting mode prior to this. You. That is, as a situation, it is assumed that the camera 3 is pointed at something that one simply wants to photograph. In this case, when the target is positioned at the center of the image by pointing the camera 3, it can be generally assumed that the area to be watched is also a part close to the center of the image (that is, the camera 3 is positioned with respect to the center of the target). The horizontal and vertical angles α and β of the posture can be assumed to be values close to zero).

したがって、画像中心付近に優先的にビット量を割り当てて符号化し、周囲に向けて徐々に割当量を減らすという符号化制御操作を行う。これは、具体的には後述する[A−3]符号化制御の領域別量子化制御,背景メモリの使用および有意変換係数の最大個数の制御などによって行う。また、このモードにおいては、他のモードへの移行の条件を次の3つの場合に対応して設定している。   Therefore, an encoding control operation is performed such that the bit amount is preferentially assigned near the center of the image for encoding, and the assigned amount is gradually reduced toward the periphery. This is specifically performed by [A-3] quantization control for each area of encoding control, use of a background memory, control of the maximum number of significant transform coefficients, and the like, which will be described later. In this mode, the conditions for shifting to another mode are set corresponding to the following three cases.

1)対象領域の移動を検出した場合
対象領域が抽出されていれば、対象領域優先モードに移行する。ここで、次の場合には対象領域の追従が行えないので、その対象領域優先モードの中の領域重心モードを選択するようになっている。
ア)2D(二次元)テンプレートが定まっていない場合
イ)2Dテンプレートの適合が完了していない場合
ウ)2Dテンプレートを持たない風景モードの場合
(なお、2Dテンプレートについては後述する。)
2)被写体モードが人物モードである場合
対象領域優先モードで且つ人物モードの場合、正面像から外れなければ2Dテンプレートは適合する。この場合、さらに、頭部、目、口など各部の同定を開始する。
3)対象領域抽出と動き解析結果による対象物カテゴリーの特定
動き情報や領域情報がない場合には、画面中心領域を優先して詳細に符号化する。この場合、画面中心領域を優先するとは、図15に示すように、画面中心から一定距離として例えば平均距離Davとして計算された値の範囲内のブロックを対象領域とみなすことに相当する。
1) When the movement of the target area is detected If the target area has been extracted, the mode shifts to the target area priority mode. Here, in the following case, the target area cannot be followed, so that the area center-of-gravity mode in the target area priority mode is selected.
A) When a 2D (two-dimensional) template is not determined
B) When the adaptation of the 2D template has not been completed
C) In the case of the landscape mode without a 2D template (the 2D template will be described later).
2) When the subject mode is the person mode In the case of the target area priority mode and the person mode, the 2D template is suitable if it does not deviate from the front image. In this case, identification of each part such as the head, eyes, and mouth is further started.
3) Specifying the target object category based on the target region extraction and the motion analysis result If there is no motion information or region information, the center region of the screen is preferentially encoded. In this case, giving priority to the screen center region corresponds to, as shown in FIG. 15, assuming that a block within a value calculated as a fixed distance from the screen center, for example, as an average distance Dav, is regarded as the target region.

また、ここでは、平均距離Davを計算するにあたり、距離尺度として同図 (a)に示すユークリッド(Eucrid)距離D(n)あるいは同図(b)に示す絶対値距離D(n)を用い、次式(1)に示すように、画面に設定されたブロック(たて18個×よこ22個)について距離D(n)[この場合には絶対値距離を基準としている]の平均値Davを演算して求めており、この計算結果として平均距離Davは約12となり、同図(b)中で斜めの矩形で示す斜線領域部分が画面中心領域となる。   Further, here, in calculating the average distance Dav, the Eucrid distance D (n) shown in FIG. 3A or the absolute value distance D (n) shown in FIG. As shown in the following equation (1), the average value Dav of the distance D (n) (in this case, the absolute value distance is used as a reference) is calculated for the blocks (length 18 × width 22) set on the screen. As a result of this calculation, the average distance Dav is about 12, and the hatched area indicated by the oblique rectangle in FIG.

Figure 2004350300
ただし、N=22×18=396、dd(i,j)は、絶対値距離では、
dd(i,j)=|i−11|+|j−9|
となる。
Figure 2004350300
Where N = 22 × 18 = 396, and dd (i, j) is an absolute value distance.
dd (i, j) = | i-11 | + | j-9 |
It becomes.

(b)対象領域優先モード
1)背景メモリ使用モード
後述する[A−2]対象領域の抽出の領域抽出で得る領域情報に基づいて、人物モードにおいては、あらかじめ用意している背景画像あるいは第1フレームにて伝送した背景画像を用いて背景メモリ66に記憶した背景情報を利用することにより次のようにして制御するモードである。
ア)その後は全く背景に関する情報を伝送しないようにする。
イ)背景情報は伝送するが、周期的に分散して背景の変化情報を送り、徐々に背景を更新していく。
(B) Target area priority mode 1) Background memory use mode In the person mode, a background image or a first image prepared in advance is used in the person mode based on the area information obtained in [A-2] Extraction of target area described later. In this mode, control is performed as follows by using background information stored in the background memory 66 using a background image transmitted in a frame.
A) After that, do not transmit any background information at all.
B) Although background information is transmitted, the background change information is periodically dispersed and sent, and the background is gradually updated.

2)領域重心モード
この領域重心モードでは、前述の画像中心モードの画像中心が対象領域の重心であると考え、それを中心とした領域別量子化制御を駆動するモードである。なお、領域別量子化制御については後述の[A−3]符号化制御の項で説明するのでここでは省略する。
3)対象領域追従モード
このモードは、対象領域が画像面上で移動した場合に、時々刻々と変化する対象領域の重心位置を検出することにより、上述した2)領域重心モードを適用できるようにしたモードである。
2) Region center-of-gravity mode In this region center-of-gravity mode, the image center in the above-described image center mode is considered to be the center of gravity of the target region, and the quantization control for each region is driven around the center. The quantization control for each area will be described later in the section of [A-3] Coding control, and will not be described here.
3) Target area tracking mode In this mode, when the target area moves on the image plane, the above-described 2) area center of gravity mode can be applied by detecting the position of the center of gravity of the target area that changes every moment. It is the mode that did.

(c)動き優先モード
動きブロック数や動きの絶対値量が増えた場合にもフレームレートを落とさないようにしたモードである。ここで、動きの激しさは、後述の[A−3]符号化制御の項の情報発生量に応じた適応制御の説明中で動きの激しさを示す指標AM(式(10)参照)を用いて判定することにより、対象領域優先モード、画面中心優先モード、あるいは後述するモデルベースモードなどを駆動することにより伝送レートを維持するように制御する。
(C) Motion priority mode This is a mode in which the frame rate is not reduced even when the number of motion blocks or the absolute value of motion increases. Here, the intensity of the motion is determined by an index AM (see Expression (10)) indicating the intensity of the motion in the description of the adaptive control according to the information generation amount in the section of [A-3] encoding control described later. By using the determination, the control is performed such that the transmission rate is maintained by driving the target area priority mode, the screen center priority mode, or a model base mode described later.

(d)準動画(INTRAピクチャー)モード
これは、情報量を削減するために、フレームレートを低下させることによって画質を保持しつつ伝送レートを維持するモードである。この場合、動き量によってはフレーム間の相関を利用した圧縮が困難になる場合があるので、その場合にはINTRAピクチャーのみを伝送するようになっている。
(D) Quasi-moving image (INTRA picture) mode In this mode, in order to reduce the amount of information, the transmission rate is maintained while maintaining the image quality by lowering the frame rate. In this case, compression using the correlation between frames may be difficult depending on the amount of motion. In such a case, only the INTRA picture is transmitted.

(e)静止画伝送モード
これは、次の2つの場合が想定されている。
1)符号化制御が破綻する場合
この場合には、まず、符号化器1側でピクチャーフリーズさせた画像信号とし、新たに強制イントラフレームを伝送する。そして、これが完了した後には、動画伝送モードに移行し、動画伝送を再開するモードである。
(E) Still image transmission mode This assumes the following two cases.
1) When the coding control fails In this case, first, the encoder 1 uses the image signal that has been subjected to picture freeze to transmit a new forced intra frame. After this is completed, the mode is shifted to the moving image transmission mode, and the moving image transmission is restarted.

2)誤り等の理由により復号化器2側から再送要求がある場合
復号化器2側でピクチャーフリーズした状態となり、符号化器1側は再送要求に応じて強制イントラフレームを伝送し、この後、動画伝送モードに移行することで上記と同様に動画伝送を再開するモードである。
(f)モデルベース予測モード
1)テクスチャーソースの切り出し
テクスチャーソースは通話開始以前に撮影した最初の正面画像に対して後述する([A−3]対象領域の抽出における)動領域の解析結果によって得た人物領域の画像情報に基づいて行う。
2) When there is a retransmission request from the decoder 2 due to an error or the like, the picture is frozen on the decoder 2 side, and the encoder 1 transmits a forced intra frame in response to the retransmission request. This is a mode in which moving image transmission is resumed in the same manner as described above by shifting to the moving image transmission mode.
(F) Model-based prediction mode 1) Extraction of texture source The texture source is obtained from the analysis result of the moving area (in [A-3] extraction of the target area) to be described later for the first front image taken before the start of the call. This is performed based on the image information of the person region.

2)モデルの選択と適応化
3D(三次元)モデルはあらかじめ各々の2Dテンプレート69a(正面像)に対して奥行き情報を与えることで定義しておく。
3)2Dテンプレートを用いたモデルベース予測と伝送
距離情報については、正面像について2Dテンプレート69aのテンプレート番号とスケーリング値を用いてカメラ特性を用いて計算したテーブルで算出することができる。この正面像については、領域抽出結果に基づく距離情報と画像面上の2D移動量を用いることにより、人物像のモデルベース予測画像を生成することができる。また、電波条件が良好でない場合などにも、2Dのモデルベース画像伝送を行うこともできる。
2) Model Selection and Adaptation A 3D (three-dimensional) model is defined in advance by giving depth information to each 2D template 69a (front image).
3) Model-based prediction and transmission distance information using a 2D template The distance information can be calculated from a table calculated using camera characteristics using the template number and scaling value of the 2D template 69a for the front image. For this front image, a model-based predicted image of a human image can be generated by using the distance information based on the region extraction result and the 2D movement amount on the image plane. Further, even when the radio wave condition is not good, 2D model-based image transmission can be performed.

4)3D運動情報を用いたモデルベース予測
例えば、人物の正面像の2Dテンプレート69aの特徴領域をあらかじめ図16のように定めておき、その2D動き情報に基づいて上半身のテンプレートについて頭部と肩から下の2つの部分をそれぞれ剛体とみなし、N個の特徴領域の2D位置の組から3D位置姿勢を表わす透視変換行列を求めることができる。なお、このように透視変換行列を求めることは、周知技術である空間量子化法などを用いることにより実施可能である。
4) Model-Based Prediction Using 3D Motion Information For example, a characteristic region of a 2D template 69a of a front image of a person is determined in advance as shown in FIG. 16, and the head and shoulders of the upper body template are determined based on the 2D motion information. The two parts below are regarded as rigid bodies, and a perspective transformation matrix representing a 3D position / posture can be obtained from a set of 2D positions of the N feature regions. Note that obtaining the perspective transformation matrix in this manner can be performed by using a well-known technique such as a spatial quantization method.

さらに、このようなことは、この場合においては、事前にテーブル化して記憶しておいても良い程度のもので、このような通信用の位置姿勢推定は、工場内のロボットの制御で行う場合などの位置姿勢認識に比べて高い精度が要求されないことから、視覚的に見て違和感を感じなければ良いという前提があるという根拠に基づくものである。
5)背景メモリ
カメラ3の設置位置が固定されていて通常撮影される背景画像が固定的である場合で、例えば自動車内にカメラ3を固定しているような状況においては、対象領域優先モードの背景メモリ使用モードを用いることができる。
Further, in this case, such a thing may be stored in a table in advance, and such a position and orientation estimation for communication is performed by controlling a robot in a factory. This is based on the ground that there is a premise that there is no need to visually feel uncomfortable because higher accuracy is not required compared to position and orientation recognition.
5) Background Memory When the installation position of the camera 3 is fixed and the background image normally shot is fixed, for example, in a situation where the camera 3 is fixed in a car, the target area priority mode is set. The background memory use mode can be used.

6)モデルベースによる強制イントラフレーム伝送遅れ時間の補償
図17に示すように、自動車電話などの場合においては、通話開始までに実質的に通常10秒以上のセッション準備時間がある。したがって、このようなセッション準備時間中を利用して、セッション開始時点(通話開始時点ではない)で、正面顔を強制イントラフレーム(約30kビット)で伝送する。同時に動き領域の解析やテンプレート修正、3Dモデルの適応化などを通話開始までに完了させる。
6) Compensation of forced intra-frame transmission delay time based on model As shown in FIG. 17, in the case of a car telephone or the like, there is usually a session preparation time of typically 10 seconds or more before the start of a call. Therefore, using such a session preparation time, the front face is transmitted in a forced intra frame (about 30 k bits) at the start of the session (not at the start of the call). At the same time, analysis of the motion area, modification of the template, adaptation of the 3D model, and the like are completed by the start of the call.

また、距離情報Lと2D動き情報に基づく概略の3D動ベクトルを計算する。これにより、通話開始直前のフレームをモデルベースで予測する。これを元にして、通話開始後に第1フレームを動画伝送モードで符号化すれば、強制イントラフレームとして伝送する際に比べて符号量が削減できるため(少なくとも背景領域には効果があると考えられる。)フリーズやフレームレートの低下および画質低下を大幅に緩和することができる。   In addition, an approximate 3D motion vector is calculated based on the distance information L and the 2D motion information. Thus, the frame immediately before the start of the call is predicted on a model basis. Based on this, if the first frame is encoded in the moving image transmission mode after the start of the call, the code amount can be reduced as compared with the case where the first frame is transmitted as a forced intra frame (it is considered to be effective at least in the background area). .) Freezing, reduction in frame rate, and reduction in image quality can be significantly reduced.

(4)H.261規格のものとの互換性
本実施例における符号化器1では、プロトコルによる64kbps以下のビットストリームは、容易にH.261規格のプロトコルに変換することができ、これによって、例えば図18に示すようなプロトコル変換器70,71を構成して互換性を保持することができるようになる。
(4) H. Compatibility with those of the H.261 standard In the encoder 1 in this embodiment, a bit stream of 64 kbps or less according to the protocol can be easily converted to H.264. For example, the protocol converters 70 and 71 shown in FIG. 18 can be configured to maintain compatibility.

なお、H.261規格の画像信号のビットストリームから本実施例の復号化器2におけるプロトコルに変換することは現状においては、画一的に変換する手段がないが、例えばイントラピクチャーによる準動画あるいは静止画モードにおいては接続可能となっている。
図18の構成においては、例えば、符号化器1から送信される符号化ビットストリームを受信すると、プロトコル変換器70は、MBSTUFFなどの冗長コードを付加することにより、9.6kbpsのデータ量をH.261規格の64kbps以上のデータ量となるように変換したり、符号量削減のために可変長符号のシンタックスを変更したものをH.261規格に適合するものに置き換えるなどの符号レベルで実施可能な単純な変換制御を行ってH.261符号化器Saに与えるようになっている。
In addition, H. At present, there is no means for uniform conversion from the bit stream of the image signal of the H.261 standard to the protocol in the decoder 2 of the present embodiment. Is connectable.
In the configuration of FIG. 18, for example, when an encoded bit stream transmitted from the encoder 1 is received, the protocol converter 70 adds a redundant code such as MBSTUFF to reduce the data amount of 9.6 kbps to H. . H.261 is converted to have a data amount of 64 kbps or more, and the syntax of the variable length code is changed to reduce the code amount. H.261 is performed by performing simple conversion control that can be performed at the code level, such as replacing with a code conforming to the H.261 standard. 261 encoder Sa.

一方、プロトコル変換器71においては、上述したように、画一的に変換する手段がないが、イントラピクチャーを伝送すべく、カメラ3の画像信号をH.261復号化器SbによりH.261規格の符号化ビットストリームに変換した出力をシンタックスの変更やモード情報などを付加し、フレームレートを落とすことにより伝送符号量を削減して9.6kbpsの伝送レートに適合するように変換して出力する。
このようにすることによって、H.261規格の符号化器Sa,復号化器Sbと本実施例の符号化器1,復号化器2との間での画像信号の相互変換が可能となり、従来のH.261規格の装置との間でも同様にして画像通信を可能とすることができるようになる。
On the other hand, in the protocol converter 71, as described above, there is no means for performing uniform conversion. H.261 decoder Sb. The output converted to an H.261 coded bit stream is converted so as to conform to a 9.6 kbps transmission rate by reducing the transmission code amount by adding syntax changes, mode information, etc., and reducing the frame rate. Output.
By doing so, H. 261 standard encoders and decoders Sb and the encoders and decoders 2 of the present embodiment can mutually convert image signals. Similarly, image communication can be made possible with an H.261 standard device.

(5)状態の判定とモードの遷移
(a)強制設定
例えば、前述の符号化モードにおいて、1)テクスチャーソースの切り出しのモードと2)モデルの選択と適応化のモードとの間のモード切り換えは、対象領域抽出結果が人物であるかそうでないかによって自動的に切り換えることができるが、これは、ユーザーのマニュアル設定により強制的に切り換えることもできる。
(5) State determination and mode transition (a) Forced setting For example, in the above-mentioned encoding mode, mode switching between 1) texture source cutout mode and 2) model selection and adaptation mode is performed. Can be automatically switched depending on whether the target area extraction result is a person or not, but this can also be forcibly switched by a user's manual setting.

(b)対象領域のカテゴリーの判定
この判定動作に当たっては、図19に示すような使用環境と被写体に関するモード制御の状態遷移図に沿って、各条件を考慮しながらモード進行するようになっている。
1)確率的状態遷移
状態遷移に必要な判定情報が不足している場合には、デフォルトで与えた確率または不完全な情報のもとで選択した遷移確率テーブルを用いて自律的な状態遷移や探索を実行する。これは、例えば次の場合に対応して実行される。
ア)外部から与えられる強制モードがない場合
イ)動領域解析に基づく領域抽出が完了していない場合
ウ)色信号などの信号解析結果が完了していない場合
2)判定情報に基づく決定的状態遷移
これは、図19に示しているように、確率的な基準によらないで、原画像から3フレーム時間程度にわたる動領域解析を後述するように実施し、これによって動き領域や動き発生状況を抽出した後、人物領域を抽出し、形状パラメータの抽出によりテンプレートの選択を行う。テンプレートの適合具合を評価計算で求め、基準を満たせば終了する。満たさない場合は次のテンプレートを選び、同様のプロセスを繰り返す。
(B) Judgment of Category of Target Area In this judgment operation, the mode progresses in consideration of each condition according to a state transition diagram of mode control relating to the use environment and the subject as shown in FIG. .
1) Probabilistic state transition When the judgment information necessary for state transition is insufficient, autonomous state transition or transition using the transition probability table selected based on the probability given by default or incomplete information is performed. Perform a search. This is performed, for example, in the following cases.
A) When there is no forced mode given from outside
B) When area extraction based on moving area analysis has not been completed
C) When signal analysis results such as color signals have not been completed 2) Deterministic state transition based on determination information This is based on the probabilistic criterion, as shown in FIG. A moving area analysis for about a frame time is performed as described later, and after extracting a moving area and a motion occurrence state, a person area is extracted and a template is selected by extracting shape parameters. The conformity of the template is obtained by an evaluation calculation, and the process ends if the criteria are satisfied. If not, select the next template and repeat the process.

(c)状態遷移に基づく判定結果の伝播に基づく遷移確率値の更新
ある判定結果がその後の評価計算において著しい誤差を生み出す場合には、動領域解析モジュールを介した移動体判定の初期節点に戻る際に遷移確率(図中では、移動体nの分岐として、人物側に「0.9」,他の物体側に「0.1」を設定している)を更新する。例えば、初期判定で純然たる確率状態遷移に基づいて人物と判定した領域がその後の2Dテンプレート照合や色解析結果、速度・加速度評価などにより人物とは考えにくい評価関数値を出力する場合、「人らしい」と判断する遷移確率は、「0.9」から「0.2」程度に下げるように変更設定する。
(C) Updating the transition probability value based on the propagation of the judgment result based on the state transition If a certain judgment result causes a significant error in the subsequent evaluation calculation, the process returns to the initial node of the moving object judgment via the moving area analysis module. At this time, the transition probability (in the figure, “0.9” is set on the person side and “0.1” is set on the other object side as the branch of the moving object n) is updated. For example, when an area determined to be a person based on a pure probability state transition in the initial determination outputs an evaluation function value that is unlikely to be a person due to subsequent 2D template comparison, color analysis results, speed / acceleration evaluation, etc. The transition probability for determining “likely” is changed and set so as to be reduced from “0.9” to about “0.2”.

(6)モード選択に至るヒューマンインターフェース
上記で述べた状態判定とモード遷移でも最適な符号化制御は可能だが、モード制御部33により、ヒューマンインターフェース34を介した誘導により、誤った判定を下す確率を激減させることができる。例えば、セッション開始までの準備時間の間にモード制御部34により次に示すようなプロセスを完了しておけば、その後の符号化制御に関するモード移行を順調に実施することができるようになる。
1)ユーザが人物モードを選択してカメラ3の位置方向を見る。
2)ヒューマンインターフェイス34を介して、「正面におすわりください。」というメッセージを音声あるいは表示で通知する。
3)人物が画面中心からずれている場合には、ヒューマンインターフェイス34を介して、「少し右/左にお寄りください。」というメッセージを音声あるいは表示で通知する。(表示方法として、画面隅に子画面を設けて位置を示すこともできる。)
4)第1フレームを強制イントラとして送出する。
5)ヒューマンインターフェイス34を介して、「先方とつながりました。お話しください。」というメッセージを音声あるいは表示で通知する(通話開始可能になる)。
(7)モード情報の伝送
モード情報とそれに伴うテンプレート情報は超低レート伝送に際して支障のない程度の情報量であるので伝送可能であり、この場合には、その伝送は、PIC階層のユーザーデータエリアであるPSPAREに記述された状態で伝送されるようになっている(図30および図50参照)。
(6) Human interface leading to mode selection Although the above-described state determination and mode transition enable optimal coding control, the mode control unit 33 reduces the probability of making an erroneous determination by guidance via the human interface 34. It can be drastically reduced. For example, if the following process is completed by the mode control unit 34 during the preparation time until the start of the session, it is possible to smoothly perform the subsequent mode transition related to the encoding control.
1) The user selects the person mode and looks at the position direction of the camera 3.
2) Via the human interface 34, a message "Please sit in front" is notified by voice or display.
3) When the person is out of the center of the screen, a message "Please slightly move to the right / left" is notified by voice or display via the human interface 34. (As a display method, a sub-screen may be provided at the corner of the screen to indicate the position.)
4) Transmit the first frame as forced intra.
5) Via the human interface 34, a message "Connected to the other party. Please speak" is notified by voice or display (calls can be started).
(7) Transmission of Mode Information The mode information and the accompanying template information have an information amount that does not hinder ultra-low-rate transmission, and can be transmitted. In this case, the transmission is performed in the user data area of the PIC layer. Is transmitted in a state described in PSPARE (see FIGS. 30 and 50).

[A−3]対象領域の抽出
人物などの注視の対象となる対象物領域を動きベクトルやカメラ設定に基づいて抽出する。ここでは演算量を削減するために、その計算はマクロブロック(MBK)単位で行うようになっている。この演算動作と各種モードとの因果関係は、前述したように、図19に示すようになっている。
[A-3] Extraction of target region A target region to be watched, such as a person, is extracted based on a motion vector and camera settings. Here, in order to reduce the amount of calculation, the calculation is performed on a macroblock (MBK) basis. The causal relationship between this operation and various modes is as shown in FIG. 19, as described above.

(1)動ベクトル発生に基づく領域抽出
ここでは、図23に示す動き領域抽出のルーチンのフローチャートにしたがって、最終的に最適テンプレートの決定が行われるプロセスである。また、図24の領域解析の説明図と図25の基本テンプレートの図が参照される。
(a)最大動ベクトルの検出と主領域の推定
H.261などの符号化の規格においては、そのMBKの属性を示すデータとしてのMTP(マクロブロックタイプ)に、動きベクトル発生の有無が情報として含まれている。この場合、H.261規格では、MTP値が2,3,6,8,10の値を示すときが動きベクトルが発生していることを示すデータである(図33参照)。したがって、H.261符号化の動きベクトル検出結果として、例えば図20ないし図22に示すようなMBK属性(MBA,MTP,CBP)の配列ができる。これらの図20ないし22は、2列6段のGOB12個を配列し、各GOBに11列3段のMBK33個を配列してなる画面の各MBK位置に対応した部分にそれぞれMBA値,MTP値,CBP値を示したものである。
(1) Region Extraction Based on Generation of Motion Vector Here, the process of finally determining the optimum template is performed according to the flowchart of the routine for extracting a motion region shown in FIG. Also, reference is made to the explanatory diagram of the region analysis in FIG. 24 and the diagram of the basic template in FIG.
(A) Detection of maximum motion vector and estimation of main region In an encoding standard such as H.261, the presence or absence of generation of a motion vector is included as information in MTP (macroblock type) as data indicating the attribute of the MBK. In this case, H. According to the H.261 standard, when the MTP value indicates a value of 2, 3, 6, 8, or 10, it is data indicating that a motion vector is generated (see FIG. 33). Therefore, H. As the motion vector detection result of the H.261 coding, for example, an array of MBK attributes (MBA, MTP, CBP) as shown in FIGS. FIGS. 20 to 22 show MBA values and MTP values in portions corresponding to each MBK position on a screen in which 12 GOBs in 2 rows and 6 rows are arranged and 33 MBKs in 11 rows and 3 rows are arranged in each GOB. , CBP values.

ここで最も動きベクトルの大きさが大きいブロックを含む領域を主領域とする。なお、動きベクトルの大きさの評価においては、あらかじめカメラ3の移動に伴う動き成分であるパニングベクトルを差し引いておく。このパニングベクトルについては、周知の色々な計算方法があるが、例えば、簡易計算方法として画面周辺部の動きベクトルの平均を計算することにより得ることができる。   Here, an area including a block having the largest motion vector is defined as a main area. In the evaluation of the magnitude of the motion vector, a panning vector which is a motion component accompanying the movement of the camera 3 is subtracted in advance. There are various well-known calculation methods for the panning vector. For example, the panning vector can be obtained by calculating an average of motion vectors in a peripheral portion of the screen as a simple calculation method.

(b)時間方向の解析
上述の場合に、ただ1フレームについてのみ上記のブロック属性配列を調べたのでは対象物領域を特定することは困難である。そこで、図24(a),(b)に示すように、3フレーム時間程度に渡って時間方向の解析を行う(図19も参照,図23ステップD1)。特に動きベクトルの発生領域については、3フレーム分を重ね合わせた状態で得られるパターン(図23ステップD2)について、その重心位置を求めて(ステップD3)各ブロック位置に関する動きベクトルを次に示すように設定された判定回数に基づいて判定する(ステップD4)。
ア)重心からの距離があるしきい値を超えるブロックについては3回に2回以上のとき
イ)重心からの距離があるしきい値以下のブロックについては3回に1回以上のとき
次に、得られた動きベクトルによる対象領域の中から孤立点領域や雑音領域の除去を行い(ステップD5)、残った対象領域の重心を再度計算し(ステップD6)、さらに対象領域の高さhと幅wを求める。この後、例えば、人物頭部であるならば2Dテンプレート頭部を(h,w)でスケーリングしてカメラ3までの概略距離L0を求める(ステップD7)。この後、さらに高精度にテンプレート当てはめを行うためには、以下に示すようにする(ステップD8)。
(B) Analysis in the Time Direction In the above case, it is difficult to identify the target object area by examining the block attribute array only for one frame. Therefore, as shown in FIGS. 24A and 24B, analysis in the time direction is performed for about three frame times (see also FIG. 19, step D1 in FIG. 23). In particular, regarding the region where the motion vector is generated, the center of gravity of the pattern (Step D2 in FIG. 23) obtained by superimposing three frames is obtained (Step D3). (Step D4).
A) When the distance from the center of gravity exceeds a certain threshold, two or more times three times. A) When the distance from the center of gravity is equal to or less than three times for blocks below a certain threshold value. Then, an isolated point region and a noise region are removed from the target region by the obtained motion vector (step D5), the center of gravity of the remaining target region is calculated again (step D6), and the height h of the target region and Find the width w. Thereafter, for example, if the head is a human head, the 2D template head is scaled by (h, w) to obtain the approximate distance L0 to the camera 3 (step D7). Thereafter, in order to perform template fitting with higher accuracy, the following is performed (step D8).

(c)2Dテンプレートの照合とスケーリング
まず、動きブロックで構成されるブロックパターンを判別し、特徴量を抽出する。ここで、人物モードがあらかじめマニュアルで選択されていれば、図25に示すように2Dパターンデータベース27から人物モードの基本テンプレートを選択することができるようになる。
(C) Collation and Scaling of 2D Template First, a block pattern composed of motion blocks is determined, and a feature amount is extracted. Here, if the person mode is manually selected in advance, the basic template of the person mode can be selected from the 2D pattern database 27 as shown in FIG.

ここで、基本テンプレートとしては、判定木(図19参照)であらかじめ予想されるモードに応じて人物上半身,全身,頭部のみなどの正面像の2Dテンプレートがデフォルトパターンとして用意されている。次に選択したテンプレートを適応的に形状を修正する。この修正には、重心合わせ、スケーリング、局所的伸縮(図24(c)参照)が含まれる。ここで、最適テンプレートの選択と修正において、後述する式(2)に示す評価関数Fの値を計算する。
ア)時間方向の解析で求めたテンプレートよりも若干小さいテンプレートL(<L0)から開始する。
イ)動きブロックのみを抽出した画像にテンプレートをオーバレイし、その領域内に含まれる動ベクトルブロックの個数NMBK(L)を計算する。
ウ)スケールを大きくする(距離Lを小さくする)。
エ)Lが一定値Lmin 以下になれば次に進む。それ以外の場合にはイ)に戻る。
オ)次の評価関数Fが最大値Fmax を取るところを最適なLとする。
F=−B×NMBK(L) …(2)
ここで、BはNMBK(L)の曲線のLに関する二次微分値である。
あるいは、これを離散的表現になおすと、
F=−B(n)×NMBK(Ln ) …(2a)
B(n)=A(n)−A(n−1)
A(n)=NMBK(Ln )−NMBK(Ln-1 )
となる。
Here, as the basic template, a 2D template of a front image such as only a person's upper body, the whole body, or the head is prepared as a default pattern according to the mode predicted in advance in the decision tree (see FIG. 19). Next, the shape of the selected template is modified adaptively. This correction includes centroid alignment, scaling, and local stretching (see FIG. 24C). Here, in the selection and correction of the optimal template, the value of the evaluation function F shown in Expression (2) described later is calculated.
A) Start with a template L (<L0) that is slightly smaller than the template obtained in the analysis in the time direction.
B) Overlay a template on an image in which only a motion block is extracted, and calculate the number NMBK (L) of motion vector blocks included in the area.
C) Increase the scale (decrease the distance L).
D) If L becomes equal to or less than the fixed value Lmin, the process proceeds to the next step. Otherwise, return to a).
E) The point where the next evaluation function F takes the maximum value Fmax is defined as the optimum L.
F = −B × NMBK (L) (2)
Here, B is the second derivative of L of the curve of NMBK (L).
Or, if we translate this into a discrete representation,
F = −B (n) × NMBK (Ln) (2a)
B (n) = A (n) -A (n-1)
A (n) = NMBK (Ln) -NMBK (Ln-1)
It becomes.

(d)量子化スケール情報を含む2Dテンプレート
2Dテンプレートは二値表現も可能であるが、後述するように、各MBK属性配列値をあらかじめモデルに対応してテンプレートで表現することもできる。これは、後述するように、例えば、図42,43に示すような量子化スケールが考えられる。
(e)2D移動パターンの分析
画面から人物が移動するパターンとしては、図25にも示しているように、水平横移動(図中横方向に並べた図に対応),カメラ光軸方向の移動(図中縦方向に並べた図に対応)が考えられる。
(D) 2D Template Containing Quantization Scale Information Although a 2D template can be expressed in a binary form, as will be described later, each MBK attribute array value can be expressed in a template corresponding to a model in advance. This may be a quantization scale as shown in FIGS. 42 and 43, for example, as described later.
(E) Analysis of 2D Movement Pattern As shown in FIG. 25, a pattern in which a person moves from the screen is a horizontal and horizontal movement (corresponding to the figure arranged in the horizontal direction in the figure), and a movement in the camera optical axis direction. (Corresponding to the figures arranged vertically in the figure).

(2)3Dモデルに基づく2Dテンプレートの生成
図12,図13に示したように、限定された環境下における人物モードでは、3Dモデルの透視変換により図25と同等の2Dテンプレートを作成することができる。これにより、上半身、頭部、目、口、鼻などの部位の獲得をすることができるようになる。ただし、正面像以外では、対象人物のカメラ3に対する位置姿勢を求めることが必要となるが、ここでは一般的な方法に依存することとしてその内容まで言及しない。
(2) Generation of 2D Template Based on 3D Model As shown in FIGS. 12 and 13, in the person mode in a limited environment, it is possible to create a 2D template equivalent to FIG. 25 by perspective transformation of the 3D model. it can. This makes it possible to acquire parts such as the upper body, head, eyes, mouth, and nose. However, other than the front image, it is necessary to obtain the position and orientation of the target person with respect to the camera 3, but the details will not be described here as they depend on a general method.

(3)対象領域のカテゴリーの判定
(a)状態遷移グラフに基づく判定
図19に示したモード制御の状態遷移図では、対象領域のカテゴリーを特定する判定木が部分図として含まれている。この判定木上の節点間の遷移は、前述のデフォルト確率に基づく確率探索と判定情報に基づく確率探索との2通りの探索を使用して行うようになっている。
(3) Judgment of Category of Target Area (a) Judgment Based on State Transition Graph In the state transition diagram of mode control shown in FIG. 19, a judgment tree for specifying the category of the target area is included as a partial diagram. The transition between nodes on the decision tree is performed using two types of searches, the above-described probability search based on the default probability and the probability search based on the determination information.

(b)MBK属性を利用した判定
変化のあったブロックの内で、特に細かいテクスチャー変化のあったブロックについては、CBPのスコア値が高くなることが予想されるので、例えば、人物上半身モードにおける頭部領域の判定の根拠として用いることができる。
(4)背景メモリ
強制イントラフレームが伝送された時点では、常に領域抽出処理を行い、これによって、特に背景部分の情報を背景メモリ32に格納するという処理を符号化器1において行うようになっており、このような処理は復号化器2の背景メモリ66においても行うようになっている。これは、動きや色の変化が激しくなったと判断したときにデータ伝送量を増やさないために、そのフレームにおける背景情報を背景メモリ32に記憶したデータで代用しようとするものである。
(B) Judgment Using MBK Attribute Of the blocks that have changed, particularly the blocks that have undergone minute texture changes are expected to have a high CBP score value. This can be used as a basis for determining a partial area.
(4) Background Memory At the time when the forced intra frame is transmitted, the area extraction processing is always performed, whereby the processing of storing the information of the background part in the background memory 32 is performed in the encoder 1. Such processing is also performed in the background memory 66 of the decoder 2. This is to substitute the background information in the frame with the data stored in the background memory 32 in order not to increase the amount of data transmission when it is determined that the movement or color change has become severe.

すなわち、図26,図27,28に示すように、現在符号化中の背景領域をすべてFIXDに設定し、ユーザーデータエリアにおいて背景メモリ使用を宣言しておくのである。そして、これに基づいて、復号化器2側では背景メモリ66から最新の背景情報を呼び出し、伝送されてきた人物画像などの対象領域情報とオーバレイさせて画像を再現するのである。   That is, as shown in FIGS. 26, 27, and 28, all background areas currently being encoded are set to FIXD, and use of the background memory is declared in the user data area. Based on this, the decoder 2 calls the latest background information from the background memory 66 and reproduces the image by overlaying it with the transmitted target area information such as a human image.

図26においては、超低レート化を図るための符号化制御の概略を示しており、複数フレームの画像信号に基づいて動き領域を分析して領域を抽出し、背景領域と人物領域を得れば、これに基づいて領域別量子化制御を行うと共に有意係数の個数制御を行う。また、一方で符号化レートの設定とモード情報の付加を行いながらバッファ量に応じて符号化制御を行うようになっている。人物領域を抽出する場合には、図27(a)に示すようなCIF形式におけるGOBのMBKの単位で領域を特定するので、背景領域についても同様にして得ることができる(同図(b)参照)。   FIG. 26 shows an outline of coding control for achieving a very low rate, and it is possible to extract a region by analyzing a motion region based on image signals of a plurality of frames to obtain a background region and a person region. For example, based on this, the quantization control for each region is performed and the number of significant coefficients is controlled. On the other hand, encoding control is performed according to the buffer amount while setting the encoding rate and adding mode information. In the case of extracting a person region, the region is specified in the unit of the MBK of the GOB in the CIF format as shown in FIG. 27A, so that the background region can be obtained similarly (FIG. 27B). reference).

図28は背景メモリ32に記憶したデータを用いる場合の概念的なものを示しており、符号化器1側で領域解析を行って得た背景領域のデータが背景メモリ32(図では背景メモリ1)に記憶され、動画モードを開始して動画を送信している途中では随時新しい背景領域のデータを取り入れて記憶するようにしている。そして、復号化器2側でも同様にして背景領域のデータを記憶するようにしており、通信中に通信路の悪化などによりデータの送信が中断する場合などには復号化器2側で背景メモリに記憶した背景領域のデータにより画面を再生すると共に、再送要求を符号化器1側に送信するなどして動画伝送が復帰までの間の画像再現を補うものである。   FIG. 28 shows a conceptual example in the case of using the data stored in the background memory 32. The data of the background area obtained by performing the area analysis on the encoder 1 side is stored in the background memory 32 (in the figure, the background memory 1). ), And during the transmission of the moving image in the moving image mode, data of a new background area is taken in and stored at any time. The decoder 2 also stores the data in the background area in the same manner. If the data transmission is interrupted due to the deterioration of the communication path during communication, the background memory is stored in the decoder 2. In addition to playing back the screen using the data of the background area stored in the memory, the retransmission request is transmitted to the encoder 1 side to supplement the image reproduction until the moving image transmission is restored.

[A−4]符号化制御動作
この符号化制御動作については、図29に全体の概略的な動作内容について示されている。図30はH.261規格における符号化ビットストリームのシンタックスを示す一般的なものである。以下においては、これらの図29,30に基づいた符号化制御動作の詳細について項目別に説明する。
[A-4] Encoding Control Operation This encoding control operation is schematically illustrated in FIG. FIG. It is a general one that shows the syntax of an encoded bit stream in the H.261 standard. In the following, details of the encoding control operation based on FIGS. 29 and 30 will be described for each item.

(1)ビットストリームシンタックスの変更
H.261のシンタックス(図30参照)における冗長なヘッダを、超低レート化のために削除する。このために、CIF構造におけるGOBの配置は変更しないが、図31に示すような画面を構成する12個のGOBに対して、GOBの開始ヘッダとしてのGBSC(16ビット)とGOB番号コード(4ビット)の個数を左側のGOBのみに付して右側半分については無くすことによりデータの量を半分に減らす(図32参照)。これにより、1フレーム当たりに20×6=120ビットを削減することができるようになる。
(1) Change of bit stream syntax The redundant header in the syntax of H.261 (see FIG. 30) is deleted in order to achieve a very low rate. For this reason, the arrangement of GOBs in the CIF structure is not changed. However, for 12 GOBs constituting a screen as shown in FIG. 31, GBSC (16 bits) and GOB number code (4 The amount of data is reduced by half by adding the number of bits to only the left GOB and eliminating the right half (see FIG. 32). This makes it possible to reduce 20 × 6 = 120 bits per frame.

(2)可変長符号化(VLC)テーブルの適応切り換え
(a)符号語の置換
図33にH.261規格のMTP(マクロブロックタイプ)属性の可変長符号を示す。例えば、超低レートにおける発明者の実験結果によると、人物画像に対する各MTPの値の発生確率は図34に示す順序となっている。したがって、図34に示す順序に応じてMTP値に対する可変長符号を置換することにより、属性記述のためのビット数を削減することができるようになる。この置換パターンは、例えば数個に限定しておくことにより、どれを選ぶかをユーザーデータエリアに書き込むことにしておけば、復号化器2側においても状況に応じて変更するなどの適応化を柔軟に行うことができるようになる。
(2) Adaptive switching of variable length coding (VLC) table (a) Replacement of codeword 26 shows a variable length code having an MTP (macro block type) attribute of the H.261 standard. For example, according to the experimental results of the inventor at an extremely low rate, the occurrence probabilities of the values of each MTP for a human image are in the order shown in FIG. Therefore, the number of bits for attribute description can be reduced by replacing the variable length code for the MTP value according to the order shown in FIG. This replacement pattern is limited to a few, for example, so that which one is to be selected is written in the user data area. It can be done flexibly.

なお、実験結果では、対象物領域においてMTPの値が2または3になることが大半であり、人物上半身のモードの場合、双方の合計は100〜150個程度に達するため、それぞれ符号長を1と2(現在は2と3)に変更することにより、1フレームあたりで200〜300ビット程度のビット数の削減が行えることがわかった。
(3)属性の判定特性の適応制御
(a)領域情報を用いたMTP判定の適応制御
1)背景領域については、領域情報を用いてFIX(固定)あるいはNOMC(動き補償なし)とすることができる。
2)対象領域については、人物特に顔についてはMC−CO(動き補償と符号化)と判定する。
In most experimental results, the MTP value is 2 or 3 in the object region, and in the case of the mode of the upper body of a person, the total of both reaches about 100 to 150. It has been found that the number of bits can be reduced by about 200 to 300 bits per frame by changing to 2 and 3 (currently 2 and 3).
(3) Adaptive control of attribute determination characteristics (a) Adaptive control of MTP determination using region information 1) For background region, FIX (fixed) or NOMC (no motion compensation) using region information it can.
2) Regarding the target area, it is determined that MC-CO (motion compensation and coding) is applied to a person, especially a face.

(b)INTER/INTRA判定の適応制御
通常、64kbps以上のH.261規格で推奨されるINTER/INTRA判定の特性曲線は、図35に示すようになる。この場合において、PVARはMBKの4つのYブロックに関するフレーム間予測誤差電力和を示し、QVARはMBKの4つのYブロックに関する入力画像のフレーム内分散の値を表している。そして、64kbps以下のレートにおいては、以下のように判定する。
1)誤りの伝播を防止するために周期的に分散して強制INTRAを入れる。
2)しきい値TH_INTRAを例えば次のように設定する。FIFOバッファ11の充填率RBを次式(3)により求め、その充填率RBに対して比較基準値RB1,RB2などで判定してしきい値TH_INTRAを設定する。
RB=BUFF/BUFF_MAX …(3)
(B) Adaptive control of INTER / INTRA determination Normally, H.264 or higher kbps A characteristic curve of the INTER / INTRA determination recommended in the H.261 standard is as shown in FIG. In this case, PVAR indicates the sum of the inter-frame prediction error powers for the four Y blocks of the MBK, and QVAR indicates the value of the intra-frame variance of the input image for the four Y blocks of the MBK. Then, at a rate of 64 kbps or less, determination is made as follows.
1) In order to prevent the propagation of an error, a forced INTRA is periodically dispersed.
2) The threshold value TH_INTRA is set as follows, for example. The filling rate RB of the FIFO buffer 11 is obtained by the following equation (3), and the filling rate RB is determined based on the comparison reference values RB1 and RB2, and the threshold value TH_INTRA is set.
RB = BUFF / BUFF_MAX (3)

この場合、RB,BUFF,BUFF_MAXは、それぞれFIFOバッファ11に関して、現在の充填率,現在の使用ビット数,最大ビット容量を示しており、以下の3つのケースに別けて判定する。
〈ケース1〉 0 ≦RB<RB1
〈ケース2〉 RB1≦RB<RB2
〈ケース3〉 RB2≦RB
判定結果に応じて各ケースに対応してしきい値TH_INTRAを下記のように設定する。
In this case, RB, BUFF, and BUFF_MAX indicate the current filling rate, the current number of bits used, and the maximum bit capacity for the FIFO buffer 11, respectively, and are determined separately for the following three cases.
<Case 1> 0 ≦ RB <RB1
<Case 2> RB1 ≦ RB <RB2
<Case 3> RB2 ≦ RB
The threshold value TH_INTRA is set as follows according to each case according to the determination result.

〈ケース1〉 TH_INTRA=64×256
〈ケース2〉 TH_INTRA=64×256 (対象領域の主要部)
TH_INTRA=64×512 (対象領域の主要部以外)
TH_INTRA=64×1024(背景領域)
〈ケース3〉 TH_INTRA=64×256 (対象領域の主要部)
TH_INTRA=64×1024(対象領域の主要部以外)
TH_INTRA=64×2048(背景領域)
なお、上述の場合で、領域情報が明確でない場合には、画像中心優先モードあるいは対象領域重心モードの項で示したように、重心からの距離が一定範囲の領域を対象領域として定義する。そして、以下のようにしてしきい値TH_INTRAを制御する。
<Case 1> TH_INTRA = 64 × 256
<Case 2> TH_INTRA = 64 × 256 (main part of target area)
TH_INTRA = 64 × 512 (other than the main part of the target area)
TH_INTRA = 64 × 1024 (background area)
<Case 3> TH_INTRA = 64 × 256 (main part of target area)
TH_INTRA = 64 × 1024 (other than the main part of the target area)
TH_INTRA = 64 × 2048 (background area)
In the case described above, if the region information is not clear, as shown in the section of the image center priority mode or the target region centroid mode, a region whose distance from the center of gravity is within a certain range is defined as the target region. Then, the threshold value TH_INTRA is controlled as follows.

R_IR=IR_MBK/IRMBK_MEAN …(4)
NTH=TH_INTRA×(R0+R_IR) …(5)
RPQ=PVAR/(QVAR×R_IR) …(6)
ここで、IR_MBKは対象領域の重心から現在符号化中のMBKまでの距離を示し、IRMBK_MEANは対象領域の重心からすべてのMBKまでの平均距離を示している。
R_IR = IR_MBK / IRMBK_MEAN (4)
NTH = TH_INTRA × (R0 + R_IR) (5)
RPQ = PVAR / (QVAR × R_IR) (6)
Here, IR_MBK indicates the distance from the center of gravity of the target area to the MBK currently being encoded, and IRMBK_MEAN indicates the average distance from the center of gravity of the target area to all MBKs.

そして、上述の式から得られる値に対して、
PVAR≦NTH または RPQ_VAR≦1.00
である場合には、INTERと判定し、これ以外の場合にはINTRAと判定する。この場合に、例えば、R0の値は0.5と設定する。
(c)動き補償の有無判定
通常、64kbps以上のH.261規格で推奨される動き判定の特性曲線は図36に示すようになる。この図36において、横軸は動き補償のない場合のフレーム間の誤差和FDSUMの値を示しており、縦軸は動き補償をした場合の誤差和MVSUMの値を示している。この場合、図中、動き補償(MC_ON)がある領域は2個の直線の傾きを示すパラメータGD1,GD2と2個のFDSUMに対するしきい値を示すパラメータIEV1,IEV2とにより囲まれる領域に設定されている。64kbps以下のレートにおいては、バッファ量と領域により以下のように特性曲線のパラメータセット(GD1,GD2,IEV1,IEV2 )の各値を変更する。なお、バッファ充填率RBは前述の式(3)で表現される。
RB=BUFF/BUFF_MAX …(3)
この場合、RB,BUFF,BUFF_MAXは、それぞれFIFOバッファ11に関して、現在の充填率,現在の使用ビット数,最大ビット容量を示している。
Then, for the value obtained from the above equation,
PVAR ≦ NTH or RPQ_VAR ≦ 1.00
Is determined as INTER, otherwise, determined as INTRA. In this case, for example, the value of R0 is set to 0.5.
(C) Judgment of presence / absence of motion compensation Normally, H.264 or more at 64 kbps FIG. 36 shows a characteristic curve for motion determination recommended in the H.261 standard. In FIG. 36, the horizontal axis indicates the value of the error sum FDSUM between frames without motion compensation, and the vertical axis indicates the value of the error sum MVSUM with motion compensation. In this case, in the drawing, the area where the motion compensation (MC_ON) is located is set to an area surrounded by parameters GD1 and GD2 indicating the slopes of two straight lines and parameters IEV1 and IEV2 indicating the threshold values for the two FDSUMs. ing. At a rate of 64 kbps or less, each value of the parameter set (GD1, GD2, IEV1, IEV2) of the characteristic curve is changed as follows depending on the buffer amount and area. Note that the buffer filling rate RB is expressed by the above equation (3).
RB = BUFF / BUFF_MAX (3)
In this case, RB, BUFF, and BUFF_MAX indicate the current filling rate, the current number of bits used, and the maximum bit capacity for the FIFO buffer 11, respectively.

〈ケース1〉 0 ≦RB<RB1
この場合には、すべての領域について従来の動き判定を用いる。したがって、判定特性のパラメータセットの各値は次のように設定される。
(GD1,GD2,IEV1,IEV2 )=( 0.50, 0.91, 256, 256 ×3 )
〈ケース2〉 RB1≦RB<RB2
この場合には、対象領域を囲む一回り大きな矩形領域(フレーム間の動き範囲を考慮してテンプレート毎に自動的に設定)RMの内部では通常の動き判定特性を用いる。したがって、判定特性のパラメータセットの各値は次のように設定される。
(GD1,GD2,IEV1,IEV2 )=( 0.50, 0.91, 256, 256 ×3 )
また、上記以外の領域(背景領域に相当)QMでは動き判定のしきい値を高く設定する。
(GD1,GD2,IEV1,IEV2 )=( 0.40, 0.80, 256×2, 256×4 )
〈ケース3〉 RB2≦RB≦RB3
この場合には、RMの主領域では、
(GD1,GD2,IEV1,IEV2 )=( 0.50, 0.91, 256, 256 ×3 )
RMの主領域以外では、
(GD1,GD2,IEV1,IEV2 )=( 0.40, 0.80, 256×2, 256×4 )
QMでは、
(GD1,GD2,IEV1,IEV2 )=( 0.20, 0.50, 256×4, 256×8 )
〈ケース4〉 RB3<RB
この場合には、次のいずれかを選択する。
1)準動画モードに移行し、フレームレートを落とす
2)モデルベースモードに移行する
3)ピクチャーフリーズモードにする
<Case 1> 0 ≦ RB <RB1
In this case, the conventional motion determination is used for all areas. Therefore, each value of the parameter set of the determination characteristic is set as follows.
(GD1, GD2, IEV1, IEV2) = (0.50, 0.91, 256, 256 x 3)
<Case 2> RB1 ≦ RB <RB2
In this case, a normal motion determination characteristic is used inside a slightly larger rectangular area surrounding the target area (automatically set for each template in consideration of the motion range between frames) RM. Therefore, each value of the parameter set of the determination characteristic is set as follows.
(GD1, GD2, IEV1, IEV2) = (0.50, 0.91, 256, 256 x 3)
In addition, the threshold value of the motion determination is set high in an area QM other than the above (corresponding to the background area).
(GD1, GD2, IEV1, IEV2) = (0.40, 0.80, 256x2, 256x4)
<Case 3> RB2 ≦ RB ≦ RB3
In this case, in the main area of the RM,
(GD1, GD2, IEV1, IEV2) = (0.50, 0.91, 256, 256 x 3)
Outside of the main area of RM,
(GD1, GD2, IEV1, IEV2) = (0.40, 0.80, 256x2, 256x4)
In QM,
(GD1, GD2, IEV1, IEV2) = (0.20, 0.50, 256x4, 256x8)
<Case 4> RB3 <RB
In this case, select one of the following.
1) Move to the quasi-video mode and reduce the frame rate
2) Move to model base mode
3) Set to picture freeze mode

(4)過去の符号化属性の利用
(a)MBKレイヤの各符号化属性の特徴
属性メモリ22に格納される各フレームのMBK属性はCIF上のMBK位置に対応して示すと1フレーム当たり22×18の配列となる。
1)MBA(マクロブロックアドレス)
3フレーム目あたりから対象領域に相当するところが有意な符号化ブロックとしてMBAが付与されるようになる。特に、MBAが2以上の値を示すMBK (マクロブロック)は対象領域の輪郭部分に相当することが多い。そこで、図37のフローチャートおよび図38,図39に示すように、1フレーム前のMBAパターンをNOT_FIXED(NFX)パターンに変換することにより(図37中ステップE1,図38(a),(b)参照)、領域情報の平均動きベクトルとテンプレート情報を用いて1フレーム先のMBA配列を推定して表現することができるようになる(ステップE2〜E6,図39参照)。
(4) Use of past coding attributes (a) Characteristics of each coding attribute of MBK layer The MBK attribute of each frame stored in the attribute memory 22 is expressed as 22 MB per frame when corresponding to the MBK position on the CIF. It becomes an array of × 18.
1) MBA (macro block address)
MBA is assigned as a significant encoded block in a portion corresponding to the target region from around the third frame. In particular, an MBK (macroblock) whose MBA indicates a value of 2 or more often corresponds to the outline of the target area. Therefore, as shown in the flowchart of FIG. 37 and FIGS. 38 and 39, the MBA pattern of one frame before is converted into a NOT_FIXED (NFX) pattern (steps E1 in FIG. 37, FIGS. 38A and 38B). ), The MBA array one frame ahead can be estimated and expressed using the average motion vector of the area information and the template information (see steps E2 to E6 and FIG. 39).

そして、このようなMBAパターンの推定値を用いて符号化を制御すると共に、テンプレート情報および動きベクトルを符号化して伝送する(ステップE7,E8)。これに対して、復号化器2側においては、テンプレート情報と動きベクトルにより、一意的に1フレーム分のMBA配列が再現できるようになる。
2)MTP(マクロブロックタイプ)
ア)INTER/INTRA混在(通常のフレーム)
超低レートでは実験により、動きを有する対象領域(人物など)の大半がMTP=2,3でラベリングされることがわかっている。そこで、後述する情報発生量に応じた適応制御における判定に基づいて、図40のフローチャートおよび図41に示すように、特に激しい動きの発生がなければ、領域情報の平均動きベクトルとテンプレート情報を用いて1フレーム先のMTP配列を表現することができる(図40中ステップF1〜F3,図41参照)。
Then, the encoding is controlled using the estimated value of the MBA pattern, and the template information and the motion vector are encoded and transmitted (steps E7 and E8). On the other hand, on the decoder 2 side, the MBA array for one frame can be uniquely reproduced by the template information and the motion vector.
2) MTP (macro block type)
A) INTER / INTRA mixed (normal frame)
At very low rates, experiments have shown that most of the moving target areas (such as people) are labeled with MTP = 2,3. Therefore, based on the determination in the adaptive control according to the information generation amount described later, as shown in the flowchart of FIG. 40 and FIG. 41, if no particularly severe movement occurs, the average motion vector of the area information and the template information are used. Thus, the MTP array one frame ahead can be expressed (see steps F1 to F3 in FIG. 40 and FIG. 41).

そして、その予測したMTP値に基づいて1フレーム分の符号化を進め(ステップF4)、テンプレート情報と領域別の動きベクトルを符号化して伝送する (ステップF5)。一方、復号化器2側においては、テンプレート情報と動きベクトルにより、一意的に1フレーム分のMTP配列を再現することができるようになる。
イ)強制イントラフレーム
強制イントラフレームは、ユーザーデータで宣言してあれば、その後においては、MTP=4とするデータやMBA=1とするデータの記述は不要となる。したがって、これによって、5 ×22×18=1980ビットつまり約2kビットの節約をすることができるようになる。
Then, the encoding for one frame is advanced based on the predicted MTP value (step F4), and the template information and the motion vector for each area are encoded and transmitted (step F5). On the other hand, the decoder 2 can uniquely reproduce one frame of the MTP array based on the template information and the motion vector.
A) Forced intra-frame If the forced intra-frame is declared in user data, there is no need to describe data with MTP = 4 or data with MBA = 1 thereafter. Thus, this allows a saving of 5 × 22 × 18 = 1980 bits, or about 2 k bits.

3)QSC(量子化スケール)
QSCは32kbps以下ではすべて31(量子化ステップ62)に固定し、領域分析から決定される主領域のみ16(量子化ステップ32)とする。したがって、超低レートの内でも特に16kbps以下の人物モードにおいてはQSC情報は伝送しないようにする。したがって、GOBレイヤにおけるQSC情報の記述は不要になり、これによって、情報量としては12×5 =60ビットの削減をすることができる。加えて、MBK単位の量子化スケールの変更情報を伝送することも不要となる。
3) QSC (quantization scale)
The QSC is fixed at 31 (quantization step 62) for all 32 kbps or less, and is set to 16 (quantization step 32) only for the main area determined from the area analysis. Therefore, QSC information is not transmitted even in a person mode of 16 kbps or less even at an extremely low rate. Therefore, the description of the QSC information in the GOB layer becomes unnecessary, and as a result, the information amount can be reduced by 12 × 5 = 60 bits. In addition, there is no need to transmit quantization scale change information in MBK units.

この場合において、人物モードの領域別量子化については図42(a)にその例を示し、量子化テンプレートは同図(b)に例を示している。また、図43には、量子化テンプレートのモデルベース伝送を行う場合の符号化器1と復号化器2との間のデータのやり取りについてその概要を示しており、図44のフローチャートにおいては、量子化スケールQSCの値の設定に関する流れのルーチンを示している。   In this case, FIG. 42A shows an example of quantization by region in the person mode, and FIG. 42B shows an example of quantization template. FIG. 43 shows an outline of data exchange between the encoder 1 and the decoder 2 when performing model-based transmission of a quantization template. In the flowchart of FIG. 9 shows a flow routine relating to the setting of the value of the optimization scale QSC.

4)MVD(差分動きベクトル)
MVDはフレーム内の水平方向の動きベクトル変化であるので、非剛体運動あるいは回転運動において「0」でない値が発生する。人物に対しては顔の表情変化に起因する動きや頭部,上半身のエッジ部分の三次元回転などがそれに相当する。これらは瞬時に発生するため、差分ベクトルの形で予測する場合の予測効率はあまり良くない。そこで、このような差分ベクトルを動きベクトルになおした形でしかも領域単位の平均2D動きベクトルとして予測する。
4) MVD (difference motion vector)
Since MVD is a horizontal motion vector change in a frame, a value other than “0” occurs in non-rigid motion or rotational motion. For a person, a motion caused by a change in facial expression, a three-dimensional rotation of an edge portion of the head and upper body, and the like correspond to the motion. Since these occur instantaneously, the prediction efficiency when predicting in the form of a difference vector is not very good. Thus, such a difference vector is predicted as a motion vector in the form of a motion vector, and as an average 2D motion vector per area.

ここで、MVDの発生位置はMTPで動き補償があると宣言されているMBKに限る。通常、この大半は、MTP=2,3で表される。これにより、2フレームに1回程度はMVD情報を抑制することができるようになる。なお、図45は領域別平均動きベクトルによる符号量の削減のためのルーチンのフローチャートを示しており、図46はその内容の概略をパターンの推移図で示している。   Here, the MVD occurrence position is limited to the MBK declared to have motion compensation by MTP. Usually, most of this is represented by MTP = 2,3. This makes it possible to suppress the MVD information about once every two frames. Note that FIG. 45 shows a flowchart of a routine for reducing the code amount by the average motion vector for each region, and FIG. 46 shows the outline of the contents in a pattern transition diagram.

5)CBP(符号化ブロックパターン)
CBPはMBKに含まれる6個のBLK(ブロック)の各々について符号化するか否かをビット情報で示すものである。そこで、このCBPの値をYUVベクトルに変換することにより、領域情報の平均動きベクトルとテンプレート情報を用いて1フレーム先のCBP配列を表現することができる。一方、復号化器2側ではテンプレート情報と動きベクトルにより一意的に1フレーム分のCBP配列が再現できるようになる。なお、図47は領域別動き補償予測のルーチンのフローチャートを示しており、図48はその内容の概略をパターンの推移図で示している。
5) CBP (encoded block pattern)
The CBP indicates by bit information whether or not to encode each of the six BLKs (blocks) included in the MBK. Therefore, by converting the CBP value into a YUV vector, the CBP array one frame ahead can be expressed using the average motion vector of the area information and the template information. On the other hand, on the decoder 2 side, the CBP array for one frame can be uniquely reproduced by the template information and the motion vector. FIG. 47 shows a flowchart of a routine for motion compensation prediction for each area, and FIG. 48 shows an outline of the contents in a pattern transition diagram.

(b)領域情報を用いたMBK属性の符号量削減
1)2フレームに1回の属性符号化
以上のように、テンプレート情報と領域別の平均動きベクトルを用いた動き補償により、1フレーム分のパターン属性の予測を行うことができ、復号化器2側でも一意的に再現することができるようになる。なお、予測したパターン属性は復号化器2のみならず符号化器1側においてもすべて確実に符号化制御に反映させることができる。
(B) Code amount reduction of MBK attribute using region information 1) Attribute encoding once per two frames As described above, motion compensation using template information and an average motion vector for each region is performed for one frame. The pattern attribute can be predicted, and can be uniquely reproduced on the decoder 2 side. Note that all the predicted pattern attributes can be reliably reflected on the encoding control not only on the decoder 2 but also on the encoder 1 side.

2)上下の交互予測あるいはインタリーブ
2フレームに1回、完全に予測のみのパターン属性を入れる代わりに、図49(a)(あるいは同図(b))に示すようにGOB単位で上部と下部と(あるいは右側と左側と)を交互に予測パターンに置き換えることもできる。GOBライン毎のインタリーブ(同図(c)〜(e)参照)も考えられるが、パターンを表す輪郭に不連続が生ずる恐れがあるので、対象領域が大きい時は採用しないようにする。
2) Upper / lower alternate prediction or interleaving Instead of inserting a pattern attribute of only prediction once in two frames, the upper and lower parts are set in GOB units as shown in FIG. 49 (a) (or FIG. 49 (b)). (Or the right side and the left side) can be alternately replaced with a prediction pattern. Interleaving for each GOB line (see FIGS. 3C to 3E) is also conceivable, but discontinuity may occur in the contour representing the pattern, so that it is not adopted when the target area is large.

(5)量子化制御
量子化制御は原則として量子化ステップの制御により行う。ここで、量子化ステップの設定方法についてはH.261規定には定められておらず、その制約条件としては、2〜62(量子化スケール値が1〜31)の偶数で、且つ5ビットで表現できる範囲であるというものである。したがって、本実施例においては、以下に示すようにして量子化ステップを制御することにより量子化制御をするようになっている。
(5) Quantization control Quantization control is basically performed by controlling the quantization step. Here, the method of setting the quantization step is described in H. It is not defined in the H.261 standard, and its constraint condition is that it is an even number from 2 to 62 (the quantization scale value is from 1 to 31) and a range that can be represented by 5 bits. Therefore, in this embodiment, the quantization control is performed by controlling the quantization step as described below.

(a)領域別量子化制御
1)対象領域優先モード
このモードにおいては、抽出した対象領域については、小さい量子化ステップを割り当てる。また、背景領域については量子化ステップを62に固定している。そして、被写体が人物モードである場合には、頭部領域のみ62以下を採用し、他は原則的には62に設定するようになっている(図42(a)参照)。
(A) Quantization control for each area 1) Target area priority mode In this mode, a small quantization step is assigned to the extracted target area. The quantization step is fixed at 62 for the background area. When the subject is in the person mode, only the head region is set to 62 or less, and the other regions are set to 62 in principle (see FIG. 42A).

2)画面中心優先モード
このモードにおいては、画面中心に近いほど量子化ステップを細かく取る。ただし、量子化ステップの制御式を一本化するために、現状のバッファ容量を、現在のMBKまでの距離を用いてステップ計算用に修正するという方法を採用し、このために、次式(7),(8)を用いて計算する。
2) Screen center priority mode In this mode, the closer the screen is to the center of the screen, the finer the quantization step is taken. However, in order to unify the control formula of the quantization step, a method of correcting the current buffer capacity for the step calculation using the distance to the current MBK is adopted. Calculation is performed using 7) and (8).

R_IR=IR_MBK/IRMBK_MEAN …(7)
BUF_R=BUFF_MB
×(5.00+real(IR_MBK)/real(IRMBK_MEAN)) …(8)
ここで、
BUFF_MB:MBK単位で監視したバッファ量
BUFF_R :距離計算に基づく仮想バッファ量
IR_MBK :対象重心から現在符号化中のMBKまでの距離
IRMBK_MEAN:対象重心からすべてのMBKまでの平均距離
この仮想的な修正バッファ量BUFF_MBの値は後述する符号化レートに応じた制御の式に使用する。
R_IR = IR_MBK / IRMBK_MEAN (7)
BUF_R = BUFF_MB
× (5.00 + real (IR_MBK) / real (IRMBK_MEAN)) (8)
here,
BUFF_MB: Buffer amount monitored in MBK units BUFF_R: Virtual buffer amount based on distance calculation IR_MBK: Distance from target barycenter to MBK currently being encoded IRMBK_MEAN: Average distance from target barycenter to all MBKs This virtual correction buffer The value of the quantity BUFF_MB is used in a control equation according to the coding rate described later.

(b)バッファ量に応じた制御
通常、上述のような場合には量子化制御を行っているが、強制イントラフレームの送信の場合については、バッファ量による量子化制御は行わないようになっている。なお、強制イントラフレームは、通常以下の場合に伝送することとしている。
1)動画モード開始または再送時の第1ピクチャー
2)準動画モード
3)静止画モード(ピクチャーフリーズ)
4)モデルベースモードにおけるテクスチャーソース画像
量子化ステップについては、後述の符号化レートに応じた制御の式に依存している。
(B) Control According to Buffer Amount Normally, quantization control is performed in the above case, but quantization control based on the buffer amount is not performed in the case of forced intra-frame transmission. I have. Note that the forced intra frame is normally transmitted in the following cases.
1) First picture at the start or retransmission of the moving image mode 2) Quasi moving image mode 3) Still image mode (picture freeze)
4) Texture source image in model-based mode The quantization step depends on a control formula according to the coding rate described later.

(c)符号化レートに応じた制御
符号化レート(RATE)に応じた量子化ステップ(STEP FPIC )の決定式は次のように設定されている。
1)強制イントラフレームの量子化ステップ
1152kbps<RATE のとき → STEP_FPIC=12.0,
384kbps<RATE<1152kbpsのとき → STEP_FPIC=14.0,
64kbps<RATE< 384kbpsのとき → STEP_FPIC=16.0,
RATE< 64kbpsのとき → STEP_FPIC=32.0
2)通常の量子化ステップ
ISTEP=2×INT(BUFF_MB/(200.0 ×QX64)+2 …(9)
BUFF_MB:バッファ中の現在データ量
QX64:符号化レート=QX64×64.00 [kbps]を満たす値
なお、符号化レートが16kbps以下の場合には、頻繁に量子化スケールの変更を行うことは、逆に必要ビット数の増大につながる。したがって、10kbps以下の場合には量子化ステップを62に固定している。
(C) Control According to Coding Rate The determination formula of the quantization step (STEP FPIC) according to the coding rate (RATE) is set as follows.
1) Quantization step of forced intra frame
When 1152kbps <RATE → STEP_FPIC = 12.0,
When 384kbps <RATE <1152kbps → STEP_FPIC = 14.0,
When 64kbps <RATE <384kbps → STEP_FPIC = 16.0,
When RATE <64kbps → STEP_FPIC = 32.0
2) Normal quantization step ISTEP = 2 × INT (BUFF_MB / (200.0 × QX64) +2 (9)
BUFF_MB: Current amount of data in the buffer QX64: Value that satisfies the coding rate = QX64 × 64.00 [kbps] When the coding rate is 16 kbps or less, frequent change of the quantization scale means that This leads to an increase in the required number of bits. Therefore, in the case of 10 kbps or less, the quantization step is fixed at 62.

(d)情報発生量に応じた適応制御
動き量と色変化の度合に基づき、量子化とフレームレートの制御を行うようになっている。
1)動きの激しさの判定
過去のフレームに対する現在フレームの動きの激しさの度合として、次式(10)で定義されるAMという指標の値を計算により求め、この値に基づいて判定した結果で量子化とフレームの制御を行う。
(D) Adaptive control according to the amount of information generation Quantization and frame rate control are performed based on the amount of motion and the degree of color change.
1) Judgment of Intensity of Motion As a degree of intensity of motion of a current frame with respect to a past frame, a value of an index called AM defined by the following equation (10) is obtained by calculation, and a result of determination based on this value is obtained. Performs quantization and frame control.

Figure 2004350300
ただし、
Nmb;動きの発生したブロックの数
L(X);ベクトルXのノルム関数.絶対距離,ユークリッド距離など
Vi;動きベクトル
Rd;伝送データレート
THV(Rd);データレートに依存したしきい値定数
式(10)で計算されるAMの値を用いて、新たに尺度AMTを計算する。この場合において、AMTは次のようにして計算される。
Figure 2004350300
However,
Nmb; number of blocks where motion has occurred L (X); norm function of vector X. Absolute distance, Euclidean distance, etc. Vi; motion vector Rd; transmission data rate THV (Rd); threshold constant depending on data rate A new measure AMT is calculated using the value of AM calculated by equation (10) I do. In this case, AMT is calculated as follows.

ア)AM≦THV(Rd)のとき、AMT=0
イ)AM>THV(Rd)のとき、AMT=AM
ここで、Nmbの対象範囲とそれに対応するTHVは符号化プロセッサの計算能力に応じて以下のように変更する。
a)現在のフレームの第1MBKから現在復号中のMBKまで
b)現在のGOB中の第1MBKから現在復号中のMBKまで
c)現在のGOB中のすべてのMBK
d)現在フレーム中のすべてのMBK
上記a),b)の場合、グローバルな演算が不要なため、計算量も少なく処理遅延もないが、判定の信頼性が低い。一方、c),d)はグローバルな計算を行うため、計算量は多くなるが処理遅延は最大1フレーム時間となる。しかし判定の信頼度は高い。
A) When AM ≦ THV (Rd), AMT = 0
B) When AM> THV (Rd), AMT = AM
Here, the target range of Nmb and the corresponding THV are changed as follows according to the calculation capability of the encoding processor.
a) From the first MBK of the current frame to the MBK currently being decoded
b) From the first MBK in the current GOB to the MBK currently being decoded
c) all MBKs in the current GOB
d) all MBKs in the current frame
In the above cases a) and b), since a global operation is unnecessary, the amount of calculation is small and there is no processing delay, but the reliability of determination is low. On the other hand, since c) and d) perform global calculations, the amount of calculation increases, but the processing delay is a maximum of one frame time. However, the reliability of the judgment is high.

2)色変化の激しさの判定
過去のフレームに対する現在フレームの色変化の激しさの度合として、次式(11)で定義されるACという指標の値を計算により求め、この値に基づいて判定した結果で量子化とフレームの制御を行う。
2) Judgment of intensity of color change As a degree of intensity of color change of the current frame with respect to the past frame, an index value AC defined by the following equation (11) is obtained by calculation, and judgment is made based on this value. Based on the result, quantization and frame control are performed.

Figure 2004350300
ただし、
Ncb:CBPのブロック属性が1になったブロックの数
C(i):i番目のマクロブロックに関してDCT係数のDC成分の変化とCBPに基づいてYUVベクトルから色変化を計算する関数
THC(Rd):データレートに依存したしきい値定数
式(11)で計算されるACの値を用いて、新たに尺度ACTを計算する。この場合において、ACTは次のようにして計算される。
Figure 2004350300
However,
Ncb: Number of blocks whose CBP block attribute has become 1 C (i): Function for calculating color change from YUV vector based on change of DC component of DCT coefficient and CBP for i-th macroblock THC (Rd) : Threshold constant depending on data rate A new measure ACT is calculated using the value of AC calculated by equation (11). In this case, ACT is calculated as follows.

ア)AC≦THC(Rd)のとき、ACT=0
イ)AC>THC(Rd)のとき、ACT=AC
ここで、Ncbの対象範囲とそれに対応するTHCは符号化プロセッサの計算能力に応じて以下のように変更する。
a)現在のフレームの第1MBKから現在復号中のMBKまで
b)現在のGOB中の第1MBKから現在復号中のMBKまで
c)現在のGOB中のすべてのMBK
d)現在フレーム中のすべてのMBK
上記a),b)の場合、グローバルな演算が不要なため、計算量も少なく処理遅延もないが、判定の信頼性が低い。一方、c),d)はグローバルな計算を行うため、計算量は多くなるが処理遅延は最大1フレーム時間となる。しかし判定の信頼度は高い。
A) When AC ≦ THC (Rd), ACT = 0
B) When AC> THC (Rd), ACT = AC
Here, the target range of Ncb and the corresponding THC are changed as follows according to the calculation capability of the encoding processor.
a) From the first MBK of the current frame to the MBK currently being decoded
b) From the first MBK in the current GOB to the MBK currently being decoded
c) all MBKs in the current GOB
d) all MBKs in the current frame
In the above cases a) and b), since a global operation is unnecessary, the amount of calculation is small and there is no processing delay, but the reliability of determination is low. On the other hand, since c) and d) perform global calculations, the amount of calculation increases, but the processing delay is a maximum of one frame time. However, the reliability of the judgment is high.

3)仮想バッファの計算
イ)動き量に基づく仮想バッファの増分
a)動きのない対象領域のMBK: BUF_M =16×(AMT/aM)
b)動きのある対象領域のMBK: BUF_M =0
c)背景領域のMBK : BUF_M =32×(AMT/aM)
aMは1MBKあたりの平均的な動き量に相当する数であり、例えばaM=16とする。
ロ)色変化量に基づく仮想バッファの増分
a)色変化のない対象領域のMBK: BUF_c =BMBK×(ACT/aC)
b)色変化のある対象領域のMBK: BUF_c =0
c)背景領域のMBK : BUF_c = 2×BMBK×(ACT/aC)
aC :1MBKあたりの平均的な色変化に相当する数,例えばaC=128
BMBK:1MBKあたりの平均符号量の予想値,次式で与えられる
BMBK=QX64×64000 /(Frate×NMBK)
Frate:現在のフレームレート
NMBK :1フレーム中のMBKの個数
3) Calculation of virtual buffer
B) Virtual buffer increment based on the amount of movement
a) MBK of the target area without motion: BUF_M = 16 × (AMT / aM)
b) MBK of the moving target area: BUF_M = 0
c) MBK in the background area: BUF_M = 32 × (AMT / aM)
aM is a number corresponding to the average amount of motion per MBK, for example, aM = 16.
B) Virtual buffer increment based on color change
a) MBK of target area without color change: BUF_c = BMBK × (ACT / aC)
b) MBK of target area with color change: BUF_c = 0
c) MBK of background area: BUF_c = 2 × BMBK × (ACT / aC)
aC: a number corresponding to an average color change per MBK, for example, aC = 128
BMBK: Estimated average code amount per MBK, given by
BMBK = QX64 × 64000 / (Frate × NMBK)
Frate: current frame rate
NMBK: Number of MBK in one frame

(6)有意係数の個数の制御
H.261では量子化変換後のDCT変換係数をブロック単位でジグザグスキャンし、得られる一次元の量子化係数列を非零のレベルとその後に続くゼロランの長さの二項組(イベントと呼ぶ)で表現している。ここでは、高周波成分の係数は超低レートにおいてあまり視覚的に寄与しないとみなすこととし、ブロックあたりのイベント数を制限することにより、それに対応するVLCの個数を減らし、全体としてビット数の削減を図ることができる。
(6) Control of the number of significant coefficients In step 261, the DCT transform coefficients after the quantization transform are zigzag-scanned in block units, and the obtained one-dimensional quantized coefficient sequence is represented by a non-zero level followed by a binary set of zero run length (called an event). expressing. Here, it is assumed that the coefficient of the high-frequency component does not contribute much visually at an extremely low rate, and by limiting the number of events per block, the number of corresponding VLCs is reduced, thereby reducing the number of bits as a whole. Can be planned.

すなわち、ジグザグスキャンによって低周波成分から順に得られるDCT有意係数(非零)が一定個数を超えた場合には、残りのDCT係数をすべて強制的にゼロとみなすように制御するものである。このとき、そのしきい値としての上限個数Ncf(≦64)を符号化レート、領域、動き発生量、バッファ量、符号化モードのそれぞれに応じて切り換えるように制御する。なお、この上限個数に関する情報については、復号化器2側に送る必要がないため、符号化することはない。   That is, when the DCT significant coefficients (non-zero) sequentially obtained from the low frequency components by the zigzag scan exceed a certain number, control is performed so that all the remaining DCT coefficients are forcibly regarded as zero. At this time, control is performed so that the upper limit number Ncf (≦ 64) as the threshold value is switched according to each of the coding rate, the area, the amount of motion generation, the buffer amount, and the coding mode. The information on the upper limit number does not need to be sent to the decoder 2 side, and is therefore not encoded.

上述のDCT有意係数個数の制御については、実際には以下のようにして行う。なお、ここでは、例えば、次の状態を仮定して実施する。
符号化モード:人物モード
符号化レート:8kbps
RB=V_BUFF/BUFF_MAX
V_BUFF=BUF_R+BUF_M+BUF_C
BUFF :現在のバッファ量
BUFF_MAX:バッファの最大容量
(RB1,RB2,RB3,RB4,RB5)=(0.2 ,0.3 ,0.5 ,0.8 ,1.0 )
(Ncf0,Ncf1)=(16,8 )
判定に当たっては、バッファ充填率BFの値によって、次の6つのケースに分けて制御する。なお、RB1〜RB5で示す値は判定のしきい値で、制御内容に対応した値があらかじめ設定されている。
The above-described control of the number of DCT significant coefficients is actually performed as follows. Here, for example, the following state is assumed.
Coding mode: person mode Coding rate: 8 kbps
RB = V_BUFF / BUFF_MAX
V_BUFF = BUF_R + BUF_M + BUF_C
BUFF: current buffer amount BUFF_MAX: maximum buffer capacity (RB1, RB2, RB3, RB4, RB5) = (0.2, 0.3, 0.5, 0.8, 1.0)
(Ncf0, Ncf1) = (16, 8)
In the determination, the control is divided into the following six cases according to the value of the buffer filling rate BF. The values indicated by RB1 to RB5 are threshold values for determination, and values corresponding to the control contents are set in advance.

〈ケース1〉 0≦RB<RB1
すべての領域について最大64個の有意係数個数とする
〈ケース2〉 RB1≦RB<RB2
対象領域について最大64個,背景領域では最大Ncf0個の有意係数個数とする
〈ケース3〉 RB2≦RB<RB3
すべての領域について最大Ncf0個の有意係数個数とする
〈ケース4〉 RB3≦RB<RB4
すべての領域について最大Ncf1個の有意係数個数とする
〈ケース5〉 RB4≦RB<RB5
背景は背景メモリを使用し、メモリにない部分はDC成分のみで表現する。対象領域について最大Ncf1個の有意係数個数とする
〈ケース6〉 RB5<RB
次の《1》〜《3》のいずれかを他の条件などによって選択する
《1》準動画モードに移行する
《2》モデルベースモードに移行する
《3》ピクチャーフリーズする
(7)フレームレートの適応切り換え
(a)フレームレートの変更指示の記述
H.261規格のビットストリームシンタックス(図30参照)においては、PICレイヤのTREF(temporal reference)の値の設定により、復号化器2に対するフレームレート変更の指示を記述できるようになっている。しかし、フレームレート変更については、この実施例においては超低レート化のための従属手段として取り扱っている。以下の、その方法と実施の要因について示す。
<Case 1> 0 ≦ RB <RB1
The maximum number of significant coefficients is 64 for all areas. <Case 2> RB1 ≦ RB <RB2
The maximum number of significant coefficients is 64 for the target area and Ncf0 for the background area. <Case 3> RB2 ≦ RB <RB3
The maximum number of significant coefficients is Ncf0 for all regions. <Case 4> RB3 ≦ RB <RB4
The maximum number of significant coefficients is Ncf1 for all regions. <Case 5> RB4 ≦ RB <RB5
The background uses a background memory, and the portion not in the memory is represented only by the DC component. The maximum number of significant coefficients is Ncf1 for the target area. <Case 6> RB5 <RB
Select one of the following <1> to <3> depending on other conditions etc. <1> Shift to quasi-moving image mode <2> Shift to model base mode <3> Picture freeze (7) Frame rate Adaptive Switching (a) Description of frame rate change instruction In the bit stream syntax of the H.261 standard (see FIG. 30), an instruction to change the frame rate to the decoder 2 can be described by setting the value of TREF (temporal reference) of the PIC layer. However, in this embodiment, the change of the frame rate is treated as a subordinate means for making the rate extremely low. The following describes the method and the factors of implementation.

(b)フレームレート変更の方法
符号化器1側において動画像をA/D変換した後に、フレーム単位で生の画像データを符号化ループに送るか送らないかを選択することによる間引き操作によりフレームレートは変更される。したがって、この間引き情報が上記のTREFに反映されることになる。
(c)フレームレート変更を駆動する要因
フレームレート変更の駆動要因については、以下のようにまとめることができる。
1)バッファ容量に応じた切り換え
2)伝送レートに応じた切り換え(例:8kbps →5frame/sec など)
動画像モードにおいては伝送レートに応じて初期フレームレートを設定する。例えば符号化レートQX64に対して、以下に示すようなフレームレートに設定するようになっている。
・QX64≧18 →30 frame/sec
・18≧QX64≧10 →30 frame/sec または15 frame/sec
・10>QX64≧6 →15 frame/sec
・ 6>QX64≧1 →15 frame/sec または10 frame/sec
・64>QX64×64≧32 →10〜7frame/sec
・32>QX64×64 →10 frame/sec 以下
3)動き発生量に応じた切り換え
4)モードの変更
(B) Method of Changing Frame Rate After the moving image is A / D-converted on the encoder 1 side, the frame is thinned out by selecting whether to send or not send the raw image data to the encoding loop in frame units. The rate changes. Therefore, this thinning information is reflected in the above TREF.
(C) Factors for driving frame rate change The driving factors for changing the frame rate can be summarized as follows.
1) Switching according to buffer capacity 2) Switching according to transmission rate (Example: 8kbps → 5frame / sec, etc.)
In the moving image mode, the initial frame rate is set according to the transmission rate. For example, the coding rate QX64 is set to the following frame rate.
・ QX64 ≧ 18 → 30 frame / sec
・ 18 ≧ QX64 ≧ 10 → 30 frame / sec or 15 frame / sec
・ 10> QX64 ≧ 6 → 15 frame / sec
・ 6> QX64 ≧ 1 → 15 frame / sec or 10 frame / sec
・ 64> QX64 × 64 ≧ 32 → 10 ~ 7frame / sec
・ 32> QX64 × 64 → 10 frames / sec or less 3) Switching according to the amount of motion generation 4) Changing the mode

[A−5]符号化処理プログラムに従った動作の説明
さて、以上のように、符号化処理に当たって実施される超低レート化の機能について、実際の符号化処理過程においては、各機能を図5ないし図7に示すプログラムのフローチャートにしたがって実施するようになる。以下、全体の流れの概略について説明する。
[A-5] Description of Operation According to Encoding Processing Program As described above, the functions of the ultra-low rate implemented in the encoding processing are illustrated in the actual encoding processing. The program is executed according to the flowcharts of the programs shown in FIGS. Hereinafter, an outline of the entire flow will be described.

すなわち、まず、強制モードの設定を行い(ステップA1)、この設定状態の下で、対象領域抽出部26,テンプレートデータベース27,2Dテンプレートマッチング部28,モデルベース予測部29および三次元形状データベース30などにより、動領域の解析,動き領域抽出(ステップA2,A3)を行う。次に、モード制御部33により、状態遷移図による探索と判定を行い、続いて、使用環境モードの設定、被写体モードの設定、状態遷移確率の更新処理、符号化制御モードの決定(ステップA4〜A8)を順次実行する。   That is, first, the forced mode is set (step A1), and under this setting state, the target area extracting unit 26, the template database 27, the 2D template matching unit 28, the model base predicting unit 29, the three-dimensional shape database 30, and the like. To analyze the moving area and extract the moving area (steps A2 and A3). Next, the mode control unit 33 performs search and determination based on the state transition diagram, and subsequently sets the use environment mode, sets the subject mode, updates the state transition probability, and determines the encoding control mode (steps A4 to A4). A8) is sequentially executed.

この後、今のフレームが強制イントラフレームであるか否かを判定し(ステップA9)、「YES」の場合には符号化制御部21における量子化ステップの決定を行うと共に、直交変換部7,量子化部8,通信路符号化部10などによりH.261規格のINTRA符号化処理を行い(ステップA10,A11)、「NO」の場合には、直接次の仮想バッファ計算(ステップA12)に進み、符号化制御部21により仮想バッファの計算を行う。   Thereafter, it is determined whether or not the current frame is a forced intra frame (step A9). If “YES”, the quantization step in the encoding control unit 21 is determined, and the orthogonal transform unit 7, H.264 is performed by the quantization unit 8, the channel coding unit 10, and the like. The INTRA encoding process of the H.261 standard is performed (steps A10 and A11). If "NO", the process directly proceeds to the next virtual buffer calculation (step A12), and the encoding control unit 21 calculates the virtual buffer.

次に、現在のフレームが動画モードである場合にはフレームレートを決定し (ステップA13,A14)、モデルベースモードである場合には、領域抽出・認識処理部25にて3Dモデルによる2Dテンプレートの生成を行い(ステップA15,A16)、2Dテンプレートの照合を行って対象領域の抽出処理を行う(ステップA17,A18)。また、背景メモリモードが設定されている場合には背景メモリ32を使用するようになる(ステップA19,A20)。   Next, if the current frame is in the moving image mode, the frame rate is determined (steps A13 and A14). If the current frame is in the model base mode, the region extraction / recognition processing unit 25 converts the 2D template based on the 3D model. Generation is performed (steps A15 and A16), and a 2D template is collated to perform a target area extraction process (steps A17 and A18). When the background memory mode is set, the background memory 32 is used (steps A19 and A20).

続いて、属性予測フレームであるか否かの判定を行い(ステップA21)、「NO」の場合には、ステップA22〜A28の一連の処理を実行し、「YES」の場合にはステップA29〜A35の一連の処理を実行する。ステップA22〜A28では、符号化制御部21および対象領域抽出部26により、イントラフレームの判定,動き補償有無の判定,動き量の判定,色変化量の判定,仮想バッファの計算,量子化ステップの決定,最大係数個数の計算が実行される。また、ステップA29〜A35では、符号化制御部21および属性メモリ22などにより、MTP,MBA,QSC,MVD,CBPの各配列の予測を行うと共に、MBK属性の符号化抑制処理,MBK属性配列のモデルベース伝送が行われる。   Subsequently, it is determined whether or not the frame is an attribute prediction frame (step A21). If “NO”, a series of processes of steps A22 to A28 is performed. A series of processing of A35 is executed. In steps A22 to A28, the encoding control unit 21 and the target area extracting unit 26 determine the intra frame, determine the presence or absence of motion compensation, determine the motion amount, determine the color change amount, calculate the virtual buffer, and perform the quantization step. Determination and calculation of the maximum number of coefficients are executed. In steps A29 to A35, the MTP, MBA, QSC, MVD, and CBP arrays are predicted by the encoding control unit 21 and the attribute memory 22, and the like, the MBK attribute encoding suppression process, the MBK attribute array Model-based transmission is performed.

この後、BLK単位でH.261ベースの動き補償,DCT計算を実行し(ステップA36)、直交変換部7,量子化部9,逆量子化部13,逆変換部14および通信路符号化部10などにより、領域別量子化制御および有意係数個数制御を実施した後、BLKレイヤのビットストリームを生成する(ステップA37,A38,A39)。BLKレイヤの終了後、属性予測フレームである場合にはMBK属性判定制御を実行し(ステップA40〜A42)、この後、属性メモリ22にMBK属性データを格納して記憶させるようになる(ステップA43)。以下、ステップA44〜A54にしたがって、1フレーム分の符号化ビットストリームデータを生成する。   Thereafter, H.K. 261-based motion compensation and DCT calculation are executed (step A36), and the orthogonal transform unit 7, the quantizing unit 9, the inverse quantizing unit 13, the inverse transforming unit 14, the channel encoding unit 10 and the like quantize each region. After performing the control and the control of the number of significant coefficients, a bit stream of the BLK layer is generated (steps A37, A38, A39). After the end of the BLK layer, if the frame is an attribute prediction frame, MBK attribute determination control is executed (steps A40 to A42), and thereafter, the MBK attribute data is stored and stored in the attribute memory 22 (step A43). ). Hereinafter, encoded bit stream data for one frame is generated according to steps A44 to A54.

[B]復号化器
次に、復号化器2において受信する符号化ビットストリームの復号化処理の内容について説明する。図4は、復号化処理内容を概念的に示すもので、大きく分類すると、復号化処理は、符号レベル,パターンレベル,画像信号レベルの3段階に実施され、この処理過程で種々のモード制御を行うと共に誤り訂正機能を実施して超低レートの伝送による復号化処理と無線通信レベルでの誤り率に対応した誤り訂正機能を実現する構成である。以下においては、この図4に示す概念的な構成をベースとして各機能に対応した詳細な説明を項目別に行う。
[B] Decoder Next, the content of the decoding process of the encoded bit stream received by the decoder 2 will be described. FIG. 4 conceptually shows the contents of the decoding process. When roughly classified, the decoding process is performed in three stages of a code level, a pattern level, and an image signal level. In this process, various mode controls are performed. In addition, the error correction function is implemented to implement a decoding process based on ultra-low rate transmission and an error correction function corresponding to an error rate at a wireless communication level. In the following, a detailed description corresponding to each function will be made item by item based on the conceptual configuration shown in FIG.

なお、この復号化器2の特徴である自律的誤り訂正の機能を実現するに至る経緯について簡単に説明する。すなわち、通常、有線伝送系では平均ビット誤り率は10の−6〜−8乗程度であるが、これに対して無線系においては10の−2〜−3乗程度と大きい値が想定されている。
一方、MPEGやH.261規格のように可変長符号をベースとしたシンタックス(図30参照)で発生したビットストリームでは、ほんの1ビットの誤りでも最悪の場合には復号誤りが伝播し、それ以降のデータが復号不能となる場合が想定される。しかし、従来の有線系TV会議システムではデマンドリフレッシュ(フリーズと再送要求の組み合わせ)と誤り訂正符号(BHC符号など)の組み合わせにより、実用上で問題のない程度の誤り訂正が実現化されていた。
A brief description will be given of how the decoder 2 realizes the function of autonomous error correction, which is a feature of the decoder 2. That is, normally, the average bit error rate is about 10 −6 to −8 in a wired transmission system, whereas a large value of about 10 −2 to −3 is assumed in a wireless system. I have.
On the other hand, MPEG and H.264. In a bit stream generated by a syntax based on a variable-length code like the H.261 standard (see FIG. 30), even in the worst case, even a single-bit error propagates a decoding error, and the subsequent data cannot be decoded. It is assumed that However, in a conventional wired TV conference system, an error correction of a practically acceptable level has been realized by a combination of a demand refresh (a combination of a freeze and a retransmission request) and an error correction code (such as a BHC code).

また、ビデオCDなどの蓄積系においては誤り訂正符号で充分であったが、無線系では誤り率が高い上に電波事情によっては数ビット単位で欠落,反転,挿入などの伝送誤りが発生する可能性があるため、通常の符号理論的なアプローチだけでは完全な誤り訂正が困難となるものであった。そこで、本実施例の復号化器2においては、少なくとも復号化処理が中断せずに、しかもできるだけ原信号に近い信号値を復元できるような自律的な誤り修復手段を講じることにより解決を図っているのである。   In a storage system such as a video CD, an error correction code is sufficient, but in a wireless system, an error rate is high, and depending on radio wave conditions, transmission errors such as loss, inversion, and insertion may occur in units of several bits. Therefore, complete error correction is difficult only with a normal code-theoretic approach. Therefore, in the decoder 2 of this embodiment, a solution is attained by taking at least an autonomous error recovery means capable of restoring a signal value as close as possible to the original signal without interrupting the decoding process. It is.

以下においては、その自律的な誤りの訂正機能の内容について次の各項目に分けて説明する。[B−1]符号化ビットストリームのグローバルなチェック, [B−2]符号とシンタックスのレベルの誤り訂正,[B−3]パターンレベルの誤り訂正,[B−4]信号レベルの誤り訂正,[B−5]モード情報を用いた誤り訂正の戦略制御,[B−6]認識レベルの誤り訂正,[B−7]人物メモリと3Dモデルベース手法,[B−8]誤り訂正戦略,[B−9]復号化処理プログラムに従った動作の説明の大項目に分け、各大項目中においてさらに小項目に分類して各原理と方法について説明する。   In the following, the content of the autonomous error correction function will be described separately for each of the following items. [B-1] Global check of coded bit stream, [B-2] Error correction of code and syntax levels, [B-3] Error correction of pattern level, [B-4] Error correction of signal level , [B-5] Strategy control of error correction using mode information, [B-6] Error correction of recognition level, [B-7] Person memory and 3D model-based method, [B-8] Error correction strategy, [B-9] The operation according to the decryption processing program is divided into large items, and each principle is further classified into small items to explain each principle and method.

[B−1]符号化ビットストリームのグローバルなチェック
(1)ビット誤りの発生形態
まず、復号化処理におけるビット誤りの訂正を行うにあたって、通信路を経由して受信する画像信号のビット誤りがどのようにして発生するのか、その発生形態について以下に簡単に説明する。
(a)単発的な「0/1」の反転誤り:ある確率でランダムにビット値が反転する誤りの発生形態である
(b)バーストエラー:ある区間のデータがマスクされる誤りの発生形態で、その間の値は次の《1》,《2》のいずれかである。《1》0あるいは1の固定値を連続して出力する,《2》全くランダムな値を出力する
(c)ビットの挿入,欠落:これによって時間的な伸縮が発生する
[B-1] Global Check of Encoded Bit Stream (1) Form of Bit Error First, when correcting a bit error in a decoding process, which bit error of an image signal received via a communication path is The mode of occurrence will be briefly described below.
(A) One-time "0/1" inversion error: An error occurrence mode in which bit values are randomly inverted at a certain probability. (B) Burst error: An error occurrence mode in which data in a certain section is masked. , The value between them is either of the following << 1 >> or << 2 >>. << 1 >> Continuously output a fixed value of 0 or 1 << 2 >> Output a completely random value (c) Insertion and deletion of bits: This causes temporal expansion and contraction

(2)誤り訂正の基本方針
本実施例においては、誤り訂正の基本方針として、誤り発生の形態については特に限定するものではない。しかし、上述の(a)の場合には比較的安定して対処できるが、(b),(c)のような場合には完全な訂正は極めて困難なものとなるため、復号化処理の結果を視覚的にはそれほどおかしくない推定値で修復するが、その後の誤差伝播による誤差の累積が予想されるので、これを抑制する手段を設けている。また、この場合に、最悪時にはピクチャーフリーズと再送要求(ARQ:automatic repeat request)を行使する。
(2) Basic Policy of Error Correction In the present embodiment, as a basic policy of error correction, the form of error occurrence is not particularly limited. However, although the above case (a) can be dealt with relatively stably, in the cases (b) and (c), it is extremely difficult to completely correct it. Is restored with an estimated value that is not so visually strange, but since accumulation of errors due to subsequent error propagation is expected, means for suppressing this is provided. In the worst case, a picture freeze and a retransmission request (ARQ: automatic repeat request) are exercised.

また、復号化器2側での能動的な訂正手段を行使する以前に、復号化処理上で影響力の大きい情報(所要ビット数などのデータ)については、前述したように、符号化器1側において冗長的に付加することで訂正能力の向上が図れるようにしている。
(3)所要ビット数の伝送
プロトコルシンタックス中のユーザーデータエリアを用いて、データ欠落時に画像再生に与える影響が大きいデータについては、前述のように符号化器1側から冗長的に伝送している。本実施例においては、図50に示すように、PICレイヤにPIC単位の所要ビット数を、GOBレイヤにGOB単位の所要ビット数を各々のユーザーデータエリアに16ビット(64kビットまで表現可能)程度で記述しておく。これにより、復号化器2側においてビットの欠落や挿入があったか否かを判定できる。また、この所要ビット数データ自体に誤りがあるか否かについては次のようにして判定する。
Also, before exercising the active correcting means on the decoder 2 side, information (data such as the required number of bits) having a large influence on the decoding process is applied to the encoder 1 as described above. The correction capability is improved by adding redundantly on the side.
(3) Transmission of Required Number of Bits Using the user data area in the protocol syntax, data having a large effect on image reproduction when data is lost is redundantly transmitted from the encoder 1 as described above. I have. In the present embodiment, as shown in FIG. 50, the required number of bits per PIC in the PIC layer and the required number of bits per GOB in the GOB layer are approximately 16 bits (up to 64 kbits) in each user data area. It is described in. As a result, it is possible to determine whether bits are missing or inserted on the decoder 2 side. Whether or not the required bit number data itself has an error is determined as follows.

(a)次の項[B−2]符号とシンタックスのレベルの誤り訂正で説明するように、PSC(ピクチャースタートコード)とGBSC(GOBスタートコード)の定位をバッファ内のグローバルなヘッダチェックで行っておく。そして、この結果をもとに、PSPAREやGSPAREに記述された符号量をチェックする。
(b)GOBレイヤの符号量記述の和がPICレイヤの符号量に一致していない場合、どれかの記述に誤りがあると判定する。また、一致していれば誤りはないと判定して終了する。
(A) As described in the following section [B-2] Error correction of code and syntax levels, localization of PSC (picture start code) and GBSC (GOB start code) is performed by global header check in the buffer. I will go. Then, based on the result, the code amount described in PSPARE or GSPARE is checked.
(B) If the sum of the code amount descriptions of the GOB layer does not match the code amount of the PIC layer, it is determined that any of the descriptions has an error. If they match, it is determined that there is no error, and the process ends.

(c)伝送レートとフレームレートから1フレームあたりの平均符号量と1GOBあたりの平均符号量を計算する。強制イントラフレーム以外の場合で、この値からあるしきい値以上外れる符号量を記述誤り箇所の候補とする。
(d)上記(b)の項で抽出した候補に対して、過去の数フレームにわたる符号量から線形予測との比較を行い、その値とのずれが一定範囲内に収まっていない場合は誤りと判定する。
(C) The average code amount per frame and the average code amount per GOB are calculated from the transmission rate and the frame rate. In the case other than the forced intra frame, a code amount deviating from this value by a certain threshold or more is set as a candidate for a description error portion.
(D) For the candidate extracted in the above item (b), a comparison is made with the linear prediction based on the code amount over several past frames, and if the deviation from the value is not within a certain range, an error is detected. judge.

(4)フォワード型データチェック
上記した(a)のように符号化器1側で記述した1フレーム中の所要ビット数のデータを1フレームの復号化処理の開始以前にすべて検出しておくために、復号化器2側の入力バッファ(FIFOバッファ42)に蓄積されたビットストリームデータを数kビットオーダーでグローバルにチェックする。そのためには、次の項[B−2]でも説明するように、PSCとGBSCとの定位が必要になる。そこで、その定位処理について次のようにして行う。
(4) Forward type data check In order to detect all data of a required number of bits in one frame described by the encoder 1 as described in (a) above before the start of decoding processing of one frame. The bit stream data stored in the input buffer (FIFO buffer 42) of the decoder 2 is checked globally in the order of several k bits. For that purpose, as described in the following section [B-2], localization of PSC and GBSC is required. Therefore, the localization processing is performed as follows.

(a)あるバッファ領域に対して、図51に示すように、ファジイマッチング処理により完全にスキャンする。伝送レートが高い場合には、この方法で定位が完了するのに多くのマッチング計算を必要とするが、超低レートにおいては1フレームあたりのデータ量が数kビット以下であるので、このようにグローバルにスキャンする処理を行っても実用上問題がない程度である。     (A) A certain buffer area is completely scanned by fuzzy matching processing as shown in FIG. When the transmission rate is high, a lot of matching calculations are required to complete the localization by this method. However, at an extremely low rate, the amount of data per frame is several kbits or less. There is no practical problem even if the process of scanning globally is performed.

この場合において、ファジイマッチング処理では、検索するコードのビットパターンと符号化ビットストリーム中のビットパターンとのビット一致率で示す類似度S(図51中の式参照)が例えば0.9(90%)以上であれば、ほぼ間違いないと判断するといった基準を設けている。これによって、例えばPSCが20ビットであるから、2ビット分の誤りを許容してマッチングしたことを判定できるようになる。なお、この類似度Sの値は、好ましくは0.9であるが、実用上においては0.8程度まで低い値に設定しても実施可能なものである。   In this case, in the fuzzy matching processing, the similarity S (refer to the equation in FIG. 51) indicated by the bit match rate between the bit pattern of the code to be searched and the bit pattern in the encoded bit stream is, for example, 0.9 (90%). ) If it is above, there is a criterion to judge that there is almost no mistake. Thus, for example, since the PSC has 20 bits, it is possible to determine that the matching has been performed while allowing an error of 2 bits. The value of the similarity S is preferably 0.9, but can be implemented even if set to a value as low as about 0.8 in practical use.

(b)PSCと最初のGBSCを検索した後、平均符号量と1フレーム前の符号量を用いた推定符号量を根拠としておおまかな位置を見当付ける。その後、その位置を中心としたある範囲内でスキャンを行う。そして、次のフレームのPSCまでの間にあるGBSCの数が正しければチェック処理を終了する。また、正しくない場合には、GN(グループナンバー)コードの値をチェックして欠落しているGBSCを割り出し、そのGBSCの1つ前のGBSCからスキャンを行い、これによって検出できれば終了する。     (B) After searching for the PSC and the first GBSC, a rough position is found based on the estimated code amount using the average code amount and the code amount one frame before. Thereafter, scanning is performed within a certain range centered on the position. Then, if the number of GBSCs up to the PSC of the next frame is correct, the check processing ends. If not correct, the value of the GN (group number) code is checked to determine the missing GBSC, scanning is performed from the GBSC immediately preceding the GBSC, and the process is terminated if it can be detected.

[B−2]符号とシンタックスのレベル誤り訂正
(1)PICとGBSCの定位
ビットストリームをシーケンシャルに復号するのみでは、次の(2)項で述べるようなビット誤りに起因してPICデータおよびGOBデータの範囲を知ることができなくなる恐れがある。そこで、上述したようなファジイマッチング処理により比較的安定して検出し、定位できるPSCおよびGOBヘッダを起点としてパターンレベル(MBK属性)や画像信号レベル(BLK)による誤り訂正に追い込んでいく階層的処理を設けている。そして、その後は、符号と文法とに依存した以下の誤り訂正に連結されるようになっている。
[B-2] Level Error Correction of Code and Syntax (1) Localization of PIC and GBSC If only a bit stream is decoded sequentially, PIC data and There is a possibility that the range of GOB data cannot be known. Therefore, a hierarchical process in which detection is performed relatively stably by the above-described fuzzy matching process and error correction based on a pattern level (MBK attribute) and an image signal level (BLK) is started from a PSC and a GOB header that can be localized. Is provided. After that, it is linked to the following error correction depending on the code and the grammar.

(2)ビット誤りによる文法的復号停止の発生形態
ビット誤りを含むビットストリームをシーケンシャルに復号化処理すると、文法エラーによりパーザ43は復号化処理を停止する。しかし、そのときの停止位置とビット誤りの発生位置とが一致するとは限らず、場合によってはビット誤り位置が停止位置よりも数十ビット手前まで遡っていることもある。そこで、以下においては、どのような誤りの発生形態が存在するかを説明する。
(2) Form of occurrence of grammatical decoding stop due to bit error When a bit stream containing a bit error is sequentially decoded, the parser 43 stops the decoding process due to a grammatical error. However, the stop position at that time does not always coincide with the bit error occurrence position, and in some cases, the bit error position may go back several tens of bits before the stop position. Therefore, the following describes what error occurrence modes exist.

(a)ビット誤り位置で即座に停止する場合
固定長ヘッダにビット誤りが混入し、マッチング不能になる場合には、シンタックス上で他への分岐条件がない限り、即座に復号停止となる。
(b)ビット誤り位置からしばらく復号を続けた後に停止する場合
1)可変長符号(VLC)においてビット誤りが生じた場合
ビットストリームとは、図52に示すように、異なる2進木構造を持つ符号木の結合で得られるグラフにおいて各節点間を論理条件や数値条件に基づいて遷移することによって得られる出力シンボルの時系列である。したがって、VLCの内の1ビットでも反転すると符号化器1側で発生した事象(符号化属性や画像信号の値に対応)の時系列が復号化器2側において再生できなくなって全く別の事象列を復号化結果として出力する結果に至る恐れがある。
(A) When Stopping Immediately at a Bit Error Position When a bit error is mixed in a fixed-length header and matching becomes impossible, decoding is immediately stopped unless there is a branch condition to another in the syntax.
(B) When decoding is continued for a while after the bit error position and then stopped 1) When a bit error occurs in variable length code (VLC) The bit stream has a different binary tree structure as shown in FIG. This is a time series of output symbols obtained by transiting between nodes in a graph obtained by combining code trees based on logical conditions and numerical conditions. Therefore, if even one bit in the VLC is inverted, the time series of the event (corresponding to the encoding attribute and the value of the image signal) occurring on the encoder 1 side cannot be reproduced on the decoder 2 side, and a completely different event occurs. There is a possibility that the result will be output as a decoding result of the column.

しかし、このような誤りについては、純粋に符号のみを判断する文法的制約だけでは検出できない。つまり、後述する信号レベルあるいはパターンレベルにおける誤り検出条件あるいは画像データ形式に基づく数値条件を介した文法的制約でのみ検出されるものである。換言すれば、このような誤り検出プロセスにかかるまで誤ったビットストリーム復号を継続してしまうため、復号停止位置はビット誤り位置よりも後ろになるということである。   However, such an error cannot be detected only by a grammatical constraint that determines only a code. That is, it is detected only by a grammatical constraint via an error detection condition at a signal level or a pattern level described later or a numerical condition based on an image data format. In other words, the erroneous bit stream decoding is continued until such an error detection process is performed, so that the decoding stop position is located after the bit error position.

また、このような誤りが存在していても必ずしも復号停止に至るとは限らず、例えば、ビット反転を受けても同一の符号長の他の符号語に置き換えられた場合には、状態出力として異なる値を出力するだけであり、その値がその後の条件分岐に悪影響を与えなければ、それ以後のVLC復号化処理における同期ずれは発生しない。それゆえに、この場合、例えばある画素ブロックの色やテクスチャーデータのみが変更されて再生される可能性があっても、復号停止には至らないのである。   In addition, even if such an error exists, decoding does not always stop, and for example, if bit inversion is replaced with another codeword of the same code length, the state output is Only a different value is output, and if the value does not adversely affect the subsequent conditional branch, no synchronization deviation occurs in the subsequent VLC decoding processing. Therefore, in this case, even if there is a possibility that only the color or texture data of a certain pixel block is changed and reproduced, decoding does not stop.

2)固定長符号においてビット誤りが生じた場合
この場合は、上記した符号長が不変のビット反転の場合と同様であり、復号出力の数値または属性が符号化時と異なるが、その後の条件分岐に悪影響を与えなければ復号停止には至らない。
2) When Bit Error Occurs in Fixed-Length Code In this case, the same as the above-described case of bit inversion where the code length is invariable, and the value or attribute of the decoded output is different from that at the time of encoding, but the subsequent conditional branching The decoding is not stopped unless it has an adverse effect on the decoding.

(3)文法的復号誤りの検出
次に、H.261のプロトコルシンタックス(図30参照)に基づき、ビット誤りが発生する位置を次のように分類して説明する。
(a)常に現れる固定長ヘッダ
1)PSC(picture start code;20ビット)
ファジイマッチング処理を行う限り、2ビット程度のビット誤りがPSC中に発生してもシンタックスやそれまでの復号化結果に依存せずにPSCを検出できる。したがって、PSCの検出と定位は他の位置のビット誤りを検出するために必要な初期プロセスとなっている。
2)GBSC(group of blocks start code;16ビット)
PSCと同様に、ファジイマッチング処理により安定して検出できるが、PSCの定位が行われていないと定位を誤る可能性もある。
(3) Detection of grammatical decoding error Based on the protocol syntax of H.261 (see FIG. 30), the positions where bit errors occur are classified and described as follows.
(A) Fixed-length header that always appears 1) PSC (picture start code; 20 bits)
As long as the fuzzy matching process is performed, even if a bit error of about 2 bits occurs in the PSC, the PSC can be detected without depending on the syntax or the decoding result up to that time. Therefore, PSC detection and localization is an initial process required to detect bit errors at other locations.
2) GBSC (group of blocks start code; 16 bits)
Like the PSC, it can be stably detected by the fuzzy matching process. However, if the PSC has not been localized, the localization may be erroneous.

(b)常に現れる固定長データ
1)TR(temporal reference;5ビット)
PSCの定位が行われていれば、続く5ビットのデータであるので、その値をチェックすることは容易である。次のように復号化器2側のモード設定状態に応じて誤りの判定が異なる。
ア)通常の動画再生モード(固定フレームレート)であれば、伝送レートに応じたフレームレートに相当する値だけ前回のTRよりも増えているはずである。32kbps以下の超低レート動画モードならば、3〜5程度の増分になるため、それ以外は誤りと判定できる。
イ)準動画モードならば、10〜31程度の増分になるため、それを外れると誤りである。
2)PEI(picture extra insertion information ;1ビット)
データが1であれば次に続くユーザーデータPSPARE(8ビット)が存在する。データが0であればGBSCが続く。
3)GN(group number;4ビット)
GBSCの定位プロセスで誤りを判定する。以下の条件《1》,《2》を満たさない場合には誤りである。《1》CIF構造では1≦GN≦12,《2》1つ前のGNよりも1つ数値が増えている場合
4)GQUANT(GOB layer quantizer infomation;5ビット)
超低レート伝送での量子化スケール(QSC)は、対象領域優先モードにおいてはすべて31(量子化ステップ62)に固定し、領域分析から決定される主領域のみ16(量子化ステップ32)と設定する。したがって、人物モードではQSC情報は伝送しないようになっている。これによりGQUANT(GOBレイヤのQSC情報)とMQUANT(MBK単位の量子化スケール変更情報)は不要となるため、このデータに関する誤りは生じない。他のモードではMQUANTを用いる場合は後述のパターンレベルの誤り訂正におけるCBPと同様にして値を推測し、誤りを判定する。
(B) Fixed-length data that always appears 1) TR (temporal reference; 5 bits)
If the localization of the PSC has been performed, it is easy to check the value because it is the following 5-bit data. Error determination differs depending on the mode setting state of the decoder 2 as follows.
A) In the normal moving image playback mode (fixed frame rate), the value should be increased from the previous TR by a value corresponding to the frame rate corresponding to the transmission rate. In the case of the ultra-low-rate moving image mode of 32 kbps or less, the increment is about 3 to 5, and other than that, it can be determined as an error.
B) In the case of the quasi-moving image mode, the increment is about 10 to 31.
2) PEI (picture extra insertion information; 1 bit)
If the data is 1, the following user data PSPARE (8 bits) exists. If the data is 0, GBSC follows.
3) GN (group number; 4 bits)
An error is determined by the GBSC localization process. It is an error if the following conditions << 1 >> and << 2 >> are not satisfied. << 1 >> In the CIF structure, 1 ≦ GN ≦ 12, << 2 >> When the numerical value is increased by one from the previous GN. 4) GQUANT (GOB layer quantizer information; 5 bits)
The quantization scale (QSC) in ultra-low-rate transmission is fixed to 31 (quantization step 62) in the target area priority mode, and is set to 16 (quantization step 32) only for the main area determined from the area analysis. I do. Therefore, QSC information is not transmitted in the person mode. As a result, GQUANT (QSC information of the GOB layer) and MQUANT (quantization scale change information in MBK units) are not required, and no error occurs in this data. In other modes, when MQUANT is used, an error is determined by estimating a value in the same manner as CBP in pattern-level error correction described later.

5)GEI(GOB extra insertion information ;1ビット)
ア)データが「1」であれば次にユーザーデータGSPARE(8ビット)が続く。したがってGBSCの定位とGSPAREの定義および数値から正しくない(同期ずれか誤り)と判定する。
イ)データが「0」であればMBAが続く。したがって、誤りの判定はMBKレイヤまで持ち越される。
5) GEI (GOB extra insertion information; 1 bit)
A) If the data is "1", then user data GSPARE (8 bits) follows. Therefore, it is determined that the localization of the GBSC and the definition and numerical value of the GSPARE are incorrect (synchronization loss or error).
B) If the data is "0", MBA continues. Therefore, the determination of the error is carried over to the MBK layer.

(c)条件付きで現れる固定長データ/ヘッダ
1)PSPARE(picture layer spare infomation;8ビット)
ピクチャーレイヤ単位でのユーザーデータを記述可能なエリアで、本実施例においては、モード情報(8ビット),所要ビット数の情報(8ビット×2)に用いている。これによって、所要ビット量の誤りを判定することができる。
(C) Fixed-length data / header that appears conditionally 1) PSPARE (picture layer spare information; 8 bits)
An area in which user data can be described in units of picture layers. In this embodiment, the area is used for mode information (8 bits) and information on the required number of bits (8 bits × 2). This makes it possible to determine an error in the required bit amount.

2)GSPARE(GOB layer spare infomation;8ビット)
GOBレイヤ単位でのユーザーデータを記述可能なエリアで、本実施例においては、GOB内での所要ビット数を記述している。なお、GOBレイヤでの所要ビット数は8ビット以内に収まる確率が高いので、所要ビット数のデータのビットパターンを上位(MSB)側と下位(LSB)側とで順序を入れ替えた反転パターンとして記述するようになっている。したがって、GOBレイヤの所要ビット数が8ビットを超える場合にのみ、次のGSPAREが必要になる。
2) GSPARE (GOB layer spare infomation; 8 bits)
An area in which user data can be described in GOB layer units. In this embodiment, the required number of bits in GOB is described. Since the required number of bits in the GOB layer is likely to be within 8 bits, the bit pattern of the data of the required number of bits is described as an inverted pattern in which the order is switched between the upper (MSB) side and the lower (LSB) side. It is supposed to. Therefore, the next GSPARE is required only when the required number of bits of the GOB layer exceeds 8 bits.

3)MBSTUFF(macroblock address stuffing ;11ビット)
超低レート伝送では用いない。64kbps以上のH.261規格においては用いられる可能性はあるが、図53にも示すように、1ビットの誤り発生でも、文法的に異なる解釈結果となる場合があるので、ファジイマッチング処理を行うことは危険である。したがって、本実施例においてはMBSTUFFコードは使用していない。
3) MBSTUFF (macroblock address stuffing; 11 bits)
Not used for very low rate transmission. H. 64 kbps or higher. Although it may be used in the H.261 standard, as shown in FIG. 53, even if an error of one bit occurs, the interpretation result may be grammatically different, so that it is dangerous to perform fuzzy matching processing. . Therefore, the MBSTUFF code is not used in this embodiment.

4)MQUANT(MBK layer quantizer infomation;5ビット)
GQUANTで説明したように、本実施例における超低レートの伝送の人物モードにおいては、MQUANTを用いない。他のモードでMQUANTを用いる場合は後述のパターンレベルの誤り訂正におけるCBPと同様にして値を推測し、誤りを判定する。
5)INTRA−DC(8ビット)
文法的にはMTPがINTRAを示す時のみ最初のDCT係数データとして現れる。この判定については、後述する信号レベルの誤り訂正プロセスに委ねられる。
4) MQUANT (MBK layer quantizer information; 5 bits)
As described in GQUANT, MQUANT is not used in the person mode of ultra-low-rate transmission in the present embodiment. When MQUANT is used in another mode, an error is determined by estimating a value in the same manner as CBP in pattern-level error correction described later.
5) INTRA-DC (8 bits)
Grammatically, it appears as the first DCT coefficient data only when MTP indicates INTRA. This determination is left to a signal level error correction process described later.

6)ESC(6)+RUN(6)+LEVEL(8ビット)
ESCに誤りが入ると、その後のBLKレイヤの復号化処理において別の解釈が生じるため、文法的に誤り位置を特定して訂正することはかなり困難である。そこで次の方策を講じている。
ア)DCT係数の復号化処理において常にESCとの類似度Sesc を計算し、Sesc =5/6(6ビット中5ビットがESCと一致)の時にその位置Pesc をすべて記憶し、その後の復号化処理を進める。
6) ESC (6) + RUN (6) + LEVEL (8 bits)
If an error occurs in the ESC, another interpretation occurs in the subsequent decoding process of the BLK layer, so that it is quite difficult to identify and correct the error position grammatically. Therefore, the following measures have been taken.
A) In the decoding process of the DCT coefficient, the similarity Sesc with the ESC is always calculated, and when Sesc = 5/6 (5 bits out of 6 bits match the ESC), all the positions Pesc are stored, and the subsequent decoding is performed. Proceed with the process.

イ)EOBを見付ける以前に以下の条件《1》,《2》を満たさない場合には、誤りと判定し、上述のPesc に戻ってそれをESCと解釈し直して再度復号化処理を行う。《1》有意係数の個数≦Ncoefの制約,《2》BLK内の量子化DCT係数の累積個数≦64
ウ)画像信号レベルの誤り訂正プロセス(BLKレイヤ)で誤りを検出すれば、同じくPesc に戻ってそれをESCと解釈し直して再度復号化処理を行う。
B) If the following conditions << 1 >> and << 2 >> are not satisfied before the EOB is found, it is determined that an error has occurred, the process returns to Pesc, which is interpreted as ESC, and decoding is performed again. << 1 >> Constraint of number of significant coefficients ≦ Ncoef, << 2 >> Cumulative number of quantized DCT coefficients in BLK ≦ 64
C) If an error is detected in the error correction process (BLK layer) at the image signal level, the process returns to Pesc, interprets it as ESC, and performs decoding again.

エ)パターンレベルの誤り訂正プロセス(MBKレイヤ)で誤りを検出すれば、Pesc に戻ってESCと解釈し直して再度復号化処理を行う。
7)EOB(end of block;2ビット)
語長が短いため、類似度で候補を判定することは困難である。しかし、出現回数は多いので、ランダムな誤りがEOB内に発生する確率は小さくない。そこで、以下の条件《1》〜《3》を満たさない場合にEOBに誤りが生じたと判定する。
D) If an error is detected in the pattern-level error correction process (MBK layer), the process returns to Pesc, re-interprets as ESC, and performs decoding again.
7) EOB (end of block; 2 bits)
Since the word length is short, it is difficult to determine a candidate based on the similarity. However, since the number of appearances is large, the probability that a random error occurs in the EOB is not small. Therefore, if the following conditions << 1 >> to << 3 >> are not satisfied, it is determined that an error has occurred in the EOB.

《1》有意係数の個数≦Ncoefの制約
《2》BLK内の量子化DCT係数の累積個数≦64
《3》(MBK内のBLK個数)≦(CBPで記述されるBLK個数)
この場合に、訂正方法は次のア),イ)の2通りがあるが、通常は、計算の簡略化のためにイ)の方法を選択する。
<< 1 >> Number of significant coefficients ≦ Ncoef constraint << 2 >> Cumulative number of quantized DCT coefficients in BLK ≦ 64
<< 3 >> (number of BLKs in MBK) ≦ (number of BLKs described in CBP)
In this case, there are two correction methods, i.e., a) and i), but usually, the method i) is selected to simplify the calculation.

ア)1つ前のEOBの直後からビットを順に反転してゆき、EOBパターン「10」を検出する。そして、検出したEOBパターンをEOBと見なして復号化処理を行い、上記した3つの条件《1》,《2》,《3》をすべて満たせばこれが正しいEOBと判定する。
イ)GOB中の残りのMBKのすべてについてパターンレベルの誤り訂正を適用する。前述の3つの条件《1》,《2》,《3》で検出できない場合は信号レベルかパターンレベルの誤り訂正に委ねる。
A) Bits are sequentially inverted immediately after the immediately preceding EOB, and an EOB pattern "10" is detected. Then, the detected EOB pattern is regarded as an EOB, and a decoding process is performed. If all the above three conditions << 1 >>, << 2 >>, << 3 >> are satisfied, this is determined to be a correct EOB.
B) Apply pattern-level error correction to all remaining MBKs in the GOB. If the above three conditions << 1 >>, << 2 >> and << 3 >> cannot be detected, the error correction is left to the signal level or pattern level error correction.

(d)常に現れる可変長符号(VLC)
1)MBA(macroblock address;1〜11ビット)
MBAは以下の条件《1》,《2》で出現するため、この条件でVLC表の照合を行い、あとはパターンレベルの誤り訂正に委ねる。
《1》復号完了したMBK個数≦32のとき,EOBの直後
《2》GEI=0の直後
2)MTP(macroblock type ;1〜10ビット)
MTPは『MBAの直後』という条件で出現するため、この条件でVLC表の照合を行い、あとはパターンレベルの誤り訂正に委ねる。
(D) Variable length code (VLC) that always appears
1) MBA (macroblock address; 1 to 11 bits)
Since the MBA appears under the following conditions << 1 >> and << 2 >>, the VLC table is collated under these conditions, and the rest is left to pattern level error correction.
<< 1 >> Immediately after EOB when the number of decoded MBKs ≦ 32 << 2 >> Immediately after GEI = 0 2) MTP (macroblock type; 1 to 10 bits)
Since the MTP appears under the condition "immediately after MBA", the VLC table is collated under this condition, and the rest is left to pattern level error correction.

(e)条件付きで現れる可変長符号(VLC)
1)MVD(motion vector data;1〜11ビット)
MVDは以下の条件《1》,《2》で出現するため、この条件でVLC表の照合を行い、あとはパターンレベルの誤り訂正に委ねる。
《1》MTP=2,3,6,8,9,10のとき,MTPの直後
《2》MVDはx成分,y成分の順番で2個のVLCが連続して現れる
2)CBP(coded block pattern ;3〜9ビット)
CBPは以下の条件で出現するため、この条件でVLC表の照合を行い、あとはパターンレベルの誤り訂正に委ねる。
(E) Variable length code (VLC) that appears conditionally
1) MVD (motion vector data; 1 to 11 bits)
Since the MVD appears under the following conditions << 1 >> and << 2 >>, the VLC table is collated under these conditions, and the rest is left to pattern level error correction.
<< 1 >> Immediately after MTP when MTP = 2,3,6,8,9,10 << 2 >> MVD shows two VLCs continuously appearing in the order of x component and y component 2) CBP (coded block pattern; 3 to 9 bits)
Since CBP appears under the following conditions, the VLC table is collated under these conditions, and the rest is left to pattern level error correction.

3)TCOEF(INTER)(transform coefficients;2〜17)
BLKレイヤのINTERブロックに対するDCT係数のVLCは以下の条件《1》,《2》で出現する。この誤り訂正は信号レベルの誤り訂正に委ねる。
《1》MTPが4か7のとき(INTRAブロック),BLKレイヤ内で2番目の係数以降
《2》MTPが4,7以外のとき,BLKレイヤナイで次の符号がESCでない場合
3) TCOEF (INTER) (transform coefficients; 2 to 17)
The VLC of the DCT coefficient for the INTER block of the BLK layer appears under the following conditions << 1 >> and << 2 >>. This error correction is left to signal level error correction.
<< 1 >> When MTP is 4 or 7 (INTRA block), after the second coefficient in the BLK layer << 2 >> When MTP is other than 4 or 7, the next code is not ESC in the BLK layer

[B−3]パターンレベルの誤り訂正
階層的な符号化属性におけるフレーム間の連続性を用いる。
(1)過去のMBK復号属性の利用
すでに復号化した過去のMBKレイヤについては、属性メモリ39c内に、MBA,MTP,QSC,MVD,CBPの5つの属性データがフレーム単位の配列データとして記憶されている。これらの属性データはフレーム間でかなりの連続性を有しているので、シーンチェンジや強制イントラフレーム以外では、それほど激しく変化することはないという性質を持つ。特に、人物領域など対象領域の存続に関して時間的連続性がある場合には、このことが良く成り立つ(図54,図55参照)。
[B-3] Pattern Level Error Correction The continuity between frames in the hierarchical coding attribute is used.
(1) Use of past MBK decoding attribute For the past MBK layer that has already been decoded, five attribute data of MBA, MTP, QSC, MVD, and CBP are stored in the attribute memory 39c as array data in frame units. ing. Since such attribute data has considerable continuity between frames, it has the property that it does not change so drastically except for scene changes and forced intra frames. This is particularly true when there is temporal continuity regarding the continuation of the target area such as a person area (see FIGS. 54 and 55).

ブロック画素の単位で信号レベルのエラーが検出されたときに、そのエラーの原因は、DCT係数に対するVLCの伝送エラーでない場合には、MBK属性のエラーである可能性が高くなる。このとき、MTP,QSC,CBPを1フレーム前の属性のMBK単位の動き補償位置に隣接したk個のMBKからなる領域の範囲内で比較して著しく異なる場合には、その属性に過去の属性値を当てはめることで誤り訂正を行う。この場合における比較の評価関数については、以下に説明する通りである。   When a signal level error is detected in units of block pixels, if the error is not caused by a VLC transmission error with respect to the DCT coefficient, the error is likely to be an MBK attribute error. At this time, if the MTP, QSC, and CBP are significantly different from each other within the range of k MBKs adjacent to the motion compensation position in MBK units of the attribute of the previous frame, if the attribute is past attribute, Error correction is performed by applying a value. The evaluation function for comparison in this case is as described below.

(a)MBAの誤り検出と訂正
まず、MBAは対象領域の左側の輪郭部では時間的連続性が出るが、対象領域内では変化が多くなることが予想される。しかし、逆に、前述したようなFIXED/NOT_FIXEDのパターンについては、領域の動きからほぼ予測がつくようになる。そこで、図56のフローチャートおよび図57,図58に示すように、以下においては、領域の平均動きベクトルを利用して領域をシフトさせることにより、MBAパターンに一意的に対応するNOT_FIXED(以後、NFXと称する)パターンの予測計算を行い、GOB単位で現在の復号結果によるNFXパターンと予測結果に基づくNFXパターンとの間の類似度SNFX を次式(12),(13)にしたがって計算する。
(A) MBA Error Detection and Correction First, although MBA has temporal continuity at the contour on the left side of the target area, it is expected that the change will increase in the target area. However, conversely, the FIXED / NOT_FIXED pattern can be almost predicted from the movement of the area. Therefore, as shown in the flowchart of FIG. 56 and FIGS. 57 and 58, in the following, the area is shifted using the average motion vector of the area, so that NOT_FIXED (hereinafter, NFX) uniquely corresponding to the MBA pattern is used. Prediction calculation of a pattern is performed, and the similarity SNFX between the NFX pattern based on the current decoding result and the NFX pattern based on the prediction result is calculated in GOB units according to the following equations (12) and (13).

Figure 2004350300
ここで、
L ;現在復号中のMBA値aのMBKアドレス(既に復号が完了した1つ前のMBA値のMBKアドレスL0にaを加えた値)
Ls; NFXパターン比較の開始位置
s(A,B) ; A=B のとき「1」,それ以外は「0」
NFXM(k) ;GOBの1番目のMBKのMBA値が「1」以上ならば「1」,「0」なら「0」
NFXM_(k) ;1フレーム前の NFXパターンから予測した NFXパターン
次に、上述の計算結果について信頼度RNFX を式(14),(15)にしたがって計算する。
Figure 2004350300
here,
L: MBK address of MBA value a currently being decoded (a value obtained by adding a to MBK address L0 of the immediately preceding MBA value already decoded)
Ls; NFX pattern comparison start position s (A, B); "1" when A = B, "0" otherwise
NFXM (k); "1" if the MBA value of the first MBK of GOB is "1" or more, "0" if "0"
NFXM_ (k); NFX pattern predicted from the NFX pattern one frame before Next, the reliability RNFX is calculated according to the equations (14) and (15) for the above calculation result.

Figure 2004350300
上述の結果に基づいて、例えば次のような4つの条件によりMBAの検出と誤り訂正を行う。
1)RNFX0 < 0.5
この場合には、NFX予測の信頼度が低いと判断して保留する。すなわち、とりあえずは現状のNFXパターンを正しいと判定し、次の属性の判定に進む。
Figure 2004350300
Based on the above results, for example, MBA detection and error correction are performed under the following four conditions.
1) RNFX0 <0.5
In this case, it is determined that the reliability of the NFX prediction is low, and is suspended. That is, for the time being, it is determined that the current NFX pattern is correct, and the process proceeds to determination of the next attribute.

2)RNFX0 ≧ 0.5 且つ SNFX < TNFX1
現在のNFXパターンは復号誤りであると判定する。予測パターンからNFX値をコピーしてMBAパターンに変換する。(TNFX1は、例えば0.3程度の値とする)
3)RNFX0 ≧ 0.5 且つ TNFX1 ≦ SNFX < TNFX2
現在のMBA値が復号誤りであることは判定できないため保留する。すなわち、とりあえずNFX値を正しいと判定し、次の属性の判定に進む。(TNFX2は、例えば0.7程度の値とする)
4)RNFX0 ≧ 0.5 且つ TNFX2 ≦ SNFX
現在のNFX値は正しい復号結果であると判定する。
2) RNFX0 ≧ 0.5 and SNFX <TNFX1
It is determined that the current NFX pattern is a decoding error. The NFX value is copied from the predicted pattern and converted into an MBA pattern. (TNFX1 is, for example, about 0.3)
3) RNFX0 ≥ 0.5 and TNFX1 ≤ SNFX <TNFX2
Since it cannot be determined that the current MBA value is a decoding error, it is suspended. That is, it is determined that the NFX value is correct for the time being, and the process proceeds to the determination of the next attribute. (TNFX2 is, for example, about 0.7)
4) RNFX0 ≧ 0.5 and TNFX2 ≦ SNFX
It is determined that the current NFX value is a correct decoding result.

(b)MTPの誤り検出と訂正
10 frame/sec では、フレーム間の動きベクトルはビデオレートにおける3フレームベクトルなので、最大の大きさはプラス45画素程度もある。これは最大MBK3個の変位に相当する。そこで、1フレーム前のMTPパターンに対して対象領域の動きベクトルをMBK単位に換算した動き量(mx,my)で動き補償し、そのMBK位置を基準として既に復号したMBKで構成される比較領域を図59,図60のように設定し、動き補償によって対応する領域と各MTP値を比較する。ここで、次式(16)に基づいて類似度SMTP を計算し、さらに、それまでのMTP予測の信頼度を評価するために式(17),(18)を用いて信頼度評価値RMTP0を計算する。
(B) MTP Error Detection and Correction At 10 frames / sec, the inter-frame motion vector is a three-frame vector at the video rate, so the maximum size is about plus 45 pixels. This is equivalent to a maximum of three MBK displacements. Therefore, the motion vector of the target area is motion-compensated with respect to the MTP pattern of one frame before by the motion amount (mx, my) converted into the MBK unit, and the comparison area composed of the MBK already decoded based on the MBK position is used as a reference. Are set as shown in FIGS. 59 and 60, and each MTP value is compared with a corresponding area by motion compensation. Here, the similarity SMTP is calculated based on the following equation (16), and the reliability evaluation value RMTP0 is calculated using equations (17) and (18) in order to evaluate the reliability of the MTP prediction up to that time. calculate.

Figure 2004350300
ここで、
smtp(A,B);2つのMTPの間の類似度を計算する関数で、MTPの含む6種類の各情報の一致に対して、以下のスコア値を設定して合計する
INTRA 属性の一致 → 3点
MQUANT属性の一致 → 1点
M V D 属性の一致 → 2点
C B P 属性の一致 → 2点
TCOEFF属性の一致 → 1点
F I L 属性の一致 → 1点
LMTP ;スコア設定の合計値(ここでは「10」)
K ;比較領域に含まれるMBKの個数,1番目は現在復号中のMBK
K0 ;MTP予測の信頼度の計算領域に含まれるMBKの個数でK以上の値
MTP(i);GOBの1番目のMBKのMTP値,FIXEDでは0
MTP _(i) ;1フレーム前のMTPパターンから予測したMTPパターン,通常は動き補償による比較領域のMTPパターンをそのまま予測パターンとする
上述の設定により、例えばMTP=1とMTP=2との間の類似度は、MVDとFIL以外ではすべて一致しているので、
3+1+0+2+1+0=7(点)
となる。したがって、その場合には、
smtp(1,2)=smtp(2,1)=7
となる。同様にして、他の組み合わせについても計算することができる。
Figure 2004350300
here,
smtp (A, B); a function for calculating the degree of similarity between two MTPs. The following score values are set and totaled for the coincidence of each of the six types of information including the MTP.
INTRA attribute match → 3 points
Match of MQUANT attribute → 1 point
MVD attribute match → 2 points
CBP attribute match → 2 points
TCOEFF attribute match → 1 point
FI L attribute match → 1 point LMTP; total score setting (here “10”)
K: the number of MBKs included in the comparison area, the first is the MBK currently being decoded
K0: the number of MBKs included in the calculation area of the reliability of MTP prediction and a value equal to or greater than K
MTP (i): MTP value of the first MBK of GOB, 0 in FIXED
MTP_ (i): An MTP pattern predicted from the MTP pattern one frame before, that is, an MTP pattern of a comparison area normally obtained by motion compensation is used as a prediction pattern as it is. For example, between MTP = 1 and MTP = 2 Are similar except for MVD and FIL,
3 + 1 + 0 + 2 + 1 + 0 = 7 (points)
It becomes. Therefore, in that case,
smtp (1,2) = smtp (2,1) = 7
It becomes. Similarly, calculation can be performed for other combinations.

次に、上述の結果に基づいて、例えば次のような4つの条件によりMTPの検出と誤り訂正を行う。
1)RMTP0 < 0.5
MTP予測の信頼度が低いと判断して保留する。すなわち、とりあえずは現状のMTP値を正しいと判定し、次の属性の判定に進む。
Next, based on the above results, MTP detection and error correction are performed under the following four conditions, for example.
1) RMTP0 <0.5
It is determined that the reliability of the MTP prediction is low, and is suspended. That is, for the time being, it is determined that the current MTP value is correct, and the process proceeds to the determination of the next attribute.

2)RMTP0 ≧ 0.5 且つ SMTP < TMTP1
《1》現在のMTPパターンMTP(L)は復号誤りであると判定する。予測パターンからMTP値をコピーする。(TNFX1は、例えば0.3程度の値とする)
《2》これに対して、類似度が8以上(相違度が2以下)のMTPをすべて参照し、該当するVLCを参照する。
2) RMTP0 ≥ 0.5 and SMTP <TMTP1
<< 1 >> It is determined that the current MTP pattern MTP (L) is a decoding error. The MTP value is copied from the prediction pattern. (TNFX1 is, for example, about 0.3)
<< 2 >> On the other hand, all MTPs having a similarity of 8 or more (dissimilarity of 2 or less) are referenced, and the corresponding VLC is referenced.

《3》参照したいVLCとビットストリーム列をファジイマッチング処理により比較して最も照合度の高いVLCを選択する。
《4》その照合度がある基準(0.8以上)を満たせば、そのVLCとMTPを採用する。満たさない場合には最初の推定値のMTPを採用する。
3)RMTP0 ≧ 0.5 且つ TMTP1 ≦ SMTP < TMTP2
現在のMTP値が復号誤りであるとは判定できないので保留する。すなわち、とりあえず現状のMTP値を正しいと判定して次の属性の判定に進む。(TMBA2は、例えば0.7程度の値とする)
4)RMTP0 ≧ 0.5 且つ TMTP2 ≦ SMTP
現在のMTP値は正しい復号結果であると判定する。
<< 3 >> The VLC to be referred to and the bit stream sequence are compared by fuzzy matching processing to select the VLC with the highest matching degree.
<< 4 >> If the degree of collation satisfies a certain criterion (0.8 or more), the VLC and MTP are adopted. If not, the MTP of the first estimated value is adopted.
3) RMTP0 ≧ 0.5 and TMTP1 ≦ SMTP <TMTP2
Since the current MTP value cannot be determined to be a decoding error, it is suspended. That is, it is determined that the current MTP value is correct, and the process proceeds to the determination of the next attribute. (TMBA2 is, for example, about 0.7)
4) RMTP0 ≥ 0.5 and TMTP2 ≤ SMTP
It is determined that the current MTP value is a correct decoding result.

(c)QSCの誤り検出と訂正
QSCは32kbps以下の伝送レートではすべて31(量子化ステップ62)に固定し、対象領域優先モードにおいて領域分析から決定される主領域のみ16(量子化ステップ32)とする。したがって、人物モードではQSC情報は伝送しない。これにより、GOBレイヤのQSC情報とMBK単位の量子化スケール変更情報が不要となるため、QSCの誤りは生じないようになる。
(C) Error detection and correction of QSC All QSCs are fixed at 31 (quantization step 62) at a transmission rate of 32 kbps or less, and only the main area determined from area analysis in the target area priority mode is 16 (quantization step 32). And Therefore, QSC information is not transmitted in the person mode. As a result, the QSC information of the GOB layer and the quantization scale change information in MBK units become unnecessary, so that an error of the QSC does not occur.

(d)MVDの誤り検出と訂正
MVDはフレーム内において隣接するMBK間の差分動きベクトルで表現されているので、このままのデータ形式では誤りを判定することは困難である。そこで、MVDデータを本来の動きベクトルMVの形に戻してから評価する手法を取る。なお、MVD属性データについては、他のMBK属性の値に比べて時間的にも空間的にも連続な統計的性質を持つ信号値とみなせるので、過去のフレームからの線形予測と周囲MBKからの線形補間が可能となる。そこで、まず、領域情報がない場合について、動きベクトルMVを次の式(19)にしたがって計算する。
(D) MVD Error Detection and Correction Since MVD is represented by a differential motion vector between adjacent MBKs in a frame, it is difficult to determine an error in the data format as it is. Therefore, a method is employed in which the MVD data is returned to the original motion vector MV form and then evaluated. Note that the MVD attribute data can be regarded as a signal value having statistical properties that are temporally and spatially continuous compared to the values of other MBK attributes, so that linear prediction from past frames and Linear interpolation becomes possible. Therefore, first, when there is no area information, the motion vector MV is calculated according to the following equation (19).

Figure 2004350300
上式において、
vx(L,M);Mフレーム時刻におけるL番目のMBKに関する水平方向の動きベクトル
vy(L,M);Mフレーム時刻におけるL番目のMBKに関する垂直方向の動きベクトル
A ;xまたはyを表す添字
vA _(L,M) ;Mフレーム時刻におけるL番目のMBKに関する動きベクトルの推定値
a(i) ;フレーム内の線形補間係数
b(m) ;フレーム間の線形予測係数
u ;フレーム内補間とフレーム間予測の比率(0≦u≦1)
K ;復号中のMBKを含む周囲のMBK領域のMBK個数
p ;線形予測を行うための過去のフレーム数
そして、周囲MBKの設定の仕方は、前述のMTPの比較領域の場合に準ずる。このようにして得た推定ベクトルの値について次式(20)の誤差評価の式を用いて評価する。
Figure 2004350300
In the above formula,
vx (L, M); horizontal motion vector for L-th MBK at M-frame time vy (L, M); vertical motion vector A for L-th MBK at M-frame time A; subscript representing x or y vA_ (L, M); Estimated value of motion vector for L-th MBK at M-frame time a (i); Linear interpolation coefficient in frame b (m); Linear prediction coefficient u between frames u; Inter-frame prediction ratio (0 ≦ u ≦ 1)
K: the number of MBKs in the surrounding MBK area including the MBK being decoded; p: the number of past frames for performing linear prediction. The manner of setting the surrounding MBK is the same as in the case of the above-described MTP comparison area. The value of the estimated vector obtained in this way is evaluated using the error evaluation equation of the following equation (20).

Figure 2004350300
式(20)により得られた誤差評価の値Eにより次のように判定する。
1)E≧20
《1》復号したMVDは誤りであると判定しvAをvA_で置き換える。
Figure 2004350300
The following judgment is made based on the value E of the error evaluation obtained by the equation (20).
1) E ≧ 20
<< 1 >> The decoded MVD is determined to be an error, and vA is replaced with vA_.

《2》これに相当するMVDを計算し、それを中心値として±5の範囲で該当するVLCを参照する。
《3》参照したVLCとビットストリーム列をファジイマッチング処理により比較し、最も照合度の高いVLCを選択する。
《4》その照合度がある基準(0.8以上)を満たせば、そのVLCとMVDを採用する。満たさない場合は、最初の中心値のMVDを採用する。
<< 2 >> MVD corresponding to this is calculated, and the corresponding VLC is referenced within a range of ± 5 with that as the center value.
<< 3 >> The referenced VLC and the bit stream sequence are compared by fuzzy matching processing, and the VLC with the highest matching degree is selected.
<< 4 >> If the collation degree satisfies a certain criterion (0.8 or more), the VLC and MVD are adopted. If not, the MVD of the first center value is adopted.

2)20>E≧10
保留する。とりあえず復号したMVDを保持する。
3)10>E≧0
復号したMVDは正しいと判定する。
次に、領域情報がある場合には、動きベクトルの計算に当たっては、式(19)に代えて、次に示す式(21)に基づいて行い、評価については上述と同様にして行う。
2) 20> E ≧ 10
Hold. The decrypted MVD is held for the time being.
3) 10> E ≧ 0
It is determined that the decrypted MVD is correct.
Next, when there is area information, the motion vector is calculated based on the following equation (21) instead of equation (19), and the evaluation is performed in the same manner as described above.

Figure 2004350300
ここで、
vRA(L,M-m) ;mフレーム前の時刻における領域の平均動きベクトル
(e)CBPの誤り検出と訂正
1)領域情報がない場合
動き補償予測符号化処理においてCBPデータはテクスチャーや色の時間的変化の度合いを示す数値と考えることができる。しかし、このCBPデータは、MVDのような線形補間計算が行えるような代数構造とはなっていないので、図61〜64に示すように、CBP値をいったんYUVベクトルに変換してからMVDと同様の評価計算を実施する。そこで、まずYUVベクトルへの変換に際しては、次式(22)にしたがって計算する。
Figure 2004350300
here,
vRA (L, Mm); Average motion vector of the area at the time before m frames (e) Error detection and correction of CBP 1) When there is no area information In motion compensation prediction coding processing, CBP data is temporally represented by texture or color. It can be considered as a numerical value indicating the degree of change. However, since this CBP data does not have an algebraic structure that allows linear interpolation calculation like MVD, as shown in FIGS. 61 to 64, CBP values are once converted to YUV vectors, and then converted to YUV vectors. Perform evaluation calculation of. Therefore, at the time of conversion into a YUV vector, calculation is performed according to the following equation (22).

Figure 2004350300
ここで、
c(L,M) ;Mフレーム時刻におけるL番目のMBKに関するYUVベクトル
c _(L,M) ;Mフレーム時刻におけるL番目のMBKに関するYUVベクトルの推定値
ac(i) ;フレーム内の線形補間係数
bc(m) ;フレーム間の線形予測係数
uc;フレーム内補間とフレーム間予測の比率(0≦uc≦1)
Kc;復号中のMBKを含む周囲のMBK領域のMBK個数
pc;線形予測を行うための過去のフレーム数
LN(i,m) ;Mフレーム時刻における比較領域中のi番目のMBKがGOB中のアドレスで何番目であるかを示す番号対応付けの関数,比較領域を設定すれば一意的に決めることができる
そして、周囲MBKの設定の仕方は、前述のMTPの比較領域の場合に準ずる。このようにして得た推定ベクトルの値について次式(23)の誤差評価の式を用いて評価する。
Figure 2004350300
here,
c (L, M); YUV vector for L-th MBK at M-frame time
c _ (L, M); Estimated value of YUV vector for L-th MBK at M-frame time
ac (i): Linear interpolation coefficient within the frame
bc (m): Linear prediction coefficient between frames
uc; ratio between intra-frame interpolation and inter-frame prediction (0 ≦ uc ≦ 1)
Kc: Number of MBKs in the surrounding MBK area including the MBK being decoded
pc; number of past frames for performing linear prediction
LN (i, m): A function of number association indicating the number of the i-th MBK in the comparison area at the M-frame time in the address in the GOB, and it can be uniquely determined by setting the comparison area. The setting method of the surrounding MBK can be based on the case of the above-described MTP comparison area. The value of the estimated vector obtained in this way is evaluated using the error evaluation equation of the following equation (23).

Figure 2004350300
d1(A,B) ;ベクトルAとベクトルBとの間の絶対値距離
式(23)により得られた誤差評価の値Eにより次のように判定する。なお、YUVベクトルの定義から、
12≧Ec≧0
であるので、以下のような判定を行う。
Figure 2004350300
d1 (A, B); absolute value distance between the vector A and the vector B is determined as follows based on the value E of the error evaluation obtained by the equation (23). From the definition of the YUV vector,
12 ≧ Ec ≧ 0
Therefore, the following determination is made.

ア)Ec≧7
《1》復号したCBPは誤りであると判定し、c_をcとして置き換える。
《2》その置き換えたcを中心値として±1の範囲内でCBPを計算(1つのcに対して複数のCBPが存在し得る)し、該当するVLCを参照する。
《3》参照したVLCとビットストリーム列をファジイマッチング処理により比較し、最も照合度の高いVLCを選択する。
A) Ec ≧ 7
<< 1 >> It is determined that the decoded CBP is an error, and c_ is replaced with c.
<< 2 >> CBP is calculated within a range of ± 1 with the replaced c as a center value (a plurality of CBPs can exist for one c), and the corresponding VLC is referred to.
<< 3 >> The referenced VLC and the bit stream sequence are compared by fuzzy matching processing, and the VLC with the highest matching degree is selected.

《4》その照合度がある基準(0.8以上)を満たせば、そのVLCとCBPを採用する。満たさない場合には最初の中心値のCBPを採用する。
イ)7>Ec≧4
保留する。とりあえず、復号したCBPを保持する。
ウ)4>Ec≧0
復号したCBPは正しいと判定する。
<< 4 >> If the matching degree satisfies a certain criterion (0.8 or more), the VLC and CBP are adopted. If not, the CBP of the first center value is adopted.
B) 7> Ec ≧ 4
Hold. For now, the decrypted CBP is held.
C) 4> Ec ≧ 0
It is determined that the decrypted CBP is correct.

2)領域情報がある場合
次に、領域情報がある場合には、YUVベクトルの計算に当たっては、式(22)に代えて、次に示す式(24)に基づいて行い、評価については上述と同様にして行う。
2) When there is region information Next, when there is region information, the calculation of the YUV vector is performed based on the following expression (24) instead of expression (22). Perform in a similar manner.

Figure 2004350300
cR(L,M-m) ;mフレーム前の時刻における動き補償領域のYUVベクトル
ただし、ucの値は、領域情報がない場合の値よりも若干小さい値に設定することが望ましい。また、pcは逆に少し大きく設定する。
Figure 2004350300
cR (L, Mm); YUV vector of the motion compensation area at the time m frames before. However, it is desirable to set the value of uc to a value slightly smaller than the value when there is no area information. On the other hand, pc is set slightly larger.

(f)保留事項の処理
さて、上述のようにして5つの属性の検出と誤りの評価を行った結果、例えば、保留とする属性が3個以上発生した場合には、その保留が現れた属性に限り、誤り訂正した属性値に入れ替え、VLCを参照した上で、再度評価する。
[B−4]信号レベルの誤り訂正
これまで説明したパターンレベルの誤り訂正については、MBK単位の符号化属性に依存している誤り訂正であって、画像信号の値そのものを評価する手段ではない。そして、画像信号はBLKレイヤのビットストリームデータが符号レベルで復号化され、量子化DCT係数ブロックとして復元された時点で初めて可能となるものである。そこで、このように復元された画像信号のレベルにおける誤り訂正について次に説明する。
(F) Processing of pending items Now, as a result of the detection of five attributes and the evaluation of errors as described above, if, for example, three or more attributes to be retained occur, the attribute in which the retention appears Only, the attribute value is replaced with the error-corrected attribute value, and the evaluation is performed again with reference to the VLC.
[B-4] Error Correction at Signal Level The error correction at the pattern level described so far is error correction depending on the coding attribute in MBK units, and is not means for evaluating the value of the image signal itself. . The image signal becomes available only when the bit stream data of the BLK layer is decoded at the code level and restored as a quantized DCT coefficient block. Therefore, error correction at the level of the image signal thus restored will be described below.

(1)ブロック画素の性質に基づく誤り訂正
(a)誤りの検出
通常、BLKレイヤにおける復号誤りは、文法的制約とVLCの木符号としての性質によって、量子化DCT係数ブロックのDC成分の復号誤りに通じる。このことにより、仮にMBKが文法的に復号化が完了したとしてもその色(UVブロックのDC成分が支配的)やテクスチャーは周囲とは非常に異なるものになる可能性が高くなる(図66参照)。
(1) Error Correction Based on Properties of Block Pixels (a) Detection of Errors Normally, decoding errors in the BLK layer are caused by decoding errors of DC components of quantized DCT coefficient blocks due to grammatical constraints and VLC tree code properties. Lead to. As a result, even if the MBK is grammatically decoded, the color (the DC component of the UV block is dominant) and the texture are likely to be very different from the surroundings (see FIG. 66). ).

一方、正常な画像信号として図65(b)に示すように、画素ブロックの格子(同図(a)も参照)に乗ったタイル状の画素においてのみその周囲ブロックと異なる色が偶然に発生するという確率は非常に少ないと考えられる。この考え方は、対象とするMBKのMTPがINTERを示すときには、尚更信頼度が高くなることが言える。なぜなら、画素値の変化が大きいMBKである場合には通常INTRAと判断される可能性が高いからである。そこで、ここでは、色信号に着目して以下のようにして誤りを検出する。   On the other hand, as shown in FIG. 65 (b), a color different from that of the surrounding blocks is accidentally generated only in a tile-shaped pixel on a pixel block grid (see also FIG. 65 (a)) as a normal image signal. Is considered to be very small. According to this concept, when the MTP of the target MBK indicates INTER, the reliability is further improved. This is because if the MBK has a large change in pixel value, it is highly likely that the MBK is determined to be normally INTRA. Therefore, here, an error is detected by focusing on the color signal as follows.

1)最もストレートな方法として、逆量子化、逆DCTを行って画像信号ブロックに復元した後に色を評価する。この評価では、周囲MBKからの線形補間と過去フレームのMBKから動き補償線形予測によって推測したMBKと、現時点でビットストリームから復元したMBKとの間の比較に基づく。具体的には、次式(25)〜(29)にしたがって、誤差評価計算を行う。         1) As the simplest method, color is evaluated after inverse quantization and inverse DCT are performed to restore the image signal block. This evaluation is based on a comparison between the linear interpolation from the surrounding MBK and the MBK estimated by the motion compensated linear prediction from the MBK of the past frame and the MBK restored from the current bit stream. Specifically, an error evaluation calculation is performed according to the following equations (25) to (29).

Figure 2004350300
ただし、各記号は以下の通りである。
d1(A,B) ;ベクトルAとベクトルBとの間の絶対値距離
Cb;ビットストリームに基づく復元MBKの色ベクトル
Ce;推定したMBKの色ベクトル
Y$;Yブロックの平均画素値
U$;Uブロックの平均画素値
V$;Vブロックの平均画素値
YBLK$(n,k);MBK中のn番目のYブロックのk番目の画素値( n=1〜4, k=1〜64)
UBLK$(k);MBK中のUブロックのk番目の画素値
VBLK$(k);MBK中のVブロックのk番目の画素値
以上の計算の結果得られる誤差評価値Ecに対して、
765(=255×3)≧Ec≧0
という条件があるので、この範囲内で、例えば、Ec>400である場合に誤りであると判定する。なお、MBKの予測推定計算については、次の2)と同様にして行う。
Figure 2004350300
However, each symbol is as follows.
d1 (A, B); absolute value distance between vector A and vector B Cb; color vector of restored MBK based on bit stream Ce; estimated color vector of MBK Y $; average pixel value of Y block U $; Average pixel value of U block V $; Average pixel value of V block
YBLK $ (n, k); k-th pixel value of n-th Y block in MBK (n = 1 to 4, k = 1 to 64)
UBLK $ (k); k-th pixel value of U block in MBK
VBLK $ (k); k-th pixel value of V block in MBK For the error evaluation value Ec obtained as a result of the above calculation,
765 (= 255 × 3) ≧ Ec ≧ 0
Within this range, for example, if Ec> 400, it is determined that an error has occurred. The MBK prediction estimation calculation is performed in the same manner as in the following 2).

2)量子化DC係数ブロックのDC成分のみを用いてYUVベクトルを構成し、周囲MBKからの線形予測と過去のフレームからの動き補償予測によって推定したYUVベクトルとの誤差を次式(30)にしたがって計算して評価する。         2) A YUV vector is constructed using only the DC component of the quantized DC coefficient block, and the error between the linear prediction from the surrounding MBK and the YUV vector estimated by the motion compensation prediction from the past frame is expressed by the following equation (30). Therefore, it is calculated and evaluated.

Figure 2004350300
ただし、
c(L,M) ;Mフレーム時刻におけるL番目のMBKに関するYUVベクトル
c(L,M)=(Y,U,V) であり、Yは4つのBLKのDC成分の平均、
U,VはそれぞれUBLK,VBLKのDC成分
cR(L,M-m) ;領域情報がある場合はmフレーム前の時刻における動き補償領域のYUVベクトルであり、領域情報がない場合はc(L,M)と同等
c _(L,M) ;Mフレーム時刻におけるL番目のMBKに関するYUVベクトルの推定値
ac(i) ;フレーム内の線形補間係数
bc(m) ;フレーム間の線形予測係数
uc;フレーム内補間とフレーム間予測の比率(0≦uc≦1)
Kc;復号中のMBKを含む周囲のMBK領域のMBK個数
pc;線形予測を行うための過去のフレーム数
そして、周囲MBKの設定の仕方は、次項のMBK属性の比較領域の取り方に準ずる。このようにして得た推定ベクトルの値について次式(31)の誤差評価の式を用いて評価する。なお、誤りの判定条件は、1)の場合と同じである。
Figure 2004350300
However,
c (L, M); YUV vector for L-th MBK at M-frame time
c (L, M) = (Y, U, V), where Y is the average of the DC components of the four BLKs,
U and V are DC components of UBLK and VBLK, respectively.
cR (L, Mm); if there is area information, it is the YUV vector of the motion compensation area at the time m frames before, and if there is no area information, it is equivalent to c (L, M)
c _ (L, M); Estimated value of YUV vector for L-th MBK at M-frame time
ac (i): Linear interpolation coefficient within the frame
bc (m): Linear prediction coefficient between frames
uc; ratio between intra-frame interpolation and inter-frame prediction (0 ≦ uc ≦ 1)
Kc: Number of MBKs in the surrounding MBK area including the MBK being decoded
pc: the number of past frames for performing linear prediction And the setting method of the surrounding MBK is in accordance with the method of setting the comparison area of the MBK attribute described in the next item. The value of the estimated vector obtained in this manner is evaluated using the error evaluation expression of the following expression (31). The error determination conditions are the same as in the case 1).

Figure 2004350300
(b)誤りの訂正
復号したBLKが誤りであると判定した場合には、推定値で置き換えるようにする。一方、次のBLKの復号を行うには、符号レベルでビットストリーム復号再開位置を決める必要がある。このためには符号レベルの誤り訂正におけるEOB検出プロセスを起動する。このとき、もし、再生した(訂正も含む)MBKの数がGOB中で22以上であるならば(GOBをなす3列のブロックのうちの2列分の個数が22個である)、残りのMBKについてはすべて領域情報を利用した動き補償予測に置き換えるようになっている。
Figure 2004350300
(B) Error Correction When it is determined that the decoded BLK is an error, it is replaced with an estimated value. On the other hand, in order to decode the next BLK, it is necessary to determine the bit stream decoding restart position at the code level. For this purpose, an EOB detection process in code level error correction is started. At this time, if the number of reproduced MBKs (including corrections) is 22 or more in the GOB (the number of blocks in two columns of the three columns of blocks forming the GOB is 22), the remaining All MBKs are replaced with motion compensated predictions using region information.

(2)周期的強制イントラによる誤り伝播の防止
前項で示したような誤り訂正を行った後でも、そのままフレーム加算による復号化処理を継続すると、誤差伝播の累積により正常な画像再生が困難になる。そこで、次のような誤差伝播防止策を考慮している。
(a)領域情報をもとにして、周期的に強制イントラMBKを挿入することにより、重要部分の画像破綻を防止することができる。特に、図67にも示すように、顔部分では口と耳に強制イントラブロックを集中的に割り当てて、周期的に巡回することによりデータ量の増大を抑制しながら行う。
(2) Prevention of Error Propagation by Periodic Forced Intra Even if error correction as described in the previous section is performed, if decoding processing by frame addition is continued, normal image reproduction becomes difficult due to accumulation of error propagation. . Therefore, the following error propagation prevention measures are considered.
(A) By periodically inserting the forced intra MBK based on the area information, it is possible to prevent an image failure of an important part. In particular, as shown in FIG. 67, in the face part, forced intra blocks are intensively assigned to the mouth and ears, and cyclical circulation is performed while suppressing an increase in the data amount.

(b)復号化器2側で誤り訂正を行った後に、領域ベースの強制イントラを今後あるい時間範囲で分散して送るように符号化器1側に要求する。この場合、フレーム単位のARQ(要求信号)に比べて情報量の著しい増加は避けられるため、ピクチャーフリーズを行う必要はない。
[B−5]モード情報を用いた誤り訂正の戦略制御
符号化器1において設定するモード情報は、前述したように、使用環境,被写体,符号化制御の3つのカテゴリーに渡っているが、そのモード情報を用いることにより、復号化器2側において誤り訂正のルートを特定することができるようになる。
(B) After performing error correction on the decoder 2, the encoder 1 is requested to transmit the region-based forced intra in a distributed manner over a certain time period in the future. In this case, it is not necessary to perform picture freeze because a remarkable increase in the amount of information can be avoided as compared with ARQ (request signal) in frame units.
[B-5] Strategy Control of Error Correction Using Mode Information As described above, the mode information set in the encoder 1 is divided into three categories of use environment, subject, and encoding control. The use of the mode information enables the decoder 2 to specify an error correction route.

(1)使用環境
(a)自動車内固定
背景メモリ66と人物モードの設定により、認識,パターン,信号のすべてのレベルの誤り訂正機能を起動することができる。
(b)自動車内可動
人物モードと風景モードとの両方の可能性があるが、人物モードの場合には、上述の自動車内固定の場合と同様である。ただし、背景メモリ66のデータは常に更新記憶する必要がある。
(1) Usage environment (a) Fixed in the vehicle By setting the background memory 66 and the person mode, it is possible to activate the error correction function of all levels of recognition, pattern, and signal.
(B) Movable in car There is a possibility of both the person mode and the landscape mode. In the case of the person mode, it is the same as the case of the above-mentioned fixed in the car. However, the data in the background memory 66 must always be updated and stored.

(c)屋内固定
背景メモリ66を使用可能である。被写体が人物でない場合も目的によってはテンプレートまたは3Dモデルを特別に設定できるため、人物モードと同様の領域情報を利用した誤り訂正を起動できる。
(d)屋内可動
人物モードのみ誤り訂正機能の起動が可能となる。
(C) Fixed indoor The background memory 66 can be used. Even when the subject is not a person, a template or a 3D model can be specially set depending on the purpose, so that error correction using area information similar to that in the person mode can be activated.
(D) Movable indoor The error correction function can be activated only in the person mode.

(2)被写体
上記した使用環境で説明したように、人物モードと風景モードとに分けられ、風景モードは形状や色彩が特定困難であるため、背景メモリ66に頼る以外に誤り訂正機能の起動は難しい。人物モードでは、テンプレート,3Dモデル,人物画像テクスチャー,目鼻口耳・髪・肌色などの特徴量を用いることができるため、全レベルの訂正機能を起動させることができる。
(2) Subject As described in the use environment described above, the mode is divided into the portrait mode and the landscape mode. Since the landscape mode is difficult to specify the shape and color, the activation of the error correction function other than relying on the background memory 66 is not possible. difficult. In the person mode, since feature amounts such as a template, a 3D model, a person image texture, eyes, nose, mouth, ears, hair, and skin color can be used, the correction function at all levels can be activated.

(3)符号化制御モード
通常の実時間動画像再生要求とは異なるモード、例えば静止画モードやビデオメールモードなどでは実時間で誤り訂正をする必要がないため、ARQを起動すれば十分である。
(4)通信路における誤り発生状態の判定
画像がその他の誤り訂正手段によっても訂正できずに、復号が停止してしまった場合に、強制的に復号化器2側から符号化器1側に次のいずれかの要求信号を送信する。なお、このような要求信号の送信は、通信路の状況におうじて、自動的にレベルの選択設定をすることもできるし、あるいは、ユーザーの好みによって設定することも可能で、そのレベル設定はヒューマンインターフェイス34を介して行うようになっている。
(3) Encoding control mode In a mode different from a normal real-time moving image reproduction request, for example, a still image mode or a video mail mode, there is no need to perform error correction in real time, so it is sufficient to activate ARQ. .
(4) Judgment of Error Occurrence State in Communication Channel When decoding is stopped because the image cannot be corrected by other error correcting means, the decoder 2 is forcibly moved from the decoder 2 side to the encoder 1 side. Send one of the following request signals. It should be noted that the transmission of such a request signal can be automatically selected and set according to the condition of the communication path, or can be set according to the user's preference. The processing is performed via the human interface 34.

(a)強制イントラピクチャーから始まる動画伝送の再送要求
これは、既存方式で用いられている再送(ARQ)と同じである。しかし、超低レート伝送では、遅延時間の著しい増大と頻繁なピクチャーフリーズにつながるため、特に32kbps以下の実時間伝送ではあまり用いない。一方、ビデオメールモードのように非実時間伝送の場合はこの要求を適用する。
(A) Retransmission request for video transmission starting from forced intra-picture This is the same as retransmission (ARQ) used in the existing system. However, since ultra-low-rate transmission leads to a remarkable increase in delay time and frequent picture freeze, it is not often used particularly in real-time transmission of 32 kbps or less. On the other hand, in the case of non-real-time transmission such as the video mail mode, this request is applied.

(b)強制イントラピクチャーから始まる動画伝送の新規再開
復号化処理が停止した時点で残りのMBKについて過去のフレームから予測画像を生成し、ピクチャーフリーズする。正常に強制イントラピクチャーが送られてくる(PSCヘッダで開始位置を確認)までは、入力バッファのデータを廃棄し続ける。
(c)強制イントラピクチャーのみによる準動画の送出要求。
(B) New restart of moving image transmission starting from forced intra-picture When decoding processing is stopped, a predicted image is generated from a past frame for the remaining MBK, and the picture is frozen. Until the forced intra picture is normally transmitted (the start position is confirmed by the PSC header), the data in the input buffer is continuously discarded.
(C) A request to send a quasi-moving image only by forced intra-picture.

(d)モデルベース符号化における動きパラメータの送出要求。
[B−6]認識レベルの誤り訂正
(1)対象領域の特定
符号化器1側にて設定された対象領域検出結果およびモード制御情報については、ユーザーデータエリア(PSPARE,GSPARE)に記述した状態で画像信号として伝送されるので、これを復号化器2側で復号化処理を行って検出する。そして、これらの情報に基づいてテンプレート(2D情報)の選択と変形を行い、符号化器1側で抽出した領域情報を再現する(図68参照)。
(D) A request to send a motion parameter in model-based coding.
[B-6] Error Correction of Recognition Level (1) Specification of Target Area The target area detection result and mode control information set by the encoder 1 are described in the user data area (PSPARE, GSPARE). Is transmitted as an image signal, and is detected by performing a decoding process on the decoder 2 side. Then, a template (2D information) is selected and transformed based on these pieces of information, and the area information extracted on the encoder 1 side is reproduced (see FIG. 68).

(a)基本テンプレートの選択
符号化器1と復号化器2との間では、あらかじめ同一の2値テンプレートのセットが設けられているので、テンプレートを指定する識別番号を検出することにより双方で共通のテンプレートを用いることができる。
(b)基本テンプレートの変形
1)中心あわせ
テンプレート中心の水平および垂直のシフト量を画素単位で表現した2Dベクトル(mx,my)で中心合わせを行う。
(A) Selection of basic template Since the same set of binary templates is provided between the encoder 1 and the decoder 2 in advance, they are common to each other by detecting an identification number designating the template. Template can be used.
(B) Deformation of Basic Template 1) Centering Centering is performed using a 2D vector (mx, my) expressing the horizontal and vertical shift amounts of the template center in pixel units.

2)スケーリング
上記のようにして得られた中心を原点として基本テンプレートを比率rで拡大縮小する。
3)修正
各々の基本テンプレートに固有の形状パラメータにより幅や高さ、姿勢角などの修正を部分的に加える。
2) Scaling The basic template is scaled at a ratio r with the center obtained as described above as the origin.
3) Modifications Modifications such as width, height, and posture angle are partially added to each basic template using shape parameters unique to each template.

(c)部位の特定
モード情報とテンプレート選択情報により対象物のカテゴリーがわかっている場合には、さらにテンプレート中のどの部分が対象物のどういう部分に対応するかを知ることができる。例えば、人物モードで人物上半身のテンプレートを選択した場合、符号化器1の説明で用いた図16に示しているように、人物頭部,顔,口,目,鼻などに相当する細かい画像領域を特定することができる。
(C) Identification of Site When the category of the object is known from the mode information and the template selection information, it is possible to know which part in the template corresponds to what part of the object. For example, when a template of a person's upper body is selected in the person mode, as shown in FIG. 16 used in the description of the encoder 1, a fine image area corresponding to a person's head, face, mouth, eyes, nose, etc. Can be specified.

(2)誤り判定の起動
本実施例においては、誤りの発生原因を符号レベルのビット誤りに特定して画像の修正プロセスを記述している。したがって、誤り検出そのものは認識レベルでは行わず、信号レベルか符号レベル,またはパターンレベルで行う。認識レベルの誤り訂正は、特にそれらで誤りを評価する場合の、領域情報とそれに基づく対象物体の画像に反映される種々の性質を提供することにある。したがって、認識レベルにおける誤り訂正プロセスの起動は、他のレベルのモジュールによって行われることになる。
(2) Activation of Error Determination In this embodiment, the cause of the error is specified as a bit error at the code level, and the image correction process is described. Therefore, error detection itself is not performed at the recognition level, but at the signal level, the code level, or the pattern level. The error correction of the recognition level is to provide various properties which are reflected in the area information and the image of the target object based on the area information, especially when errors are evaluated by them. Therefore, activation of the error correction process at the recognition level will be performed by another level module.

(3)領域情報を用いた誤り訂正
(a)領域情報の利用による2D動き補償
現在復号中のMBKがどの領域に含まれるかがわかれば、パターンレベルの誤り訂正の説明で述べたように、既に復号が完了した領域内のMBKの動きベクトルを用いて動き補償を行うことができる。例えば、復号化処理中のMBKが頭部の顔領域に含まれると判定されれば、頭部の平均動きベクトルを用いて動き補償予測MBKを作ることができる。
(3) Error Correction Using Region Information (a) 2D Motion Compensation Using Region Information If it is known in which region the MBK currently being decoded is included, as described in the description of pattern-level error correction, Motion compensation can be performed using the motion vector of the MBK in the area where decoding has already been completed. For example, if it is determined that the MBK being decoded is included in the face area of the head, a motion compensated prediction MBK can be created using the average head motion vector.

(b)部位の情報を利用した修正
領域がわかれば、動きのみならず色や輝度,テクスチャーの誤りを修正することもできる。例えば、前フレームまでに顔の領域情報から肌色の解析をしておけば、信号レベルやパターンレベルの項で述べたような線形推定値と誤差評価により、誤りの判定と修正を行うことができるようになる。
(B) Correction Using Part Information If the region is known, it is possible to correct not only motion but also color, luminance, and texture errors. For example, if the skin color is analyzed from the face area information before the previous frame, the error can be determined and corrected by the linear estimation value and the error evaluation as described in the section of the signal level and the pattern level. Become like

(c)領域情報の表現
領域情報の表現は、符号化器1側の説明で述べたと同様のテンプレートの表現方法に準ずる。例えば、人物モードでは被写体は全身像を基準として上半身,頭部,顔という4階層でテンプレートを作成する。また、顔は、口,目,鼻,頬,額を主要部位とし、正面顔における相対位置を設定する。上述の肌色解析は口と目を除く部分をもとにして平均色を計算することにより算出する。
(C) Expression of region information The expression of the region information is based on the same template expression method as described in the description of the encoder 1. For example, in the person mode, a template is created for the subject in four layers of upper body, head, and face based on the whole body image. The face has a mouth, eyes, nose, cheeks, and forehead as main parts, and a relative position in the front face is set. The above-described skin color analysis is calculated by calculating an average color based on a portion excluding the mouth and eyes.

(d)人物領域中の相対位置の計算
変形を施す前の基本テンプレートは、前述したように、図25のように記述されている。これにより、基本テンプレート中の二次元座標としてすべての部位の位置が表現できる。
(4)背景メモリによる誤り訂正
領域情報が明確になれば、背景領域を特定することができる。そこで、背景領域の画像情報を復号化器2の背景メモリ66に記憶させる。これにより、背景領域の復号化処理中にビット誤りが発生したときも上記と同様の誤り訂正を行うことができるようになる。
(D) Calculation of the relative position in the person area The basic template before the deformation is described as shown in FIG. 25 as described above. Thereby, the positions of all parts can be expressed as two-dimensional coordinates in the basic template.
(4) Error Correction by Background Memory If the area information becomes clear, the background area can be specified. Therefore, the image information of the background area is stored in the background memory 66 of the decoder 2. As a result, even when a bit error occurs during the decoding process of the background area, the same error correction as described above can be performed.

[B−7]人物メモリと3Dモデルベース手法
(1)人物画像の登録
最初のイントラピクチャーを人物名によってラベリングし、人物画像データとして人物メモリ67に記憶しておくことができる。こおこで、人物識別名は、ヒューマンインターフェイス34を利用することにより、符号化時に認証番号と同じ意味合いでラベルとして付与して登録する。また、イントラピクチャー中の領域情報はテンプレート番号と変形情報で記憶させる。さらに、同時にその人物とコンタクト(通話)した日時も同時に記憶させたり、あるいはメモリ容量が許す限りの範囲内において、音声情報についても同一ラベルで記憶させることにより、さらに機能を向上させることができる。
[B-7] Person Memory and 3D Model-Based Method (1) Registration of Person Image The first intra picture can be labeled by a person name and stored in the person memory 67 as person image data. Here, the personal identification name is assigned and registered as a label with the same meaning as the authentication number at the time of encoding by using the human interface 34. The area information in the intra picture is stored as a template number and deformation information. Further, the date and time of contact (call) with the person can be stored at the same time, or the voice information can be stored with the same label as far as the memory capacity allows, so that the function can be further improved.

(2)人物画像の呼出し
人物メモリ67に登録することにより記憶されている人物画像情報は、ユーザーによって人物識別名に基づいて名刺画像として適宜のタイミングで呼び出すことができる。これにより、一度通話を行った相手の顔を思い出すことができるようになり、例えば、再度通話を行う際に相手の認証手段として用いることもできる。また、伝送誤りが激しくなったときのモデルベース復号モードのテクスチャー画像としても利用することができる。
(2) Calling of a Person Image The person image information stored by being registered in the person memory 67 can be called by a user at an appropriate timing as a business card image based on the person identification name. This makes it possible to remember the face of the other party who made the call once, and can be used, for example, as a means for authenticating the other party when making another call. It can also be used as a texture image in the model-based decoding mode when a transmission error becomes severe.

(3)モデルベース復号モード
人物の3Dモデルに上記の人物画像をテクスチャーマッピングし、3D動き情報を付与することにより、伝送誤りが激しくなった場合の補助的な画像再生手段として人物象を生成する。この3D動き情報は復号化器2が適当に人物の動きらしく見えるように与えるようにしても良い。また、符号化器1側で抽出した3D動き情報を用いて制御することもできる。
(3) Model-based decoding mode The above-described person image is texture-mapped to a 3D model of a person, and 3D motion information is added, thereby generating a person image as an auxiliary image reproducing unit when a transmission error becomes severe. . The 3D motion information may be provided so that the decoder 2 appropriately looks like a motion of a person. Also, control can be performed using the 3D motion information extracted on the encoder 1 side.

(4)3Dモデルに基づく空間的限定
符号化器1側から3D動き情報が与えられるならば、前述の2Dテンプレート情報だけでは表現しきれなかった正面像以外の場合の領域予測が行える。すなわち、図13にも示したように、3Dモデルの透視投影により、画像面上で2D領域を特定することができる。
(4) Spatial limitation based on 3D model If 3D motion information is given from the encoder 1 side, region prediction can be performed for a case other than a front image that cannot be expressed by only the 2D template information described above. That is, as shown in FIG. 13, the 2D area can be specified on the image plane by the perspective projection of the 3D model.

[B−8]誤り訂正戦略
以上の各レベルにおける誤り判定結果に基づいて、最終的に行使される誤り訂正機能は次のようにまとめることができる。各レベル数は、再生動画像の原画像に対する忠実さの度合いを予想した値になっている。
〈レベル0〉 3Dモデルベース再生
〈レベル1〉 ピクチャーフリーズ
〈レベル2〉 モデルベース推定
〈レベル3〉 領域情報に基づくGOB単位の線形推定・動き補償
〈レベル4〉 領域情報に基づくMBK単位の線形推定・動き補償
〈レベル5〉 符号レベルの訂正
[B−9]フローチャートにしたがった復号動作の説明
さて、以上のように、復号化処理に当たって実施される誤り訂正の機能について、実際の復号化処理過程においては、各機能を図8ないし図11に示すプログラムのフローチャートにしたがって実施するようになる。以下、全体の流れの概略について説明する。
[B-8] Error Correction Strategy Based on the error determination result at each level described above, the error correction function finally exercised can be summarized as follows. Each level number is a value that predicts the degree of fidelity of the reproduced moving image to the original image.
<Level 0> 3D model-based reproduction <Level 1> Picture freeze <Level 2> Model-based estimation <Level 3> Linear estimation / motion compensation in GOB units based on region information <Level 4> Linear estimation in MBK units based on region information -Motion compensation <Level 5> Correction of code level [B-9] Description of decoding operation according to flowchart Now, as described above, the actual decoding process of the error correction function performed in the decoding process will be described. , Each function is performed according to the flowcharts of the programs shown in FIGS. Hereinafter, an outline of the entire flow will be described.

すなわち、まず、FIFOバッファ42に蓄積されたビットストリームデータについて通信路復号化部35のファジイマッチング部44にてファジイマッチング処理を行ってPSCを検索し(ステップB1)、その検索位置に基づいてパーザ43により所要ビット数,モード情報,領域情報の復号化処理を行う(ステップB2〜B4)。そして、これらのデータに基づいて再びグローバルチェックを行って1フレーム内におけるGBSCを定位するようになる(ステップB5)。この後、図11に示す誤りの総合判定のルーチンによって符号レベルの誤りに対する判定動作を行う(ステップB6)。   That is, first, fuzzy matching processing is performed on the bit stream data accumulated in the FIFO buffer 42 by the fuzzy matching unit 44 of the communication path decoding unit 35 to search for a PSC (step B1). The decoding process of the required number of bits, mode information, and area information is performed by 43 (steps B2 to B4). Then, the global check is performed again based on these data, and the GBSC in one frame is localized (step B5). Thereafter, a determination operation for a code level error is performed by the error total determination routine shown in FIG. 11 (step B6).

次に、モード制御部33により、得られたモード情報に基づいて使用環境,対象物(被写体)および復号化モードを設定する(ステップB7〜B9)。そして、人物モードである場合には、基本テンプレートの選択,修正・変形・スケーリングの処理を行って領域パターンの再生を行い(ステップB10〜B13)、以下、ステップB14〜B17を経てパターンレベルの誤り訂正機能を実施する。   Next, the use environment, the object (subject), and the decoding mode are set by the mode control unit 33 based on the obtained mode information (steps B7 to B9). If the mode is the person mode, the basic template is selected, corrected, deformed, and scaled to reproduce the area pattern (steps B10 to B13). Perform the correction function.

まず、属性推定部61にて、MBA,MTPの誤り検出と訂正を行い(ステップB18,B19)、人物モードが設定されている場合には誤り判定・補正部50によりQSCの抑制を行った後、MVDの誤り検出と訂正を行い(ステップB20〜B22)、続いて、属性推定部61によりCBPの誤り検出と訂正を行う(ステップB23)。これらの結果から、誤り判定・補正部50により、図11に示すルーチンにしたがって誤りの総合判定を実施し(ステップB24)、続いて、上述の過程のいずれかにおいて属性の誤り検出をした場合には、再びそのステップに戻って誤り検出を実行し(ステップB25〜B28)、これらが終了すると、復号完了した属性配列のデータを属性メモリであるパターン属性部39cに記憶するようになる。   First, the attribute estimating unit 61 detects and corrects errors in MBA and MTP (steps B18 and B19). If the person mode is set, the error determination / correction unit 50 suppresses QSC. , MVD error detection and correction (steps B20 to B22), and then the CBP error detection and correction are performed by the attribute estimating unit 61 (step B23). Based on these results, the error determination / correction unit 50 performs an overall error determination according to the routine shown in FIG. 11 (step B24), and subsequently, when an attribute error is detected in any of the processes described above. Returns to that step and executes error detection (steps B25 to B28). When these steps are completed, the data of the decoded attribute array is stored in the pattern attribute section 39c, which is an attribute memory.

この後、ステップB30〜B33を経ると、上記した属性配列のデータに基づいて復号化処理部36にて、H.261規格ベースに従ったBLK復号化処理を行う(ステップB34)。次に、人物モードが設定されている場合には、パターン・信号レベルの誤り訂正部37にて、部位情報,特徴量に基づくテクスチャーと色の推定,周囲と過去のMBKに基づく色ベクトルの線形推定,色ベクトルの評価を行う(ステップB36〜B38)。   Thereafter, after steps B30 to B33, the decoding processing unit 36 performs H.264 decoding on the basis of the data of the attribute array described above. The BLK decoding process is performed according to the H.261 standard (step B34). Next, when the person mode is set, the pattern / signal level error correction unit 37 estimates the texture and color based on the part information, the feature amount, and the linearity of the color vector based on the surrounding and the past MBK. Estimation and color vector evaluation are performed (steps B36 to B38).

ここで、誤りが発生していて且つLBLKが22以上である場合には、GOB中の残るMBKについて動き補償推定を行って、以後そのGOBについては終了し(ステップB40,B41)、誤りが発生していてもLBLKが22以下であるか誤りが発生していない場合には、ESCの検出と訂正およびEOBの検出と訂正を行ってから図11に示す誤りの総合判定ルーチンを実行し(ステップB42〜B44)、以下これを繰り返すことにより復号化処理を継続していくようになっている。   Here, if an error has occurred and LBLK is 22 or more, motion compensation estimation is performed on the remaining MBK in the GOB, and thereafter, the GOB ends (steps B40 and B41), and an error occurs. If LBLK is equal to or less than 22 or no error has occurred, the ESC detection and correction and the EOB detection and correction are performed, and then the error total determination routine shown in FIG. B42 to B44), and thereafter, by repeating this, the decoding process is continued.

このような本実施例によれば、復号化器2側においては、伝送誤り率の高いデジタル通信路を介して動画像の画像信号を受信して復号化処理を行う場合に、既存の動画像圧縮標準H.261に超低レート化の改良を施した符号化ビットストリームを受信するようにし、これを復号化処理の段階で、プロトコルをベースとして符号,文法,パターン,信号,認識の各レベルにおいて誤り訂正機能を有機的に実行し、さらに、所要ビット量を考慮した符号化ビットストリームのグローバルチェックによって、パターン,信号,文法の誤り検出を駆動し、モード情報と2Dテンプレートに基づく領域情報(人物等)を用いて認識レベルの評価に基づく誤り訂正を行うことができるものである。   According to the present embodiment, when the decoder 2 receives a video signal of a moving image through a digital communication channel having a high transmission error rate and performs decoding processing, the decoding of the existing moving image is performed. Compression standard H. 261, an encoded bit stream with an improved ultra-low rate is received, and in the decoding process, an error correction function is provided at each level of code, grammar, pattern, signal, and recognition based on the protocol. Is organically executed, and furthermore, by globally checking an encoded bit stream in consideration of a required bit amount, error detection of a pattern, a signal, and a grammar is driven, and area information (person, etc.) based on mode information and a 2D template is obtained. Error correction based on the evaluation of the recognition level.

また、本実施例によれば、符号化器1側においては、シンタックスの変更と符号語の置換,過去の符号化属性に基づく現フレームの符号化属性の予測と属性判定の適応制御,動きとモデルによる対象物領域抽出と領域別量子化制御,使用モードや伝送レートおよび動き発生量に応じた変換係数の有意個数の制御などを総合的に用いることにより、超低レート画像伝送を実現できるようになるものである。そして、本実施例の符号化器1では、現行の画像圧縮標準規格(H.261)に僅かの変更を実施するのみで実現できるレベルのものであるから、その実施に当たってはプロトコル変換器を付設する簡単な構成で実現できる。   Further, according to the present embodiment, the encoder 1 changes the syntax and replaces the code word, predicts the coding attribute of the current frame based on the past coding attribute, and adaptively controls the attribute determination, Ultra-low-rate image transmission can be realized by comprehensively using the object region extraction and region-specific quantization control using a model and a model, and controlling the significant number of transform coefficients according to the use mode, transmission rate, and motion generation amount. It is something that will be. The encoder 1 according to the present embodiment is of a level that can be realized by only slightly changing the current image compression standard (H.261). It can be realized with a simple configuration.

本発明の一実施例を示す復号化器のブロック構成図FIG. 2 is a block diagram of a decoder showing an embodiment of the present invention. 符号化器のブロック構成図Block diagram of encoder 符号化処理過程の概念図Conceptual diagram of the encoding process 復号化処理過程の概念図Conceptual diagram of the decryption process 符号化処理プログラムのフローチャート(その1)Flowchart of encoding processing program (1) 符号化処理プログラムのフローチャート(その2)Flowchart of encoding processing program (part 2) 符号化処理プログラムのフローチャート(その3)Flowchart of encoding processing program (3) 復号化処理プログラムのフローチャート(その1)Flowchart of decryption processing program (1) 復号化処理プログラムのフローチャート(その2)Flowchart of decryption processing program (part 2) 復号化処理プログラムのフローチャート(その3)Flowchart of decryption processing program (3) 誤りの総合判定ルーチンのフローチャートFlowchart of error total judgment routine 使用環境としてカメラを車内に固定した場合の説明図Explanatory diagram when the camera is fixed inside the car as the usage environment 車内の人物の三次元的な位置関係の説明図Illustration of three-dimensional positional relationship of people in the car 人物を含む自動車内,屋内および屋外のカメラ画像の例Examples of camera images inside a car, indoors and outdoors including people 距離尺度による領域の設定の作用説明図Explanatory diagram of setting of area by distance scale 人物正面図のテンプレートと特徴領域の説明図Explanatory drawing of the template and the characteristic area of the person front view モデルベースモードにおける伝送遅延の補償を行う場合の説明図Explanatory diagram when compensating for transmission delay in model-based mode H.261端末との間の通信を行うための構成の説明図H. FIG. 1 is an explanatory diagram of a configuration for performing communication with a H.261 terminal. 使用環境と被写体に関するモード制御の状態遷移図State transition diagram of mode control for usage environment and subject H.261シンタックスに基づくマクロブロック属性の配列の例(その1)H. Example of macroblock attribute array based on H.261 syntax (1) H.261シンタックスに基づくマクロブロック属性の配列の例(その2)H. Example of macroblock attribute array based on H.261 syntax (part 2) H.261シンタックスに基づくマクロブロック属性の配列の例(その3)H. Example of macroblock attribute array based on H.261 syntax (part 3) 動領域の抽出とテンプレート決定のルーチンのフローチャートFlowchart of routine for extracting moving area and determining template 動領域の抽出とテンプレート決定の作用説明図Explanatory diagram of extraction of moving area and determination of template 基本テンプレートとその変形の作用説明図Illustration of the operation of the basic template and its deformation 人物領域の抽出に基づく超低レート化の原理説明図Illustration of the principle of ultra-low rate conversion based on extraction of a person region (a)CIF形式におけるGOB,MBK格子と(b)背景メモリ画像の例(A) Example of GOB and MBK lattice in CIF format and (b) Background memory image 背景メモリの使用と更新の作用説明図Illustration of the effect of using and updating background memory 符号化制御全体の概念を説明するためのチャートChart for explaining the concept of the entire coding control H.261規格のビットストリームシンタックスH. 261 standard bit stream syntax GOB番号とヘッダ(GBSC)の付加部の説明図Explanatory drawing of GOB number and additional part of header (GBSC) GOBヘッダを削減した場合と削減しない場合との比較説明図Explanatory drawing comparing the case where the GOB header is reduced and the case where the GOB header is not reduced H.261規格におけるMTPの可変長符号(VLC)の対照表H. Comparison table of MTP variable length code (VLC) in H.261 standard 人物画像に対する各MTP値の発生確率と符号長との対応表Correspondence table between the occurrence probability of each MTP value and the code length for a human image INTER/INTRA判定特性図INTER / INTRA determination characteristic diagram 動きブロック判定特性図Motion block determination characteristic diagram MBA予測ルーチンのフローチャートFlowchart of MBA prediction routine MBAとNFXとの対応関係を示す説明図Explanatory diagram showing the correspondence between MBA and NFX 前フレームからのMBAパターンの予測の説明図Illustration of prediction of MBA pattern from previous frame MTP情報の削減をするためのルーチンのフローチャートFlowchart of routine for reducing MTP information 領域別平均動きベクトルによるMTP符号量削減の説明図Explanatory drawing of MTP code amount reduction by average motion vector for each area 人物モードにおける領域別量子化と量子化テンプレートの説明図Illustration of quantization by region and quantization template in person mode 量子化テンプレートのモデルベース伝送の説明図Illustration of model-based transmission of quantization template QSCの設定のルーチンのフローチャートFlowchart of QSC setting routine MVD情報の削減をするためのルーチンのフローチャートFlowchart of routine for reducing MVD information 領域別平均動きベクトルによるMVD符号量削減の説明図Explanatory drawing of MVD code amount reduction by average motion vector for each area CBPの予測と評価のルーチンのフローチャートFlowchart of CBP prediction and evaluation routine CBPの領域別動き補償予測の説明図Explanatory drawing of motion compensation prediction for each area of CBP MBK属性予測のインターリーブを行う場合の説明図Explanatory diagram when performing interleaving of MBK attribute prediction 所要ビット数の伝送形態とグローバルチェックの説明図Illustration of required bit number transmission format and global check PSCのファジイマッチング過程の説明図Illustration of fuzzy matching process of PSC シンタックスによる2進木の結合とビットストリームの生成の説明図Explanatory diagram of combining a binary tree and generating a bit stream using syntax MBSTUFFを使用した場合にビット誤りで発生する誤解釈の例Example of misinterpretation caused by bit error when MBSTUFF is used 階層的符号化属性におけるフレーム間の連続性の説明図(符号化器側)Illustration of continuity between frames in the hierarchical encoding attribute (encoder side) 階層的符号化属性におけるフレーム間の連続性の説明図(復号化器側)Illustration of continuity between frames in the hierarchical encoding attribute (decoder side) MBAの誤り検出と訂正のルーチンのフローチャートFlowchart of MBA error detection and correction routine MBAとNFXとの対応関係を示す説明図Explanatory diagram showing the correspondence between MBA and NFX 前フレームからのMBAパターンの予測の説明図Illustration of prediction of MBA pattern from previous frame MTPの類似計算に基づく復号結果の評価の説明図Explanatory drawing of evaluation of decoding result based on similar calculation of MTP 評価計算におけるスキャン順序の例を示す説明図Explanatory diagram showing an example of a scan order in evaluation calculation CBPの誤り検出と訂正のルーチンのフローチャートFlowchart of CBP error detection and correction routine CBPの定義を示す説明図Explanatory drawing showing the definition of CBP CBP値からYUVベクトルへの変換過程を示す説明図Explanatory diagram showing a process of converting a CBP value into a YUV vector YUVベクトルの予測の説明図Illustration of prediction of YUV vector (a)CIF形式におけるGOB,MBK格子と(b)ブロック状をなすエラーパターの例を示す説明図Explanatory drawing showing an example of (a) GOB and MBK lattice in CIF format and (b) error pattern in block form 画像信号レベルにおけるビット誤りに起因したビットストリームの解釈誤りと信号エラーへの影響を示す説明図Explanatory diagram showing the effect on bit stream interpretation errors and signal errors caused by bit errors at the image signal level 領域別周期分散型強制INTRAの例を示す説明図Explanatory diagram showing an example of period-based periodic distributed forced INTRA 領域再生あるいは疑似領域設定のルーチンのフローチャートFlowchart of routine for area reproduction or pseudo area setting

符号の説明Explanation of reference numerals

1は符号化器(符号化装置)、2は復号化器(復号化装置)、3はカメラ、5はA/D変換器、7は直交変換部、8は減算器、9は量子化部、10は通信路符号化部、11はFIFOバッファ、12は通信路、13は逆量子化部、14は逆変換部、15は加算器、16は予測メモリ、17はループフィルタ、20は動き検出部、21は符号化制御部、22は属性メモリ、23は属性予測部、24は符号化処理部、25は領域抽出・認識処理部、26は対象領域抽出部、27はテンプレートデータベース、28は2Dテンプレートマッチング部、29はモデルベース予測部、30は三次元形状データベース、31は人物メモリ(人物情報記憶手段)、32は背景メモリ(背景情報記憶手段)、33はモード制御部、34はヒューマンインターフェイス、35は通信路復号化部、36は復号化処理部、37はパターン・信号レベルの誤り訂正部、38は認識レベルの処理部、39はメモリ(記憶手段)、39aはモード情報部、39bは領域情報部、39cはパターン属性部、39dは2D動ベクトル部、39eは個人識別情報部、41はD/A変換器、42はFIFOバッファ、43はパーザ、44はファジイマッチング部、45は記憶部、46は対照表、47は誤り判定部、48は逆量子化部、49は逆変換部、50は誤り判定・補正部、52は加算器、53は予測メモリ、54は動き補償部、55はループフィルタ、57はフレームメモリ、58は画素値推定部、59は画像推定部、60は動ベクトル推定部、61は属性推定部、62は復号化制御部、63はモデルベース予測部、64は三次元形状データベース、64aは3D形状データ、65は人物画像データベース、66は背景メモリ(背景情報記憶手段)、67は人物メモリ(人物情報記憶手段)、68は領域再生部、69はテンプレートデータベース、69aは2Dテンプレートである。

1 is an encoder (encoder), 2 is a decoder (decoder), 3 is a camera, 5 is an A / D converter, 7 is an orthogonal transformer, 8 is a subtractor, and 9 is a quantizer. , 10 is a channel coding unit, 11 is a FIFO buffer, 12 is a communication channel, 13 is an inverse quantization unit, 14 is an inverse transform unit, 15 is an adder, 16 is a prediction memory, 17 is a loop filter, and 20 is a motion. A detection unit, 21 is an encoding control unit, 22 is an attribute memory, 23 is an attribute prediction unit, 24 is an encoding processing unit, 25 is an area extraction / recognition processing unit, 26 is a target area extraction unit, 27 is a template database, 28 Is a 2D template matching unit, 29 is a model-based prediction unit, 30 is a three-dimensional shape database, 31 is a person memory (personal information storage unit), 32 is a background memory (background information storage unit), 33 is a mode control unit, and 34 is Human interface A chair, 35 is a communication path decoding unit, 36 is a decoding processing unit, 37 is a pattern / signal level error correction unit, 38 is a recognition level processing unit, 39 is a memory (storage means), 39a is a mode information unit, 39b is an area information section, 39c is a pattern attribute section, 39d is a 2D motion vector section, 39e is a personal identification information section, 41 is a D / A converter, 42 is a FIFO buffer, 43 is a parser, 44 is a fuzzy matching section, 45 Is a storage unit, 46 is a comparison table, 47 is an error determination unit, 48 is an inverse quantization unit, 49 is an inverse transform unit, 50 is an error determination / correction unit, 52 is an adder, 53 is a prediction memory, and 54 is motion compensation. Unit, 55 is a loop filter, 57 is a frame memory, 58 is a pixel value estimation unit, 59 is an image estimation unit, 60 is a motion vector estimation unit, 61 is an attribute estimation unit, 62 is a decoding control unit, and 63 is model-based prediction. Department 64 is a three-dimensional shape database, 64a is 3D shape data, 65 is a person image database, 66 is a background memory (background information storage means), 67 is a person memory (person information storage means), 68 is an area reproducing unit, and 69 is a template. The database 69a is a 2D template.

Claims (27)

可変長符号で圧縮した符号化ビットストリームとして送信される画像信号を受信してこれを復号化して画像信号を再現するようにした画像信号の復号化装置において、
付帯状況をあらかじめ決められたコードで設定するモード条件が記憶されており、受信した前記画像信号中にモード情報が含まれている場合には、復号化処理動作をする際にそのモード情報に対応する前記モード条件を選択設定するモード制御手段と、
前記モード制御手段により選択設定されたモード条件下で、前記画像信号の復号化処理を実施したときの復号データの誤りを検出して訂正する訂正手段とを具備したことを特徴とする画像信号の復号化装置。
An image signal decoding device that receives an image signal transmitted as an encoded bit stream compressed with a variable length code, decodes the image signal to reproduce the image signal,
A mode condition for setting the incidental state with a predetermined code is stored, and when the received image signal includes mode information, the mode information corresponds to the mode information when performing the decoding processing operation. Mode control means for selectively setting the mode condition to be performed;
Correction means for detecting and correcting an error in the decoded data when the decoding processing of the image signal is performed under the mode conditions selected and set by the mode control means. Decryption device.
前記モード制御手段は、
画面中の人物に対応したデータの記憶および読み出しが可能な人物情報記憶手段と、
画面中の対象領域を除いた固定的な領域に位置する背景情報の記憶および読み出しが可能な背景情報記憶手段とを備え、
使用環境に対応して前記人物情報記憶手段および前記背景情報記憶手段を必要に応じて用いることにより使用環境モードの設定条件に対応したモード制御を行うことを特徴とする請求項1記載の画像信号の復号化装置。
The mode control means includes:
Person information storage means capable of storing and reading data corresponding to the person on the screen,
Background information storage means capable of storing and reading background information located in a fixed area excluding the target area in the screen,
2. The image signal according to claim 1, wherein a mode control corresponding to a setting condition of a use environment mode is performed by using said person information storage means and said background information storage means as needed in accordance with a use environment. Decryption device.
前記モード制御手段は、
前記使用環境モードとして自動車内部および屋外のそれぞれに対して固定モードおよび可動モードが設定可能に構成され、
自動車内部固定モードにおいては、前記人物情報記憶手段および背景情報記憶手段を用いた条件下で前記訂正手段による誤り訂正機能を実行させ、
自動車内部可動モードにおいては、前記自動車内部固定モードの機能に加えて背景情報記憶手段の更新処理を実行し、
屋外固定モードでは、前記背景情報記憶手段を中心として用いた条件下で前記誤り訂正手段による誤り訂正機能を実行させ、
屋外可動モードでは、前記人物モードが設定された条件下において前記誤り訂正手段による誤り訂正機能を実行させ
ることを特徴とする請求項2記載の画像信号の復号化装置。
The mode control means includes:
Fixed mode and movable mode can be set for the inside and outside of the vehicle as the use environment mode, respectively,
In the vehicle internal fixed mode, under the conditions using the person information storage means and the background information storage means, to execute the error correction function by the correction means,
In the vehicle internal movable mode, in addition to the function of the vehicle internal fixed mode, performs an update process of the background information storage means,
In the outdoor fixed mode, the error correction function is executed by the error correction unit under conditions using the background information storage unit as a center,
3. The image signal decoding device according to claim 2, wherein in the outdoor movable mode, the error correction function of the error correction unit is executed under the condition in which the person mode is set.
前記モード制御手段は、
画面中の人物に対応したデータの記憶および読み出しが可能な人物情報記憶手段と、
画面中の対象領域を除いた固定的な領域に位置する背景情報の記憶および読み出しが可能な背景情報記憶手段とを備え、
被写体に対応して前記人物情報記憶手段および前記背景情報記憶手段を必要に応じて用いることにより被写体モードの設定条件に対応したモード制御を行うことを特徴とする請求項1記載の画像信号の復号化装置。
The mode control means includes:
Person information storage means capable of storing and reading data corresponding to the person on the screen,
Background information storage means capable of storing and reading background information located in a fixed area excluding the target area in the screen,
2. The image signal decoding according to claim 1, wherein the mode control corresponding to a setting condition of a subject mode is performed by using the person information storage unit and the background information storage unit as needed in accordance with a subject. Device.
前記モード制御手段は、
前記被写体モードとして人物モードおよび風景モードが設定可能に構成され、 前記人物モードにおいては、前記人物情報記憶手段に記憶されたデータおよびあらかじめ設定された人物に特有な特徴的条件に基づいて復号化処理を行い、
前記風景モードにおいては、前記背景情報記憶手段に記憶された背景情報に基づいて復号化処理を行うように構成されていることを特徴とする請求項4記載の画像信号の復号化装置。
The mode control means includes:
The subject mode is configured so that a person mode and a landscape mode can be set. In the person mode, a decoding process is performed based on data stored in the person information storage unit and a preset characteristic condition specific to the person. Do
5. The image signal decoding apparatus according to claim 4, wherein in the landscape mode, a decoding process is performed based on background information stored in the background information storage unit.
前記モード制御手段は、
前記画像信号の符号化過程で設定された符号化モードのコードを復号化過程において検出し、その符号化モードに対応した復号条件で復号化処理を実行すると共に誤り訂正手段による誤り訂正処理を実行させるように構成されていることを特徴とする請求項1ないし5のいずれかに記載の画像信号の復号化装置。
The mode control means includes:
In the decoding process, the code of the encoding mode set in the encoding process of the image signal is detected, and the decoding process is executed under the decoding conditions corresponding to the encoding mode, and the error correction process is executed by the error correction unit. The image signal decoding apparatus according to any one of claims 1 to 5, wherein the image signal decoding apparatus is configured to perform the decoding.
前記モード制御手段は、符号化モードとして設定される動画,準動画あるいは静止画モードのいずれかに応じて復号化処理を実行し、
前記誤り訂正手段は、前記動画および準動画モードにおいて前記誤り訂正機能を実行し、前記静止画モードの設定状態において誤りが発生した場合には画像信号の再送要求を実施するように構成されていることを特徴とする請求項6記載の画像信号の復号化装置。
The mode control means executes a decoding process according to one of a moving image, a quasi-moving image, and a still image mode set as an encoding mode,
The error correction unit is configured to execute the error correction function in the moving image mode and the quasi-moving mode, and to perform a retransmission request of an image signal when an error occurs in the setting state of the still image mode. 7. The image signal decoding apparatus according to claim 6, wherein:
前記モード制御手段は、
符号化モードとして、人物の領域情報に対応する情報をあらかじめ準備された形状に対応するテンプレートの使用モードあるいは三次元モデルに動き情報を加えて示すモデルベースモードが設定される場合には、
前記人物モードにおける復号化処理過程において、テンプレート使用モードあるいはモデルベースモードに設定して復号化処理を実施するように構成されていることを特徴とする請求項6記載の画像信号の復号化装置。
The mode control means includes:
When the encoding mode is set to a use mode of a template corresponding to a previously prepared shape or a model base mode indicating motion information to a three-dimensional model, the information corresponding to the area information of a person is set,
7. The image signal decoding apparatus according to claim 6, wherein the decoding process in the person mode is configured to set the template use mode or the model base mode to execute the decoding process.
前記誤り訂正手段は、
前記復号化処理過程において誤りが発生して復号が停止した場合に、符号化ビットストリームの送信側に対して以下に示す(1)ないし(4)の要求信号のうちのいずれかを選択的に送信可能に構成されていることを特徴とする請求項6ないし8のいずれかに記載の画像信号の復号化装置。
(1)強制イントラピクチャーから始まる動画伝送の再送要求信号
(2)強制イントラピクチャーから始まる動画伝送の新規再開要求信号
(3)強制イントラピクチャーのみによる準動画の送信要求信号
(4)モデルベース符号化における動きパラメータの送信要求信号
The error correction means,
When an error occurs in the decoding process and the decoding is stopped, one of the following request signals (1) to (4) is selectively sent to the transmitting side of the coded bit stream. 9. The image signal decoding apparatus according to claim 6, wherein the apparatus is configured to be capable of transmitting.
(1) Retransmission request signal for moving image transmission starting from forced intra picture (2) New restart request signal for moving image transmission starting from forced intra picture (3) Transmission request signal for quasi-moving image using only forced intra picture (4) Model-based coding Request signal for motion parameter in
前記人物情報記憶手段は、必要に応じて特定人物の人物画像を個人情報として登録可能に設けられており、適宜のタイミングで読み出しが可能とされていることを特徴とする請求項2または8記載の画像信号の復号化装置。   9. The personal information storage means is provided so that a personal image of a specific person can be registered as personal information as needed, and can be read out at an appropriate timing. Image signal decoding apparatus. 前記モード制御手段は、前記人物情報記憶手段に記憶された個人情報の人物画像データを前記モデルベースモードにおいて利用可能に構成されていることを特徴とする請求項10記載の画像信号の復号化装置。   11. The image signal decoding apparatus according to claim 10, wherein said mode control means is configured to be able to use personal image data of personal information stored in said personal information storage means in said model-based mode. . 可変長符号で圧縮した符号化ビットストリームとして送信される画像信号を受信してこれを復号化して画像信号を再現するようにした画像信号の復号化装置において、
ブロック単位で復号化処理された画素データの各ブロックの色情報を、対象となるブロックの過去の色情報データあるいは周囲のブロックの色情報データから推定する色情報推定手段と、
前記対象となるブロックについて復号化処理により得られた色情報データと前記色情報推定手段により推定された色情報データとの誤差値に基づいて対象ブロックの色情報を評価する誤差評価手段と、
この誤差評価手段の評価結果に基づいて色情報データに誤りがあるときにはその対象ブロックの色情報データを前記色情報推定手段により推定された色情報データに置き換える誤り訂正手段とを具備したことを特徴とする画像信号の復号化装置。
An image signal decoding device that receives an image signal transmitted as an encoded bit stream compressed with a variable length code, decodes the image signal to reproduce the image signal,
Color information estimating means for estimating color information of each block of pixel data decoded in block units from past color information data of the target block or color information data of surrounding blocks;
Error evaluation means for evaluating the color information of the target block based on the error value between the color information data obtained by decoding the target block and the color information data estimated by the color information estimation means,
Error correction means for replacing the color information data of the target block with the color information data estimated by the color information estimation means when there is an error in the color information data based on the evaluation result of the error evaluation means. An image signal decoding device.
符号化ビットストリーム中の各ブロック内の直交変換係数データとして可変長符号あるいは特定ビットパターンのESCコードを用いて固定長符号で記述されたデータを検出して復号化する変換係数復号化手段と、
この変換係数復号化手段による前記直交変換係数データの検出過程において、前記可変長符号とESCコードとの類似度を計算しそのビット一致率が所定以上の場合にその位置を記憶するESC位置記憶手段と、
前記誤り訂正手段により色情報データの誤りが検出されたときには、前記色情報推定手段により推定された色情報データに置き換える前に、前記ESC位置記憶手段により記憶されているESC位置に記述されたデータを固定長符号データとして認識して再度復号化処理を実施させる再評価手段とを具備したことを特徴とする請求項12記載の画像信号の復号化装置。
Transform coefficient decoding means for detecting and decoding data described in a fixed length code using a variable length code or an ESC code of a specific bit pattern as orthogonal transform coefficient data in each block in an encoded bit stream;
In the process of detecting the orthogonal transform coefficient data by the transform coefficient decoding means, an ESC position storage means for calculating the similarity between the variable length code and the ESC code and storing the position when the bit coincidence ratio is equal to or higher than a predetermined value. When,
When an error in the color information data is detected by the error correction means, the data described in the ESC position stored in the ESC position storage means is replaced before the color information data estimated by the color information estimation means is replaced. 13. The image signal decoding apparatus according to claim 12, further comprising: re-evaluation means for recognizing the data as fixed-length code data and performing decoding processing again.
符号化ビットストリーム中の各ブロックの末尾に記述されるEOBコードを検索し、対象ブロック内で所定条件範囲内で前記EOB検出手段によりEOBコードが検出されないときには1ビットの誤りを想定してEOBコードの検出を再度実行し、前記所定条件範囲を満たすときにこれをEOBコードとして特定するEOB検出手段と、
前記誤り訂正手段により前記色情報データの誤りが検出されて復号停止となったときには、前記EOB検出手段により検出されたEOBコード位置に基づいて次のブロックに移行して復号化処理を実行させる復帰手段とを具備したことを特徴とする請求項12または13記載の画像信号の復号化装置。
The EOB code described at the end of each block in the coded bit stream is searched. If the EOB code is not detected by the EOB detection means within a predetermined condition range in the target block, the EOB code is assumed assuming a 1-bit error. EOB detection means for re-executing the detection, and specifying the EOB code when the predetermined condition range is satisfied,
When the error correction unit detects an error in the color information data and stops decoding, the process returns to the next block based on the EOB code position detected by the EOB detection unit to execute decoding processing. 14. The image signal decoding apparatus according to claim 12, further comprising means.
可変長符号で圧縮した符号化ビットストリームとして送信される画像信号を受信してこれを復号化して画像信号を再現するようにした画像信号の復号化装置において、
ブロック単位で復号化処理して得られた画素データの色情報に誤りが含まれる場合にこれを過去の色情報データあるいは周囲のブロックの色情報データから推定して誤り訂正を行う誤り訂正手段と、
この誤り訂正手段による誤り訂正実施の頻度に応じて、復号画像の重要領域となる部分のブロック単位の画像信号について送信側に対して周期的に強制イントラブロックデータを送信するように要求する誤差伝播防止手段とを備えたことを特徴とする画像信号の復号化装置。
An image signal decoding device that receives an image signal transmitted as an encoded bit stream compressed with a variable length code, decodes the image signal to reproduce the image signal,
Error correction means for estimating the error from the past color information data or the color information data of surrounding blocks and correcting the error when the color information of the pixel data obtained by decoding processing in block units contains an error; ,
Error propagation that requests the transmitting side to periodically transmit forced intra-block data to a block side image signal of a portion that becomes an important area of a decoded image in accordance with the frequency of error correction performed by the error correction means. A decoding device for an image signal, comprising a prevention unit.
可変長符号で圧縮した符号化ビットストリームとして送信される画像信号を受信してこれを復号化して画像信号を再現するようにした画像信号の復号化装置において、
前記符号化ビットストリームデータ中のユーザーデータエリアに記述された領域情報データに基づいて対象となる領域の特定を行う領域特定手段と、
この領域特定手段により特定された対象領域における復号化処理過程で画像信号に含まれる誤りを前記領域情報に基づいて訂正する誤り訂正手段とを具備したことを特徴とする画像信号の復号化装置。
An image signal decoding device that receives an image signal transmitted as an encoded bit stream compressed with a variable length code, decodes the image signal to reproduce the image signal,
Area specifying means for specifying a target area based on the area information data described in the user data area in the encoded bit stream data,
An image signal decoding apparatus comprising: an error correction unit that corrects an error included in an image signal in a decoding process in a target region specified by the region specifying unit based on the region information.
前記領域特定手段は、
対象領域の形状を特定するための基本テンプレートを複数備え、
送信側からの符号化ビットストリームデータに記述された領域情報により指定される前記基本テンプレートの情報に基づいて前記複数の基本テンプレートから指定されたものを選択設定すると共に、その基本テンプレートを対象領域に対応するように変形させてその部位を特定することを特徴とする請求項16記載の画像信号の復号化装置。
The area specifying means,
Equipped with a plurality of basic templates for specifying the shape of the target area,
Based on the information of the basic template specified by the area information described in the encoded bit stream data from the transmission side, select and set one specified from the plurality of basic templates, and set the basic template to a target area. 17. The image signal decoding apparatus according to claim 16, wherein the portion is specified by correspondingly deforming.
前記複数の基本テンプレートは、対象物に対して全体を示すテンプレートから詳細部分を示すテンプレートに至るまで階層的に設けられ、 前記特定した部位を基本テンプレート中の二次元座標として表現するように構成されていることを特徴とする請求項17記載の画像信号の復号化装置。   The plurality of basic templates are provided in a hierarchy from a template indicating the entirety to a template indicating a detailed portion of the target object, and are configured to express the specified portion as two-dimensional coordinates in the basic template. 18. The image signal decoding apparatus according to claim 17, wherein: 前記領域特定手段により現在復号中のブロックが含まれる領域が特定されている場合に、すでに復号した領域内のブロックの動きベクトルに基づいてそのブロックの動き補償を行う動き補償手段を備えたことを特徴とする請求項18記載の画像信号の復号化装置。   When a region including a block currently being decoded is specified by the region specifying unit, a motion compensation unit that performs motion compensation of the block based on a motion vector of a block in the already decoded region is provided. 19. The image signal decoding device according to claim 18, wherein: 前記領域特定手段により現在復号中のブロックが含まれる領域が特定されている場合に、すでに復号した領域内のブロックの輝度,色,テクスチャーなどの色情報データに基づいてそのブロックの色情報データの修正を行う色情報補償手段を備えたことを特徴とする請求項18または19記載の画像信号の復号化装置。   When the area including the block currently being decoded is specified by the area specifying means, the color information data of the block based on the color information data such as the luminance, color, and texture of the block in the already decoded area is determined. 20. The image signal decoding apparatus according to claim 18, further comprising a color information compensator for performing correction. 前記領域特定手段により特定された対象領域以外の背景領域の画像情報を背景情報として記憶する背景情報記憶手段を備え、
前記誤り訂正手段は、前記背景領域の画像データの復号中に誤りが生じたときには前記背景情報記憶手段の背景情報に基づいて訂正を行うように構成されていることを特徴とする請求項16ないし20のいずれかに記載の画像信号の復号化装置。
A background information storage unit that stores image information of a background region other than the target region specified by the region specification unit as background information,
17. The image processing apparatus according to claim 16, wherein the error correction unit is configured to perform correction based on background information of the background information storage unit when an error occurs during decoding of the image data of the background area. 20. The image signal decoding device according to any one of 20.
可変長符号で圧縮した符号化ビットストリームとして送信される画像信号を受信してこれを復号化して画像信号を再現するようにした画像信号の復号化装置において、
前記画像信号を復号した結果その対象物が特定できない場合に、過去のフレームのパターン情報データに基づいて画像重心を中心として評価演算を行うことにより疑似的な対象領域を特定する疑似領域特定手段を備えたことを特徴とする画像信号の復号化装置。
An image signal decoding device that receives an image signal transmitted as an encoded bit stream compressed with a variable length code, decodes the image signal to reproduce the image signal,
If the target object cannot be specified as a result of decoding the image signal, a pseudo region specifying unit that specifies a pseudo target region by performing an evaluation calculation centering on the image centroid based on the pattern information data of the past frame An image signal decoding device, comprising:
可変長符号で圧縮した符号化ビットストリームとして送信される画像信号を受信して少なくとも1フレーム分のビットストリームデータを記憶可能なバッファに蓄積してからこれを復号化して画像信号を再現するようにした画像信号の復号化装置において、
1フレーム分の符号化ビットストリームデータの先頭に位置して付された特定のビットパターンのスタートコードを前記バッファ内に蓄積されたビットストリームデータをグローバルにチェックすることにより検索する符号チェック手段を具備したことを特徴とする画像信号の復号化装置。
An image signal transmitted as an encoded bit stream compressed with a variable length code is received, and at least one frame of bit stream data is stored in a buffer capable of being stored and then decoded to reproduce the image signal. In the decoding device for the decoded image signal,
Code checking means for searching for a start code of a specific bit pattern located at the beginning of the encoded bit stream data for one frame by globally checking the bit stream data stored in the buffer. An apparatus for decoding an image signal, comprising:
前記符号チェック手段は、
1フレーム分の画素データを複数のブロックグループに分割した形式で示す前記画像信号に含まれる最初のブロックグループの先頭に位置して付された特定のビットパターンのGOB(グループ・オブ・ブロックス)スタートコードを前記バッファ内に蓄積されたビットストリームデータをグローバルにチェックすることにより検索することを特徴とする請求項23記載の画像信号の復号化装置。
The code checking means includes:
A GOB (Group of Blocks) start of a specific bit pattern attached at the beginning of the first block group included in the image signal, which is represented by dividing pixel data for one frame into a plurality of block groups. 24. The image signal decoding apparatus according to claim 23, wherein a code is searched for by globally checking bit stream data stored in said buffer.
前記符号チェック手段は、ビットストリームデータのグローバルなチェックを実行するする際に、特定のビットパターンの内のビット誤り率が所定レベル以下であるときにはこれをスタートコードとして特定することを特徴とする請求項23または24記載の画像信号の復号化装置。   The code checking means, when performing a global check of bit stream data, specifies a bit error rate of a specific bit pattern as a start code when the bit error rate is equal to or lower than a predetermined level. Item 25. An image signal decoding device according to Item 23 or 24. 前記符号チェック手段は、
前記ビットストリームデータ中の前記スタートコードまたはGBスタートコードに続く位置に記述された所要ビット数を示すデータを検出してこれに基づいて前記特定したスタートコードの次のスタートコードとの間の実際のビット数とを比較してそのスタートコードを確定することにより定位することを特徴とする請求項23ないし25のいずれかに記載の画像信号の復号化装置。
The code checking means includes:
Data indicating the required number of bits described at a position following the start code or the GB start code in the bit stream data is detected, and based on the detected data, an actual start code between the specified start code and the next start code is detected. 26. The image signal decoding apparatus according to claim 23, wherein localization is performed by determining a start code by comparing the number of bits with the number of bits.
前記符号チェック手段は、
前記GBスタートコードに続く位置に記述されたそのブロックグループの所要ビット数を示す8ビットのデータを、上位側と下位側とをビットパターンを入れ替えた反転パターンとしたデータとして得ることを特徴とすることを特徴とする請求項24ないし26のいずれかに記載の画像信号の復号化装置。

The code checking means includes:
It is characterized in that 8-bit data indicating the required number of bits of the block group described at a position following the GB start code is obtained as data obtained by inverting a bit pattern between the upper side and the lower side. The image signal decoding apparatus according to any one of claims 24 to 26, wherein:

JP2004169169A 2004-06-07 2004-06-07 Image signal decoding apparatus Expired - Fee Related JP4013921B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004169169A JP4013921B2 (en) 2004-06-07 2004-06-07 Image signal decoding apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004169169A JP4013921B2 (en) 2004-06-07 2004-06-07 Image signal decoding apparatus

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP25210795A Division JP3769786B2 (en) 1995-09-29 1995-09-29 Image signal decoding apparatus

Publications (2)

Publication Number Publication Date
JP2004350300A true JP2004350300A (en) 2004-12-09
JP4013921B2 JP4013921B2 (en) 2007-11-28

Family

ID=33535809

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004169169A Expired - Fee Related JP4013921B2 (en) 2004-06-07 2004-06-07 Image signal decoding apparatus

Country Status (1)

Country Link
JP (1) JP4013921B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279311A (en) * 2005-03-28 2006-10-12 Fujitsu Ltd Error detection method of control information transmitted through downlink channel in wireless communication and user equipment
JP2006338170A (en) * 2005-05-31 2006-12-14 Fujifilm Holdings Corp Information processor, dynamic image encoding method, information processing method and information processing program
JP2010519789A (en) * 2007-01-22 2010-06-03 クゥアルコム・インコーポレイテッド An error filter that distinguishes video data errors on reverse and forward links
US8229063B2 (en) 2008-10-02 2012-07-24 Canon Kabushiki Kaisha X-ray image reception system
JP2013003756A (en) * 2011-06-15 2013-01-07 Panasonic Corp Imaging data generation device, imaging data decoding device and imaging data generation method
JP2013066034A (en) * 2011-09-16 2013-04-11 Mitsubishi Electric Corp Image discrimination device and image discrimination method

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279311A (en) * 2005-03-28 2006-10-12 Fujitsu Ltd Error detection method of control information transmitted through downlink channel in wireless communication and user equipment
JP4689316B2 (en) * 2005-03-28 2011-05-25 富士通株式会社 Error detection method of control information for transmitting downlink channel of radio communication and mobile terminal
JP2006338170A (en) * 2005-05-31 2006-12-14 Fujifilm Holdings Corp Information processor, dynamic image encoding method, information processing method and information processing program
JP4654773B2 (en) * 2005-05-31 2011-03-23 富士フイルム株式会社 Information processing apparatus, moving image encoding apparatus, information processing method, and information processing program
US8165344B2 (en) 2005-05-31 2012-04-24 Fujifilm Corporation Image processing apparatus, moving image encoding apparatus, information processing method and information processing program
JP2010519789A (en) * 2007-01-22 2010-06-03 クゥアルコム・インコーポレイテッド An error filter that distinguishes video data errors on reverse and forward links
US8767839B2 (en) 2007-01-22 2014-07-01 Qualcomm Incorporated Error filter to differentiate between reverse link and forward link video data errors
US8229063B2 (en) 2008-10-02 2012-07-24 Canon Kabushiki Kaisha X-ray image reception system
JP2013003756A (en) * 2011-06-15 2013-01-07 Panasonic Corp Imaging data generation device, imaging data decoding device and imaging data generation method
JP2013066034A (en) * 2011-09-16 2013-04-11 Mitsubishi Electric Corp Image discrimination device and image discrimination method

Also Published As

Publication number Publication date
JP4013921B2 (en) 2007-11-28

Similar Documents

Publication Publication Date Title
US5959672A (en) Picture signal encoding system, picture signal decoding system and picture recognition system
RU2377737C2 (en) Method and apparatus for encoder assisted frame rate up conversion (ea-fruc) for video compression
US20040158719A1 (en) Video encoder capable of differentially encoding image of speaker during visual call and method for compressing video signal using the same
US7933334B2 (en) Image encoder and method thereof, computer program of image encoder, and mobile terminal
JP4687658B2 (en) Image recognition device
JP2003274410A (en) Encoder and decoder, and encoding method for monitored video image
TWI286906B (en) Device, method and apparatus for video encoding
JPH09186996A (en) Method for coding object pattern information
JP3769786B2 (en) Image signal decoding apparatus
JP4013921B2 (en) Image signal decoding apparatus
CN112218087B (en) Image encoding and decoding method, encoding and decoding device, encoder and decoder
JP2001251627A (en) Coder, coding method and recording medium recorded with program
JPH09172378A (en) Method and device for image processing using local quantization of model base
JPH0998416A (en) Encoder for image signal and recognition device for image
JP2008153907A (en) Image encoding apparatus, information terminal including the same, and image encoding method
US6362753B1 (en) Video data encoder and method of encoding video data
JP4052285B2 (en) Image signal encoding apparatus
CN116708934B (en) Video coding processing method and device
JP2007525920A (en) Video signal encoder, video signal processor, video signal distribution system, and method of operating video signal distribution system
JPH10229558A (en) Coder for moving image information
JP2005033411A (en) Dynamic image delivery apparatus
JPH0984024A (en) Coder for moving image signal
JP2004208146A (en) Device and method for encoding moving image
JP4136403B2 (en) Image processing apparatus, image processing method, program, and storage medium
KR100546507B1 (en) Method and Apparatus for Selecting Compression Modes To Reduce Transmission Error of Image Compression System for Use in Video Encoder

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061128

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070522

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070903

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100921

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110921

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110921

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120921

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120921

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130921

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees