JP3526976B2

JP3526976B2 - プロセッサおよびデータ処理装置

Info

Publication number: JP3526976B2
Application number: JP19860995A
Authority: JP
Inventors: 義文藤川; 啓二小島; 清和西岡; 徹野尻; 和彦田中; 正雄石黒
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-08-03
Filing date: 1995-08-03
Publication date: 2004-05-17
Anticipated expiration: 2015-08-03
Also published as: US5870618A; TW297878B; KR100213604B1; JPH0944356A; KR970014366A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ストアドプログラム方
式のプロセッサに関するものであり、特に、動画データ
等を含むマルチメディアデータの処理に好適な構成に関
するものである。

【０００２】

【従来の技術】動画データを圧縮する方式としては、Ｉ
ＳＯ／ＭＰＥＧとして知られている方式がある。この方
式では、動き補償を行うために、動画を構成する複数の
フレ−ム間で、相互に画像が近似している部分を探索す
る。そして、この相互に近似している部分の位置の変化
を、動画の動きを表す動きベクトルとして符号化するこ
とにより動画データの圧縮を行う。

【０００３】このような探索は、図１０のカレントフレ
ーム８０の中のカレントマクロブロックと呼ばれる１６
画素×１６画素の領域の画像が、図１のリファレンスフ
レーム８１の中のサーチウィンドウの中のどの部分に最
も近似しているかを検索することによりより行われる。

【０００４】ここで、画像間の近似の評価には、（数
１）に示す評価式が広く用いられている。

【０００５】

【数１】

【０００６】そして、このような評価式を用いる場合に
は、前記探索は、この評価式の値が最も小さくなる
（ｕ，ｖ）の組合せを探すことにより成されることにな
る。

【０００７】ここで、（数１）の評価式を高速に演算す
るための従来のプロセッサとしては、「MICROPROCESSOR
REPORT,DECEMBER 5, 1994」の１６ページに記載のＳＵ
ＮMicrosystemsのUltra SPARC が存在する。このプロセ
ッサでは、（数２）に示す演算を１命令で行うことが出
来る。

【０００８】

【数２】

【０００９】このプロセッサの構成の概要を図１１に示
す。

【００１０】図示するように、このプロセッサは、ロー
ド・ストア処理装置９１３０と（数２）に示した演算を
行う画素演算処理装置９１３３とその他の演算を行う複
数の演算装置９１３１，９１３２と、６４ビット幅の複
数のレジスタよりなるレジスタファイルと、それぞれの
処理装置に対応して設けた命令レジスタ３０〜３３と、
その命令レジスタ３０〜３３に命令を供給する命令供給
ユニット９１２と、命令列を記憶した主記憶装置等が接
続されているシステムバスとの入出力を制御するシステ
ムバス・インタフェースなどから構成されている。

【００１１】ここで、画素演算処理装置９１３３は、レ
ジスタファイルから読み出されたデータを図１２に示す
ように、８個の８ビットデータの集まりとして扱う。そ
して、レジスタファイルから読み出された２組みの８個
の８ビットデータに対して、（数２）に示す演算を行
う。

【００１２】このようなプロセッサにおいて、画素演算
処理装置９１３３に（数２）の演算を実行させる演算命
令を用いて、（数１）を最小とする（ｕ，ｖ）の組合せ
を見つけ出す処理は図１３のような手順で実現される。

【００１３】すなわち、図１３のステップ４０４は、ス
テップ４０２、４０９、４１０の働きによって、０−１
５の各ｖについて繰り返し、実行される。また、ステッ
プ４０７も、同様に０−１５の各ｖについて実行される
が、さらに、各ｖの値毎に、ステップ４０３、４０５、
４０６の働きによって、１−１５の間の各ｊの値につい
て、繰り返して実行される。

【００１４】次に、数３によって定義するｒ（ｊ，ｕ，
ｖ）を用いて説明すると、図１３のステップ４０４、４
０７では、上記の繰り返し処理の間に、０−１５の間の
ｕのそれぞれについて、０−１５の間のｊと０−１５の
間のｖの各組合せ（ｊ，ｕ，ｖ）について、ｒ（ｊ，
ｕ，ｖ）を求める。ステップ４０４は、ｊ＝０について
ｒ（ｊ，ｕ，ｖ）を求め、ステップ４０７は１−１５の
間のｊについてｒ（ｊ，ｕ，ｖ）を求める。

【００１５】

【数３】

【００１６】また、これらのステップでは、上記処理の
間に、同じ（ｕ、ｖ）の組合せに対して０−１５の各ｊ
について求めたｒ（ｊ，ｕ，ｖ）の和を、Ｒｕｖとして
求める。これは、ｖを固定し，ステップ４０４で０−１
５の間のｕに対しｊ＝０の場合のｒ（０，ｕ，ｖ）を求
め、４０７で０−１５の間のｕに対し１−１５の各ｊに
ついてｒ（ｊ，ｕ，ｖ）を求め、ｕｖの組合せ毎に設け
られるパラメ−タＲｕｖに加算して処理を、０−１５の
間の各ｖについて行うことにより実現される。

【００１７】そして、求まったＲｕｖのうち先に求まっ
たＲｕｖより小さいもののみを残し（ステップ７２）、
最後に残ったＲｕｖに対応する（ｕ，ｖ）の組合せを
（数１）を最小とする（ｕ，ｖ）とする。ここで、
（ｊ，ｕ，ｖ）の特定の組合せに対するＲ（ｊ，ｕ，
ｖ）を算出するためには、（数２）に示す演算を２回、
０−７のｉについてと、８−１５のｉについてそれぞれ
行う必要がある。結果、このプロセッサによれば、数２
に示す演算と、この演算の前処理としてのデータの読み
だしや、演算に用いるデータの作成を膨大な回数行う必
要がある。

【００１８】もちろん、前述したサーチウィンドウを狭
くすることにより前記演算の回数を少なくして処理を高
速化することもできるが、このようにすると圧縮効率が
低下したり動画像の画質が劣化したりすることになる。

【００１９】

【発明が解決しようとする課題】そこで、図１１に示し
たプロセッサを、（数１）に示す演算を１命令で行える
ように拡張することにより処理を高速化することが考え
られる。

【００２０】しかし、このためには、画素演算処理装置
９１３３の入力ビット幅を広げると共に、レジスタファ
イルのビット幅も広げて、同時により多くの画素データ
を扱えるようにしなけらばならない。そして、このよう
にすると、レジスタファイルの規模が増大してしまう。
また、画素演算処理装置９１３３以外の他の演算処理装
置９１３１−９１３３では、これほどのビット幅のデー
タを必要としないので全体としてみて効率的な手法とは
言えない。

【００２１】また、レジスタファイルから読み出せるデ
ータの個数を増やし、複数の画素演算処理装置におい
て、並列に数２の演算を実行させるようにすることによ
り、処理を高速化することも考えられる。

【００２２】しかし、このようにした場合にも、ハ−ド
ウェア規模が大きく増大し、ハードウェアのコストが非
常に大きくなる。

【００２３】そこで、本発明は、ハードウェアのコスト
を、あまり増加することなく、レジスタファイルのデー
タ長より大きなデータ長のデータの演算処理を高速に実
行できるプロセッサを提供することを目的とする。

【００２４】

【課題を解決するための手段】前記目的達成のために、
本発明は、並列にデータを読みだし可能な少なくとも２
つのレジスタを含んだ複数のビット幅Ｎのレジスタを備
えたレジスタファイルを有するプロセッサであって、命
令を格納する命令レジスタと、ビット幅Ｍ（但し、Ｍ＞
Ｎ）のレジスタである第１のロングレジスタと、前記第
１のロングレジスタから読みだしたデータの一部を前記
レジスタファイルから読みだされたデータの一部に置き
換えたＭビット幅のデータを、前記命令レジスタに格納
された命令に応じて生成する更新部と、前記レジスタフ
ァイルの複数のレジスタより並列に読みだされたデータ
を連結したＭビット幅のデータ、もしくは、前記更新部
が生成したＭビット幅のデータの一方を、前記命令レジ
スタに格納された命令に応じて選択する選択部と、前記
選択部が選択したＭビット幅のデータに所定の演算を、
前記命令レジスタに格納された命令に応じて施す演算器
とを有し、前記第１のロングレジスタは、前記選択部が
選択したＭビット幅のデータを、前記命令レジスタに格
納された命令に応じて格納することを特徴とするプロセ
ッサを提供する。

【００２５】また、このようなプロセッサであって、さ
らに、前記レジスタファイルの複数のレジスタより並列
に読みだされたデータを連結したＭビット幅のデータ
を、前記命令レジスタに格納された命令に応じて格納す
るビット幅Ｍのレジスタである第２のロングレジスタを
備え、前記演算器は、前記選択部が選択したＭビット幅
のデータと、前記第２のロングレジスタから読みだされ
たＭビット幅のデータとの間に前記所定の演算を、前記
命令レジスタに格納された命令に応じて施すことを特徴
とするプロセッサを提供する。

【００２６】

【作用】本発明に係るプロセッサによれば、まず、たと
えば、前記命令レジスタにある特定の命令が格納された
場合に、前記選択部は前記レジスタファイルの複数のレ
ジスタより並列に読みだされたデータを連結したＭビッ
ト幅のデータを選択し、前記第１のロングレジスタは前
記選択部が前記選択部が選択したＭビット幅のデータを
格納する。

【００２７】そして、この後に前記命令レジスタに他の
特定の命令が格納された場合には、前記更新部は、前記
第１のロングレジスタから読みだしたデータの一部を前
記レジスタファイルから読みだされたデータの一部に置
き換えたＭビット幅のデータを生成し、前記選択部は前
記更新部が生成したＭビット幅のデータを選択し、前記
第１のロングレジスタは前記選択部が選択したＭビット
幅のデータを格納し、前記演算器は前記前記選択部が選
択したＭビット幅のデータに所定の演算を施す。すなわ
ち、前記他の特定の命令が与えられる度に、第１のロン
グレジスタに格納されたＭビット幅のデータの一部をレ
ジスタファイルから読みだしたデータの一部に置き換え
ることにより更新し、更新したＭビットのデータに対し
て演算を施す。

【００２８】したがい、１命令に対して、レジスタファ
イルのビット幅よりビット幅の大きいデータの部分的な
更新と、更新したデータの演算を行うことができ、処理
が高速化される。また、レジスタファイルのビット幅は
演算するデータのビット幅より小さくて済むのでハ−ド
ウェアコストもあまり増加することがない。

【００２９】

【実施例】以下、本発明の一実施例を説明する。

【００３０】図１に、本実施例に係るプロセッサを適用
した動画処理システムの構成を示す。

【００３１】図中、９１が本実施例に係るプロセッサで
あり、プロセッサ９１はシステムバス９２を介して主記
憶装置９３に接続している。また、同様に、プロセッサ
９１はシステムバス９２を介して、二次記憶装置９４や
通信装置９６やビデオ入出力装置９５等や、その他のＩ
／Ｏ装置９７に接続している。主記憶装置９３には、プ
ログラムや、その他の作業データが記憶されている。ま
た、主記憶装置９３上には、画像を表すデータを記憶す
るフレ−ムバッファ等も構成されている。ビデオ入出力
装置９５は、動画像を撮影するビデオカメラ９５１や動
画像を表示するディスプレイ９５２との間でビデオ信号
の入出力を担う。

【００３２】このような構成の動画処理システムにおい
て、ビデオカメラ９５１からビデオ入出力装置９５によ
って取り込まれた動画像のデータは主記憶装置９３内の
フレ−ムバッファに転送される。そして、主記憶装置９
３内の動画データはプロセッサ９１によって処理され、
その結果が二次記憶装置９４に蓄えられたり、通信装置
９６によって、他のシステムに送られたりする。

【００３３】次に、本実施例に係るプロセッサ９１の内
部構成を、図２に示す。

【００３４】図示するように本実施例に係るプロセッサ
９１は、４つの読み出しポートと３つの書き込みポート
を持つ６４ビット幅のレジスタファイル２と、整数演算
処理装置１０１と、他命令用演算処理装置１０２と、そ
れぞれの演算処理装置に対応して設けた命令レジスタ３
０、３１と、ロード・ストア処理装置１００と、命令供
給ユニット９１２、とシステムバス・インタフェース９
１１とを備えている。また、図３に示すようにレジスタ
ファイルのビット幅の２倍の１２８ビットからなる第一
ロングレジスタ１２と第二ロングレジスタ１３と、１２
８ビット幅の２つの入力データを処理する画素演算器１
１と、第二ロングレジスタ１３の内容を更新するロング
レジスタ更新装置１４設けられている。

【００３５】レジスタファイル２は、たとえば、Ｒ０−
Ｒ６３の６４個の６４ビット幅のレジスタよりなり、４
つの読み出しポートと３つの書き込みポートにより、４
つのレジスタよりのデータの読みだしと３つのレジスタ
への書き込みを同時に行うことができる。

【００３６】さて、図１に示した主記憶装置９３中のフ
レ−ムバッファには、動画データとして、動画像を構成
するフレ−ム毎に、画素の輝度を表す１画素当たり８ビ
ットの輝度データの配列が格納される。動画像がカラ−
である場合には、動画データとして、画素の色成分を表
す、たとえば１画素当たり８ビットの２種類の色データ
の配列も格納される。

【００３７】主記憶装置９３に格納された輝度データの
うち演算に用いられる輝度データは、は、演算に先立
ち、ロード・ストア処理装置１００の制御下で、主記憶
装置９１より読みだされ、システムバスインタフェ−ス
９１セレクタ１６を介してレジスタファイル２内に格納
される。レジスタファイル２の各レジスタには、先に図
１２に示したように、８ビットの輝度データが格納され
る。

【００３８】さて、図１の主記憶装置９３に記憶された
プログラムの命令は、命令供給ユニット９１２によって
システムバス・インタフェース９１１を通し順次読み出
され、命令の種類に応じて、図２の命令レジスタ３０ま
たは命令レジスタ３１に格納される。

【００３９】命令レジスタ３１内の命令に従って、レジ
スタファイル２の読み出しポートの内の２つと、他命令
用演算処理装置１０１と、画素演算器１１と、ロングレ
ジスタ更新装置１４と、画素演算ソースセレクタ１５、
セレクタ１６と、レジスタファイル２の書き込みポート
が制御される。

【００４０】同様に、命令レジスタ３０内の命令情報に
従って、レジスタファイル２の読み出しポートの内の２
つと、整数演算処理装置１０１と、ロード・ストア処理
装置１００と、セレクタ１６と、レジスタファイル２の
書き込みポートが制御される。前述した輝度データのレ
ジスタファイル２への主記憶装置９３よりのロ−ドも、
この命令レジスタ３０に格納された命令に従って、ロー
ド・ストア処理装置１００によって行われることにな
る。

【００４１】ここで、命令レジスタ３０に格納された一
命令の実行と、命令レジスタ３１に格納された一命令の
実行は、並列的に同時に行うことができる。また、これ
らの命令の実行に伴うレジスタファイル２の読みだし及
び書き込みを並列的に同時に行うことができる。

【００４２】さて、このような構成において、本実施例
に係るプロセッサは、ロ−ド命令やストア命令や加算命
令次の３つの特徴的な命令をサポ−トする。すなわち、
ロングレジスタ格納命令と、ロングレジスタ格納画素演
算命令と、ロングレジスタ更新画素演算命令との３つの
命令をサポ−トする。

【００４３】これら命令は、命令供給ユニット９１２に
よって命令レジスタ３１に格納される。

【００４４】命令レジスタ３１内にロングレジスタ格納
命令が格納されると、命令レジスタ３１の情報に従って
レジスタファイル２内の２つのレジスタが選択され、こ
れら２つのレジスタに格納された６４ビット幅のデータ
が２つ並列に２つの読みだしポートに出力される。そし
て、出力された２つのデータを連結した１２８ビット幅
のデータが第一ロングレジスタ１２内に格納される。

【００４５】次に、命令レジスタ３１内にロングレジス
タ格納画素演算命令が格納されると、ロングレジスタ格
納命令の場合と同様に、命令レジスタ３１内の命令に従
ってレジスタファイル２内の２つのレジスタが選択さ
れ、６４ビット幅の２つのデータが読みだしポートに出
力される。そして、出力された２つのデータを連結した
１２８ット幅のデータが、画素演算ソースセレクタ１５
に伝えられる。

【００４６】画素演算ソースセレクタ１５は、連結され
た１２８ビット幅のデータを選択し出力する。画素演算
ソースセレクタ１５から出力されたデータは、第二ロン
グレジスタ１３と画素演算器１１へ伝えられる。また、
このとき第一ロングレジスタ１２に格納されている１２
８ビット幅のデータも、画素演算器１１へ伝えられる。

【００４７】第二ロングレジスタ１３に伝えられた１２
８ビット幅のデータは、第二ロングレジスタ１３に格納
される。一方、画素演算器１１は、第一ロングレジスタ
１２から伝えられた１２８ビット幅のデータと画素演算
ソースセレクタ１５から伝えられた１２８ビット幅のデ
ータとの間で画素演算を行う。その画素演算の結果は、
命令レジスタ３１の命令で指定されたレジスタファイル
２のレジスタに格納される。

【００４８】ここで、画素演算器１１の内部構成を図４
に示しておく。

【００４９】図示するように、この画素演算器１１で
は、第一ロングレジスタ１２と画素演算ソースセレクタ
１５とから入力する２つの１２８ビットのデータである
第一画素演算ソースデータ５０１と第二画素演算器ソー
スデータ５０２をそれぞれ、画素演算ソース要素データ
Ｘ０５０１０のように、８ビット幅の数値データ１６
個の配列とみなし、（数４）に示す数式を演算するもの
である。

【００５０】

【数４】

【００５１】ただし、差演算器５１は、入力する２つの
画素演算ソース要素データの差の絶対値を計算する演算
器であり、多入力加算器５２は、それぞれの差演算器５
１の結果の総和を計算する演算器である。総和は、６４
ビット幅のデータとして出力される。本実施例では、６
５ビット目へのキャリアップは無視している。

【００５２】次に、命令レジスタ３１内にロングレジス
タ更新画素演算命令が格納されると、命令レジスタ３１
の命令報に従ってレジスタファイル２内の１つのレジス
タが選択さ、６４ビット幅のデータが１つの読みだしボ
ートに出力され、ロングレジスタ更新装置１４に伝えら
れる。また、命令レジスタ３１の命令に含まれる位置情
報とシフト情報がロングレジスタ更新装置１４に伝えら
れる。また、これを並行して、ロングレジスタ更新装置
１４には、第二ロングレジスタ１３の内容も伝えられ
る。

【００５３】ここで、ロングレジスタ更新装置１４の内
部構成を図５に示す。

【００５４】図示するように、ロングレジスタ更新装置
１４には、命令レジスタ３１の命令に従って、レジスタ
ファイル２の内の１つのレジスタから読みだされた６４
ビット幅のデータが第一ソースデータ線２１０を通し
て、連結元データ６０１として伝えられる。また、第二
ソースデータ線２２０を通して、命令レジスタ３１内の
命令に含まれている位置情報６０４とシフト情報６０５
が伝えられる。

【００５５】連結元データ６０１は、連結元データシフ
タ６１によって、位置情報６０４に従って左にシフトさ
れる。位置情報６０４の数値をｎとした場合のシフト量
は８ｎビットである。これによって連結元データ６０１
は、ｎ要素データ（ｎ画素の輝度データ）だけ左にシフ
トされ、シフト後に連結元データシフタ６１に残った６
４ビット幅のデータである連結元データシフタ出力信号
６１０として出力される。

【００５６】連結元データシフタ出力信号６１０の６４
ビット幅のデータと、第二ロングレジスタ出力データ線
１３０を通して、第二ロングレジスタ１３より入力した
１２６ビット幅のデータである連結先データ６０２は、
連結され、連結シフタ６２に伝えられる。連結シフタ６
２は、連結された１９２ビット幅のデータを、シフト量
情報６０５に従って左シフトし、ロングレジスタ更新デ
ータ線１４０上に、左側１２８ビットのデータをシフト
結果として出力する。シフト量情報６０５の数値をｎと
した場合のシフト量は８ｎビットである。

【００５７】このようなロングレジスタ更新装置１４に
よって、第二ロングレジスタ１３の内容を任意画素分だ
け左シフトし、右に空いた画素分を、第一ソースデータ
線２１０上の任意の隣り合った画素で充墳したデータを
生成することが可能となる。

【００５８】さて、ロングレジスタ更新装置１４から出
力された１２８ビット幅のデータ１４０（連結シフタ６
２出力）は、ロングレジスタ更新データ線１４０を通し
て、画素演算ソースセレクタ１５に伝えられる。画素演
算ソースセレクタ１５は、ロングレジスタ更新データ線
１４０上のデータを選択し出力する。

【００５９】画素演算ソースセレクタ１５からの出力デ
ータは、第二ロングレジスタ１３と画素演算器１１へ伝
えられる。また、これと並行して、第一ロングレジスタ
１２に格納されているデータも、画素演算器１１へ伝え
られる。

【００６０】第二ロングレジスタ１３に伝えられたデー
タは第二ロングレジスタ１３に格納される。

【００６１】一方、画素演算器１１は、前述したよう
に、第一ロングレジスタ１２から伝えられたデータと画
素演算ソースセレクタ１５から伝えられたデータ間で演
算を行う。その画素演算の結果は、命令レジスタ３１の
命令で指定されたレジスタファイル２のレジスタに格納
される。

【００６２】以上、本実施例に係るプロセッサ９１がサ
ポ−トする３つの命令が、どのように実行されるかを説
明した。

【００６３】さて、次に、このような３つの命令を用い
て、先に図１３に示した処理において、ステップ４０４
やステップ４０７で行われる、特定の（ｊ、ｖ）の組合
せに対して、数３のｒ（ｊ，ｕ，ｖ）のｕ＝０からｕ＝
１５までの値を求める処理がどのように実現されるかを
説明する。

【００６４】いま、特定の（ｊ、ｖ）の組合せに対し
て、数３のｒ（ｊ，ｕ，ｖ）のｕ＝０からｕ＝１５まで
の値を求める処理とは、図６に示す、サ−チウィンドウ
の特定行から、順次左端となる画素を一つづつ右にずら
しながら選択した１６画素の組１６個のそれぞれと、カ
レントフレ−ムのカレントマクロブロックの特定行の１
６画素との輝度データとの差を求め、その総和を求める
処理に相当する。

【００６５】まず、この演算処理に先立ち、前述したよ
うに、レジスタファイル２のレジスタＲ２０，Ｒ２１に
カレントフレ−ムのカレントマクロブロックの特定行の
１６画素の輝度データを格納する。格納される輝度デー
タと画素の関係は、図６に示す通りであり、左側の８画
素をＲ２０に、右側の８画素をＲ２１に格納する。ま
た、同様に、レジスタファイル２のレジスタＲ３０−Ｒ
３３にサ−チウィンドウの特定行の３１画素の輝度デー
タを格納する。格納される輝度データと画素の関係は、
図６に示す通りであり、左側のものより８画素づつ順番
に、Ｒ３０、Ｒ３１，．．，Ｒ３２の順に格納される。
なお、サ−チウィンドウの横のサイズは３１画素である
ため、Ｒ３２の右端の８ビットは演算に用いられない画
素の輝度データが格納される、もしくは、輝度データが
格納ことになる。

【００６６】次に、ロングレジスタ格納命令と、ロング
レジスタ格納画素演算命令と、ロングレジスタ更新画素
演算命令と、この処理で用いる加算命令のフォ−マット
を表１に示すように定める。

【００６７】

【表１】

【００６８】ただし、表中のＬＲ１は第一ロングレジス
タ１２を、ＬＲ２は第二ロングレジスタ１３を表し、矢
印は右辺の演算結果を左辺のレジスタに格納することを
表す。また、矢印の右辺にあるＲｎもしくはＬＲｎは、
レジスタＲｎもしくはＬＲｎに格納されたデータを表
し、ＲｎｉもしくはＬＲｎｉは、レジスタＲｎもしくは
ＬＲｎｉに格納されたデータの第（８×ｉ）ビットから
第（８×ｉ＋７）ビットの８ビットの輝度データを表す
ものとする。また、//は、//の両側の輝度データもしく
は輝度データ列を連結することを表す。

【００６９】また、ロングレジスタ更新画素命令の第３
オペランドの＃ｌが前述した位置情報６０４に、第４オ
ペランドの＃ｍが前述したシフト量情報６０５である。

【００７０】このように命令のフォ−マットを定めた場
合、特定の（ｊ、ｖ）の組合せに対して、数３のｒ
（ｊ，ｕ，ｖ）のｕ＝０からｕ＝１５までの値を求める
処理は。図７に示すプログラムによって実現することが
できる。

【００７１】ただし、ロングレジスタ格納画素演算命令
と、ロングレジスタ更新画素演算命令画素演算器１１の
処理はパイプライン処理が可能であり、そのレイテンシ
は３ステップであるとした。また、加算命令とロングレ
ジスタ格納命令のレイテンシは１ステップであるとし
た。なお、図４の各差演算器５１と多入力加算器５２の
間にラッチを挿入することにより、ロングレジスタ格納
画素演算命令と、ロングレジスタ更新画素演算命令画素
演算器１１の処理のレイテンシは３となる。

【００７２】また、スーパスカラーまたはＶＬＩＷアー
キテクチャによって、命令レジスタ３０に格納され整数
演算処理装置１０１で実行される加算命令と、前述した
ように命令レジスタ３１に格納され実行される他の命令
は同時に実行できるものとして、同時実行可能な命令を
１行に記述した。

【００７３】図７に示すように、このコーティング例で
は、２０ステップでレジスタファイルのレジスタファイ
ルＲ０からＲ１５に特定の（ｊ、ｖ）の組合せに対して
求めた、数３のｒ（ｊ，ｕ，ｖ）のｕ＝０からｕ＝１５
までの値が格納されることになる。

【００７４】このプログラムでは、右のコラムにおい
て、第一行目でロングレジスタ格納命令ｉｄＬＲによっ
て、第一ロングレジスタ１２にレジスタファイル２のレ
ジスタＲ２０，Ｒ２１に格納されているカレントフレ−
ムのカレントマクロブロックの特定行の１６画素の輝度
データを格納し、第２行目でロングレジスタ格納画素演
算命令ＩｄＬＲｄｉｓｔによって第一ロングレジスタ１
２に格納されたカレントマクロブロックのｊ行目の１６
画素の輝度データと、レジスタＲ３０，Ｒ３１に格納さ
れたサ−チウィンドウの特定行の左端の１６画素の輝度
データとの差の和を求めると共に、このサ−チウィンド
ウの特定行の左端の１６画素の輝度データを第二ロンク
レジスタ１３に格納している。そして、第３行目から第
１７行目で、ロングレジスタ更新画素演算命令ｕｐｄＬ
Ｒｄｉｓｔによって、第二ロングレジスタ１３に格納さ
れている輝度データを８ビットシフトして第二ロングレ
ジスタ１３中の最も左の画素の輝度データを棄て、代わ
りに、第二ロングレジスタ１３中の最も右の画素の右の
画素の輝度データをレジスタファイルより読みだし連結
したデータを作成し、これと、第２行目で第一ロングレ
ジスタ１２に格納されたカレントマクロブロックのｊ行
目の１６画素の輝度データとの差の和を求めている。

【００７５】また、左側のカラムでは、加算命令ａｄｄ
によって、第５行目から第２９行目で右側のカラムの第
２行目から第１７行目で求まった和を順次加算してい
る。画素演算器の処理のレイテンシは３ステップである
で、ａｄｄ命令は、初めに前記差の和を求める命令が発
せられた第２行目の３ステップ後の第５行目から開始し
ている。

【００７６】ここで、参考までに、前述した従来のプロ
セッサ（図１１参照）によって、特定の（ｊ、ｖ）の組
合せに対して、数３のｒ（ｊ，ｕ，ｖ）のｕ＝０からｕ
＝１５までの値を求める処理を実現するプログラムを図
８に示す。

【００７７】前掲した表１に示すように、図中の命令ｄ
ｉｓｔは数２に示す演算を行う画素演算命令、ａｌｌｉ
ｇｎは、レジスタファイルの２つのレジスタから読みだ
した２つの６４ビット幅のデータを連結し、左にｍビッ
トシフトし、シフト後に左より６４ビットをデータとし
て取り出す画素配置命令である。

【００７８】ただし、画素演算命令ｄｉｓｔはパイプラ
イン処理可能であり、そのレイテンシは２ステップであ
るとした。加算命令とロングレジスタ格納命令のレイテ
ンシは１ステップであるとした。また、スーパスカラー
またはＶＬＩＷアーキテクチャによって、異なる演算装
置で実行される異なる種類の命令は同時に実行できるも
のとして、同時実行可能な命令を１行に記述した。

【００７９】このプログラムでは、画素演算命令ｄｉｓ
ｔでカレントフレ−ムのカレントマクロブロックの特定
行の１６画素のうちの８画素の輝度データと、サ−チウ
ィンドウの特定行の８画素の輝度データとの間の差の和
を求め、加算命令ａｄｄで求まった和を順次加算し、画
素配置命令ａｌｉｇｎで次回の演算に用いるサ−チウィ
ンドウの特定行の８画素を右に１画素更新する処理を、
サ−チウィンドウの特定行の最も左側の８画素より１６
回繰り返して行う。

【００８０】また、この処理と交互に、画素演算命令ｄ
ｉｓｔでカレントフレ−ムのカレントマクロブロックの
特定行の１６画素のうちの残りの８画素の輝度データ
と、サ−チウィンドウの特定行の８画素の輝度データと
の間の差の和を求め、加算命令ａｄｄで求まった和を順
次加算し、画素配置命令ａｌｉｇｎで次回の演算に用い
るサ−チウィンドウの特定行の８画素を左に１画素更新
する処理をサ−チウィンドウの特定行の最も右側の８画
素より１６回繰り返して行う。

【００８１】ただし、このプログラムは前述したUltraS
PARCのものとは異なり、概略がわかる程度に簡略化した
ものである。

【００８２】図８に示すように、このような命令によっ
て前記処理を実現する場合には、４９ステップを要して
いる。

【００８３】図７と図８の場合を比べると、本実施例に
係るプロセッサの方が、この処理を約２．５倍高速に行
うことができることになる。これは、本実施例に係るプ
ロセッサの構成によれば、画素演算装置１１において１
６画素の輝度データ間の演算を一度に行えることや、演
算に用いるサ−チウィンドウの１６画素の輝度データの
更新と、更新したデータと、カレントマクロブロックの
１６画素との間の演算を一命令で実現できることなどに
よるものである。

【００８４】また、本実施例で用いた第一ロングレジス
タ１２、第二ロングレジスタ１３、ロングレジスタ更新
装置１４、画素演算ソースセレクタ１５によって増加す
るハードウェア量は、レジスタファイルの読み出しポー
ト数を増やしたり、レジスタファイルのビット幅を広げ
る場合のハードウェア増加量よりも少なくて済む。

【００８５】なお、以上の実施例では、画素演算器１１
を（数４）に示した演算を行うものとしたが、画素演算
器１１を他の演算を行うものとしてもよく、また、画素
の演算ではなく一般のデータの演算を行うものとしても
よい。

【００８６】たとえば、画素演算器１１を（数５）に示
す数式を演算するものとしてもよい。

【００８７】

【数５】

【００８８】この場合の画素演算器１１の構成を図９に
示す。図示するように、この構成は、先に図４に示した
構成における差演算器５１を、乗算器５３に置き換えた
構成を有している。乗算器５３は、２つの要素データの
積を計算する演算器である。

【００８９】このような画素演算器１１は、（数６）で
表されるような時系列データのフィルタ演算などに応用
できる。

【００９０】

【数６】

【００９１】このような応用によれば、タップ数が多
い、したがって、良好な応答特性を得ることができ、か
つ、処理速度の高速なフィルタを実現することができ
る。

【００９２】

【発明の効果】以上説明してきたように、本発明によれ
ば、ハードウェアのコストを、あまり増加することな
く、レジスタファイルのデータ長より大きなデータ長の
データ間の演算処理を高速に実行できるプロセッサを提
供することができる。

【図面の簡単な説明】

【図１】本発明の実施例に係る動画処理システムの構成
を示すブロック図である。

【図２】本発明の実施例に係るプロセッサの構成を示す
ブロック図である。

【図３】本発明の実施例に係る第一、第２ロングレジス
タを示す図である。

【図４】本発明の実施例に係る画素演算器の構成を示す
ブロック図である。

【図５】本発明の実施例に係るロングレジスタ更新装置
の構成を示すブロック図である。

【図６】本発明の実施例におけるレジスタファイルへの
輝度データの格納のようすを示した図である。

【図７】本発明の実施例に係るプロセッサのプログラム
例を示した図である。

【図８】従来のプロセッサのプログラム例を示した図で
ある。

【図９】本発明の実施例に係る画素演算器の他の構成例
を示したブロック図である。

【図１０】動画データ圧縮処理で行われるフレ−ム間の
近似画素ブロックの探索範囲を示した図である。

【図１１】従来のプロセッサの構成を示したブロック図
である。

【図１２】従来のプロセッサにおけるレジスタファイル
への輝度データの格納のようすを示した図である。

【図１３】従来のプロセッサにおける近似画素ブロック
探索の手順を示したフロ−チャ−トである。

【符号の説明】

２レジスタファイル１１画素演算器１２第一ロングレジスタ１３第二ロングレジスタ１４ロングレジスタ更新装置１５画素演算ソースセレクタ１６レジスタファイル書き込みセレクタ３０命令レジスタ３１命令レジスタ９１プロセッサ９２システムバス９３主記憶装置９４二次記憶装置９５ビデオ入出力装置９６通信装置９７Ｉ／Ｏ装置１００ロード・ストア処理装置１０１整数演算処理装置１０２他命令用演算処理装置９１１システムバス・インタフェース９１２命令供給ユニット９５１カメラ９５２ディスプレイ

───────────────────────────────────────────────────── フロントページの続き (72)発明者西岡清和神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者野尻徹神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者田中和彦神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者石黒正雄神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (56)参考文献特開昭63−216129（ＪＰ，Ａ) 特開平７−36857（ＪＰ，Ａ) 特開昭59−180732（ＪＰ，Ａ) 特開昭62−282325（ＪＰ，Ａ) 特開平６−303547（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/30 G06F 9/34 G06F 7/00

Claims

(57)【特許請求の範囲】

【請求項１】並列にデータを読みだし可能な少なくとも
２つのレジスタを含んだ複数のビット幅Ｎのレジスタを
備えたレジスタファイルを有するプロセッサであって、命令を格納する命令レジスタと、ビット幅Ｍ（但し、Ｍ＞Ｎ）のレジスタである第１のロ
ングレジスタ及び第２のロングレジスタと、前記第２のロングレジスタから読みだしたデータの一部
を前記レジスタファイルから読みだされたデータの一部
に置き換えたＭビット幅のデータを、前記命令レジスタ
に格納された命令に応じて生成する更新部と、前記レジスタファイルの複数のレジスタより並列に読み
だされたデータを連結したＭビット幅のデータ、もしく
は、前記更新部が生成したＭビット幅のデータの一方
を、前記命令レジスタに格納された命令に応じて選択す
る選択部と、前記選択部が選択したＭビット幅のデータと前記第１の
ロングレジスタから読みだされたＭビット幅のデータと
に所定の演算を、前記命令レジスタに格納された命令に
応じて施す演算器と、を有し、前記第１のロングレジスタは、前記命令レジスタに格納
された命令に応じて、前記レジスタファイルの複数のレ
ジスタより並列に読みだされたデータを連結したＭビッ
ト幅のデータを格納し、前記第２のロングレジスタは、前記命令レジスタに格納
された命令に応じて、前記選択部が選択したＭビット幅
のデータを格納し、前記命令レジスタに特定の命令が格納された場合に、前
記更新部は、前記第２のロングレジスタから読みだした
データの一部を前記レジスタファイルから読みだされた
データの一部に置き換えたＭビット幅のデータを生成
し、前記選択部は前記更新部が生成したＭビット幅のデ
ータを選択し、前記第２のロングレジスタは前記選択部
が選択したＭビット幅のデータを格納し、前記演算器は
前記第１のロングレジスタから読みだされたＭビット幅
のデータと前記選択部が選択したＭビット幅のデータと
の間に所定の演算を施すことを特徴とするプロセッサ。
【請求項２】請求項１記載のプロセッサであって、前記命令レジスタに第１種の命令が格納された場合に、
前記第１のロングレジスタは、前記レジスタファイルの
複数のレジスタより並列に読みだされたデータを連結し
たＭビット幅のデータを格納し、前記命令レジスタに第２種の命令が格納された場合に、
前記選択部は前記レジスタファイルの複数のレジスタよ
り並列に読みだされたデータを連結したＭビット幅のデ
ータを選択し、前記第２のロングレジスタは前記選択部
が選択したＭビット幅のデータを格納し、前記演算器は
前記第１のロングレジスタから読みだされたＭビット幅
のデータと前記選択部が選択したＭビット幅のデータと
の間に所定の演算を施すことを特徴とするプロセッサ。
【請求項３】請求項１記載のプロセッサであって、前記更新部は、前記レジスタファイルから読みだされた
データをシフトする第１のシフタと、前記第１のシフタ
でシフトされたデータと前記第２のロングレジスタから
読みだしたデータとを連結したデータをシフトし、シフ
ト後のデータ中の所定の範囲からＭビット幅のデータを
出力する第２のシフタとを備えていることを特徴とする
プロセッサ。
【請求項４】請求項１記載のプロセッサであって、前記演算器が施す演算は、前記選択部が選択したＭビッ
ト幅のデータを複数に分割した複数の第１要素データの
各々について、当該第１要素データと、前記第１のロン
グレジスタから読みだされたデータを複数に分割した複
数の第２要素データのうちの前記Ｍビット幅のデータ中
の位置に関して当該第１要素データと対応する第２要素
データとの差の絶対値を求め、各第１要素データについ
て求めた差の絶対値の総和を求める演算であることを特
徴とするプロセッサ。
【請求項５】請求項１記載のプロセッサであって、前記演算器が施す演算は、前記選択部が選択したＭビッ
ト幅のデータを複数に分割した複数の第１要素データの
各々について、当該第１要素データと、前記第１のロン
グレジスタから読みだされたデータを複数に分割した複
数の第２要素データのうちの前記Ｍビット幅のデータ中
の位置に関して当該第１要素データと対応する第２要素
データとの積を求め、各第１要素データについて求めた
積の総和を求める演算であることを特徴とするプロセッ
サ。
【請求項６】複数の命令を含むプログラムとデータを記
憶した記憶手段と、前記記憶手段に記憶されたプログラム中の命令を順次取
り込んで処理するプロセッサと、を備えたデータ処理装
置であって、前記プロセッサは、前記記憶手段から取り込んだ命令を格納する命令レジス
タと、並列にデータを読みだし可能な少なくとも２つのレジス
タを含んだ複数のビット幅Ｎのレジスタを備えたレジス
タファイルと、前記レジスタファイルの各レジスタと前記記憶手段との
間のデータの転送を、前記命令レジスタに格納された命
令に応じて制御する手段と、ビット幅Ｍ（但し、Ｍ＞Ｎ）のレジスタである第１のロ
ングレジスタ及び第２のロングレジスタと、前記第２のロングレジスタから読みだしたデータの一部
を前記レジスタファイルから読みだされたデータの一部
に置き換えたＭビット幅のデータを、前記命令レジスタ
に格納された命令に応じて生成する更新部と、前記レジスタファイルの複数のレジスタより並列に読み
だされたデータを連結したＭビット幅のデータ、もしく
は、前記更新部が生成したＭビット幅のデータの一方
を、前記命令レジスタに格納された命令に応じて選択す
る選択部と、前記選択部が選択したＭビット幅のデータと前記第１の
ロングレジスタから読みだされたＭビット幅のデータと
に所定の演算を、前記命令レジスタに格納された命令に
応じて施し、演算の結果を前記レジスタファイルのレジ
スタに書き込む演算器と、を有し、前記第１のロングレジスタは、前記命令レジスタに格納
された命令に応じて、前記レジスタファイルの複数のレ
ジスタより並列に読みだされたデータを連結したＭビッ
ト幅のデータを格納し、前記第２のロングレジスタは、前記命令レジスタに格納
された命令に応じて、前記選択部が選択したＭビット幅
のデータを格納し、前記命令レジスタに特定の命令が格納された場合に、前
記更新部は、前記第２のロングレジスタから読みだした
データの一部を前記レジスタファイルから読みだされた
データの一部に置き換えたＭビット幅のデータを生成
し、前記選択部は前記更新部が生成したＭビット幅のデ
ータを選択し、前記第２のロングレジスタは前記選択部
が選択したＭビット幅のデータを格納し、前記演算器は
前記第１のロングレジスタから読みだされたＭビット幅
のデータと前記選択部が選択したＭビット幅のデータと
の間に所定の演算を施すことを特徴とするデータ処理装
置。