JP2001236221A

JP2001236221A - マルチスレッドを利用するパイプライン並列プロセッサ

Info

Publication number: JP2001236221A
Application number: JP2000042696A
Authority: JP
Inventors: Keisuke Shindo; 啓介進藤
Original assignee: Individual
Current assignee: Individual
Priority date: 2000-02-21
Filing date: 2000-02-21
Publication date: 2001-08-31

Abstract

(57)【要約】【課題】マルチスレッドプログラムを利用するプロセッ
サにおいて、一列に並んだ演算ユニットで複数のスレッ
ドを順に動作させる方式において、メモリ配線を短縮し
て周波数性能と並列性能を両立させる。さらに並列処理
性能を阻害するノード間データ転送と、同期による待ち
あわせを解決する。【解決手段】特許広報平９−２８７６６２に記載された
プロセッサに、データを格納するキャッシュを複数搭載
し、それぞれのキャッシュを数個の演算実行ユニットと
結合する。キャッシュの内容はスレッドの進行にあわせ
て転送して複製する。キャッシュの内容を転送しきれな
い場合は、１つのスレッドを単一の演算実行ユニットで
実行する。さらに、仮想記憶機構とキャッシュの共有機
構を用いて、指定したアドレスへのアクセスを検出して
スレッドを再開させる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ソフトウェアによ
って動的に機能を変更できるプロセッサに属し、特にス
レッドと呼ばれる単位で分割されたソフトウェアを利用
するプロセッサに属する。

【従来例】（半導体技術の進化とマイクロプロセッサの
性能向上）

【０００２】半導体技術の進化により、ここ２０年はト
ランジスタ、配線の微細化が常に同じペースで進んでき
た。ＤＲＡＭのようにトランジスタ数がそのまま容量に
つながる素子では、単に微細化によって素子数が増える
だけで、微細化と同じペースで性能を向上できた。

【０００３】ところが、マイクロプロセッサに代表され
る論理ＬＳＩに関しては、性能向上には２つの方法があ
る。１つは動作周波数の向上。そしてもう１つは動作周
波数あたりの仕事量である。

【０００４】まず、微細化によってトランジスタのスイ
ッチング速度の向上し、前者の動作周波数の向上が可能
になった。さらに、後者の動作周波数あたりの仕事量の
増加は、利用できるトランジスタの増加により、規模の
大きい高速レイテンシ回路、およびスーパースカラなど
の並列方式の採用が可能になったことで実現できた。

【０００５】これまでは、マイクロプロセッサはこの２
つの要素によって飛躍的な性能向上を可能にした。しか
し、この２つの要素が、特に後者が限界を迎えつつあ
る。この限界を打破しなければ、今後のマイクロプロセ
ッサの性能向上は見込めない。

【０００６】（配線のリスクの相対的増加）

【０００７】近年の半導体の微細化技術、プロセスの進
歩により、トランジスタの動作速度は飛躍的に増大し、
その大きさ、消費電力も飛躍的に減少した。これによっ
て、少なくともトランジスタ単位では、従来では考えら
れない周波数の動作が可能になった。

【０００８】しかし、配線の遅延時間はそれほど改善さ
れてはいない。配線長は、トランジスタのサイズに比例
して高速化するわけではない。さらに、微細化された分
だけトランジスタの数を増やす場合は配線遅延はかえっ
て増大する。この傾向は深刻に受け止められてきてお
り、配線が最小となるユニット配置を行うことは常識と
なっている。配線自体のプロセスによる改善も行われて
いる。多層配線やＣｕ配線などがそれである。しかし、
それだけでは拡大を続けるトランジスタと配線の速度差
を埋めることはできない。

【０００９】今後は、配線遅延の増加を押さえて動作周
波数の向上比率を維持するためには、常に回路全体に最
短配線するという考え方を改め、レイテンシ性能を低下
させてでも最短距離の配線で伝送することが必要とな
る。

【００１０】（データ転送スループットとデータ転送レ
イテンシ）

【００１１】データ転送性能の向上には、データ転送ス
ループットの向上とデータ転送レイテンシの短縮の双方
が必要になる。前者のデータの転送スループットの増加
は比較的たやすい。それに対して、転送レイテンシは性
能低下を押さえるのが精一杯で、数倍以上の改善は見込
めない。

【００１２】レイテンシ向上の方法としては、キャッシ
ュ、プリフェッチなどによる確率的な方法があるが、そ
れは回路規模を必要とする割にたいした性能向上を果た
せない。演算能力と低速なメモリとのレイテンシの開き
は拡大の一途をたどり、キャッシュミスにおけるペナル
ティーを相対的に増大させ、最終的には処理時間のほと
んどすべてを占めることになる。ということは、なんら
かの形でレイテンシを隠蔽することが必須になる。

【００１３】そのために現在はアウトオブオーダースー
パースカラ、ＶＬＩＷという方式が存在する。データの
ロードが終わっていなくても、データの必要のない命令
を先に動作させるプロセッサである。だが、この方式は
先に実行させることができる命令を発見する回路が巨大
になりすぎ、周波数性能向上に限界がある。

【００１４】よって、レイテンシの隠蔽は今後さらに重
要になる。だが、アウトオブオーダースーパースカラや
ＶＬＩＷなどの命令レベル並列では、現在以上のレイテ
ンシ隠蔽は不可能である。

【００１５】（演算ユニットの使用頻度のばらつきと共
有）

【００１６】マイクロプロセッサには、加算、論理演
算、シフト、分岐、ロードストア、乗算、除算、浮動小
数点演算、ＳＩＭＤ型演算、ＳＩＭＤデータの入れ替え
処理など、多くの処理が必要とされる。これらの動作の
実現には、それぞれ専用の回路を設けるのが一番効率が
良い。ところが、マイクロプロセッサはこれらの全てを
同時に必要とするわけではない。稼動率が低いユニット
も多く存在する。

【００１７】このマイクロプロセッサを同時に複数使用
する方式を、マルチプロセッサと呼ぶ。現在のマルチプ
ロセッサでは、これらの演算ユニットが全て複数搭載さ
れる。ということは、全体としてはほとんど稼動してい
ない回路が増加することになる。仮に、マルチプロセッ
サの間であまり使用されない演算ユニットを共有できれ
ば、システム全体の回路の利用効率を高めることがで
き、本当に数の必要な演算ユニットを増やすことができ
る。

【００１８】（消費電力の増大）

【００１９】近年のマイクロプロセッサの動作周波数の
向上によって、消費電力は飛躍的に増大した。その増大
を抑制するために、動作電圧を低減させ、低い電圧で性
能を維持するための回路技術が開発された。しかし、回
路素子数、周波数性能はさらに向上を続けるものと考え
られる。さらなる低消費電力の手段が必要になる。

【００２０】ＣＭＯＳ回路は、信号のレベルが変化する
ときに電力を消費する。ということは、信号のレベルの
変化の少ない回路がもっとも消費電力の低い回路とな
る。回路構成のレベルでは、演算ユニットやクロック信
号制御など、信号変化を低減する手段が多く利用されて
いる。しかし今後は、さらに上位のアーキテクチャにお
いても、最小の電力で演算を行うための手段が必要にな
ると考えられる。

【００２１】回路的に考えると、同じ仕事を連続して行
うことができれば、回路の状態の変動も最小限となり、
動作する回路も最小限となる。そして、トランジスタ数
あたりの性能が向上できれば、逆にいえば性能あたりの
消費電力が低減できるということである。

【００２２】（演算内容の巨大化、分散化）

【００２３】前の演算の終了を待ち、その結果を利用し
て演算を行うことを、データ依存関係と呼ぶ。互いにデ
ータ依存関係のある演算は原理的に同時実行ができず、
並列化を阻害する最大の要因である。いかなる方式もこ
れを解消することはできない。

【００２４】ソフトウェアの構造上、このデータ依存関
係がもっとも大きいのは連続した命令の近傍であり、現
在のスーパースカラやＶＬＩＷに代表される、命令レベ
ル並列の対象とされる部分である。すなわち、命令レベ
ル並列はもっとも並列化しにくい部分をあえて並列化す
る方法であり、性能向上に限界が生じる。

【００２５】一般的に仕事の単位をうまく分割できれ
ば、分業が効率が良いのは言うまでもない。そして、巨
大なソフトウェアでは、その動作内容が全て密接に結合
し、全ての命令、データが同じ確率で利用されるという
ことはありえない。現に、ソフトウェアは、オブジェク
トと呼ばれる独立性の高い単位で分割できることは良く
知られている。

【００２６】（データスループットの爆発的な増大）

【００２７】メディア処理は、巨大なデータ転送能力を
要求し、キャッシュの内部で実行できない代表的な処理
である。この処理の多くは巨大なデータ転送スループッ
トを要求する。それに対して、メディア処理は全体とし
てはさしてレイテンシを要求しない。要求されるレイテ
ンシはどんなに小さくても１ミリ秒程度がせいぜいであ
る。レイテンシを犠牲にして並列処理を行うのにこれほ
ど向いた用途はない。

【００２８】局所的なレイテンシがそのまま総和される
現在のプロセッサの方式では、プロセッサバスのレイテ
ンシがそのまま加算され、全体の性能向上も頭うちにな
る。それに対して、レイテンシをなんらかの手段で隠蔽
することができれば、メモリアクセスの並列化などの方
法によってスループットを確保することができる。その
ためにマルチスレッドと呼ばれるソフトウェアモデルを
導入して、レイテンシの累積を防止する。スレッド単体
のレイテンシが多少大きくてもメディア処理に要求され
るレイテンシよりはるかに小さいため、結果的にメディ
ア処理に要求される性能を全て満足することができる。

【００２９】（演算の繰り返しの増加）

【００３０】長時間動作するプログラムは、その全ての
時間に渡ってまったく違う命令を実行することは考えら
れない。そのため、長い時間の動作の中では、何らかの
形で同じコードを再利用して同じ動作を繰り返している
ことになる。

【００３１】この傾向を利用することにより、同じ動作
を行う部分を同時にまとめて実行することで、同じ動作
で共有される命令メモリ、データメモリなどの資源を共
有することができる。しかも、まったく同じ動作を時間
的にわずかにずらして実行することにより、同じ資源を
同時に利用することも簡単に防ぐことができる。

【００３２】（ＩＰユニットの内蔵と、それを結合する
性能の要求）

【００３３】汎用プロセッサは、３２ビットなどの桁の
多い数値演算や、大容量メモリ全域を利用した処理、動
的に変わる処理に関しては他の手段では実現不可能な性
能を発揮できる。しかし、少数の複雑なビット処理演算
に関しては依然として弱く、目的に応じて最適化された
回路の方が常に性能が上である。ということは、システ
ム全体の性能向上のためには、依然として良く利用され
るビット演算を担う回路、ＩＰ回路を内蔵することが望
ましい。

【００３４】ところが、ＩＰ回路は、その前後の動作が
なければ十分な性能が発揮できない。ＩＰ回路同士を直
接連結すると、その回路の動作の種類を制限することに
なる。プログラマブルでかつ高速なアプリケーションの
動作を実現するためには、複数の最小限度のＩＰ回路
と、ＩＰ間のデータの中継を行う十分な演算処理能力が
最良の組みあわせである。

【００３５】（スーパースカラ、ＶＬＩＷ方式）

【００３６】スーパースカラ方式、ＶＬＩＷ方式は、命
令レベル並列とよばれ、同時に複数の命令を実行するこ
とで、性能を向上させることを狙った方式である。

【００３７】まず、スーパースカラ方式は、複数の命令
の組みあわせを自動的に抽出してくれる方式である。と
ころが、自動的に抽出できる命令の範囲、命令ウィンド
ウは限定されており、特に、条件分岐命令の後に実行さ
れる命令の抽出が非常に難しい。そのため、プログラム
全体の並列性を生かすことができず、隣接した数個の命
令を実行するのがせいぜいである。

【００３８】図２に、従来のプロセッサ例としてＶＬＩ
Ｗ方式のプロセッサの構造模式図を示す。ＶＬＩＷ方式
は、この命令の抽出の手間をコンパイラに任せ、並列可
能な命令を明示して命令メモリに格納する方法である。
しかし、並列化の対象となるのはプログラム内部で隣接
した数個の命令であることには変わりない。

【００３９】２０１は複数の命令を同時に格納する命令
キャッシュである。命令発行ユニット２０８は、命令キ
ャッシュ２０１から同時に複数の命令を読み込み、送ら
れた命令を実行できる演算ユニットにそれぞれ命令を分
配する。演算ユニット２０２、演算ユニット２０３、分
岐ユニット２０４、ロードストアユニット２０５は、同
時に独立した動作ができる。演算ユニット２０２、演算
ユニット２０３は、共有レジスタファイル２０６から複
数の値を取り出して演算を行い、結果をレジスタファイ
ル２０６に返す。分岐ユニット２０４は、命令キャッシ
ュ２０１に対してＰＣアドレスを変更させる。ロードス
トアユニット２０５は、データキャッシュ２０７からレ
ジスタファイル２０６にデータを読み込む。あるいは逆
に、レジスタファイル２０６の値をデータキャッシュ２
０７に転送する。

【００４０】（マルチプロセッサ方式）

【００４１】図３に、従来例としてマルチプロセッサ方
式を示す。マルチプロセッサ方式は、既存のパイプライ
ン、スーパースカラ、ＶＬＩＷのいずれかの方式で作成
されたプロセッサを複数接続して利用する方法である。
飽和しつつある命令レベル並列を補うために用いられ
る。

【００４２】そのために、ソフトウェアをプロセス、あ
るいはスレッドとよばれる独立した単位に分割して、そ
れぞれのプロセッサに割り当てる。それぞれのプロセッ
サはそれぞれ独立したスレッドを実行することで、命令
レベル並列に対して演算ユニット間の通信を抑制するこ
とができる。

【００４３】図３にマルチプロセッサの構造を示す。プ
ロセッサ３０１、３０２、３０３、３０４は、共有バス
３０５に接続される。プロセッサ３０６、３０７、３０
８も同様に共有バス３０９に接続される。共有バス３０
５には二次キャッシュ３１０が接続され、プロセッサ３
０１のメモリは基本的には二次キャッシュ３１０から取
得する。２つの二次キャッシ３１０、３１１は、共有メ
モリバス３１２に接続され、二次キャッシュとメインメ
モリ３１３の内容を同一にする。

【００４４】プロセッサ３０１〜３０４、３０６〜３０
８は、それぞれ独自に命令動作を行い、命令、データを
メインメモリ３１３からキャッシュを介して取得する。
他のプロセッサと同一アドレスのデータを共有しない限
り、プロセッサ間通信は行われない。

【００４５】これらのプロセッサ、二次キャッシュ３１
０，３１１は、半導体のチップに全て搭載することが可
能である。半導体チップの微細化によって、同じコスト
でもより多くの回路の搭載が可能になったため、複数の
プロセッサを１つのチップに搭載することで、コストに
対する性能を向上させることになる。

【００４６】（従来のＰＭＴ方式）

【００４７】図４に、命令レベル方式、およびマルチプ
ロセッサ方式の欠点を解消するための従来の方式を示
す。以下、この方式をＰＭＴ方式と呼称する。ＰＭＴ方
式についての詳細は特許広報平９−２８７６６２に記載
されている。

【００４８】このＰＭＴ方式は、前述のマルチプロセッ
サ方式で利用されるプロセス、スレッドをほぼそのまま
用いる。そして、演算ユニット間の通信を最小限にする
ことにより、演算ユニットの増加に対して周波数性能の
低下を抑制し、動作周波数を維持しつつ大量の演算ユニ
ットの搭載を可能にし、飛躍的な性能向上を可能にす
る。さらに、演算ユニットなどの回路を可能な限り共有
することによって、最小の回路規模で最大の並列規模を
達成できる。

【発明が解決しようとする課題】

【００４９】（ＶＬＩＷ方式の欠点）

【００５０】ＶＬＩＷ方式の欠点を示す。まず、命令レ
ベル並列は、プログラムの局所的な領域だけで実行でき
る命令を選択する方式である。理由は、プログラムはそ
の場の演算結果によって命令の流れが頻繁に変更される
ため、演算が終了するまで次に実行すべき命令を特定す
ることはできない。それをある程度克服するために分岐
予測と呼ばれる機構があるが、それでも複数の分岐の先
を予測することは難しい。そのため、命令キャッシュ３
０１の幅を広げても、同時に実行できる命令をプログラ
ムから大量に選択できないため、性能向上率が飽和す
る。

【００５１】さらに、複数のデータ依存関係が発生する
ということは、それらの命令の間のデータの自由な転送
が必要になるということである。一般的に、命令実行ユ
ニットのＮ倍の増加に対して、実行ユニット間の配線の
遅延時間はＮ倍以上、回路規模はＮの二乗の規模で増加
する。そのため、命令実行を増やしても、それ以上に周
波数性能が低下するというデメリットが生じる。

【００５２】以上の理由によってＶＬＩＷ方式は性能向
上に限界がある。

【００５３】そのため、命令発行ユニット２０８の幅を
広げるのはあきらめて、複数の明示的に独立したスレッ
ドを１つのプロセッサで同時に実行するのも必要と考え
られるようになった。そのため、小規模なＶＬＩＷを複
数搭載し、個々のＶＬＩＷで個別のスレッドをそれぞれ
動作させるという方法が考案されている。ところがそれ
では、次に述べるマルチプロセッサ方式の問題が発生す
る。

【００５４】（マルチプロセッサ方式の欠点）

【００５５】次に、マルチプロセッサ方式の４つの欠点
を示す。

【００５６】まず、マルチプロセッサでは、負荷の高い
プロセッサから負荷の低いプロセッサへプロセス、ある
いはスレッドを移すのに非常に時間がかかる（以下、こ
のプロセス、スレッドの移動をプロセス移住、スレッド
移住と呼ぶ）。

【００５７】次に、マルチプロセッサにはプロセッサ間
通信が必要になる。複数のプロセス、スレッドがまった
く独立したデータを利用することはまれであるためであ
る。ところが、１つのデータを全てのプロセッサが利用
すると、データ通信の量はプロセッサの数にほぼ比例し
て増加する。そして、通信の量が増えるということは、
単体のプロセッサから見てもメモリのアクセスが通信、
同期によって制限されることになり、単体のプロセッサ
においても、システム全体においても性能が飽和する。

【００５８】次の問題は、プロセッサ間の同期である。
あるプロセスがほかのプロセスの特定の処理を待つため
に停止し、別のプロセスからの処理終了の伝達によって
再開するのが同期である。このための最も原始的な手法
は、待ち状態のプロセスが定期的に別のプロセスの状態
を監視することである(スピンロックと呼ばれる）。し
かし、これでは待ち状態のプロセスがプロセッサ、メモ
リバスなどの資源を占有するために非常に効率が悪い。
そのために、ＯＳレベルのソフトウェアで同期処理を管
理する方法などがあるが、そのためのソフトウェア処理
が大規模な並列における性能向上を阻害するという問題
がある。

【００５９】最後に、マルチプロセッサは、メモリ、複
数の演算ユニットをすべて搭載するプロセッサを、さら
に複数搭載する。そのため、それぞれの演算ユニット、
メモリの稼動率にもかかわらず、すべてのコピーがプロ
セッサの数だけ搭載されることになる。そのため、回路
規模の点で無駄が多い。

【００６０】（従来のＰＭＴ方式の欠点）

【００６１】ＰＭＴ方式は、以上で述べた、ＶＬＩＷに
代表される命令レベル方式の性能の限界、およびマルチ
プロセッサ方式の回路規模的な欠点を解消するための方
式である。

【００６２】まず、複数のスレッドを常に全てのユニッ
トで巡回させることで、スレッド発行ユニットを演算ユ
ニット間で共有できる。さらに、全てのスレッドを空い
た演算ユニットに対して即座に発行することができ、ス
レッドを中断した場合も、スレッドの移住を行わなくて
もその場で再開が可能である。これによって、レイテン
シを隠蔽するためのスレッドの切り替えを高速に行うこ
とができる。

【００６３】複数のスレッドを動作させる際には、デー
タキャッシュの内容を共有することが多い。そのため、
スレッド間で同じデータキャッシュを共有することで、
全てのキャッシュへ同じデータを転送する必要が無くな
り、ブロードキャスト型のデータの転送を最小限にする
ことができる。

【００６４】同じ種類のスレッドは、同じ命令、データ
メモリ、演算ユニットを利用する傾向が強い。この性質
を利用して、１つの命令キャッシュ、データキャッシ
ュ、特殊演算ユニットを複数のスレッドから共有させる
ことで回路を削減することができる。

【００６５】だが、従来例に挙げた図４のＰＭＴ方式に
は、以下の欠点がある。

【００６６】まず、コンテキストスイッチのために、メ
モリにレジスタの値の退避が常に必要になる。キャッシ
ュミスのように、もとの演算ユニットでスレッドを再開
できるような処理では、演算ユニットにレジスタを保持
しておけば、スレッドの移住は必要ない。そのために、
複数のスレッドを同時に管理するレジスタファイルが必
要になる。

【００６７】次に、分岐命令ごとにコンテキストスイッ
チが必要になる。理由は、命令アドレスに対して、実行
される演算ユニットが常に決定されているために、命令
アドレスが昇順に実行されない場合はスレッドの移動が
必要になるためである。分岐命令はソフトウェア全体で
４分の１を占めるともいわれるため、このようなスレッ
ドの移動は大きく性能を低下させる。ソフトウェアのイ
ンライン展開によってある程度分岐を減少させることは
可能であるが、汎用的なソフトウェアで性能が出る構造
が望ましい。

【００６８】次に、命令アドレスによって実行される演
算ユニットが決定されるため、命令の配置によっては演
算ユニットの稼動率にバラ付きが生じる。同じようにソ
フトウェアのインライン展開でうまく大半の演算ユニッ
トを利用することはできるが、汎用的なソフトウェアで
負荷分散が出来る構造が理想的である。

【００６９】従来のＰＭＴ方式では、キャッシュ間でデ
ータのコピーを持たせないために、全ての実行ユニット
が全てのキャッシュメモリと接続するように配線させる
必要がある。そのため、実行ユニットのＮ倍の増大にし
たがってＮの二乗で規模が増大する。配線遅延が深刻化
する現在では、このような配線は確実に周波数性能を低
下させる。ところが、性能向上の為には実行ユニットを
増加させることが不可欠である。そのため、キャッシュ
のコピーを各実行ユニットに持たせる必要があり、キャ
ッシュ間の内容の整合性を取るハードウェアを実装する
必要がある。

【００７０】従来のＰＭＴ方式では、キャッシュのコピ
ーを一切行わないため、全てのキャッシュのアクセスは
順序が入れ変わることはない。ところが、キャッシュの
コピーを持たせる構造にすると、キャッシュのアクセス
順序を保持できなくなる。そのため、新たなハードウェ
アによる同期機構によって、キャッシュのアクセス順序
を保証する必要がある。

【００７１】最後に、全てのスレッドは全ての資源に無
制限にアクセス可能であり、同時に独立したプロセスを
動作させることができない。そのためには仮想記憶機構
によるプロセス間保護の実装が必要である。ところが、
キャッシュメモリを分散させると、仮想記憶機構はキャ
ッシュメモリの数だけ必要になる。キャッシュメモリは
複数のプロセスが混在するため、単体の仮想記憶の容量
も増大する。更に、仮想記憶機構を分散させると仮想記
憶の規模が膨大なものになる。

【００７２】以上が従来のＰＭＴ方式の欠点である。Ｐ
ＭＴ方式の持つ長所を維持しつつ、これらの欠点を解消
するのが本発明の目的である。

【課題を解決するための手段】【作用】

【００７３】（コンテキストスイッチ）

【００７４】本発明のプロセッサはマルチスレッドを利
用する。マルチスレッドは大規模なレイテンシを隠蔽す
る唯一の方法と言ってよい。このマルチスレッドの管理
は、従来のマルチプロセッサなどではＯＳの仕事となっ
ているが、それがスレッドの数に比例して処理時間を増
大させて、マルチスレッドの長所をほとんど発揮できな
い要因となっている。ハードウェアで極力マルチスレッ
ド動作を実現するのが望ましい。

【００７５】図１６にマルチプロセッサにおけるマルチ
スレッドの実行例を示す。スレッドＡからスレッドＢへ
の切り替えを行うスケジューリングは、常にプロセッサ
の資源を消費する。さらに、キャッシュミスの期間に
は、他のスレッドの動作ができず、各プロセッサはアイ
ドリング状態となる。

【００７６】図１７に、本発明のプロセッサにおけるマ
ルチスレッドの実行例を示す。本発明のプロセッサで
は、複数のスレッドがストールしない限り。スケジュー
リングを全てハードウェアで行うため、常に演算ユニッ
トを実際の動作に利用することができる。キャッシュミ
スの場合も、別のスレッドがかわりに動作することがで
きる。キャッシュの入れ替え動作が終了した後は、別の
任意のスレッドのストールによって、スレッドを再開す
ることができる。

【００７７】結論として、本発明のプロセッサは、マル
チプロセッサ方式に対してコンテキストスイッチ、スケ
ジューリングの時間が不要である。さらに、本発明のプ
ロセッサはあらゆるスレッドの待ち時間に他のスレッド
が動作可能であり、どんなに並列度を上げても演算資源
をほぼ常時利用することができる。これは、現在の命令
レベル並列では、数並列程度でも演算資源の利用率が半
分以下であるのと対照的である。

【００７８】複数のスレッドを同時に動かす際には、待
ち状態のスレッドの中から演算能力に相当する数のスレ
ッドを選択することが必要になる。スレッドには、例外
や割り込み要求の応答など、即座に実行を要求されるも
のと、比較的実行遅延が許されるものとが混在してい
る。このため、スレッドの優先順位を設け、それを自動
的に選択する機構が必要になる。

【００７９】本発明のプロセッサにおけるスレッドは１
６段階のプライオリティーを有する。スレッド発行ユニ
ットは、実行待機状態のスレッドを格納し、スレッドの
プライオリティーをハードウェアで判定して選択して、
同時に１つのスレッドを発行する。また、既存のスレッ
ドよりもバッファ上のスレッドの優先度が高い場合は、
無条件で既存のスレッドを休止して新規のスレッドを発
行する。プライオリティーが同一の場合はとくに優先制
御、負荷分散制御を行う必要はない。

【００８０】なお、実行ユニットの稼働率が高く、新規
のスレッドを発行できない場合は、隣接するスレッド発
行ユニットに順にスレッド状態を転送する。

【００８１】スレッド発行ユニットが発行すべきスレッ
ドを選択する際に、前に実行したスレッドと共通の命令
を利用するものが理想的である。理由は、命令が同一で
あれば利用するデータも同じである確率が高いこと。そ
して、命令などの状態が等しければ、制御回路などの状
態の変更が最小限となり、状態信号が変化しなければＣ
ＭＯＳ回路の特質上消費電力が最小となるためである。

【００８２】そのために、前に発行したスレッドの命令
アドレスを控えておく。そして、次に発行するスレッド
の命令アドレスと、控えておいた前のスレッドの命令ア
ドレスを比較し、同一であればスレッドを即座に発行す
る。アドレスが同一でない場合は、今のスレッドとプラ
イオリティーが同一以上のスレッドがない場合に限り用
意したスレッドを発行する。

【００８３】ＰＭＴ方式では、そのままではスレッドの
ライン間の移動によって演算ユニットの間で負荷のばら
つきが生じる。そのため、ある演算ユニットは負荷が極
端に高く、どうしてもほかのスレッドの要求を受け付け
られない状態が発生する。そういう場合は、空いた１つ
の演算ユニットを有効活用するために、その演算ユニッ
トを単一プロセッサとみなしてスレッドの実行を行う
（今後、この動作を局所ＳＭＰ実行モードと称する）。
こうして、ＰＭＴ方式とＳＭＰ方式を混在させて、スレ
ッドが充填されない演算ユニットを最大限に活用する。
プライオリティーの高い別のスレッドの要求によって、
局所ＳＭＰ実行モードは解除される。

【００８４】スレッド発行ユニットが４つの演算ユニッ
トで共有される場合は、局所ＳＭＰ実行モードは４つの
演算ユニットを順に利用して行う。この場合、４つのス
レッドが同時に動作することになるが、相互の演算ユニ
ット間のレジスタ、データ転送は不要である。

【００８５】コンテキストスイッチを高速化するため
に、従来のＰＭＴ方式にあったレジスタのメモリへの待
避の必要性をなくす。そのために、レジスタファイルに
は複数のスレッドの情報を共存させ、そのうちの１つだ
けを利用する。コンテキストスイッチは、利用するレジ
スタファイルのバンクを切り替えるだけで良く、即座に
スレッドを切り替えることができる。

【００８６】ＰＭＴ方式では、スレッドは基本的には一
定方向に移動する。しかし、命令、データの共有を実現
するためには、すでに命令が保持してある演算ユニット
にスレッドを移すことが望ましい。あるいは、すでに負
荷の高い演算ユニットに到達したときは、負荷の低いラ
インに移動する必要がある。そのために、演算ユニット
間でスレッドを移動させる、スレッド移住機構を設け
る。スレッド移住は以下の手順で行う。

【００８７】（１）実行ユニットからストール要求。同
時にレジスタバンクを別のスレッドに切り替える。

【００８８】（２）スレッド発行ユニットは待機してあ
るスレッドを供給。

【００８９】（３）データキャッシュにレジスタの内容
を退避。直接二次キャッシュに対して送られる。

【００９０】（４）目的のノードにスレッド情報転送。

【００９１】（５）データキャッシュ階層を通って、目
的のノードに近い二次キャッシュからレジスタの読み込
みを行う。データキャッシュ間の転送は、後述のキャッ
シュコヒーレンシ機構を用いる。

【００９２】なお、本発明では、負荷分散のためのスレ
ッドの移住は基本的には不要である。待ち状態のスレッ
ドは一定場所にとどまっていれば、いつかは他のスレッ
ドが使用していない空いたパイプラインが流れてくるた
めである。

【００９３】図２２に、スレッド移住における動作を示
す。横軸は演算ユニットの列であり、縦軸は時間経過で
ある。斜線が個別のスレッドの実行を示す。

【００９４】７番の演算ユニットへのスレッドの移住に
よって、７番から１０番の演算ユニットはメモリからレ
ジスタを読み込む。１１番の演算ユニットから実際のス
レッドが再開される。

【００９５】プライオリティーの低いスレッドは、７番
の演算ユニットがプライオリティーの高い別のスレッド
によって占有されたことを検出して、２番の演算ユニッ
トの時点でスレッドを停止させる。３番から６番の演算
ユニットではレジスタ状態をメモリに待避する。７番の
演算ユニットから別のスレッドの移住が始まる。

【００９６】一般的にサブルーチンコールでは、それま
でのレジスタをスタックに保持して、リターンの直前に
退避したレジスタを読み込む操作が必要になる。本発明
のプロセッサでは、サブルーチンコールはレジスタを隣
接転送する際に、元のレジスタを破棄せずに、サブルー
チンコールを実行した演算ユニットのレジスタバンクに
保持しておくだけで実現できる。そしてリターンはその
保持されていたレジスタバンクを再利用して、帰り値を
示す１つのレジスタだけを代入すれば良い。

【００９７】図２０に、サブルーチンコールの動作例を
示す。ＣＡＬＬ命令がサブルーチンへの分岐、ＲＥＴ命
令がサブルーチン終了を示す命令である。

【００９８】ＣＡＬＬ命令のように、元の命令アドレス
に戻り、元のスタックの値を利用する処理においては、
ＣＡＬＬ命令の位置にレジスタ値を残しておくだけで良
い。レジスタはコール先の命令にも複製されて継承され
る。

【００９９】ＲＥＴ命令の実行によって、帰り値だけが
ＣＡＬＬ命令に送られる。それ以外のレジスタは、元の
レジスタの値をそのまま利用すればよい。

【０１００】保持してあるレジスタバンクをほかのスレ
ッドが利用するときは、前述のスレッド移住機構におけ
るレジスタ同期機構によって、自動的にメモリへの退避
が行われる。

【０１０１】割り込みユニットやＴＬＢは、蓄積された
スレッドＩＤをスレッド発行ユニットに伝達し、指定さ
れたスレッドを動作させることができる。

【０１０２】そして、ＴＬＢからのスレッド生起は、ペ
ージフォルトなどのＴＬＢ例外によるコンテキストスイ
ッチを高速化するとともに、ＯＳカーネルサービスの並
列化を実現する。

【０１０３】本発明のプロセッサは大量のスレッドを利
用する。そのためには、現在進行しているスレッドの演
算能力を極力利用せずに、大量のスレッドを発行しなく
てはならない。そのために、スレッドが必要なスレッド
ＩＤ、スタックなどの情報（スレッド構造体と呼ぶ）は
ハードウェアで管理して、スレッドの生成によって自動
的に転送する。実装としては、まとめてスレッドＩＤと
スタックポインタを格納するバッファだけを設ける。バ
ッファの内容の管理はまとめてソフトウェアで行う。

【０１０４】スレッドを発行する場合は、スレッドバッ
ファから空き状態のスレッド構造体を要求する。スレッ
ドバッファにスレッド構造体が無い場合は、現在のスタ
ックポインタをそのまま返し、これ以上マルチスレッド
で実行できないことをプログラムに通達する。

【０１０５】こうして、スレッド発行命令は新規のスレ
ッド構造体を取得する命令だけで済むようになり、スレ
ッド発行におけるソフトウェアオーバーヘッドを削減で
きる。

【０１０６】（演算パイプライン）

【０１０７】本発明のプロセッサは、レジスタファイル
を隣接する複数の演算ユニットで共有する。４つの演算
ユニットでレジスタファイルを共有する場合は、４つの
レジスタファイルと４つの演算ユニットとの間で自由に
アクセスするためのクロスバ接続バスを設ける。

【０１０８】こうして、従来のＰＭＴ方式が常にすべて
のレジスタの値を隣接するユニットに転送を必要とした
のに対して、隣接するレジスタファイルへの転送を数ク
ロックに１回に抑制することができる。

【０１０９】レジスタファイルには複数のスレッドの情
報が混在するが、一度に送るのは１つのスレッドのさら
に４分の１の内容で十分となり、実行ユニット全体で
も、１つのスレッド分のレジスタ転送だけで良い。

【０１１０】なお、同一の命令を利用するスレッドを連
続して動作させている場合は、転送する信号の変化はス
レッド間のレジスタ値の違いだけとなる。この違いだけ
がＣＭＯＳ回路における消費電力となる。

【０１１１】本発明のプロセッサは浮動小数点演算ユニ
ットを搭載することができるが、このユニットは整数演
算に比べてレイテンシが大きくなるという特徴がある。
その間、依存関係のない別の整数演算命令を実行するこ
とで、浮動小数点演算のレイテンシを隠蔽できる。

【０１１２】同一の命令を用いるスレッドを連続動作さ
せる場合では、長レイテンシ演算も１つのユニットを使
いまわすことになる。この場合は、１クロック分の演算
が終了した時点で、隣接する別の長レイテンシ演算ユニ
ットに中間値を渡し、並行して演算を行う。こうして、
長レイテンシ演算のスループットを向上させる。

【０１１３】本発明のプロセッサは、一般的なパイプラ
インプロセッサと同じく、パイプラインを停止するパイ
プラインストールを発生する機能を有する。ただし、パ
イプラインプロセッサと違う点は、ストールする対象が
単独のスレッドに限られ、ほとんどの種類のストールの
間に待ち状態の別のスレッドを再開できる点である。

【０１１４】パイプラインストールは、一般的にはある
スレッドの要求する演算ユニット、あるいは転送バスな
どの資源を取得できなかった場合に発生する。そして、
ストール状態のスレッドは、その原因が解決された時点
で、プライオリティーの低い別のスレッドの動作を中断
することができる。

【０１１５】パイプラインストールは、すでに実行して
しまった演算内容を１，２命令分キャンセルする必要が
ある。たとえばロード命令に対して、ロード命令が利用
するキャッシュへのインバリッドの伝達が間に合わなか
った場合、そのロード命令を無効にする必要がある。

【０１１６】図２１は、パイプラインストールの動作例
である。スレッドＡのＥＸステージの実行が失敗して、
別のＥＸ’ステージによる実行が必要になる。スレッド
Ａの待避したパイプラインスロットには、前にパイプラ
インストールを起こした別のスレッドが入り込み、結果
を格納する。

【０１１７】ＥＸ’の具体的な動作は６４ビット演算や
浮動小数点除算などである。演算自体は数クロックで終
了し、再開待ち状態となる。スレッドＥのパイプライン
ストールによって、スレッドＥのかわりにスレッドＡが
入り込み、スレッドＡの命令を終了させる。

【０１１８】パイプライストールごとにスレッドを切り
替えることによって、パイプラインを間断無く動作させ
ることができる。ただし、パイプラインストールが発生
した命令が、前にパイプラインストールが発生した命令
より後である場合は、パイプラインに空きが生じる。た
だしその幅は最大４クロックである。しかも、同一命令
を利用するスレッドを連続動作させる場合は、パイプラ
インストールを起こす命令も同一である確率が高いた
め、大きなペナルティーにはならない。

【０１１９】（ディレクトリ方式階層キャッシュ）

【０１２０】大量の演算ユニットを搭載するには、それ
に対応するだけのデータ転送能力が必要になる。ところ
が、１つのメモリから大量のデータを供給することは不
可能である。何らかの形でメモリを分散するしかない。
ところが、本発明の方式では、全ての演算ユニットから
全てのメモリを高速に参照する必要がある。そのため
に、分散したメモリの間でコピーを持つ必要がある。

【０１２１】分散されたメモリは、本来のメモリのコピ
ーを自動的に格納するキャッシュの形態を取る。このと
き、キャッシュ間で同じデータのコピーを持つ場合は、
あるキャッシュへの書きこみを、別のキャッシュへと転
送しなくてはならない。このコピー間のデータの整合性
を取る機構を、キャッシュコヒーレンシ機構と呼ぶ。

【０１２２】ところが、キャッシュの数が増大すると、
キャッシュの間の転送量も増大し、配線の量、遅延時間
も増大する。キャッシュ間で接続されるバス信号の数を
最小限度にし、かつキャッシュ間の転送スループットを
確保するために、階層型キャッシュ構造を取る。

【０１２３】演算ユニットには専用の一次キャッシュが
接続され、複数の一次キャッシュに対して１つの二次キ
ャッシュが接続される。遠距離の一次キャッシュへの転
送に関しては、二次キャッシュを介して転送される。一
次キャッシュと二次キャッシュの間のデータバスの接続
はクロスバ接続であり、転送スループットを確保する。
ただし、クロスバ接続の組みあわせは４つ程度に限定
し、配線規模の増大を防ぐ。

【０１２４】本発明のプロセッサにおいては、隣接しな
いキャッシュ間の転送は即座には行われない。二次キャ
ッシュにいったん格納されてから伝達される。

【０１２５】ここで、データの書きこみを行ったスレッ
ド自身が同じデータを読み込む場合を考える。キャッシ
ュ間の転送が間に合わなければ、自分自身のデータも読
めないことになる。しかし、キャッシュ間の転送はスレ
ッドの進行に間に合えば良いため、多少のレイテンシの
遅れは許される。

【０１２６】特に、二次キャッシュ間の長距離配線、大
容量の二次キャッシュは動作レイテンシが遅くなる傾向
がある。ところが、二次キャッシュアクセスを長距離の
演算ユニットの間の転送に用いれば、その距離の間のス
レッドの進行に間に合えば良いため、キャッシュ動作レ
イテンシを隠蔽できる。

【０１２７】異なるスレッド間では、スレッド間の同期
を行わない限りデータの即座な転送を保証する必要はな
い。同期を行う場合は後述する。

【０１２８】二次キャッシュは複数の一次キャッシュ、
そして隣接する二次キャッシュ、三次キャッシュからの
要求をすべて受理することになる。これらの転送スルー
プットは膨大なものとなり、同時に複数の要求を受理し
なくてはならない。しかし、同時に複数の要求を完全に
受理できる、マルチポートのメモリ回路は規模も大き
く、速度も遅い傾向がある。

【０１２９】そのために、一次キャッシュは複数のロー
ドストアユニットに接続する。逆に１つのロードストア
ユニットからは、複数の一次キャッシュをアドレスによ
って選択する。二次以上のキャッシュは複数のバンクに
分割し、同様にアクセスするアドレスによってバンクを
選択する。同時に同じバンクへのアクセスが重なった場
合は、片方のアクセスを停止させる必要がある。ただ
し、本発明のプロセッサのキャッシュ間のデータ伝送
は、スレッドの進行に間に合えば良いため、多少の衝突
による遅れは許容される。この機構によって、確率的に
多ポートのキャッシュに近いスループットを確保でき
る。

【０１３０】データのコピーを持つ別のキャッシュを特
定するためには、バススヌープ方式とディレクトリ方式
の２つの方法がある。バススヌープ方式は、共有の可能
性のあるデータを共通のバスに出力し、全てのプロセッ
サが共有状態かどうかを判定する方式である。このバス
スヌープ方式の利点は、共有判定のための外部回路が単
純であること、複数のプロセッサへの同時転送が可能で
あることである。欠点は、すべての外部メモリアクセス
がメモリバスを占有して、全体の転送スループット性能
を低下させる点と、すべてのプロセッサが自身のキャッ
シュをアクセスしてコピーを持つかどうかのチェックを
行う必要があるという点である。市販されているスーパ
ースカラ型マイクロプロセッサはバススヌープ方式を採
用することが多い。

【０１３１】これに対して本発明のプロセッサは、デー
タの転送スループットが重要であり、かつデータの転送
相手を限定する必要がある。そのため、共有するプロセ
ッサを明示的に指定するディレクトリ方式を採用する。
ディレクトリ方式は、キャッシュの内部にデータの共有
相手を特定するための情報を持つ。

【０１３２】図２３にディレクトリ方式階層キャッシュ
のロードにおける挙動を示す。演算ユニットからのロー
ドの場合、一次キャッシュ内部にデータがない場合に限
り、二次キャッシュから一次キャッシュに向けてデータ
を転送し、二次キャッシュに共有状態を設定する。すで
に二次キャッシュのデータが共有状態となっている場合
は、ディレクトリビットの示す一次キャッシュに対して
共有状態を設定する。

【０１３３】図２４は、ディレクトリ方式階層キャッシ
ュのストアにおける挙動である。一次キャッシュへの書
きこみの際に、一次キャッシュのエントリが共有状態と
なっている場合は二次キャッシュに書きこみを通達す
る。二次キャッシュはディレクトリビットの示す共有相
手に対してのみ、直接キャッシュエントリの無効化（イ
ンバリッド）を通知する。

【０１３４】ディレクトリの指定により、一次キャッシ
ュには確実にデータのコピーがあることが判明するた
め、一次キャッシュのタグの比較を行う必要なく、直接
書き込みを行うことができる。ただし、セットアソシア
ティブキャッシュの場合は、ディレクトリビットは単体
のキャッシュ内部のどのバンクにデータが格納されてい
るかを指定する必要がある。

【０１３５】同じ命令を利用するスレッドは、たとえア
クセスするアドレスが異なっても命令間のデータの流れ
は等しい場合が多い。レジスタの場合は明示的にプログ
ラムで示されるが、メモリに対しても同じことが言え
る。特に、スタック、ヒープなどを利用する命令では、
アドレスは異なっても命令間のデータの流れは等しい場
合が多い。

【０１３６】本発明のプロセッサでは、同一スレッド内
部でのキャッシュミスを極力減らすために、たとえキャ
ッシュの共有情報がなくても、ストアされたデータを可
能な限り事前にロード命令に渡す必要がある。

【０１３７】そのために、命令アドレスに対してデータ
フロー予測情報と呼ぶ情報を設ける。データフロー予測
情報がマークされた命令は、ロード、ストア命令で使用
したのデータを自動的に次のロード命令に伝達する。そ
のために、データフロー予測情報には、伝達先のキャッ
シュを特定する値が格納される。データフロー予測情報
は、命令によって明示的に組み込むことも、自動的にプ
ロセッサが書きこむことも可能である。

【０１３８】データフロー予測情報は、プログラムで明
示的に記述するのが簡単だが、既存のソフトウェアとの
互換性、そして条件によってデータアドレスが動的に変
更される場合に対処するために、ハードウェアで自動的
に設定するのが望ましい。

【０１３９】図１９に、データフロー予測情報の書きこ
み動作を示す。ロードストアユニット１９０７におけ
る、最初の命令実行でキャッシュミスを起こした命令
は、キャッシュの共有状態からデータの実体の位置を知
る。そして、データの実体のあるキャッシュ１９０４か
らデータを取得すると同時に、データの実体を持つキャ
ッシュ１９０４に向けて、自分の演算ユニット１９０６
を示す値を送る。こうして、データの実体のあるキャッ
シュ１９０４は命令キャッシュ１９０１にデータフロー
予測情報を書きこむ。

【０１４０】（命令キャッシュ）

【０１４１】本発明のプロセッサでは、複数のスレッド
が同じ命令を利用し、同じ命令は同じ演算ユニット、デ
ータキャッシュを利用するのが望ましい。そのために
は、発行されたスレッドがプログラムカウンタから命令
キャッシュの場所を特定し、自由にスレッドを移動させ
ることが必要になる。

【０１４２】図１８は、分岐によるスレッド移住の方法
を示す模式図である。一次キャッシュ１８０３などに格
納された命令は、二次キャッシュ１８０１に格納された
ディレクトリに共有状態を設定する。命令キャッシュ１
８０８の命令キャッシュミスか、分岐命令１８０６によ
る要求によって二次キャッシュ１８０１にアクセスした
スレッドは、ディレクトリビットによって該当する命令
が格納されている命令キャッシュ１８０２の位置を知
り、その命令キャッシュに向けてスレッドを移住させ
る。

【０１４３】どの命令キャッシュにも命令が格納されて
いない場合は、スレッドの情報を動かさずに、分岐命令
の直後、あるいはキャッシュミスを起こしたキャッシュ
１８０８に対してスレッドを再発行を行う。二次キャッ
シュ１８０１あるいは外部メモリから取得した命令は、
命令キャッシュ１８０８に格納されて、スレッドを再開
する。次に同一の命令を実行する場合には、命令キャッ
シュ１８０８にすでに分岐先の命令が格納されていて、
分岐のペナルティーも発生しない。

【０１４４】スレッド管理ユニット１８０７が、他の優
先順位の高いスレッドが充満していて空きがない場合
は、やはりスレッドの移住を行う。その場合は、スレッ
ド管理ユニットからの通信で、スレッドの負荷の低いス
レッド管理ユニット１８０９を探し出し、スレッドを移
住させる。

【０１４５】この機構によって、同一命令を最大限に再
利用することができる。さらに、従来のＰＭＴ方式と異
なり、スレッドは命令アドレスにかかわりなく、自由に
演算ユニットに分配できる。

【０１４６】本発明のプロセッサは、厳密な分岐命令に
スレッドの移住が必要であるため、分岐命令の実行の頻
発を避ける必要がある。分岐はマルチスレッドによって
隠蔽は可能であるが、スレッドの発行能力には上限があ
るためである。

【０１４７】そのために、命令アドレスとは無関係に命
令を配置する。格納される命令の順序は、確率的に命令
が実行されると予測される順序である。そして、予測さ
れた分岐方向を示す分岐予測情報をキャッシュのタグメ
モリに配置する。分岐予測情報は演算ユニットに送ら
れ、分岐命令の実行結果と照合されて不一致の場合はス
レッドを停止させる。

【０１４８】キャッシュのタグメモリに次の命令アドレ
スを示す値を置くことで、分岐命令の実行前に隣接する
命令キャッシュから命令を取得させることもできる。こ
の機構によって、ＰＣ相対分岐だけではなく、レジスタ
の示すアドレスへの分岐を予測することもできる。

【０１４９】同時に、前述のデータフロー同期情報も命
令キャッシュのタグメモリに格納する。これによって、
同じ命令を利用する限りは、すべてのスレッドから１つ
の分岐予測、データフロー予測情報を共有することがで
きる。

【０１５０】図１３に、本発明の命令キャッシュにおけ
るタグメモリの構造を示す。命令キャッシュにはそれぞ
れ命令ごとに数ビットの分岐予測情報、あるいはデータ
フロー予測情報が格納されている。発行された命令が分
岐命令の場合は、分岐予測情報として使用し、発行され
た命令がロードストア命令の場合は、データフロー予測
情報として利用する。命令ごとの予測情報のビット幅
は、実行ユニットの数から決定される。データフローユ
ニットが目的とする実行ユニットを特定するためであ
る。

【０１５１】また、分岐命令の実行とは独立して次の命
令キャッシュのアドレスを特定するために、次の命令ア
ドレスを示す値が格納されている。この値によって、条
件分岐だけではなく、オブジェクト指向言語の仮想関数
に代表される、レジスタ値への分岐も予測することがで
きる。

【０１５２】（仮想記憶と同期）

【０１５３】仮想記憶ユニットは、可能であれば全ての
演算ユニットから共有することが望ましい。理由は、複
数のプロセスが共存する場合は、要求される仮想記憶の
エントリの数も増大するためである。更に、仮想記憶ユ
ニットが分散した場合は、その内容のほとんどが重複す
るためである。

【０１５４】本発明のプロセッサは、内蔵するキャッシ
ュをすべて仮想空間で管理する。メモリへのアクセスの
時だけ、物理アドレスに変換するためにグローバルＴＬ
Ｂを用いる。

【０１５５】仮想キャッシュは、複数のプロセスが共存
するために、異なるプロセス空間のキャッシュをアクセ
スしない機構が必要になる。そのために、キャッシュの
タグメモリにはプロセスＩＤの情報を持たせ、キャッシ
ュヒットの確認ごとにプロセスＩＤの一致確認を行う。

【０１５６】（データフロー同期）

【０１５７】一般的にマルチスレッドの同期は、あるス
レッドからの書き込みをトリガにして直接別のスレッド
を起動する方式がもっとも単純かつ有効である。この方
式はデータフロー方式とよばれ、プログラムモデルから
見てもっとも単純な方式である。プログラム上では、あ
るアドレスへのデータライトを自動的に感知してスレッ
ドを再開するように設定するだけである。

【０１５８】この機構の実装のために、仮想記憶とデー
タキャッシュに特別な機構を設ける。仮想記憶には、あ
るアドレスのライトアクセスがあった場合にスレッドを
生起する情報を書き込んでおく。そのアドレスを含むデ
ータメモリをデータキャッシュに読み込む際に、データ
フロー参照がある情報も同時に取得する。

【０１５９】データキャッシュ側には共有ビットを書き
込むだけとなる。形としては、ＴＬＢのデータフロー同
期エントリとデータを共有するという形になる。これに
よって、各キャッシュエントリにはデータフロー同期情
報を持たせる必要はない。前述のディレクトリ共有機構
で十分であり、ＴＬＢから二次キャッシュに向けてデー
タフロー同期の開始を伝達する。

【０１６０】厳密なメモリ共有機構では、ある時点での
共有メモリの状態は、どのプロセッサから見ても同じで
あることが要求される。ところが、この厳密なメモリ共
有は、キャッシュの搭載や、メモリの階層分割によって
現実には不可能になりつつある。そのため、近年ではプ
ロセッサの仕様の方を変更し、同期命令前後のデータア
クセスの順序だけを維持するように定義を変えた。プロ
セッサの種類によって細かい違いはあるが、基本的には
これをルーズコンシステンシと呼ぶ。

【０１６１】本発明のプロセッサでは、同期命令は他の
演算ユニットからのデータの書きこみを待ち、すべて到
達した時点でスレッドを再開する。ところが、遠距離の
演算ユニットには制御信号が即座に届かないため、同期
命令までに実行されたストアかどうかの判定は厳密には
不可能である。

【０１６２】そのために、同期命令における「同時」の
定義を変更する。たとえ実時間では後に実行されたスト
ア命令も、同期命令の再開までに伝達が間に合った場合
には時勢的に前だとみなす。

【０１６３】そして、同期とは、ＰＭＴパイプラインを
一周回分待ち合わせて、他のスレッドの、「同時」の時
間以前に実行された全てのストアを受理するまで待つこ
ととする。これによって、単体のスレッドの場合と同じ
く、全てのスレッドのデータ転送はスレッドの移動に間
に合えば良い。パイプラインが一周した時点でスレッド
を再開させるが、その時点では同期命令「以前」の全て
のストアは実行され、再開地点以降のデータキャッシュ
に格納されている。

【０１６４】この方法によって、全てのスレッドにわた
って、同期変数の前後のメモリアクセスの順序を保持す
ることができる。なおかつ、同期中に他のスレッドの動
作が可能になり、性能へのペナルティーも隠蔽できる。

【０１６５】図２５に本発明のプロセッサにおける同期
の動作を示す。スレッドＢからのＳｔｏｒｅＡは、スレ
ッドＡのＬｏａｄＡで読み込むことが出来る。スレッド
ＡのＳＹＮＣ命令より実時間的には後に実行されている
にもかかわらず、ＳＹＮＣ命令の再開までにキャッシュ
の伝達が終了しているためである。仮想時間的に前かど
うかの判断基準は、前のＳＹＮＣ命令のパイプラインの
到達よりも早いかどうかで決定すれば十分である。こう
して、複数のＳＹＮＣ命令間で、ＳＹＮＣ命令前後のデ
ータ格納順序を保つことができる。

【０１６６】さらに、従来のプロセッサと異なり、ＳＹ
ＮＣ命令で他のスレッドを止める必要はなく、ＳＹＮＣ
命令の伝達もスレッドと同じ速度で伝達すれば十分であ
る。

【０１６７】図２６に、ソフトウェアモデルから見た同
期の動作について示す。スレッドＡのＳＹＮＣ命令の前
に実行されたスレッドＢのＳｔｏｒｅＡは、仮想時間で
は前に実行されたＳＹＮＣ命令のさらに前に行われてい
るため、スレッドＡから読み込むことができる。

【０１６８】スレッド間の同期は、同期変数へのアクセ
スに対して、明示的にＯＳのソフトウェアによるスケジ
ューラを起動して管理することが多い。しかし、前述の
データフロー同期機構を自動的に利用すれば最も高速で
ある。

【０１６９】具体的には、あるデータをロードする同期
命令の実行によって、データフロー同期ユニットにその
スレッドの状態とロードアドレスを転送する。スレッド
はその時点でスリープする。データのストアはデータフ
ロー同期ユニットとディレクトリ方式キャッシュコヒー
レンシによって判定されて、待ち状態のスレッドを直接
起こすことができる。

【０１７０】（パケット制御信号）

【０１７１】既存のスーパースカラ、ＶＬＩＷ方式に代
表される命令レベル方式では、信号は可能な限り速く伝
達することを要求される。ところが、回路規模が大きく
なるとそれは現実的には不可能になる。理由は主に３つ
ある。まず、微細化が進むと、配線遅延の比率が大きく
なる。さらに回路規模が大きくなると、回路間の配線が
爆発的に増大する。さらに、周波数が高くなると、隣接
する配線間のクロストークやグラウンドバウンスが問題
となる。前者の対処としては、配線を短縮するか、配線
間の距離を大きくとりシールドする必要が出てくる。後
者の対処には、電源配線を配線に対して最適化して、電
流ループの大きさを最小限にする必要がある。

【０１７２】それに対して、ＰＭＴ方式は、隣接するユ
ニットを除き、制御信号の伝達は多少の遅れが許され
る。ということは、長距離の信号伝達に使用される信号
線を、複数の信号が共有することができる。こうして、
長距離の配線の本数を最小限にする。

【０１７３】更に、長距離の配線は一気に送ってしまう
のではなく、中継する回路で受け止めてシフトレジスタ
的に順に送ることができる。こうして、１クロックの間
で伝送するのはルーター間の距離だけで済み、制御信号
が動作周波数の向上を阻害することは無くなる。中継の
ためのルーターやラッチの規模が大きくなるという欠点
はあるが、それは半導体のプロセスの向上の恩恵をその
まま受けることが出来て、相対的な影響は少なくなる。

【０１７４】個々の配線を最小限の長さにして、信号伝
送の多少の遅れを許容することにより、その配線のドラ
イブを行うトランジスタの駆動電流を不必要に上げる必
要がなくなり、信号の高周波成分の増加を抑制すること
ができる。これはクロストークやグランドバウンスなど
の抑制につながり、これらの対策に必要な回路の増加を
防ぐこともできる。

【０１７５】遅延時間に関しては、ＰＭＴ方式の隣接ユ
ニット以外の転送レイテンシを許容する特性によって問
題にならなくなる。こうして、並列度を維持し、回路規
模を最小限に維持しながら周波数性能の向上を可能にす
る。

【０１７６】パケット制御信号は、データ転送などの目
的ではアドレス、データとともに送られる。すなわち、
アドレス、データを転送するパケットは、アドレスバ
ス、データバスの空きをスレッドバッファで待ち合わせ
ることになる。これによって、各バスのアービトレーシ
ョンはパケットルーターが一括して処理することができ
る。

【０１７７】本発明のプロセッサは、命令キャッシュ、
演算ユニット、外部インターフェースなどのユニットご
とにパケットルーターを随所に配置し、遠距離の制御信
号の伝達の中継を行う。パケットルーターには、複数の
パケットルーターと送受信を行うためのバスを持ち、必
要に応じてデータバスなどの補助的なバスを並行して設
ける。

【０１７８】個々のパケットルーターは一意の番号を割
り振られる。番号はスレッドの進行方向にあわせて昇順
に割り振られ、付随するバス信号、伝達先のユニットに
よって一意にルーティングの方法も決定される。

【０１７９】このパケット制御信号によって、隣接する
ユニットを除く全てのユニットへの制御が行われる。

【０１８０】本発明のプロセッサにおけるパケットは、
到達予定時間の情報をパケット情報に含む。この時間と
パケットルーターの持つタイミングカウンタを照合する
ことにより、パケットが予定通り伝達されているかどう
かを判定する。

【０１８１】パケットが遅滞している場合は、並行して
走るスレッドに対して即座にパイプラインストールを要
求して、スレッドを止める。パケット遅延の例外処理を
発行して、ＯＳレベルのソフトウェアが対処を行ってス
レッドを再開させる。

【０１８２】本発明のプロセッサは、各ユニットの内部
状態を全ての演算ユニットから監視、改変することを可
能にする。そのために、演算ユニットからの要求をパケ
ットに変換し、パケットルーターを利用して順次伝達す
る。伝達先のユニットは、内部状態を含んだパケットを
送信元の演算ユニットに伝送する。なお、ロードのため
のレイテンシは無論マルチスレッドで隠蔽される。

【０１８３】（プロセッサ間通信）

【０１８４】本発明のプロセッサを複数利用する際に、
本発明の内部の演算ユニットと同じように、プロセッサ
をリング状に連結すれば、プロセッサ間転送スループッ
トを最大にすることができる。これによって、１つのス
レッドは複数のプロセッサにわたって展開することがで
き、命令、データ共有の利点を最大限に生かすことがで
きる。

【０１８５】だが、本発明のプロセッサの内部と同じ
く、データの転送にはパイプラインの隣接転送だけでは
なく遠距離の転送も考えられる。リング方式転送の欠点
は遠距離に伝送するのが難しいという点である。そのた
めに、遠距離の演算ユニット間同士でショートカットパ
スで伝送することは、全体の転送速度を大きく向上させ
る。

【０１８６】このような転送はレイテンシ時間が増大す
るものであるが、複数のプロセッサ間での通信はそれら
の間のパイプライン全てを通過する時間で行われれば良
いため、数十クロック以上のレイテンシが許される。こ
のため、プロセッサ外の低速インターフェースには最適
である。

【０１８７】本発明のプロセッサでは制御信号をパケッ
ト化しているため、同じ制御信号を複数のプロセッサに
分配できる。ユニットを指定するための識別コードを拡
張し、全てのプロセッサを一意に表現することで、マル
チプロセッサに向けて自由に制御信号パケットを伝送で
きる。

【０１８８】本発明のプロセッサを複数利用する際に
は、個々のプロセッサに個別にメモリを接続する。各プ
ロセッサがデータの実体の場所を特定するために、個々
のプロセッサが持つ仮想記憶を利用する。この場合、仮
想記憶のエントリはそれぞれコピーを持つことになり、
キャッシュと同じ共有管理を行うことになる。そのため
に、仮想記憶には共有状態を示すビットを設ける。ただ
し、オリジナルは常にメモリに接続された仮想記憶とな
る。

【０１８９】仮想記憶の改変の際には、キャッシュのフ
ラッシュと同時に、他の仮想記憶に改変を直接伝達す
る。改変を伝達された仮想記憶は、共有状態に応じてそ
れぞれキャッシュのフラッシュを実行する。

【０１９０】本発明のプロセッサ同士で、データの共有
がある場合は、仮想記憶のページ単位でデータの共有情
報を設定する。キャッシュラインごとのビットを持つこ
とができないため、ページ全体が共有状態の場合はその
都度内部キャッシュのタグにアクセスして確認する必要
がある。

【０１９１】まず、プロセッサから外部にロードストア
要求を行うケースについて述べる。まず、ロード命令で
は、キャッシュにエントリがない場合、あるいはＴＬＢ
に対して共有状態が指定されている場合は、ＴＬＢを介
してプロセッサ外部からデータを取得する。ＴＬＢにア
クセスを行い、ローカルメモリではなく外部のメモリと
データを共有している場合は、プロセッサ外部にリード
要求を出す。

【０１９２】ストア命令では、二次キャッシュにＴＬＢ
への共有状態が設定されていることにより、ＴＬＢへの
アクセスを行う。共有状態に設定されている場合は、デ
ータのコピーの無効化（インバリッド）を通達する。

【０１９３】次に、プロセッサ外部からロード要求を受
理した場合について述べる。受理した仮想アドレスに対
して内部のＴＬＢへのアクセスを行う。内部キャッシュ
で共有状態に設定されている場合は、内部のキャッシュ
に仮想アドレスでアクセスして、プロセッサ外部にデー
タを伝達する。

【０１９４】次に、プロセッサ外部からインバリッド要
求を受理した場合も、同様に受理した仮想アドレスに対
して内部のＴＬＢへのアクセスを行う。内部キャッシュ
で共有状態に設定されている場合は、内部のキャッシュ
に仮想アドレスでアクセスして、内部キャッシュにイン
バリッドを伝達する。

【０１９５】なお、ＴＬＢのエントリがない場合は、Ｏ
Ｓによる仮想記憶処理を行う。

【実施例】

【０１９６】（第一実施例）

【０１９７】図１に、本発明の第一実施例を示す。１０
１は本発明のプロセッサである。

【０１９８】命令発行ユニット１０２は、スレッド発行
ユニット１０３、命令キャッシュ１０４を内蔵する。ス
レッド発行ユニット１０３は、命令キャッシュ１０４に
プログラムポインタ値を伝達して、実行ユニット１０５
に実行すべき命令を伝送する。

【０１９９】実行ユニット１０５は、４つの共有レジス
タファイル１０６と、４つの１６ビット演算ユニット１
０７と、複数の特殊演算ユニット１０８から構成され
る、共有レジスタファイル１０６と１６ビット演算ユニ
ット１０７、および特殊演算ユニット１０８は、オペラ
ンドクロスババスで相互に接続されている。スレッドの
レジスタ値などの状態は全て、隣接する実行ユニット１
０５に伝送される。ただし、従来のＰＭＴ方式と異な
り、１つのスレッドの状態は４クロックで転送される。
末端に到達した状態は、スレッド状態信号１３２によっ
て最初の実行ユニットに伝送される。実行ユニットから
のスレッド生成、分岐発行は、分岐発行制御信号１０
９、１３４によってスレッド発行ユニット１０３に伝達
される。

【０２００】一次データキャッシュ１１１は８つ搭載さ
れ、そのうちの４つが１つの実行ユニット１０５に接続
されている。接続にはクロスババスが使用され、同時に
４つの一次データキャッシュへの任意のアクセスを可能
にしている。ただし、同じデータキャッシュへの複数の
アクセスがかち合った場合には、１つのアクセスだけを
行い、他のアクセスを行ったスレッドをストールさせ
る。なお、従来のＰＭＴ方式と異なり、４つの一次キャ
ッシュはアドレス値によって特定でき、１つのスレッド
からすべてのバンクに自由にアクセスできる。

【０２０１】４つの一次データキャッシュ１１１〜１１
４は、１つのアクセスバッファ１１５に接続され、隣接
するライトバッファと、やはり隣接する二次キャッシュ
１１６へのデータのやり取りを行う。

【０２０２】二次キャッシュ１１６は、２つの一次キャ
ッシュからのアクセスバッファ１１５、１３１と、ＴＬ
Ｂなどのに接続されたアクセスバッファ１１７から要求
を受理する。二次キャッシュユニット１１６は一次キャ
ッシュと異なり、命令もデータも格納する。そして、二
次キャッシュも複数の要求を受理するために複数のバン
クに分けられてる。

【０２０３】アクセスバッファ１１７は、二次キャッシ
ュ１１６からの要求によって外部とのアクセスを行う際
に、データのバッファリングを行う。

【０２０４】新規スレッド発行ユニット１２７は、割り
込み信号１２６の入力に応じて、内部に蓄積した待機状
態のスレッドを発行する。あるいは、実行ユニット１０
５からの直接のスレッド生成要求によってスレッドを発
行する。そのために、スレッド発行ユニット１２７は、
スレッド発行ユニット１０３に向けてスレッド発行制御
信号１３３を出力する。

【０２０５】グローバルＴＬＢ１２０は、仮想アドレス
信号の物理アドレスに変換し、物理アドレスをローカル
メモリインターフェース１２２に伝送する。外部バスは
基本的には仮想アドレスであることに注意。

【０２０６】ローカルメモリインターフェース１２２
は、グローバルＴＬＢ１２０からの要求に応じて、ロー
カルメモリバス信号１２３を通じて外部メモリとのデー
タアクセスを行う。Ｉ／Ｏもローカルメモリインターフ
ェース１２２によってアクセスできる。

【０２０７】共有バスインターフェース１２４は、共有
バス信号１２５を通じて他のプロセッサに対してデータ
を送受信する。共有バス信号１２５から受理されたロー
カルメモリアクセス要求に対して、グローバルＴＬＢ１
２０でプロセッサ内部でデータを共有しているかどうか
の判定を行う。

【０２０８】（第二実施例）

【０２０９】図５に、本発明の第二の実施例の模式図を
示す。

【０２１０】５０１は本発明の第二の実施例のプロセッ
サである。命令発行ユニット１０２と、実行ユニット１
０５と、４つの一次キャッシュ１１１、二次キャッシュ
１１６は隣接して配置される。この組が全体に８つ配置
されることで、この第二実施例のプロセッサは３２のス
レッドを同時に動作させることができる。本発明のプロ
セッサには、ユニットの搭載数に上限はない。

【０２１１】この第二実施例の個々のユニットは、本発
明の第一の実施例に搭載されているユニットとほとんど
共通であり、ユニットの組み合わせがだけが異なる。

【０２１２】前段プロセッサ接続インターフェース５０
２は、別のプロセッサからのデータ転送を受理する。実
アドレスで要求されたアクセスを、ＴＬＢ１２０を用い
て内部のキャッシュ、ローカルメモリで共有されている
かどうかを判定する。

【０２１３】ＩＰユニット５０４はソフトウェアよりも
ハードウェアの方が効率が良い処理を行うためのユニッ
トである。これらはそれぞれ演算ユニットの近傍に配置
される。演算ユニットはＩＰユニットの出力データをソ
フトウェアで即座に整形するため、ＩＰとプロセッサ間
の転送が最小限になる。

【０２１４】２つのローカルメモリインターフェース１
２２は、二次キャッシュからのメモリアクセス要求を受
理して同時にメモリとのアクセスを行う。アクセスの前
にはグローバルＴＬＢ１２０を利用して物理アドレスへ
の変換を行う。

【０２１５】Ｉ／Ｏバスインターフェース５１０はプロ
セッサに直接接続されたローカルなＩ／Ｏへのインター
フェースである。

【０２１６】新規スレッド発行ユニット１２７は、スレ
ッド発行命令の要求に応じてスレッド発行を行うととも
に、割り込み信号１２６、ソフトウェア例外などの要求
に応じて休眠状態のスレッドを生起する。

【０２１７】この実施例のプロセッサは、通常のマルチ
スレッドプログラムを利用して、浮動小数点命令を含め
て３２並列動作を可能にしながら、規模的には単一プロ
セッサの８倍強の素子数で実現できる。個々のキャッシ
ュは小容量だが、全てのキャッシュの内容を全てのスレ
ッドから共有することができるので、個々のスレッドが
１つの高速大容量キャッシュを持つのに等しい。

【０２１８】（命令発行ユニット）

【０２１９】図６は、命令発行ユニット１０２の内部構
造の模式図である。

【０２２０】パケットルーター６０１は、スレッドを制
御する制御パケット信号６０３を受理し、このスレッド
発行ユニットで受理可能であるかを判定する。

【０２２１】制御パケット信号の内容がスレッドの受理
の場合は、プライオリティー選択ユニット６０４に制御
信号を伝達する。制御信号の内容がキャッシュの直接制
御の場合は命令キャッシュ制御ユニット６０５に制御信
号を伝達する。制御信号の内容がローカルＴＬＢ制御の
場合は、命令ローカルＴＬＢユニット６０７に制御信号
を伝達する。さらに、スレッド移住の要求である場合
は、スレッド移住ユニット６２０に制御信号を伝達す
る。

【０２２２】待ち状態スレッドが一杯などの理由でパケ
ット制御を受理できない場合は、別の隣接するパケット
ルーターに、制御パケット信号６１９を通じて伝送す
る。

【０２２３】プライオリティー選択ユニット６０４は、
待ち状態スレッドバッファ６１８の中から、実行可能状
態でかつ最もプライオリティー値の高いスレッドを１つ
選択する。ただし、キャッシュミスなどで実行できない
状態のスレッドは選択されない。このプライオリティー
選択ユニット６０４は、待ち状態のスレッドの数に対し
て爆発的に規模を増大させるため、待ち状態スレッドバ
ッファ６１８の数を増やしすぎないことが求められる。
そのために、パケットルータ６０２では、待ち状態のス
レッドを１つのスレッド発行ユニットに集中させない制
御が行われる。

【０２２４】本実施例では、命令キャッシュだけは物理
空間キャッシュとする。異なるプロセス空間に属する命
令を共有するためである。命令キャッシュはキャッシュ
制御ユニット６０５、キャッシュタグメモリ６０６、命
令ＴＬＢ６０７、キャッシュデータメモリ６０８で構成
される。

【０２２５】キャッシュ制御ユニット６０５は、スレッ
ドごとの命令キャッシュアクセスを実行し、パケットル
ーター６０２を介して要求される命令キャッシュへの直
接アクセスを実行する。さらに、パケットルーター６０
２からのグローバルＴＬＢの改変によるＴＬＢ６０７の
エントリの無効化も行うことができる。

【０２２６】キャッシュタグメモリ６０６には、全ての
物理アドレスが格納され、さらに、分岐予測、データフ
ロー予測情報が格納される。

【０２２７】スレッド状態制御ユニット６０９は、キャ
ッシュのヒットチェックを行う。命令ＴＬＢ６０７によ
って変換された物理アドレスと、命令キャッシュタグ６
０６の結果が一致すれば、キャッシュはヒットしたこと
になる。その場合は、４つ分の命令を命令メモリ６１６
から取得して命令順序アライナ６１４に伝達して実行可
能な状態にしておく。

【０２２８】スレッド状態制御ユニット６０９は、前の
命令発行ユニットの出したスレッド状態信号６０８を受
理する。前のスレッドよりも待ち状態のプライオリティ
ーが高い場合は、無条件でスレッドを発行する。前のス
レッドがない場合は、前に実行した命令と同じ命令を使
うスレッドが待機状態であれば、待機状態のスレッドを
優先して発行する。命令アドレスが一致しない場合は、
キャッシュから取得しておいた命令を発行する。発行し
たスレッドの状態は、隣接する命令発行ユニットにスレ
ッド状態信号６１５で伝達される。

【０２２９】命令順序アライナ６１４は、蓄積された４
つのスレッドのそれぞれ４つの命令を、１クロックづつ
ずらして出力する。命令の種類によって配置を変えるよ
うなことはしない。

【０２３０】スレッド状態制御ユニット６０９は、内部
に格納された現在のスレッドのＰＣと、新規に発行され
るスレッドのＰＣを比較し、一致するようならば、命令
順序アライナ６１４に蓄積された命令の再利用を要求す
る。こうして、スレッドは同一の優先順位である限り、
同じ命令を使用するものが優先的に実行される。

【０２３１】スレッド移住制御ユニット６２０は、演算
ユニットで発生した分岐、スレッド発行を示す分岐要求
信号６１３を受理する。自身の命令キャッシュに格納さ
れていない場合は、パケットルーター６０２からキャッ
シュの要求を行う。他に命令をすでにキャッシュした命
令発行ユニットがあれば、スレッドの移住を行うために
スレッド状態をパケットルーター６０２に伝送する。

【０２３２】命令バス信号６１７には、二次キャッシュ
１１６からリプレースされる命令が送られる。取得した
命令は、命令キャッシュのデータメモリ６１６に格納さ
れる。取得した命令は、スレッドが空き次第即座に発行
される。

【０２３３】命令メモリは、命令アドレスと独立した命
令を順に格納することができる。そのため、予測された
分岐先を含めた命令の動作順に格納される。この機構を
実現するために、命令キャッシュタグメモリ６０６はす
べてのアドレスビットを含み、キャッシュヒット時にす
べてのアドレスの比較を行う。

【０２３４】この機構を使用すると、同じ命令を使用
し、同じ分岐方向を採択するスレッドは、命令キャッシ
ュに常にヒットすることになり、命令リプレース時間だ
けでなく、分岐ペナルティー時間すら削減することがで
きる。この機構は、同一の動作をする大量のスレッドで
最大の効果を発揮する。

【０２３５】なお、この分岐予測が的中したかどうかを
確認するために、命令ＴＡＧメモリには予想される分岐
方向のビットを持たせる。レジスタ内容への分岐につい
ては命令キャッシュタグメモリ６０６から発行された次
の命令アドレスを使用する。命令キャッシュのインデッ
クスは、直前の命令キャッシュのインデックス値を常に
使用する。インデックス値の算出は、スレッド発行時、
命令キャッシュミスヒット時にのみ行われる。

【０２３６】同一の構造のスレッドでは、スレッド内部
で同じ命令間でデータの受け渡しが行われる場合が多
い。ただし、すべてのスレッドで同じアドレスを利用し
てデータを受け渡す場合もあれば、レジスタに対する相
対アドレスを使用する場合もある。スタック、ヒープを
用いる一般的な場合では、むしろ後者が多い。そのよう
な場合では、データキャッシュ間の転送が必要になる。

【０２３７】そのために、命令間でデータの授受がある
という予測ビットを設ける。データフロー予測ビット
は、その命令が書き込んだデータアドレスを、自動的に
別のラインに送ることを可能にする。

【０２３８】データフロー予測ビットには、バリッドビ
ットとともに、送り先の演算ユニットを示す「ライン番
号」を格納しておく。データのアドレスではないことに
注意する。

【０２３９】データキャッシュミスで、データの実体を
検索する際にやってきたパケットは、一次データキャッ
シュのヒットを検出することで、一次データキャッシュ
に隣接する命令キャッシュに向かってデータフロー予測
ビットを書き込んでいく。そのために、データキャッシ
ュミスパケットには、データキャッシュミスの発生した
演算ユニットの識別番号が伝達される。

【０２４０】なお、１つのライト命令に対して、複数の
リード命令が同じデータを参照する場合は、リード命令
同士の転送となる。そのために、データフロー予測ビッ
トはロード命令にも必要になる。

【０２４１】分岐命令とロードストア命令は同時に利用
されないため、データフロー予測ビットと分岐予測ビッ
トは共用され、命令デコード結果によって使い分けられ
る。

【０２４２】スレッド間で共有するデータが多い場合
は、ＰＭＴ方式が優れる。それに対して、自身のスレッ
ド内部の転送量が大きく、スレッド間で共有するデータ
が少ない場合は、ＳＭＰ方式が優れる。これらの双方の
長所を取り入れるために、ＳＭＰ実行モードを設ける。

【０２４３】ＳＭＰ実行モードは隣接する命令発行ユニ
ット１０２の負荷が高く、データキャッシュのトランザ
クションの負荷が高い場合に、同じスレッド発行ユニッ
トで連続して１つのスレッドを管理するモードである。
本発明の実施例では、１つのスレッド発行ユニットで４
つのスレッドを動作できる。

【０２４４】ＳＭＰ実行モードでは、スレッド状態を隣
接する命令発行ユニット１０２に伝達せず、次のＰＣア
ドレスを自身のキャッシュ制御ユニット６０５で利用す
る。キャッシュ制御ユニット６０５は、キャッシュから
４命令を取得して、命令順序アライナ６１４に送る。

【０２４５】他の演算ユニット、キャッシュとのキャッ
シュコヒーレンシや同期は、ＰＭＴモードと同じ階層キ
ャッシュコヒーレンシ機構を用いて行われる。すなわ
ち、本発明のプロセッサは、ＳＭＰモードでは階層キャ
ッシュの共有メモリマルチプロセッサそのものとして機
能する。

【０２４６】（演算ユニット）

【０２４７】図７は、４並列実行ユニット１０５の内部
構造を示す模式図である。

【０２４８】命令デコードユニット７０３は、命令発行
ユニットから送られた命令７２７をデコードし、各演算
ユニットを制御する。同時に、４つのプログラムカウン
タをインクリメントする。分岐命令が実行された場合
は、演算ユニットで算出された分岐後のプログラムカウ
ンタを利用する。更新されたプログラムカウンタは、隣
接する命令デコードユニットに伝達される。

【０２４９】双方の実施例では、実行ユニット内部に
は、レジスタファイル７０４を４つ搭載している。１つ
のレジスタファイルは４つの演算ユニットで共有され
る。そして同時に１つの演算ユニットに対してのみレジ
スタを供給する。

【０２５０】レジスタファイル７０４は、コンテキスト
スイッチに対応するために４つのバンクを持つ。そし
て、レジスタファイル７０４は、隣接レジスタ転送を４
クロックで完了する。そのため、一般的なＲＩＳＣプロ
セッサと同じ３つのリードポートと、隣接転送用の２つ
のレジスタリードライトの機能を持つ。現在実行中のス
レッドが３つのリードポートを利用している間、さらに
２つのレジスタを出力し、隣接する４並列実行ユニット
１０５に転送する。そして、隣接する４並列実行ユニッ
ト１０５内部の、レジスタファイル７０４のうちの利用
されていないバンクが、２つのレジスタの値を受け取っ
て書きこむ。

【０２５１】こうして、レジスタファイル７０４は、現
行のスーパースカラプロセッサよりも少ないポート数で
実現でき、アクセスのための遅延時間を増加させないで
済む。

【０２５２】オペランドクロスバスイッチ７０６は、４
つのレジスタファイル７０４の値を、それぞれの演算ユ
ニットに分配する。３つのオペランドを持つレジスタを
４組分配する。受理する演算ユニット側には４入力のセ
レクタが３つ配置される。

【０２５３】演算ユニットで算出された演算結果は、即
座にレジスタファイル７０４に伝達することはない。演
算結果フォワーディング７１７を利用して結果を利用す
る演算ユニットに伝達する。そして、レジスタファイル
７０４への書き戻しは、オペランドショートカット信号
７２２によって隣接する演算ユニット１０５のレジスタ
ファイルに伝達される。

【０２５４】整数演算ユニット７０８は、フラグ判定、
１６ビットの範囲内での算術、シフト演算、分岐アドレ
ス生成などを行う。４並列実行ユニット１０５内部に４
つ配置され、それぞれが独自にスレッドの命令実行を行
う。

【０２５５】この整数演算ユニットは１６ビット程度の
加算器、シフタ、そして１６ビットを超えた演算が行わ
れたことを感知する回路で構成される。これは演算ライ
ンごとに実装される。

【０２５６】１６ビットを超える桁の変更が発生する演
算は、パイプラインをストールして、共有６４ビット演
算ユニット７１０を利用して再計算を行う。６４ビット
演算ユニットは１６ビットの４倍以上の回路が必要にな
るため、１６ビット演算ユニットとオーバーフロー検出
回路の組み合わせを利用し、それを４つ搭載して代用し
ても全体の演算ユニット数、回路規模あたりの性能を増
やすことができる。

【０２５７】この方法が全体の性能をかえって向上させ
ることができるのは、本発明の方式がマルチスレッドに
よって十分な並列処理を行うことができるという前提に
よる。ＶＬＩＷ方式などの命令レベル並列では、並列動
作可能な命令が並列度より少ない場合が多く、このよう
なペナルティーは絶対に許されない。

【０２５８】分岐ユニット７２１は分岐予測の判定と、
分岐の発行、およびスレッドの発行制御を行う。ただ
し、分岐アドレスを算出するのは整数演算ユニット７１
８による。実際の分岐は４命令に１回程度の頻度で実行
される傾向が強いので、４つのスレッドで共有される。

【０２５９】分岐ユニット７２１は、分岐予測情報との
照合を行い、一致した場合は自身のアドレス情報だけを
更新する。分岐予測非成立の場合は、スレッド発行ユニ
ットに分岐要求を伝達すると同時に、別の待ち状態のス
レッドに切り替える。コンテキストスイッチは即座に行
われ、実行ユニットの待ち時間はない。

【０２６０】基本的に、分岐後の処理は直後の実行ユニ
ットで実行される。分岐予測が的中する場合は、自動的
に分岐後の命令が次の実行ユニットに伝送される。

【０２６１】ただし、キャッシュミスの場合は、キャッ
シュの共有状態を確認することで、すでに命令が格納さ
れている実行ユニットを検索する。発見された場合は、
その実行ユニットにスレッドを移住させる。基本的にス
レッドの移住には全てのレジスタファイルの転送が必要
となる。ただし、データのほうはデータキャッシュコヒ
ーレンシ機構が自動的に働くので必要はない。

【０２６２】関数からのリターンの場合は、スレッドを
呼び出し元の実行ユニットに移住させる。ただし、渡す
レジスタは１つの返り値のみである。スタックの退避、
復帰は自動的に行われるので転送は必要ない。

【０２６３】ＳＭＰモードは、直後の演算ユニットで待
ちあわせているスレッドのプライオリティーが高く、さ
らに後続のスレッドの負荷が低い場合に発生する。空い
た演算ユニットを有効に利用するための手段である。

【０２６４】レジスタ同期ユニット７２３は、レジスタ
内容の隣接ユニットへの転送と、スレッドの移住のため
のメモリへの自動読み書きを行う。

【０２６５】スレッドの移住は、１つのバンクのレジス
タの内容をそっくり他のスレッドに入れ替える作業であ
る。実施例１のプロセッサにおいて、スレッド移住には
合計４クロックを要する。

【０２６６】スレッドの移住には、メモリを介してレジ
スタの値を伝達する。スタックポインタから利用すべき
メモリアドレスを演算ユニット７０８で算出し、現在の
レジスタをロードストアユニット７１３に送る。新規の
スレッドに対しても、スタックポインタからアドレスを
算出し、ロードストアユニット７１３から新規のレジス
タセットを読み込む。レジスタ退避の際には、ロードス
トアユニット７１３のアドレスバスもデータ転送に利用
する。同時に４つのスレッド移住を行うため、８つのレ
ジスタを同時に転送する能力を有する。

【０２６７】浮動小数点加算ユニット７１９、浮動小数
点乗算ユニット７１２は、整数演算ユニットと異なり、
精度が常に一定であり、動作が細かく決定されているの
で、倍精度の演算ユニットの機能のすべてを実装する必
要がある。ただし、浮動小数点命令の出現頻度を考慮し
て、１つの実行ユニット１０８ごとに、浮動小数点加算
ユニット７１９と、乗算と加算を同時に行う浮動小数点
乗算ユニット７１２が１つづつ配置される。

【０２６８】なお、これらのレイテンシの長い演算は、
複数のスレッドが同時に利用する。演算中は、これらの
共有演算ユニットの内部にスレッドの情報が格納され、
結果の値とともに整数演算ユニットに伝達される。

【０２６９】除算ユニット７１８は、除算、平方根など
の、時間のかかり、かつ出現頻度の低い浮動小数点演算
を行う。除算、平方根の演算は乗算と異なり、現実的な
規模でパイプライン化して高速化する手段はない。その
ため、１つの演算あたり数クロックのスループット時間
が必要になる。そして、１つの除算ユニット７１８は、
除算命令の出現頻度を考慮して、４つのスレッドで共有
される。

【０２７０】ロードストアユニット７１３は、４つのロ
ードストア命令の実行を同時に行い、８ワード分の転送
能力を持つ。４つの演算ユニット７０５からの要求を受
理してロードストアを行うとともに、待ち状態のスレッ
ドのロードを実行する機能を持つ。

【０２７１】バイト単位の転送をワードに符号に応じて
拡張する操作、あるいはその逆もこのユニットで行われ
る。

【０２７２】ロードストアユニット７１３には、４つの
データキャッシュが接続され、アクセスを行うアドレス
によって使い分ける。データのアクセスは、同時に複数
のユニットのアクセスを可能にする。そのために、４つ
のアドレス、データバスを互いにクロスバ接続する。

【０２７３】同じ一次キャッシュへのアクセスがかちあ
った場合は、優先度の低いスレッドを停止して、ロード
の実行を待つ。キャッシュミスの場合も同様である。

【０２７４】ロードの衝突、キャッシュミスによるスレ
ッドの停止の場合には、停止したスレッドの代わりに、
前に停止してロードの終了したスレッドを再開する。

【０２７５】なお、前にロード、あるいはストアしたデ
ータと、同じアドレスを利用するロード命令が直後に存
在する場合は、データキャッシュへのアクセスを行わず
に、同じデータを渡す。通常のプロセッサのライトバッ
ファと異なり、渡す対象は同一スレッドでなくても良
い。この機構に９よって、同一の命令を利用するスレッ
ドの連続動作させる際のデータキャッシュアクセスが最
小限となる。

【０２７６】演算結果フォワーディングユニット７１７
は、実行ユニット１０５内部の演算ユニット間のデータ
の受け渡しを行う。同時に、長時間演算ユニットを利用
する必要のある命令では、隣接する実行ユニット１０５
に途中経過のレジスタ値を渡す。この機構によって、除
算などの時間のかかる命令をパイプライン動作させるこ
とができる。同一の除算などの命令を利用するスレッド
が連続する場合のスループット性能を高めるためであ
る。

【０２７７】（データキャッシュユニット）

【０２７８】本発明のプロセッサは、データキャッシュ
のスループット確保、遠距離の一次キャッシュ間の転送
のために、階層キャッシュ構造を取る。さらに、スレッ
ド間の仮想記憶機構の共有のために、データキャッシュ
は基本的に仮想アドレスとしている。

【０２７９】データキャッシュは大きなスループットを
要求されるため、擬似的に複数の要求を受理する構造と
する。そして、キャッシュ内部のデータの共有管理のた
めに、ディレクトリ方式キャッシュコヒーレンシを採用
する。ディレクトリ方式はデータアクセスのレイテンシ
に劣るが、複数のキャッシュの要求に対応しやすい方式
である。ディレクトリ方式の詳細については、文献１の
Ｐ６７９からの記載を参照のこと。

【０２８０】文献１：ＣｏｍｐｕｔｅｒＡｒｃｈｉｔ
ｅｃｈｔｕｒｅａＱｕａｎｔｉｔａｔｉｖｅＡｐ
ｐｒｏａｃｈＳｅｃｏｎｄＥｄｉｔｉｏｎ著者：ＪｏｈｎＬＨｅｎｎｅｓｓｙ、Ｄａｖｉｄ
ＡＰａｔｔｅｒｓｏｎ出版社：ＭｏｒｇａｎＫａｕｆｍａｎｎＰｕｂｌｉ
ｓｈｅｒｓ，Ｉｎｃ．

【０２８１】図８に、本発明の第一の実施例における一
次データキャッシュ１１１、二次キャッシュ１１６の接
続関係模式図を示す。

【０２８２】４並列実行ユニット１０５には、一次デー
タキャッシュ１１１が４つ接続される。４つの一次デー
タキャッシュ１１１は、すべてが１つの二次キャッシュ
１１６に接続される。なお、二次キャッシュはデータ、
命令の双方を格納する。

【０２８３】８０３は一次データキャッシュのタグであ
る。８０６は、二次キャッシュのタグである。

【０２８４】データキャッシュは仮想アドレス空間を利
用し、複数のプロセスが混在するため、異なったプロセ
ス空間のエントリが混在する。そのため、タグメモリ内
部にはプロセス空間のＩＤが配置され、一致比較の時に
アドレスとともに比較される。さらに、タグメモリ内部
には共有先を特定する共有ビットを有する。

【０２８５】一次データキャッシュ１１１、二次キャッ
シュ１１６は、アドレスの下位で分割したバンクを持
ち、隣接する転送は同時に、そして、連続するアドレス
は複数のキャッシュバンクが同時にアクセスさせること
を可能にする。二次キャッシュタグメモリ８０６、二次
キャッシュデータメモリバンク８０７も、アドレスに対
して分割され、複数のアクセスを同時に受理する。

【０２８６】データキャッシュ制御ユニット８０２は、
キャッシュミスの場合に適切なキャッシュからデータを
要求する。さらに、データ転送の要求に応じて、適切な
キャッシュにデータを転送する。さらに、内部のキャッ
シュの共有状態を管理する。

【０２８７】実行ユニット１０５が一次データキャッシ
ュ１１１への読み込みを行うケースについて説明する。
一次キャッシュデータメモリ８０４からデータを読み込
むと同時に、一次キャッシュタグメモリ８０３に対して
アクセスを行う。一般的なキャッシュと同じく、タグメ
モリの読み出し内容が要求されたアドレスと一致しない
場合、あるいはそのエントリが無効となっている場合、
データキャッシュミスとする。その場合、スレッドに対
してストールを要求し、二次キャッシュ１１６からデー
タを要求する。

【０２８８】実行ユニット１０５が一次データキャッシ
ュ１１１への書きこみを行うケースについては、まず一
次キャッシュタグメモリ８０３だけに対してアクセスを
行う。アドレスが一致してかつ、該当するデータが共有
状態に指定されている場合は、二次キャッシュ１１６に
対してインバリッド要求を発行する。

【０２８９】一次データキャッシュタグ８０３には、２
ビットの共有情報を含む。隣接する一次キャッシュへの
共有状態と、それ以外のキャッシュとの共有状態であ
る。

【０２９０】アクセスバッファ１１５は、一次データキ
ャッシュ１１１から二次キャッシュ１１６へのアクセス
が不可能である場合に、アクセス情報およびスレッドの
情報を蓄積する。あるいは、二次キャッシュ１１６から
一次キャッシュ１１１へのインバリッド伝達の蓄積にも
用いられる。

【０２９１】アクセスバッファ１１５は、一次キャッシ
ュ１１１からの隣接転送要求を受理し、二次キャッシュ
１１６を通さずに隣接するアクセスバッファ１３１にデ
ータを送信することも行う。

【０２９２】同時に、アクセスバッファ１１７からデー
タを受理して、二次キャッシュ１１６内部の共有状態を
調べる。共有状態であれば、データを格納するか、該当
する一次キャッシュ１１１に伝送する。

【０２９３】二次キャッシュ１１６は、一次キャッシュ
１１１からのキャッシュアクセスを受理するとともに、
隣接する二次キャッシュ、さらにメモリインターフェー
ス、あるいは実施例には存在しないが三次キャッシュか
らの要求を受け、適切な相手にアクセス要求等を送出す
る。

【０２９４】なお、本発明のプロセッサでは、データの
転送やインバリッドの伝達は、スレッドの伝送速度に間
に合えば十分である。ＳＭＰ方式と異なり、階層バス間
の転送レイテンシは演算ユニットの稼動率とはほとんど
関係がない。そして、インバリッド伝達の方向も常に一
定であり、転送スループットの確保も可能になる。

【０２９５】図１４に、本発明のキャッシュにおけるタ
グメモリの構造を示す。一次キャッシュ１１１、二次キ
ャッシュ１１６はともに仮想空間であるため、タグアド
レスの一致比較だけでは不十分であり、プロセスＩＤの
一致の判定が必要である。

【０２９６】ディレクトリ方式キャッシュの実装のため
に、共有状態を示すビットを設ける。一次キャッシュ
は、隣接する一次キャッシュと、二次キャッシュの２つ
の転送先が考えられるため、２ビットの共有情報を利用
する。

【０２９７】二次キャッシュタグ８０６には、６ビット
の共有情報を含む。隣接する二次キャッシュへの共有状
態と、４つの一次キャッシュへの共有状態４ビットと、
三次キャッシュ、ＴＬＢユニットなどへの共有状態１ビ
ットで構成される。

【０２９８】（仮想記憶機構）

【０２９９】仮想記憶機構は、内部表記のアドレス表記
を実際のメモリアドレスに対応させ、内部表記のアドレ
ス以上の実メモリ空間を扱うことを可能にする。また、
複数のプロセス空間の間の保護、およびメモリに存在し
ないメモリ空間の判定を行う。この仮想記憶の変換を効
率的に行うためのバッファが、ＴＬＢユニット１２０で
ある。

【０３００】本発明の方式では、この仮想記憶機構にも
以下の特徴がある。

【０３０１】（１）ＴＬＢは演算ユニットのある一定の
集団ごとにそれぞれ専属のものを置く。

【０３０２】（２）キャッシュは仮想アドレスとし、実
際のメモリのアクセスの直前まで仮想空間の変換を行わ
ない。

【０３０３】（３）ＴＬＢの改変は、キャッシュにコピ
ーがあるにもかかわらず、ＴＬＢエントリのない状態を
作り出す可能性がある。

【０３０４】（４）スレッド間の高速同期のための、デ
ータフロー同期の機構を提供する。

【０３０５】複数のＴＬＢを所持する場合は、ＴＬＢ間
で互いにコピーを持たせることになる。だが、オリジナ
ルのエントリは常にメモリバンクに専属の１つとする。
そのため、ＴＬＢの改変の際は、常にメモリバンクに専
属のＴＬＢに対して行う。オーナーであるＴＬＢは、共
有しているすべてのＴＬＢに向かってページの無効化
（インバリッド）を伝達する。

【０３０６】図９に、本発明の実施例におけるＴＬＢユ
ニット１２０の内部構造の模式図を示す。

【０３０７】仮想アドレス９０２は、ＴＬＢタグメモリ
９０３、ＴＬＢデータメモリ９０９に入力される。構造
的にはセットアソシアティブのキャッシュと同じであ
る。ＴＬＢタグメモリ９０３は仮想アドレス９０２の内
容と比較器９０４で比較され、一致した場合のみＴＬＢ
データメモリ９０４の内容を使用する。本実施例では、
４ウェイセットアソシアティブ方式で実装することでタ
グメモリ、データメモリを４つ使用して、ＴＬＢのヒッ
ト率を向上させている。まったくページが一致するもの
がない場合は、ページフォルト例外発生ユニット９０５
がＯＳプロセスを起動する。

【０３０８】仮想アドレスに相当するページがＴＬＢユ
ニット９０１内部に存在する場合は、ＴＬＢデータメモ
リ９０４の内容のうちの１つが、物理アドレスとして選
択される。変換されたアドレスは、物理アドレス信号９
０６から出力される。

【０３０９】本発明におけるＴＬＢにはもう一つの役割
がある。それは、データフロー同期と呼ばれる、指定し
たアドレスへのデータアクセスを自動的に検出する機能
である。ＴＬＢエントリメモリ９０９には、アドレスの
完全な一致を比較するための仮想アドレスが格納されて
おり、ページの一致によってデータフロー比較器９０８
に伝達される。仮想アドレスが完全に一致した場合は、
データフロー同期発生ユニット９０７によって、登録さ
れたスレッドが生起される。一致比較のマスクビットに
よるアドレス領域の指定も可能である。

【０３１０】図１５に、本発明のプロセッサにおけるＴ
ＬＢユニットのエントリを示す。通常のＴＬＢと同じ
く、変換後の物理アドレス、ページごとの保護情報など
を持ち、複数のプロセス空間を混在させるためのプロセ
スＩＤを持つ。

【０３１１】通常のＴＬＢと異なるのは、二次キャッシ
ュや他のプロセッサへの共有情報を６ビット格納してい
ることと、データフロー同期のための一致比較アドレ
ス、一致比較範囲のビットを持ち、さらに、データフロ
ーの検出で生起すべきスレッドＩＤを格納していること
の２点である。

【０３１２】本発明においてＴＬＢユニットは、キャッ
シュのディレクトリ共有情報を示す最上位のエントリで
もある。二次キャッシュの全て、ローカルメモリ、そし
てプロセッサ外部への共有を示すビットをそれぞれ持
つ。

【０３１３】そのため、二次キャッシュ同士やメモリへ
のデータ転送や、二次キャッシュからプロセッサ外部へ
のインバリッド要求などは、まずはＴＬＢに要求され
る。ＴＬＢでは、ＴＬＢエントリの持つ６ビットの共有
情報に従って、４つの二次キャッシュ、プロセッサの持
つローカルメモリ、及びプロセッサ外部に直接伝達され
る。

【０３１４】制御信号パケットルーター９１０は、ＴＬ
Ｂへの書きこみを受理するとともに、データフロー一致
やページミスによる例外スレッドを発行し、スレッドパ
ケット９１１に向けて伝達する。

【０３１５】（外部インターフェースユニット）

【０３１６】本発明のプロセッサは、複数のプロセッサ
を接続して利用するために以下の特徴を持つ。

【０３１７】（１）スレッドを自動的に複数のプロセッ
サに分配する。

【０３１８】（２）各プロセッサにそれぞれローカルメ
モリを接続する。

【０３１９】（３）各プロセッサ間のアクセスは仮想ア
ドレス空間とする

【０３２０】本発明のプロセッサでは複数のメモリを接
続し、それらを全て１つのスレッドの仮想アドレス空間
からアクセスすることを可能にする。

【０３２１】図１０に、データキャッシュと外部を接続
するＴＬＢ１２０、ローカルメモリインターフェース１
２２、プロセッサ間インターフェースユニット１２４の
接続関係の模式図を示す。

【０３２２】本発明のプロセッサにおいて、基本的には
物理アドレスは、ＴＬＢユニット１２０とローカルメモ
リインターフェース１２２の間だけで利用される。物理
アドレス専用信号１００９が相互に接続される。

【０３２３】本発明のプロセッサにおいては、割り込み
は最優先プライオリティーを持つスレッドの発行として
処理される。リアルタイム性能は、スレッド制御ユニッ
トによるプライオリティー制御によって確保できる。本
発明のプロセッサは、プライオリティーの高いスレッド
にいつでも動作を移すことができるためである。

【０３２４】本発明のプロセッサはマルチスレッドを前
提としているため、複数のプロセッサ間でスレッドを発
行するのにソフトウェア上の追加はほとんど必要ない。
少なくともユーザーレベルのソフトウェアでは無改造で
複数のプロセッサにスレッドを分配できる。

【０３２５】マルチプロセッサインターフェース１２４
は、メモリアクセスバス１２５とともに、制御パケット
バス１００７を有する。プロセッサ内部の制御パケット
信号１０１２は、そのままプロセッサ外部に出力するこ
とができる。

【０３２６】マルチプロセッサインターフェース１２４
は、ＴＬＢによって該当する仮想アドレスがプロセッサ
間共有状態を示す場合に、内部からの仮想アドレスを共
有バス信号１２５に対して出力し、スレッド状態１０１
２を制御パケットバス１００７に出力する。

【０３２７】本発明のプロセッサは、外部の共有バス信
号１２５からの仮想アドレスの受信によっても、ＴＬＢ
１２０へのアクセスを行う。プロセッサ内部にデータの
コピーがある場合は、ＴＬＢ１２０のエントリが存在
し、二次キャッシュへのアクセスによってデータの実体
のあるキャッシュの場所も階層的に特定することができ
る。ＴＬＢのエントリが存在しない場合には、ＯＳによ
る仮想記憶処理によって本来の物理アドレス、メモリバ
ンクの所在を特定することになる。

【０３２８】（制御信号パケット）制御信号をパケット
化して伝達する方式は、制御信号をエンコードするこ
と、複数の経路の配線を共有することで、制御信号の配
線の規模、長さを最小限にできる。さらに、複数の信号
のタイミング制御を、同一の回路で行うことで単純にす
ることができる。その欠点は、伝達のためのレイテンシ
が劣ること、パケットを中継するパケットルータの回路
規模が大きいことである。

【０３２９】ところが、本発明の方式では、即座に制御
信号を伝達する必要があるのは隣接するユニットにかぎ
られる。それ以外の制御信号は、スレッドのパイプライ
ン進行にあわせて伝達すれば十分である。すなわち、パ
ケット制御方式の欠点であるレイテンシは問題ではなく
なる。そして、パケットルーターの回路的な規模の増大
も局所的なものであるため、配線短縮の効果の方が大き
い。

【０３３０】図１１に、個々のパケットルータの内部構
造の模式図を示す。パケットルーターは以下の３つの機
能を持つ。

【０３３１】（１）パケットに応じてユニットの制御を
行う

【０３３２】（２）パケットの目的地、情報量に応じ
て、複数のパケットルーターのうちの１つを選択してパ
ケットを送り出す。

【０３３３】（３）パケットのタイミングをチェックし
て、スレッドの進行に対して遅れていればスレッドをス
トールする。

【０３３４】１１０１はパケットルーターである。受信
した１１０２パケット信号を、コマンドデコーダー１１
０３が解釈する。パケットをこのパケットルーター１１
０１で即座に利用する場合は、制御信号デコーダー１１
０４にパケット信号を入力する。制御信号デコーダ１１
０４は、デコード結果と、パケットルーターのあるユニ
ットの状態信号１１０５に応じて、個別のステートマシ
ン１１０６を動作させ、ユニットの制御をローカル制御
信号１１０７で行う。制御信号デコーダ１１０４、ロー
カルステートマシン１１０６の構造はユニットごとに異
なる。

【０３３５】パケットを中継する場合は、まず、タイミ
ングチェッカ１１１２でパケットが時間どおりに到達し
ているかどうかを判定する。時間に遅れている場合はス
レッドストール要求信号１１１１でパケットを要求した
スレッドを停止する。パケットバッファ１１０８に蓄積
する。パケットが時間以内に到達している場合は、パケ
ット出力ユニット１１１０で複数のパケットバスのうち
の１つを選択してパケットを出力する。

【０３３６】パケットの送信先は最終的な送信先に応じ
て静的に決定できる。トラフィックに応じた動的な経路
制御などを行うわけではないため、一般的なネットワー
クで行うような最適な経路制御の必要はない。

【０３３７】図１２に、本発明の第一実施例におけるパ
ケットルーターの配置を示す。

【０３３８】パケットルーターは大まかなユニット、バ
スバッファごとに設置され、ユニットの制御を行う。パ
ケット制御信号線は隣接したパケットルーターの間のみ
に配線される。

【０３３９】パケット制御信号は、スレッドのパイプラ
インの進行に従って伝送される。たとえば、演算ユニッ
トからＴＬＢユニットへの書き込みを要求した場合は、
キャッシュユニットのルーターを通過して伝達される。
転送の中継に時間がかかるため、転送は数クロックを要
する。ただし、転送の間に別のスレッドの動作が可能で
ある。

【０３４０】この機構によって、最小限の配線で並列数
に見合うだけの数の制御信号を送ることができる。

【０３４１】図２７に、制御パケット信号の例を示す。
すべての制御パケットは、３２ビット程度のＣＰ（Ｃｏ
ｎｔｒｏｌＰａｃｋｅｔ）信号を持つ。

【０３４２】ＣｏｎｔｒｏｌＰａｃｋｅｔには、パケッ
トの機能を示すＰａｃｋｅｔＣｏｍｍａｎｄ、パケット
のパラメータを示すＶａｌｕｅＦｉｅｌｄを持つ。Ｒｅ
ｑｕｅｓｔｏｒＵｎｉｔは要求元、ＴａｒｇｅｔＵｎｉ
ｔは伝達先のユニットを示す。

【０３４３】ＲｅｍａｉｎｉｎｇＴｉｍｅはパケットが
時間内に伝達されたかどうかの確認を行うための値であ
る。この値をデクリメントすることで、パケットの進行
が間に合っているかどうかの判定を行う。ＵｓｅｒＬｅ
ｖｅｌは、制御パケットの特権レベルを示す。

【０３４４】スレッドの情報が必要なパケットは、やは
り３２ビット程度のＴＩ信号が付加される。ＴＩにはプ
ロセス、スレッドＩＤと、スレッドの優先順位、ユーザ
ーレベルが格納されている。

【０３４５】この２つに加えて、アドレス、データ、Ｐ
Ｃ（プログラムカウンタ）、ＳＰ（スタックポインタ）
などの値が付加される。ＴＩとＰＣ，ＳＰによって、ス
レッドのすべての情報が管理される。ＣＰとアドレス、
データが通常の内部バストランザクションに利用され
る。なお、制御パケット信号の仕様は、スレッド状態転
送、データ転送などの目的によって変えることもでき、
共用することもできる。

【発明の効果】

【０３４６】（回路規模）

【０３４７】基本的に、プロセッサに求められる性能は
周波数性能と並列性能の積である。しかし、利用目的に
よっては、コストあたりの性能、および消費電力あたり
の性能も求められる。本発明の方式は、回路の組みあわ
せによってそれらのいずれにも最適な構成にできること
を示す。

【０３４８】今後のプロセッサの速度は、配線遅延にほ
ぼ比例して決定される。半導体のプロセスの進化に従
い、回路の局所的な遅延時間は縮小傾向がある。しか
し、それには配線もトランジスタと同じオーダーで縮小
するという前提条件が必要である。そのため、回路の大
規模化によって配線が縮小されない場合は、微細化にも
かかわらず周波数性能の向上は不可能になる。そのた
め、チップ全体の配線を行わないようにして、配線のオ
ーダーを増加させないことが、周波数性能の向上を維持
するために不可欠である。

【０３４９】配線の規模は、データ転送幅と転送相手の
数で決まる。データ転送幅のＮ倍の増加に対して、配線
の規模はＮ倍に比例して増大する。遅延の増大はわずか
である。それに対して、転送相手のＮ倍の増加に対して
は、配線の規模はＮの二乗に比例して増加する。そし
て、遅延もＮ倍で増加する。そのため、転送相手を増や
すことより、転送幅を増やすことの方が遥かに容易であ
る。

【０３５０】本発明のプロセッサは、バスの階層化によ
って転送相手の組みあわせを常に４つ程度に制限してい
る。この規模は現行のインオーダースーパースカラ方式
プロセッサと同程度である。これ以上の一対一接続の配
線は行わないため、いくら並列度が増加しても、周波数
性能を阻害する配線長の増加が発生することはない。

【０３５１】シフトレジスタ型転送は、自由な転送能
力、比較的高いピークバンド幅、バスのアービトレーシ
ョンの容易さという長所があるが、欠点としてはレイテ
ンシ性能が最低となる。このレイテンシ性能の低下を隠
蔽するためにマルチスレッドを利用する。

【０３５２】表１に、ＶＬＩＷ方式、ＳＭＰ方式、本発
明のＰＭＴ方式ごとの回路規模、遅延時間の比較の表を
示す。

【０３５３】ＶＬＩＷ方式は、並列規模の増大に対して
周波数性能を著しく低下させる。マルチプロセッサ方式
は、周波数性能は維持できるが、回路規模の増大が大き
い。それに対して本発明のＰＭＴ方式は、メモリ、演算
ユニットの共有によって、最小限の回路規模で並列性能
を増加させることができる。

【０３５４】（ユニット稼働率から見た性能向上）

【０３５５】本発明の方式は、単体のスレッドのレイテ
ンシ性能ではほかのパイプラインプロセッサに劣るが、
複数のスレッドの動作全体で性能を稼ぐことができる。
そのため、全体の性能はすべてのスレッドの和である大
域的な処理性能で判断されなければならない。さらに本
発明の方式は、演算ユニットなどの稼動率を最大にする
ことで、回路規模に対する全体の性能を最大にできる。
それに対して、ほかの方式の多くは回路規模を増加する
ほど演算ユニットなどの稼動率が下がる傾向がある。以
下、演算ユニットなどの稼動率が他の方式に対して高い
ことを示す。

【０３５６】表２は、本発明の方式と、ＳＭＰ方式との
各状況に対する演算ユニットの停止期間の比較の表であ
る。

【０３５７】本発明の方式は、自由な命令配置能力と、
局所ＳＭＰモード機能によって、あらゆる演算ユニット
をほぼ常に動作させることができる。従来のＰＭＴ方式
が命令の配置に命令アドレスの制限があったのと対照的
である。

【０３５８】本発明のプロセッサは、例外の発生頻度が
スレッド発行ユニットの供給能力を超えない限り、ほと
んど全てのペナルティーを隠蔽することができる。すな
わち、スレッドが十分供給されている限り、本発明の方
式はＶＬＩＷ、マルチプロセッサ方式よりも演算ユニッ
トの稼動率で勝る。しかも、それはスレッドが独立に並
列動作できる限り、演算ユニットの数に比例して性能を
向上できる。

【０３５９】マルチプロセッサ方式は、コンテキストス
イッチにＯＳの介在が必要である。さらに、スレッドを
別のプロセッサに移して再開させる「スレッドの移住」
に、すべての状態をキャッシュコヒーレンシで転送する
必要がある。この動作には、約１００クロック以上の間
プロセッサのバスを占有するため、数千クロック以上の
レイテンシを隠蔽するのでなければ意味がない。さら
に、スレッドを再開するには、動作しているスレッドが
ＯＳを呼び出して、各スレッドに対して再開条件が整っ
ているかどうかを確認しなければならない。

【０３６０】次に、マルチプロセッサ方式にコンテキス
トスイッチ機能をハードウェアで実装して自動的に行う
ことを考える。それでも、すべてのプロセッサに大量の
スレッド、そしてそれら全てのスレッドの状態と、完全
なスケジューリングハードウェアを同時に搭載する必要
がある。さらに、スレッドの移住には大量のプロセッサ
間転送が必要になり、オーバーヘッドは削減できない。

【０３６１】以上の結論として、マルチプロセッサ方式
とレイテンシ隠蔽機構は両立しにくい。

【０３６２】本発明の方式は、コンテキストスイッチは
ハードウェアで実装される。本発明の方式は、すべての
スレッドの空きスロットが１つのスケジューリングハー
ドウェアを通るので、どの空き状態のノードにも即座に
スレッドを供給できる。

【０３６３】さらに、本発明の方式では、停止していた
スレッドは、基本的には停止した時と同じノードで再開
することができる。この場合は状態の転送が一切必要な
く、そのノードが空いた時点で即座にスレッドを再開で
きる。このため、スレッドの移住をほとんど行わずに、
最適なスレッドの負荷分散が可能になる。

【０３６４】さらに、同期変数の待ち合わせに関して
も、同期変数のアクセスによってバスを止めることはな
い。更に、データフロー同期を利用すれば、スケジュー
リングの必要も同期変数の確認も必要ない。この機能に
よって本発明のプロセッサはマルチスレッドのオーバー
ヘッドをなくし、マルチスレッドをあらゆるレイテンシ
の隠蔽に使用することを可能にしている。

【０３６５】本発明の方式における唯一のＳＭＰ方式に
対する短所は、パイプライン間のスレッドの移住であ
る。しかし、スレッドの移住の頻度はパイプラインを長
くすることによって減少させることができる。

【０３６６】最小限のキャッシュ容量でスレッドの稼動
率を上げるためには、同じ命令やデータを利用するスレ
ッドを集中して実行すれば良い。それは同じ工程の仕事
を集中して行うほうが効率が良いことを意味する。本発
明の方式は、命令、データキャッシュミスの管理によっ
て、ある程度は自然にこの共有の形になる。

【０３６７】本発明の方式は、隣接する演算ユニットに
全てのレジスタ状態を転送するかわり、共有するデータ
の転送量が減るＰＭＴ方式を基本とする。それに加え
て、レジスタ状態を転送しない代わりに、共有するデー
タの転送量が最大となるＳＭＰ方式も可能にする。

【０３６８】ＰＭＴ方式では、命令の間のデータ転送ス
ループットは、近傍の命令間ほど多く必要とされ、命令
間が遠距離になるほど減少する傾向にある。それに対し
て、スレッド間のデータ転送のためのスループットは、
スレッド間のデータの共有が多く、並列度が増大するほ
ど拡大する。理由は、１つのデータを大量のプロセッサ
がほぼ独立して参照するためである。そのために、ＳＭ
Ｐ方式ではメモリバス稼働率に著しい偏りが生じる。

【０３６９】ＰＭＴ方式は、スレッド間のデータ転送の
スループットを最小限にする方式である。よって、どん
なに並列度を上げて、かつ同じデータを共有しても、局
所的なデータバスのデータスループットの増加を抑制す
ることができる。すなわち、データの共有とスケーラブ
ルな並列性能向上を同時に実現することができる。

【０３７０】それに対して、ＳＭＰ方式は、スレッド間
の転送には弱いが、単体の演算ユニットだけで実行がで
きるという長所がある。そのため、独立したスレッドの
実行では、ＳＭＰ方式を利用するほうがメモリバスの稼
働率が最小となる。

【０３７１】本発明の方式は、データキャッシュ間の転
送量によって自動的にＰＭＴ方式、ＳＭＰ方式を使い分
け、常にメモリバス稼働率を最小にすることができる。

【０３７２】一般的に、キャッシュの容量が増大すれ
ば、それだけキャッシュミスの確率が減少して全体の性
能を上げることができる。しかし、キャッシュの容量の
増大はキャッシュアクセスの速度低下を招く。そのため
には、キャッシュを分割するのが望ましいが、複数のキ
ャッシュへの接続はやはり配線遅延による速度低下を招
く。理想的なキャッシュ容量増大の方法は、キャッシュ
と演算ユニットを直結させて、それを組にして大量に配
置することである。しかし、従来のマルチプロセッサ方
式では、キャッシュを複数持たせても、複数のキャッシ
ュのほとんどに同じ内容を格納する必要があり、キャッ
シュの容量増大の効果を見込むことはできない。

【０３７３】それに対して、本発明の方式では、ＰＭＴ
方式を利用する限りは、複数のキャッシュへの同じデー
タの複製を抑制することができ、キャッシュの容量を増
大させてヒット率を向上させることができる。さらに、
スレッドの中で何度も利用するデータ、あるいはスレッ
ドの中で発生したデータについても、データを利用する
キャッシュに対してのみ直接データを送るため、データ
の複製が最小限で済む。

【０３７４】（命令、データ、演算ユニットの共有）

【０３７５】現在のプロセッサでは、命令メモリの内容
はプログラムのロード時に決定され、まず改変されるこ
とはない。それを許すと、命令の読み込み、動作順序が
保証されない現在のプロセッサでは動作が保証されない
ためである。

【０３７６】そのため、命令メモリはアドレスに対して
必ず同じ値が読み出され、他のスレッドからの改変のお
それもまずない。ということは、同じ命令メモリを利用
するスレッドはすべて１つの命令を利用できれば効率的
である。ＰＭＴ方式の作用によって、１つの命令は連続
してパイプライン状に動作する大量のスレッドから参照
できる。そのため、本発明の方式はオンチップマルチプ
ロセッサなどに比較して命令のメモリサイズ、リプレー
スに要求されるメモリスループットが遥かに小さい。

【０３７７】本発明の方式では、パイプラインの動作を
止める分岐命令、データキャッシュミスは、マルチスレ
ッドによってある程度は隠蔽できる。しかし、スレッド
発行ユニットの供給能力を超えるほど頻発する場合は、
本発明の方式でもやはりパイプラインを停止することに
なり、性能を低下させる。そのため、命令に置かれた予
測情報を用いて、そのペナルティーを極力減少するのが
望ましい。

【０３７８】本発明の方式は、１つの命令を全てのスレ
ッドが共有できる。そして、分岐予測情報、データフロ
ー予測情報は、命令列の内容、すなわち命令アドレスに
依存し、個別のスレッドの状態にほとんど依存しない。
ということは、これらの予測情報は１つあれば全てのス
レッドから共有できる。

【０３７９】マルチプロセッサ間データ転送は、プロセ
ッサの数が増加するにしたがって局所的にも増大し、個
々のプロセッサのバス転送性能を使用し、マルチプロセ
ッサにおいてスケーラブルな性能向上を阻害する。

【０３８０】プログラムで利用するデータには、細かい
数値の相違はあるものの、８０％の部分のプログラムで
２０％の部分のデータを利用するという経験則がある。
たとえば、キャッシュはこの経験則を利用するものであ
る。ということは、１つのプログラムを分割したスレッ
ドも、その多くは同じデータを利用することになるのは
当然である。この性質を利用するために、まったく違う
スレッドが同じデータを利用する方法を提供する。

【０３８１】データは同じ命令が同じようなデータを利
用するケース、あるいはまったく違うデータを利用する
２つのケースが考えられる。当然データの共有の効率は
命令ほどではないが、大まかなデータブロックに対して
は共有できるケースが多い。そのために、データキャッ
シュを分散配置し、複数のスレッドから共有させる。

【０３８２】これによって、データキャッシュの共有と
大容量化を同時に実現し、結果的に単体スレッドから見
た一次キャッシュの容量を増加させることができる。無
論、一次キャッシュ間の転送量は増加するが、それはス
ループットのみの増大であり、比較的実装しやすい。

【０３８３】本発明の方式では隣接する４つ程度の演算
ユニットが１つのスレッド発行ユニットを共有する。こ
れは、分岐、例外によるスレッドの切り替えの頻度が数
命令に一回という前提によるものである。

【０３８４】待ち状態のスレッドは、この４つの同時実
行されているスレッドのうちの、どのスレッドが停止し
ても即座に発行できる。

【０３８５】さらに、演算ユニットの列の長さの増加、
分岐予測などによってスレッドの移住の頻度が減れば、
スレッド発行ユニットの稼働率も相対的に減少する。

【０３８６】そして、本発明の方式では細かいスレッド
の切り替えのためのスレッドの移住も必要ない。レジス
タ、データキャッシュの内容は、常にスレッドが停止し
た場所に待機されており、スレッドの空きスロットを待
つだけで即座に実行を開始できる。

【０３８７】ＳＭＰ方式では、キャッシュレイテンシ隠
蔽のためには、すべてのプロセッサがそれぞれ実行可能
な待ちスレッドを待機させておく必要がある。あるい
は、隣接するいくつかのプロセッサに対してスレッド発
行を行わせることになる。このことは、大量のプロセッ
サに対して任意のスレッドを高速に発行することが難し
いことを意味する。

【０３８８】本発明の方式では、各スレッド発行ユニッ
トを、すべてのスレッドがパイプラインとして通過する
ことによって共有させる。このため、すべてのプロセッ
サが待ち状態のスレッドを有することなく高速コンテキ
ストスイッチを可能にする。データキャッシュや特殊演
算ユニットの結果などを取得し、再開する準備が整った
スレッドは、常に空いたあらゆるスレッドスロットに対
して発行される。

【０３８９】（ＩＰユニットの共有）

【０３９０】ＩＰユニット間のデータの転送能力を最大
にするには、ＩＰユニット間を信号で直結するのが最も
簡単である。だが、それでは全体で１つの機能しか実現
できない。

【０３９１】次に考えられる手段は、それぞれＩＰユニ
ットの間にマイクロプロセッサをそれぞれ置くことであ
る。しかしこれでは、プログラムがＩＰの結合ごとに分
散されることになり、処理が一様にならないという欠点
がある。

【０３９２】さらに次に考えられるのは、ＩＰユニット
とマルチプロセッサをクロスバスイッチで結合する方法
である。これならば、共有バスよりは優れた転送能力が
確保できる。しかしクロスバスイッチは回路規模が（Ｍ
個のプロセッサ、Ｎ個のＩＰユニットユニットに対し
て）ＭとＮの積のオーダーでで増加する方式であり、大
規模並列には向かない。さらに、そのために切り替えの
レイテンシ時間が遅く、自由でかつ動的な転送には向か
ない。

【０３９３】本発明の方式は、各ノードに対してＩＰユ
ニットを接続して、ＩＰユニット間の通信能力をノード
間のデータ通信能力で確保する。ＩＰユニット間のデー
タの整形は、ＰＭＴの各演算ユニットがそれぞれ独立し
て行い、ＩＰユニットへの入力の負荷が低い場合はすぐ
に別の用途に転用できる。

【０３９４】ＩＰユニットの転送能力が単体の演算ユニ
ットの転送能力を超えるほど高い場合には、近傍の複数
の演算ユニットを利用して転送し、その先の演算ユニッ
トでデータを整形することができる。このような場合で
は特に、マルチプロセッサ＋クロスバスイッチ方式より
圧倒的にＩＰユニットからの転送性能を稼ぐことができ
る。

【０３９５】本発明の方式では、ＩＰユニットはソフト
ウェアでは特殊命令、あるいはシステムアクセス命令と
して使用することができ、その配置に制限はない。実際
のＩＰユニットの分散配置に対しては、スレッドの移住
機構が自動的に対応することもできる。ＩＰユニット間
のデータ転送は、ＰＭＴ方式が持つレジスタ隣接転送、
キャッシュコヒーレンシ機構で行う。こうして、同じソ
フトウェアで自由なＩＰユニットの組み合わせに効率良
く対応することができる。

【０３９６】（消費電力予測）

【０３９７】ＣＭＯＳ回路は、信号の変化のときに電力
を消費する。信号が変化しなければ電力をほとんど消費
しない。

【０３９８】ところで、本発明の方式は、同一のスレッ
ドを連続して動作させるときは、その供給される命令、
演算ユニットの状態は完全に同一である。さらに、利用
するレジスタファイル、データバス、データキャッシュ
とのバス通信の内容もスレッド間の違いは少ない。とい
うことは、同じスレッドをまとめて実行する時には、各
スレッド間のわずかな動作の違いだけが消費電力にな
る。それに対して、通常のプロセッサでは、各命令ごと
にすべての回路の状態が変わるため、すべての回路の半
分近くの信号が変化し、消費電力となる。

【０３９９】結論としては、本発明の方式のプロセッサ
は、同一の命令、データを利用したスレッドの連続動作
が可能な場合は、現行のパイプライン方式プロセッサよ
りも低い消費電力で同じ性能を発揮できる。アーキテク
チャのレベルでこれ以上の低消費電力の手段は考えられ
ない。

【０４００】表１の記載のように、本発明のプロセッサ
は、マルチプロセッサ、ＶＬＩＷ方式に対して、性能に
対する回路規模が最小である。理由は、ＰＭＴ方式は命
令、データ、演算ユニットの共有を行うためである。性
能に対する回路規模が最小であるということは、そのま
ま性能に対する消費電力が最小であるということを意味
する。

【０４０１】さらに、本発明の方式は、性能に対する配
線長も最小である。今後の半導体の消費電力は、配線容
量の充放電が大半を占めることになると予想されるた
め、配線が最小であるということはそのまま消費電力の
削減に繋がる。

【０４０２】さらに、前述した同一命令を利用するスレ
ッドの連続動作による電力削減とあいまって、本発明の
方式は、プログラム可能な回路において、最小の電力で
実際の演算を行う方法であるといえる。ただし、本発明
の方式は局所的にはＳＭＰ方式に近い動作モードも持つ
ため、その部分はＳＭＰ方式と同じ消費電力になる。し
かし、本発明の方式は可能な限りＰＭＴ方式で演算を行
おうとするため、演算性能に対する消費電力は常に最小
になる。

【図面の簡単な説明】

【図１】本発明の構造を用いたプロセッサの構造模式図
（第一実施例）

【図２】従来のＶＬＩＷ方式のプロセッサの構造模式図

【図３】従来のマルチプロセッサ方式のプロセッサシス
テムの構造模式図

【図４】従来のＰＭＴ方式のプロセッサの構造模式図

【図５】本発明の構造を用いたプロセッサの構造模式図
（第二実施例）

【図６】命令発行ユニットの内部構造模式図

【図７】最大４つのスレッドを同時に実行する、実行ユ
ニットの内部構造模式図

【図８】一次、二次キャッシュの接続関係を示す構造模
式図

【図９】ＴＬＢユニットの内部構造模式図

【図１０】ＴＬＢと外部インターフェースの接続関係を
示す構造模式図

【図１１】パケットルーターの内部構造模式図

【図１２】本発明の第一実施例における、パケットルー
ターの配置図。

【図１３】命令キャッシュタグメモリの１ラインごとの
内容

【図１４】データキャッシュタグメモリの１ラインごと
の内容

【図１５】ＴＬＢユニットの１エントリごとの内容

【図１６】従来のマルチプロセッサにおける、スレッド
の動作例

【図１７】本発明のプロセッサにおける、スレッドの動
作例

【図１８】分岐命令実行における、命令発行ユニットの
選択方法を示す概念図

【図１９】命令キャッシュのもつ予測情報の書き込み、
利用方法を示す概念図

【図２０】各種分岐命令の実行概念図

【図２１】１つの演算ユニットにおける、パイプライン
動作概念図

【図２２】スレッド移住のレジスタ同期動作概念図

【図２３】ディレクトリ方式キャッシュのリード動作概
念図

【図２４】ディレクトリ方式キャッシュのライト動作概
念図

【図２５】同期命令の動作概念図

【図２６】同期命令のソフトウェア上での動作概念図

【図２７】パケット制御信号の内容

【符号の説明】

１０１本発明の第一実施例のプロセッサ１０２命令発行ユニット１０３スレッド発行ユニット１０４命令キャッシュメモリ１０５実行ユニット１０６共有レジスタファイル１０７１６ビット演算ユニット１０８共有演算ユニット１０９分岐発行制御信号１１０データアクセスバス信号１１１一次データキャッシュ１１２アクセスバッファ１１３一次データキャッシュ１１６二次キャッシュメモリ１１７アクセスバッファ１２０グローバルＴＬＢ１２１データアクセスバス信号１２２ローカルメモリインターフェース１２３ローカルメモリバス信号１２４外部バスインターフェース１２５外部バス１２６割り込み信号１２７新規スレッド発行ユニット１３１アクセスバッファ１３２スレッド状態信号１３３スレッド発行制御信号１３４分岐発行制御信号２０１命令キャッシュ２０２、２０３演算ユニット２０４分岐ユニット２０５ロードストアユニット２０６レジスタファイル２０７データキャッシュ２０８命令発行ユニット３０１、３０２、３０３、３０４、３０６、３０７、３
０８プロセッサ３０５、３０９一次共有バス３１０、３１１二次キャッシュ３１２共有メモリバス３１３メインメモリ４０１ＰＭＴ方式プロセッサ４０２命令発行制御４０３ＰＣラッチ４０４命令メモリ４０５演算ユニット４０６データバスクロスバスイッチ４０７データメモリ４０８外部インターフェース４０９演算要素５０１本発明の第ニ実施例のプロセッサ５０２前段外部プロセッサインターフェース５０３ショートカットバスインターフェース５０４ＩＰユニット５１０Ｉ／Ｏバスインターフェース５１１次段外部プロセッサインターフェース６０２パケットルータ６０３制御パケット信号６０４プライオリティー選択ユニット６０５命令キャッシュ制御ユニット６０６命令キャッシュタグメモリ６０７命令ローカルＴＬＢ６０８スレッド状態信号６０９スレッド状態制御ユニット６１０スレッド状態信号６１１分岐、データフロー予測信号６１２命令信号６１３分岐要求信号６１４命令順序アライナ６１５スレッド状態信号６１６命令キャッシュデータメモリ６１７命令リプレースバス６１８待ち状態スレッド状態バッファ６１９制御パケット信号６２０スレッド移住制御ユニット７０２プログラムカウンタ信号７０３命令デコードユニット７０４レジスタファイル７０５レジスタ転送バス信号７０６オペランド転送クロスババス７０７オペランドショートカット信号７０８１６ビット整数演算ユニット７０９結果ショートカットバス信号７１０６４ビット整数演算ユニット７１２浮動小数点加算＋乗算ユニット７１３ロードストアユニット７１４アドレスバス信号７１５データバス信号７１６レジスタ待避バス信号７１７演算結果フォワーディング夕ニット７１８浮動小数点除算ユニット７１９浮動小数点加算ユニット７２０結果ショートカットバス信号７２１分岐ユニット７２２オペランドショートカット信号７２３レジスタ同期ユニット７２４レジスタ転送バス信号７２５プログラムカウンタバス信号７２６分岐発行パケット信号８０２一次キャッシュ制御８０３一次キャッシュタグメモリ８０４一次キャッシュデータメモリ８０５二次キャッシュ制御８０６二次キャッシュタグメモリ８０７二次キャッシュデータメモリ９０２仮想アドレス信号９０３ＴＬＢタグメモリ９０４アドレス比較器９０５ページフォルト発生ユニット９０６物理アドレス信号９０７ページトラップ・データフロー同期発生ユニッ
ト９０８ＴＬＢエントリメモリ９０９制御信号パケットルータ９１０ページフラッシュシーケンサ９１１スレッドパケット１００１データバス信号１００４スレッドパケットバッファ１００７スレッドパケット信号１００９物理アドレス信号１０１１制御パケット信号１０１２スレッド発行パケット信号１０１３仮想アドレス１１０１制御パケットルータ１１０２制御パケット信号１１０３制御コマンドデコーダ１１０４制御信号デコーダ１１０５ローカル状態信号１１０６ローカル制御ユニット１１０７ローカル制御信号１１０８制御パケットバッファ１１０９制御パケット信号１１１０制御パケット出力ユニット１１１１スレッドストール信号１１１２制御パケットタイミングチェッカ１２０１〜１２１１制御パケットルータ１８０１二次キャッシュ１８０２、１８０４、１８０７、１８０９スレッド管
理ユニット１８０３、１８０５、１８０８命令キャッシュ１８０６分岐ユニット１９０１、１９０５命令キャッシュ１９０２、１９０６実行ユニット１９０３分岐ユニット１９０４，１９０８データキャッシュ１９０７ロードストアユニット

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 9/34 ３５０Ｇ０６Ｆ 9/34 ３５０Ｂ 9/46 ３６０ 9/46 ３６０Ｂ 12/08 12/08 ＦＧＨＥＹ３１０３１０Ｂ 12/10 12/10 Ａ 12/12 12/12 ＡＦターム(参考） 5B005 JJ13 KK13 LL01 LL11 MM02 MM03 MM32 NN31 PP21 UU32 5B013 AA01 AA05 AA11 BB01 BB18 CC06 CC13 DD04 DD05 5B033 AA02 AA03 AA04 AA13 AA14 AA15 BE05 CA01 CA09 DA04 DA14 DA17 DB02 DB03 DB06 DB12 DD01 DE07 5B098 AA02 AA10 DD01 DD03 FF01 GA05 GC03 GD02 GD03 GD12 GD14 HH07

Claims

【特許請求の範囲】

【請求項１】数値演算ユニット、レジスタファイル、命
令メモリ、データキャッシュメモリを複数個内部に有
し、複数のスレッドおよびプロセスを同時に利用する事
を特徴とするプロセッサにおいて、レジスタファイルが
持つ各スレッドごとのレジスタ値等の状態を、常に隣接
する演算ユニットに伝達することを特徴とするプロセッ
サ（以下ＰＭＴ方式プロセッサと称する）において、プ
ログラムカウンタ、スタックポインタ値、スレッド識別
番号、プライオリティー値で構成されるスレッドの情報
を示す値を複数格納するスレッド情報格納手段を有し、
スレッド情報格納手段から１つのスレッドを選択して、
命令メモリおよび演算ユニットにスレッドの情報を伝送
するスレッド発行手段を有し、スレッド発行手段におい
て、スレッドの持つプライオリティー値を比較し、最も
優先度が大きいスレッドの情報を優先的に命令メモリお
よび演算ユニットに伝達することを特徴とするプロセッ
サ。
【請求項２】請求項１の特徴を持つプロセッサにおい
て、演算ユニットが実行する命令のプログラムカウンタ
値を保存する手段を有し、次に新規に発行する候補のス
レッドが同じ命令アドレスを利用するかどうかを比較
し、前に実行したスレッドと命令が一致したスレッドを
優先的に選択して出力するための手段を有することを特
徴とするプロセッサ。
【請求項３】ＰＭＴ方式プロセッサにおいて、状態を伝
達すべき隣接する演算ユニットが別のスレッドの処理を
優先的に行うことを感知して、その時だけスレッドの状
態を隣接演算ユニットに伝達せずに同一の演算ユニット
で処理を行うことを特徴とするプロセッサ。
【請求項４】ＰＭＴ方式プロセッサにおいて、複数のス
レッドがそれぞれ利用するレジスタの値を複数のレジス
タバンクに同時に格納するレジスタファイルを有し、各
レジスタバンクの内の１つを同時に利用し、スレッドの
進行に応じてレジスタバンクの内容を隣接する別のレジ
スタファイルに転送することを特徴とするプロセッサ。
【請求項５】ＰＭＴ方式プロセッサにおいて、現在実行
しているスレッドを中断し、待機状態のスレッドを実行
する操作が必要な際に、実行しているレジスタファイル
の値を演算ユニットに伝送する代わりに、レジスタファ
イルの別のレジスタバンクに格納されている待機状態の
レジスタ値を演算ユニットに伝達し、別のスレッドの演
算を即座に行うことを特徴とするプロセッサ。
【請求項６】請求項５の特徴を持つプロセッサにおい
て、レジスタファイルにレジスタ状態が格納されていな
いスレッドを実行する際に限り、レジスタファイルの内
容をスタックポインタ値の示すメモリから自動的に読み
出すことを特徴とし、現在レジスタファイルに格納され
ていて利用されないスレッドの状態をスタックポインタ
値の示すメモリに自動的に書き出すことを特徴とするプ
ロセッサ。
【請求項７】ＰＭＴ方式プロセッサにおける、１つのス
レッドが利用するレジスタの値をメモリに保存する特別
な分岐命令において、分岐命令の時点のスレッドのレジ
スタ値をレジスタファイルに保持することを特徴とし、
保存されたレジスタの値を読み込む特別な分岐命令にお
いて、レジスタファイルに保持されていたスレッドの状
態を利用することを特徴とするプロセッサ。
【請求項８】ＰＭＴ方式プロセッサにおいて、複数のス
レッド識別番号及びスタックポインタ値をまとめて格納
することを特徴とするスレッド自動発行機構を有し、ス
レッド発行命令によってスレッドを発行する際に、格納
されたスレッド識別番号及びスタックフレームを自動的
に割り当てることを特徴とするＰＭＴ型プロセッサ。
【請求項９】請求項４に記載された特徴を持つプロセッ
サにおいて、１つのレジスタファイルが複数の演算ユニ
ットで共有され、レジスタファイルが複数の演算ユニッ
トから１つを選択してデータを伝送することを特徴とす
る転送手段を有し、レジスタファイルの内容を隣接する
レジスタファイルに複数回に分けて転送することを特徴
とするプロセッサ。
【請求項１０】ＰＭＴ方式プロセッサの演算ユニットに
おいて、値の一部の演算を行う部分演算ユニットを複数
個有し、それぞれの部分演算ユニット内部に、部分演算
ユニットにおける結果値と完全な演算を行った場合の結
果値とが一致しないことを検出するオーバーフロー検出
手段を有し、さらに完全な演算を行うための１つの完全
演算ユニットを複数の部分演算ユニットに接続し、部分
演算ユニットのオーバーフロー検出手段の演算結果の不
一致の検出によって、完全演算ユニットに部分演算ユニ
ットで利用した値を転送して演算を再度行うことを特徴
とするプロセッサ。
【請求項１１】ＰＭＴ方式プロセッサにおいて、分岐後
のプログラムカウンタ値が演算結果によって動的に変更
され、分岐後のプログラムカウンタ値が確率的に予測で
きる条件分岐命令において、分岐後に実行されると予測
される命令を格納する命令キャッシュを有し、命令キャ
ッシュに分岐の結果を判別するための情報を有し、実際
に分岐が実行された際に予測した分岐結果との一致を確
認し、不一致の場合はスレッドを中断してスレッド発行
ユニットに正しい分岐結果を転送することを特徴とする
プロセッサ。
【請求項１２】ＰＭＴ方式プロセッサにおいて、複数の
演算ユニットを複数のブロックに分配し、ブロックごと
に専属の一次キャッシュメモリを有し、ブロック内の演
算ユニット全てと接続して、データアクセスを行うこと
を特徴とし、さらに１つ以上の二次キャッシュメモリを
有し、複数の一次キャッシュメモリと接続して、互いに
データアクセスを行うことを特徴とするプロセッサ。
【請求項１３】ＰＭＴ方式プロセッサにおいて、スレッ
ドが書きこんだメモリ内容をスレッド自身がメモリから
読み出して利用する際に、利用するメモリ内容を複数の
キャッシュメモリの間で転送することを特徴とし、複数
のキャッシュメモリ間の転送はスレッドの進行と同じ方
向、速度で伝達することを特徴とし、スレッドの進行に
データの伝達が間に合わない場合はスレッドを停止させ
ることを特徴とするプロセッサ。
【請求項１４】ＰＭＴ方式プロセッサにおいて、プロセ
ッサ内部に１つ以上のキャッシュメモリを有し、個々の
キャッシュメモリをさらに複数のメモリバンクに分割
し、それぞれのメモリバンクへのアクセス数を制限する
ことを特徴とし、同時にメモリバンクへのアクセスを行
うことを特徴とし、さらに、複数のメモリバンクの選択
のためにメモリアドレスを利用することを特徴とし、同
じキャッシュへの複数のアクセスが存在した場合は、１
つのアクセスだけを行い、他のアクセスを保持して後で
行うことを特徴とするプロセッサ。
【請求項１５】請求項１２に記載された特徴を持つプロ
セッサにおいて、キャッシュメモリ内部に、キャッシュ
メモリの内容の共有状態を指定するためのディレクトリ
と呼ばれる情報を有し、個別のキャッシュメモリは、別
のキャッシュメモリから内部のデータを読み出された場
合に、データのコピーを持つキャッシュメモリを特定す
る情報をディレクトリに設定することを特徴とし、同時
に、別のキャッシュメモリから取得したデータをキャッ
シュメモリに格納する際に、データのオリジナルを持つ
キャッシュメモリを特定する情報をディレクトリに設定
することを特徴とし、キャッシュメモリへの書き込みの
際に、ディレクトリの内容を利用して、同じアドレスの
データのコピーを持つキャッシュメモリにだけデータの
書き込みを通知することを特徴とするプロセッサ。
【請求項１６】ＰＭＴ方式プロセッサにおいて、ある命
令が利用するデータを別の命令が再度利用する際に、デ
ータを再利用する命令を実行する演算ユニットを特定す
るデータフロー予測情報を命令メモリに格納することを
特徴とし、データフロー予測情報を持つ命令が実行され
たときに、データフロー予測情報で指定された演算ユニ
ットにデータをあらかじめ転送することを特徴とするプ
ロセッサ。
【請求項１７】請求項１６の特徴を持つプロセッサにお
いて、あるスレッドのデータキャッシュアクセスミスの
際に、データの実体のあるデータキャッシュからデータ
を読み込むと同時に、読み出しを行ったデータキャッシ
ュに要求元の演算ユニットを特定する値を転送し、読み
出しを行ったデータキャッシュに対応する命令メモリ
に、演算ユニットを特定する値を含むデータフロー予測
情報を書き込むことを特徴とするプロセッサ。
【請求項１８】命令キャッシュメモリを複数有するＰＭ
Ｔ方式プロセッサにおいて、あるスレッドが、次に実行
すべき命令を検索するためにキャッシュメモリにアクセ
スを行い、命令が格納されている命令キャッシュメモリ
を下位のキャッシュのディレクトリ情報から特定し、前
記命令キャッシュメモリに接続された演算ユニットにス
レッドを移動することを特徴とし、複数のスレッドが同
一の命令キャッシュメモリを利用することを特徴とする
プロセッサ。
【請求項１９】ＰＭＴ方式プロセッサにおいて、キャッ
シュメモリのアドレスを仮想アドレスとすることで、キ
ャッシュメモリ上にはないデータへのアクセスに限って
仮想記憶機構にデータを伝送し、仮想アドレスを物理ア
ドレスに変換して物理アドレスメモリに書き戻すことを
特徴とするプロセッサ。
【請求項２０】ＰＭＴ方式プロセッサにおいて、アドレ
ス値を入力して、格納されたアドレス値に対する特定の
スレッドを生起することを特徴とするデータフロー同期
検出ユニットを有し、キャッシからの読み込み要求に対
して、データフロー同期検出ユニットが指定したアドレ
スとの一致を判定し、一致するアドレスを含む場合はキ
ャッシュに共有状態を示す値を設定することを特徴とす
るプロセッサ。
【請求項２１】請求項２０の特徴を持つプロセッサにお
いて、データキャッシュ内部で共有状態に設定されてい
るアドレスへのアクセスに対して、ディレクトリの示す
ユニットにアクセスを通知することで、最終的にデータ
フロー同期ユニットにアドレス値を伝達することを特徴
とし、データフロー同期ユニットが伝達されたアドレス
値に対応するスレッドを生起することを特徴とするプロ
セッサ。
【請求項２２】ＰＭＴ方式プロセッサにおいて、スレッ
ドは同期命令の発行時に停止し、他のすべてのスレッド
の、同期命令実行前に行われたストア命令のデータ転送
を待ち、すべてのデータが自身のキャッシュに転送され
た時点でスレッドを再開することを特徴とするプロセッ
サ。
【請求項２３】請求項２１のプロセッサにおいて、特定
アドレスへのアクセスを検出する命令の発行によって、
自分のスレッドの状態をデータフロー同期ユニットに自
動的に伝達し、データフロー同期ユニットにおける特定
のアドレスへのアクセスの検出によって自分のスレッド
を再開することを特徴とするＰＭＴ型プロセッサ。
【請求項２４】ＰＭＴ方式プロセッサにおいて、１つの
グローバル仮想記憶機構と複数のローカル仮想記憶機構
を有し、複数のローカル仮想記憶機構がグローバル仮想
記憶の値の一部を有することを特徴とし、グローバル仮
想記憶機構の値の改変に対して複数のローカル仮想記憶
機構に対して改変を伝達することを特徴とするプロセッ
サ。
【請求項２５】ＰＭＴ方式プロセッサにおいて、内部の
ユニット間で伝達する制御信号を、伝送先を示すアドレ
ス値とともにまとめたパケットを利用して転送すること
を特徴とし、複数の制御信号を入力して、複数の制御信
号の中から伝送相手に応じて選択して出力するパケット
ルーターを複数有し、ある演算ユニットからの要求を、
パケットに変換して複数のパケットルーターが中継し、
目的のユニットに伝達することを特徴とし、１つのユニ
ット間配線を複数の制御信号で共有することを特徴とす
るプロセッサ。
【請求項２６】請求項２５に記載された特徴を持つプロ
セッサにおいて、スレッドが特定のユニットに制御信号
を発信して、伝達したユニットから制御信号を受信する
制御パケットにおいて、制御パケットをスレッドの進行
方向と同一方向のパケットルーターに対して伝達するこ
とを特徴とし、制御パケットの伝達がスレッドの進行に
間に合わないことを検出した場合は、該当するスレッド
を即座に停止させることを特徴とするパケットルータ
ー。
【請求項２７】請求項２５に記載された特徴を持つプロ
セッサにおいて、特定の制御信号パケットの要求に対し
て、該当する回路ユニットは要求された内部状態を改
変、あるいは読み出して、制御信号を送信したユニット
に対して内部状態を転送することを特徴とするプロセッ
サ。
【請求項２８】ＰＭＴ方式プロセッサを複数個利用して
連結するシステムを構築する際に、プロセッサ間の転送
方向を固定として、プロセッサのスレッドの状態、デー
タをそのまま別のＰＭＴ方式プロセッサに伝送し、シス
テム全体でスレッドを巡回させることを特徴とするＰＭ
Ｔ方式プロセッサ。
【請求項２９】請求項２８に記載された特徴を持つプロ
セッサにおいて、直接連結されていないプロセッサ間で
独自にデータ転送を行うためのショートカットバスを設
け、遠距離のプロセッサ間の伝送にショートカットバス
を用いることを特徴とするプロセッサ。
【請求項３０】請求項２５に記載された特徴を持つパケ
ットルーターを有し、請求項２７に記載された特徴を持
つＰＭＴ方式プロセッサにおいて、複数のプロセッサの
全てのユニットをアドレス値で一意に特定する手段を持
ち、スレッドの発行する制御信号パケットを、制御信号
パケットの転送先アドレス値に応じて、外部のプロセッ
サ内部の該当するユニットに伝達することを特徴とする
プロセッサ。
【請求項３１】請求項３０に記載された特徴を持つプロ
セッサにおいて、それぞれのプロセッサが独自にメモリ
を接続することを特徴とし、各プロセッサが持つ仮想記
憶機構の内部に、指定されたページが外部のプロセッサ
のデータのコピーを格納していることを示す共有情報を
有することを特徴とし、プロセッサ内部からデータを読
み込む際に、読み込みアドレスが仮想記憶機構によって
共有状態を示す場合には、プロセッサ外にデータ読み込
み要求を行うことを特徴とし、プロセッサ内部からデー
タを書きこむ際に、書きこみアドレスが仮想記憶機構に
よって共有状態を示す場合には、プロセッサ外にデータ
の書きこみを通知することを特徴とするプロセッサ。