JP2024527169A

JP2024527169A - マルチストランドアウトオブオーダプロセッサにおいてリタイア可能な複数の命令を特定する命令及びロジック

Info

Publication number: JP2024527169A
Application number: JP2016576104A
Authority: JP
Inventors: コサレフ、ニコライ; ワイ．シシュロフ、セルゲイ; アイヤー、ジャイェシュ; ブツゾフ、アレクサンダー; エイ．ババヤン、ボリス; クルチニコフ、アンドレイ
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2013-12-23
Filing date: 2013-12-23
Publication date: 2024-07-22
Also published as: RU2644528C2; KR101898791B1; WO2015097494A1; US20160314000A1; DE112013007703T5; US10133582B2; CN105723329A; KR20160073417A; CN105723329B; RU2016119815A; EP3087473A1

Abstract

プロセッサは、命令ストリームをアウトオブオーダで実行する第１のロジックを含み、命令ストリームは、複数のストランドに分割され、命令ストリーム及び各ストランドは、プログラム順序（ＰＯ）によって順序付けられる。プロセッサは、命令ストリームにおいて最も古いディスパッチされていない命令を決定し、最も古いディスパッチされていない命令に関連付けられたＰＯ値を実行済み命令ポインタとしてストアする第２のロジックをさらに含む。命令ストリームは、ディスパッチされた命令及びディスパッチされていない命令を含む。プロセッサは、命令ストリームにおいて最も直近でリタイアした命令を決定し、最も直近でリタイアした命令に関連付けられたＰＯ値をリタイアメントポインタとしてストアする第３のロジックと、前記リタイアメントポインタ及び前記実行済み命令ポインタの間において複数の命令の範囲を選択する第４のロジックと、リタイア可能な命令の範囲を特定する第５のロジックと、をさらに含む。

Description

本開示は、処理ロジック、マイクロプロセッサ、及びプロセッサ又は他の処理ロジックによって実行された場合に論理的、数学的、又は他の機能的オペレーションを実行する関連する命令セットアーキテクチャの分野に関する。

マルチプロセッサシステムが、ますます一般的になってきている。マルチプロセッサシステムの用途は、動的ドメインのパーティショニングからデスクトップコンピューティングに至るまでの用途を含む。マルチプロセッサシステムを活用すべく、実行されるべきコードは、様々な処理エンティティによる実行のために、複数のスレッドに分離されてよい。各スレッドは、互いに並列に実行されてよい。さらに、処理エンティティの有用性を向上させるべく、アウトオブオーダ実行が用いられてよい。アウトオブオーダ実行は、複数の命令に必要な入力が利用可能となる場合に、このような命令を実行してよい。従って、コードシーケンスにおいて後で出現する命令は、コードシーケンスにおいて先に出現する命令より前に実行されてよい。

複数の実施形態が、添付図面の複数の図において、限定的ではなく、例として示される。

本開示の複数の実施形態に係る例示的なコンピュータシステムのブロック図であり、コンピュータシステムは、命令を実行する複数の実行ユニットを含んでよいプロセッサによって形成される。

本開示の複数の実施形態に係るデータ処理システムを示す。

文字列比較オペレーションを実行するデータ処理システムの複数の他の実施形態を示す。

本開示の複数の実施形態に係るプロセッサのマイクロアーキテクチャのブロック図であり、プロセッサは、複数の命令を実行する複数のロジック回路を含んでよい。

本開示の複数の実施形態に係る複数のマルチメディアレジスタにおける様々なパックドデータ型の表現を示す。

本開示の複数の実施形態に係る適用可能な複数のレジスタ内データストレージフォーマットを示す。

本開示の複数の実施形態に係る複数のマルチメディアレジスタにおける様々な符号付き及び符号なしパックドデータ型の表現を示す。

オペレーション符号化フォーマットの実施形態を示す。

本開示の複数の実施形態に係る４０又はそれより多くのビットを有する他の適用可能なオペレーション符号化フォーマットを示す。

本開示の複数の実施形態に係るさらに他の適用可能なオペレーション符号化フォーマットを示す。

本開示の複数の実施形態に係るインオーダパイプライン及びレジスタリネーミングステージ、アウトオブオーダ発行／実行パイプラインを示すブロック図である。

本開示の複数の実施形態に係るプロセッサに含まれるべきインオーダアーキテクチャコア及びレジスタリネーミングロジック、アウトオブオーダ発行／実行ロジックを示すブロック図である。

本開示の複数の実施形態に係るプロセッサのブロック図である。

本開示の複数の実施形態に係るコアの例示的な実装のブロック図である。

本開示の複数の実施形態に係るシステムのブロック図である。

本開示の複数の実施形態に係る第２のシステムのブロック図である。

本開示の複数の実施形態に係る第３のシステムのブロック図である。

本開示の複数の実施形態に係るシステムオンチップのブロック図である。

本開示の複数の実施形態に係る少なくとも１つの命令を実行可能な中央処理装置及び画像処理ユニットを含むプロセッサを示す。

本開示の複数の実施形態に係る複数のＩＰコアの開発を示すブロック図である。

本開示の複数の実施形態に係る第１の型の命令が異なる型のプロセッサによってどのようにエミュレートされ得るかを示す。

本開示の複数の実施形態に係るソース命令セットにおける複数のバイナリ命令をターゲット命令セットにおける複数のバイナリ命令に変換するソフトウェア命令コンバータの利用を対比したブロック図を示す。

本開示の複数の実施形態に係るプロセッサの命令セットアーキテクチャのブロック図である。

本開示の複数の実施形態に係るプロセッサの命令セットアーキテクチャのより詳細なブロック図である。

本開示の複数の実施形態に係るプロセッサの実行パイプラインのブロック図である。

本開示の複数の実施形態に係るプロセッサを用いる電子デバイスのブロック図である。

本開示の複数の実施形態に係るリタイア可能な複数の命令を特定する命令及びロジックを実装する例示的なシステムを示す。

本開示の複数の実施形態に係るリタイア可能な複数の命令を特定する命令及びロジックを実装するシステムのより詳細な図を示す。本開示の複数の実施形態に係るリタイア可能な複数の命令を特定する命令及びロジックを実装するシステムのより詳細な図を示す。本開示の複数の実施形態に係るリタイア可能な複数の命令を特定する命令及びロジックを実装するシステムのより詳細な図を示す。本開示の複数の実施形態に係るリタイア可能な複数の命令を特定する命令及びロジックを実装するシステムのより詳細な図を示す。本開示の複数の実施形態に係るリタイア可能な複数の命令を特定する命令及びロジックを実装するシステムのより詳細な図を示す。

本開示の複数の実施形態に係る複数のストランド中における最小プログラム順序値を決定するハードウェアロジックの例を示す。

本開示の複数の実施形態に係るリタイア可能な複数の命令を特定する例示的な方法の図である。

以下の説明は、プロセッサ、仮想プロセッサ、パッケージ、コンピュータシステム、もしくは他の処理装置内における、又はこれらに関連付けられた、リタイア可能な複数の命令を特定する命令及び処理ロジックを説明する。このような処理装置は、アウトオブオーダプロセッサを含んでよい。さらに、このような処理装置は、マルチストランドアウトオブオーダプロセッサを含んでよい。以下の説明において、本開示の複数の実施形態に対するより十分な理解を提供すべく、処理ロジック、プロセッサタイプ、マイクロアーキテクチャ条件、イベント、実施可能メカニズム等のような多数の具体的な詳細が示される。しかしながら、当業者によれば、このような具体的な詳細がなくても、複数の実施形態が実施可能であることが理解されよう。さらに、本開示の複数の実施形態を不必要に不明瞭とすることを回避すべく、いくつかの周知構造、回路等は、詳細には示されていない。

以下の複数の実施形態は、プロセッサを参照して説明されるが、複数の他の実施形態は、複数の他のタイプの集積回路及びロジックデバイスに適用可能である。本開示の複数の実施形態の同様の技術及び教示は、より高いパイプラインスループット及び改善された性能からの利益を享受し得る他のタイプの回路又は半導体デバイスに適用されてよい。本開示の複数の実施形態の教示は、複数のデータ操作を実行する任意のプロセッサ又は機械に適用可能である。しかしながら、複数の実施形態は、５１２ビット、２５６ビット、１２８ビット、６４ビット、３２ビット、又は１６ビットのデータオペレーションを実行するプロセッサ又は機械に限定されるものではなく、データの操作又は管理が実行可能な任意のプロセッサ及び機械に適用されてよい。さらに、以下の説明は複数の例を提供し、複数の添付図面は、例示目的のために様々な例を示す。しかしながら、これらの例は、本開示の複数の実施形態の全ての適用可能な実装を網羅的に列挙するのではなく、単に、本開示の複数の実施形態の複数の例を提供することを意図するものであるから、限定的な意味で解釈されるべきではない。

以下の複数の例は、複数の実行ユニット及びロジック回路との関連で命令処理及び分散を説明するが、本開示の他の複数の実施形態は、有形の機械可読媒体にストアされたデータ又は命令であって、機械によって実行された場合に、本開示の少なくとも１つの実施形態に整合する複数の機能を当該機械に実行させるデータ又は命令を用いて実現されてよい。一実施形態において、本開示の複数の実施形態に関連する複数の機能は、機械で実行可能な複数の命令で具現化される。複数の命令は、当該複数の命令と共にプログラミング可能な汎用又は特定用途向けプロセッサに、本開示の複数の段階を実行させるために用いられてよい。本開示の複数の実施形態は、コンピュータプログラム製品又はソフトウェアとして提供されてよく、これらは、本開示の複数の実施形態に従って１つ又は複数のオペレーションを実行するようにコンピュータ（又は他の電子デバイス）をプログラミングするように利用可能な複数の命令をストアした機械又はコンピュータ可読媒体を含んでよい。さらに、本開示の複数の実施形態の複数の段階は、当該段階を実行する固定機能ロジックを含む具体的なハードウェアコンポーネントによって、又はプログラミングされたコンピュータコンポーネント及び固定機能ハードウェアコンポーネントの任意の組み合わせによって、実行されてよい。

本開示の複数の実施形態を実行するロジックをプログラミングするために用いられる複数の命令は、ＤＲＡＭ、キャッシュ、フラッシュメモリ、又は他のストレージのようなシステムのメモリ内にストアされてよい。さらに、複数の命令は、ネットワークを介して又は他のコンピュータ可読媒体を用いて、分散されてよい。従って、機械可読媒体は、機械（例えばコンピュータ）可読形式で情報をストア又は送信する任意のメカニズムを含んでよく、限定されるものではないが、フロッピ（登録商標）ディスク、光ディスク、コンパクトディスク、リードオンリメモリ（ＣＤ－ＲＯＭ）、及び光磁気ディスク、リードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、磁気又は光カード、フラッシュメモリ、又は電気、光、音響形態もしくは他の形態の伝搬信号（例えば、複数の搬送波、赤外線信号、デジタル信号等）を介してのインターネット経由による情報送信に用いられる有形の機械可読ストレージである。従って、コンピュータ可読媒体は、複数の電子的命令又は情報を機械（例えばコンピュータ）可読形式でストア又は送信することに適した任意のタイプの有形の機械可読媒体を含んでよい。

設計は、形成からシミュレーション、製造まで、様々なステージを経ることがある。設計を表すデータは、多数の態様で当該設計を表してよい。第１に、シミュレーションにおいて有用たり得るが、ハードウェアは、ハードウェア記述言語又は他の機能的記述言語を用いて表されてよい。さらに、ロジック及び／又は複数のトランジスタゲートを有する回路レベルモデルは、設計処理のいくつかのステージにおいて生成されてよい。さらに、複数の設計は、いくつかのステージにおいて、ハードウェアモデルにおける様々なデバイスの物理的配置を表すデータのレベルに到達してよい。いくつかの半導体製造技術が用いられる場合、ハードウェアモデルを表すデータが、集積回路の製造に用いられる複数のマスクに対する異なるマスクレイヤにおける様々な機能の存在又は不存在を指定するデータであってよい。設計の任意の表現において、データは、任意の形式の機械可読媒体にストアされてよい。メモリ又はディスクのような磁気もしくは光ストレージは、変調もしくは他の方法で生成された光又は電気波を介して送信された情報をストアし、このような情報を送信する、機械可読媒体であってよい。コード又は設計を示す又は搬送する電気搬送波が、電気信号のコピー、バッファ、又は再送信が実行される程度に送信された場合、新たなコピーが生成され得る。従って、通信プロバイダ又はネットワークプロバイダは、有形の機械可読媒体に、少なくとも一時的に、搬送波に符号化された情報のような項目をストアしてよく、本開示の複数の実施形態の複数の技術を具現化する。

近年のプロセッサにおいては、多数の異なる実行ユニットが、様々なコード及び命令を処理及び実行するために用いられてよい。いくつかの命令は、より迅速に完了し得るが、他の複数の命令は、完了までに多数のクロックサイクルを費やすことがある。複数の命令のスループットがより高速であればあるほど、プロセッサの全体的な性能がより良好となる。従って、多数の命令を可能な限り高速で実行させると有利になろう。しかしながら、浮動小数点命令、ロード／ストアオペレーション、データ移動等のような、より複雑で、実行時間及びプロセッサリソースに関してより要求の多い特定の命令が存在することがある。

インターネット、テキスト、及びマルチメディアアプリケーションにおいては、より多くのコンピュータシステムが用いられるため、追加のプロセッササポートが、徐々に導入されている。一実施形態において、命令セットは、データ型、命令、レジスタアーキテクチャ、アドレス指定モード、メモリアーキテクチャ、割り込み及び例外処理、ならびに外部入出力（Ｉ／Ｏ）を含む１つ又は複数のコンピュータアーキテクチャに関連付けられてよい。

一実施形態において、命令セットアーキテクチャ（ＩＳＡ）は、１つ又は複数の命令セットを実装するために用いられるプロセッサロジック及び複数の回路を含み得る１つ又は複数のマイクロアーキテクチャによって実装されてよい。従って、複数の異なるマイクロアーキテクチャを有するプロセッサは、共通の命令セットの少なくとも一部を共有してよい。例えば、インテル（登録商標）Ｐｅｎｔｉｕｍ（登録商標）４プロセッサ、インテル（登録商標）コア（商標）プロセッサ、及びカリフォルニア州サニーベールのアドバンストマイクロデバイセズ社のプロセッサは、ｘ８６命令セット（複数のより新たなバージョンに追加されたいくつかの拡張を伴う）のほぼ同一バージョンを実装するが、複数の異なる内部設計を有する。同様に、ＡＲＭホールディングス、ＭＩＰＳのような他のプロセッサ開発会社、又はこれらの複数のラインセンシもしくは利用者によって設計された複数のプロセッサは、共通の命令セットの少なくとも一部を共有してよいが、複数の異なるプロセッサ設計を含んでよい。例えば、ＩＳＡの同じレジスタアーキテクチャは、専用物理レジスタ、レジスタリネーミングメカニズムを用いる（例えば、レジスタエイリアステーブル（ＲＡＴ）、リオーダバッファ（ＲＯＢ）、及びリタイアメントレジスタファイルを用いる）１つ又は複数の動的に割り当てられた物理レジスタを含む、新規又は周知技術を用いる異なる複数のマイクロアーキテクチャにおいて、異なる複数の態様で実装されてよい。一実施形態において、複数のレジスタは、ソフトウェアプログラマによってアドレス指定可能であってよく、又はアドレス指定可能でなくてもよい、１つ又は複数のレジスタ、レジスタアーキテクチャ、レジスタファイル、又は他のレジスタセットを含んでよい。

命令は、１つ又は複数の命令フォーマットを含んでよい。一実施形態において、命令フォーマットは、実行されるべきオペレーション及び当該オペレーションが実行される複数のオペランドを、他の複数のものの中から指定する様々なフィールド（ビット数、ビット位置等）を示してよい。さらなる実施形態において、いくつかの命令フォーマットは、複数の命令テンプレート（又はサブフォーマット）によってさらに定義されてよい。例えば、所与の命令フォーマットの複数の命令テンプレートは、命令フォーマットのフィールドの異なる複数のサブセットを有するように定義されてよく、及び／又は、異なるように解釈される所与のフィールドを有するように定義されてよい。一実施形態において、命令は、命令フォーマットを用いて（かつ、定義される場合には、当該命令フォーマットの複数の命令テンプレートのうち１つにおいて）表されてよく、オペレーション及び当該オペレーションが動作する複数のオペランドを指定する又は示す。

科学的、財務、自動ベクトル化汎用、ＲＭＳ（認識、マイニング、及び合成）、及び視覚的ならびにマルチメディアアプリケーション（例えば、２Ｄ／３Ｄグラフィック、画像処理、ビデオ圧縮／圧縮解除、音声認識アルゴリズム及びオーディオ操作）は、多数のデータアイテムに同じオペレーションが実行されることを要求してよい。一実施形態において、単一命令複数データ（ＳＩＭＤ）は、プロセッサに複数のデータエレメントにおけるオペレーションを実行させる命令のタイプを指す。ＳＩＭＤ技術は、レジスタの複数のビットを多数の固定サイズ又は可変サイズのデータエレメントに論理的に分割し得るプロセッサにおいて用いられてよく、各データエレメントは、別個の値を表す。例えば、一実施形態において、６４ビットレジスタの複数のビットは、その各々が別個の１６ビット値を表す４つの別個の１６ビットデータエレメントを含むソースオペランドとして編成されてよい。このタイプのデータは、「パックド」データ型又は「ベクトル」データ型と称されてよく、このデータ型の複数のオペランドは、パックドデータオペランド又はベクトルオペランドと称されてよい。一実施形態において、パックドデータアイテム又はベクトルは、単一のレジスタ内にストアされた複数のパックドデータエレメントのシーケンスであってよく、パックドデータオペランド又はベクトルオペランドは、ＳＩＭＤ命令（もしくは「パックドデータ命令」又は「ベクトル命令」）のソース又はデスティネーションオペランドであってよい。一実施形態において、ＳＩＭＤ命令は、同じ又は異なるサイズ、同じ又は異なる数のデータエレメントを有するデスティネーションベクトルオペランド（又は結果ベクトルオペランドとも称される）を同じ又は異なるデータエレメント順序で生成すべく、２つのソースベクトルオペランドに対して実行されるべき単一のベクトルオペレーションを指定する。

ｘ８６、ＭＭＸ（商標）、ＳｔｒｅａｍｉｎｇＳＩＭＤＥｘｔｅｎｓｉｏｎｓ（ＳＳＥ）、ＳＳＥ２、ＳＳＥ３、ＳＳＥ４．１、及びＳＳＥ４．２命令を含む命令セットを有するインテル（登録商標）コア（商標）プロセッサ、ＶｅｃｔｏｒＦｌｏａｔｉｎｇＰｏｉｎｔ（ＶＦＰ）及び／又はＮＥＯＮ命令を含む命令セットを有するＡＲＭＣｏｒｔｅｘ（登録商標）ファミリのプロセッサのようなＡＲＭプロセッサ、及び中国科学院のコンピューティング技術研究所（ＩＣＴ）によって開発された龍芯（Ｌｏｏｎｇｓｏｎ）ファミリのプロセッサのようなＭＩＰＳプロセッサなどによって採用されるＳＩＭＤ技術は、アプリケーション性能における著しい向上を可能にした（コア（商標）及びＭＭＸ（商標）はカリフォルニア州サンタクララのインテルコーポレーションの登録商標又は商標である）。

一実施形態において、デスティネーション及びソースレジスタ／データは、対応するデータ又はオペレーションのソース及びデスティネーションを表す一般的な用語であってよい。いくつかの実施形態において、これらは、複数のレジスタ、メモリ、又は示されたもの以外の他の名称又は機能を有する他のストレージ領域で実装されてよい。例えば、一実施形態において、「ＤＥＳＴ１」は一時的なストレージレジスタ又は他のストレージ領域であってよいが、「ＳＲＣ１」及び「ＳＲＣ２」は、第１及び第２のソースストレージレジスタ又は他のストレージ領域等であってよい。複数の他の実施形態において、ＳＲＣ及びＤＥＳＴストレージ領域のうち２つ又はそれより多くは、同じストレージ領域（例えば、ＳＩＭＤレジスタ）内の複数の異なるデータストレージエレメントに対応してよい。一実施形態において、例えば、第１及び第２のソースデータに対して実行されたオペレーションの結果を、デスティネーションレジスタとして機能する２つのソースレジスタのうち１つにライトバックすることによって、ソースレジスタのうち１つがデスティネーションレジスタとして動作してもよい。

図１Ａは、本開示の複数の実施形態に係る例示的なコンピュータシステムのブロック図であり、コンピュータシステムは、命令を実行する複数の実行ユニットを含み得るプロセッサによって形成される。システム１００は、本明細書において説明される実施形態のように、本開示に係る複数のデータ処理アルゴリズムを実行するロジックを含む複数の実行ユニットを用いるプロセッサ１０２のようなコンポーネントを含んでよい。システム１００は、カリフォルニア州サンタクララのインテルコーポレーションから入手可能なＰＥＮＴＩＵＭ（登録商標）ＩＩＩ、ＰＥＮＴＩＵＭ（登録商標）４、Ｘｅｏｎ（商標）、Ｉｔａｎｉｕｍ（登録商標）、ＸＳｃａｌｅ（商標）及び／又はＳｔｒｏｎｇＡＲＭ（商標）マイクロプロセッサに基づく処理システムの代表的なものであってよいが、複数の他のシステム（他のマイクロプロセッサ、エンジニアリングワークステーション、セットトップボックス等を有するＰＣを含む）も用いられてよい。一実施形態において、サンプルのシステム１００は、ワシントン州レドモンド市のマイクロソフトコーポレーションから入手可能なＷＩＮＤＯＷＳ（登録商標）オペレーティングシステムのバージョンを実行してよいが、他の複数のオペレーティングシステム（例えば、ＵＮＩＸ（登録商標）及びＬｉｎｕｘ（登録商標））、組み込みソフトウェア、及び／又はグラフィカルユーザインタフェースも用いられてよい。従って、本開示の複数の実施形態は、ハードウェア回路及びソフトウェアのいずれの具体的な組み合わせにも限定されるものではない。

複数の実施形態は、コンピュータシステムに限定されるものではない。本開示の複数の実施形態は、ハンドヘルドデバイスのような他の複数のデバイス及び組み込みアプリケーションにおいて用いられてよい。ハンドヘルドデバイスのいくつかの例は、携帯電話、インターネットプロトコルデバイス、デジタルカメラ、パーソナルデジタルアシスタント（ＰＤＡ）及びハンドヘルドＰＣを含む。組み込みアプリケーションは、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、システムオンチップ、ネットワークコンピュータ（ＮｅｔＰＣ）、セットトップボックス、ネットワークハブ、ワイドエリアネットワーク（ＷＡＮ）スイッチ、又は少なくとも１つの実施形態に係る１つ又は複数の命令を実行可能な任意の他のシステムを含んでよい。

コンピュータシステム１００は、本開示の一実施形態に係る少なくとも１つの命令を実行するアルゴリズムを実行する１つ又は複数の実行ユニット１０８を含み得るプロセッサ１０２を含んでよい。一実施形態は、シングルプロセッサのデスクトップ又はサーバシステムとの関連で説明されてよいが、複数の他の実施形態が、マルチプロセッサシステムに含まれてよい。システム１００は、「ハブ」システムアーキテクチャの例であってよい。システム１００は、複数のデータ信号を処理するプロセッサ１０２を含んでよい。プロセッサ１０２は、複合命令セットコンピュータ（ＣＩＳＣ）マイクロプロセッサ、縮小命令セットコンピューティング（ＲＩＳＣ）マイクロプロセッサ、超長命令語（ＶＬＩＷ）マイクロプロセッサ、複数の命令セットの組み合わせを実装するプロセッサ、又は、例えばデジタル信号プロセッサのような任意の他のプロセッサデバイスを含んでよい。一実施形態において、プロセッサ１０２は、プロセッサ１０２とシステム１００の複数の他のコンポーネントとの間で複数のデータ信号を送信可能なプロセッサバス１１０に連結されてよい。システム１００の複数のエレメントは、当業者にとって周知の従来的な複数の機能を実行してよい。

一実施形態において、プロセッサ１０２は、一次（Ｌ１）内部キャッシュメモリ１０４を含んでよい。アーキテクチャに応じて、プロセッサ１０２は、単一の内部キャッシュ又は複数のレベルの内部キャッシュを有してよい。他の実施形態において、キャッシュメモリは、プロセッサ１０２の外部に存在してよい。複数の他の実施形態は、特定の実装及び必要性に応じて、内部及び外部キャッシュの両方の組み合わせをさらに含んでよい。レジスタファイル１０６は、複数の異なる型のデータを、整数レジスタ、浮動小数点レジスタ、ステータスレジスタ、及び命令ポインタレジスタを含む様々なレジスタにストアしてよい。

整数及び浮動小数点オペレーションを実行するロジックを含む実行ユニット１０８は、プロセッサ１０２にも存在する。プロセッサ１０２は、複数の特定のマクロ命令に対するマイクロコードをストアするマイクロコード（μコード）ＲＯＭをさらに含んでよい。一実施形態において、実行ユニット１０８は、パックド命令セット１０９を処理するロジックを含んでよい。パックド命令セット１０９を汎用プロセッサ１０２の命令セットに含めることによって、複数の命令を実行する関連する回路と共に、多くのマルチメディアアプリケーションによって用いられる複数のオペレーションは、汎用プロセッサ１０２のパックドデータを用いて実行されてよい。従って、多くのマルチメディアアプリケーションは、パックドデータに対して複数のオペレーションを実行するプロセッサのデータバスの全幅を用いることによって、より効率的に加速及び実行され得る。これにより、プロセッサのデータバスに亘って、複数のより小さいデータ単位を転送する必要性を取り除くことができ、１つのデータエレメントに対して一度に１つ又は複数のオペレーションを実行することができる。

実行ユニット１０８の複数の実施形態は、マイクロコントローラ、組み込みプロセッサ、グラフィックデバイス、ＤＳＰ、及び他のタイプのロジック回路において用いられてもよい。システム１００は、メモリ１２０を含んでよい。メモリ１２０は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）デバイス、スタティックランダムアクセスメモリ（ＳＲＡＭ）デバイス、フラッシュメモリデバイス、又は他メモリデバイスとして実装されてよい。メモリ１２０は、複数のデータ信号によって表される、プロセッサ１０２によって実行可能な複数の命令及び／又はデータをストアしてよい。

システムロジックチップ１１６は、プロセッサバス１１０及びメモリ１２０に連結されてよい。システムロジックチップ１１６は、メモリコントローラハブ（ＭＣＨ）を含んでよい。プロセッサ１０２は、プロセッサバス１１０を介してＭＣＨ１１６と通信を行ってよい。ＭＣＨ１１６は、命令及びデータストレージのため、かつ、グラフィックコマンド、データ及びテクスチャのストレージのために、メモリ１２０への高帯域幅メモリパス１１８を提供してよい。ＭＣＨ１１６は、プロセッサ１０２、メモリ１２０、及びシステム１００の複数の他のコンポーネントの間で複数のデータ信号を方向付けし、プロセッサバス１１０、メモリ１２０、及びシステムＩ／Ｏ１２２の間で複数のデータ信号を橋渡ししてよい。いくつかの実施形態において、システムロジックチップ１１６は、グラフィックコントローラ１１２に連結するためのグラフィックポートを提供してよい。ＭＣＨ１１６は、メモリインタフェース１１８を通してメモリ１２０に連結されてよい。グラフィックカード１１２は、加速グラフィックポート（ＡＧＰ）相互接続１１４を通してＭＣＨ１１６に連結されてよい。

システム１００は、プロプライエタリハブインタフェースバス１２２を用いて、ＭＣＨ１１６をＩ／Ｏコントローラハブ（ＩＣＨ）１３０に連結してよい。一実施形態において、ＩＣＨ１３０は、ローカルＩ／Ｏバスを介して、いくつかのＩ／Ｏデバイスへの直接接続を提供してよい。ローカルＩ／Ｏバスは、複数の周辺機器をメモリ１２０、チップセット、及びプロセッサ１０２に接続する高速Ｉ／Ｏバスを含んでよい。複数の例は、オーディオコントローラ、ファームウェアハブ（フラッシュＢＩＯＳ）１２８、無線送受信機１２６、データストレージ１２４、ユーザ入力及びキーボードインタフェースを含むレガシＩ／Ｏコントローラ、ユニバーサルシリアルバス（ＵＳＢ）のようなシリアル拡張ポート、ならびにネットワークコントローラ１３４を含んでよい。データストレージデバイス１２４は、ハードディスクドライブ、フロッピ（登録商標）ディスクドライブ、ＣＤ‐ＲＯＭデバイス、フラッシュメモリデバイス、又は他の大容量ストレージデバイスを備えてよい。

システムの他の実施形態に対して、一実施形態に係る命令は、システムオンチップによって用いられてよい。システムオンチップの一実施形態は、プロセッサ及びメモリを備える。１つのこのようなシステムのメモリは、フラッシュメモリを含んでよい。フラッシュメモリは、プロセッサ及び複数の他のシステムコンポーネントと同じダイ上に配置されてよい。さらに、メモリコントローラ又はグラフィックコントローラのような他のロジックブロックも、システムオンチップ上に配置されてよい。

図１Ｂは、本開示の複数の実施形態の複数の原理を実装するデータ処理システム１４０を示す。当業者によれば、本明細書において説明される複数の実施形態が、本開示の複数の実施形態の範囲から逸脱することなく、複数の代替的な処理システムによって動作可能であることが容易に理解されよう。

コンピュータシステム１４０は、一実施形態に係る少なくとも１つの命令を実行する処理コア１５９を備える。一実施形態において、処理コア１５９は、アーキテクチャの任意のタイプの処理ユニットを表し、限定されるものではないが、ＣＩＳＣ、ＲＩＳＣ又はＶＬＩＷタイプのアーキテクチャを含む。処理コア１５９は、１つ又は複数の処理技術における製造にも適していることがあり、機械可読媒体に十分詳細に表されることによって、当該製造を容易化するのに適していることがある。

処理コア１５９は、実行ユニット１４２、レジスタファイル１４５のセット、及びデコーダ１４４を備える。処理コア１５９は、追加の回路（不図示）をさらに含んでよいが、これは、本開示の複数の実施形態を理解するためには不要なことがある。実行ユニット１４２は、処理コア１５９によって受信された複数の命令を実行してよい。典型的な複数のプロセッサ命令の実行に加えて、実行ユニット１４２は、複数のパックドデータフォーマットにおいて複数のオペレーションを実行するパックド命令セット１４３の複数の命令を実行してよい。パックド命令セット１４３は、本開示の複数の実施形態及び他の複数のパックド命令を実行する複数の命令を含んでよい。実行ユニット１４２は、内部バスによってレジスタファイル１４５に連結されてよい。レジスタファイル１４５は、データを含む情報をストアする処理コア１５９におけるストレージ領域を表してよい。前述されたように、パックドデータをストア可能なストレージ領域は、重大ではないことが理解されよう。実行ユニット１４２は、デコーダ１４４に連結されてよい。デコーダ１４４は、処理コア１５９によって受信された複数の命令を、複数の制御信号及び／又はマイクロコードエントリポイントに復号してよい。これらの制御信号及び／又はマイクロコードエントリポイントに応答して、実行ユニット１４２は、複数の適切なオペレーションを実行する。一実施形態において、デコーダは、命令のオペコードを解釈してよく、オペコードは、命令内で示された対応するデータに対してどのオペレーションが実行されるべきかを示す。

処理コア１５９は、様々な他のシステムデバイスと通信を行うためのバス１４１に連結されてよい。これらの様々な他のシステムデバイスは、例えば、これらに限定されるものではないが、シンクロナスダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）制御部１４６、スタティックランダムアクセスメモリ（ＳＲＡＭ）制御部１４７、バーストフラッシュメモリインタフェース１４８、パーソナルコンピュータメモリカード国際協会（ＰＣＭＣＩＡ）／コンパクトフラッシュ（登録商標）（ＣＦ）カード制御部１４９、液晶ディスプレイ（ＬＣＤ）制御部１５０、ダイレクトメモリアクセス（ＤＭＡ）コントローラ１５１、及び代替的なバスマスターインタフェース１５２を含んでよい。一実施形態において、データ処理システム１４０は、Ｉ／Ｏバス１５３を介して様々なＩ／Ｏデバイスと通信を行うためのＩ／Ｏブリッジ１５４をさらに備えてよい。このような複数のＩ／Ｏデバイスは、例えば、限定されるものではないが、汎用非同期送受信機（ＵＡＲＴ）１５５、ユニバーサルシリアルバス（ＵＳＢ）１５６、Ｂｌｕｅｔｏｏｔｈ（登録商標）無線ＵＡＲＴ１５７、及びＩ／Ｏ拡張インタフェース１５８を含んでよい。

データ処理システム１４０の一実施形態は、モバイル、ネットワーク、及び／又は無線通信と、文字列比較オペレーションを含む複数のＳＩＭＤオペレーションを実行可能な処理コア１５９とを提供する。処理コア１５９は、ウォルシュアダマール変換、高速フーリエ変換（ＦＦＴ）、離散コサイン変換（ＤＣＴ）、及びこれらのそれぞれ逆変換、色空間変換、ビデオ符号化動作推定又はビデオ復号動作補償のような圧縮／圧縮解除技術、及びパルス符号変調（ＰＣＭ）のような変調／復調（ＭＯＤＥＭ）機能のような別個の複数の変換を含む、様々なオーディオ、ビデオ、イメージング及び通信アルゴリズムと共にプログラミングされてよい。

図１Ｃは、複数のＳＩＭＤ文字列比較オペレーションを実行するデータ処理システムの複数の他の実施形態を示す。一実施形態において、データ処理システム１６０は、メインプロセッサ１６６、ＳＩＭＤコプロセッサ１６１、キャッシュメモリ１６７、及び入出力システム１６８を含んでよい。入出力システム１６８は、任意に、無線インタフェース１６９に連結されてよい。ＳＩＭＤコプロセッサ１６１は、一実施形態に係る複数の命令を含む複数のオペレーションを実行してよい。一実施形態において、処理コア１７０は、１つ又は複数の処理技術で製造されることに適していることがあるが、機械可読媒体において十分詳細に表されることによって、処理コア１７０を含むデータ処理システム１６０の全て又は一部の製造を容易化するのに適していることがある。

一実施形態において、ＳＩＭＤコプロセッサ１６１は、実行ユニット１６２及びレジスタファイル１６４のセットを備える。メインプロセッサ１６５の一実施形態は、実行ユニット１６２による実行のために、一実施形態に係る複数の命令を含む命令セット１６３の複数の命令を認識するデコーダ１６５を備える。複数の他の実施形態において、ＳＩＭＤコプロセッサ１６１は、命令セット１６３の複数の命令を復号するデコーダ１６５の少なくとも一部をさらに備える。処理コア１７０は、追加の回路（不図示）をさらに含んでよいが、これは、本開示の複数の実施形態を理解するためには不要なことがある。

オペレーションにおいて、メインプロセッサ１６６は、キャッシュメモリ１６７及び入出力システム１６８とのインタラクションを含む一般的なタイプのデータ処理オペレーションを制御する複数のデータ処理命令のストリームを実行する。複数のデータ処理命令のストリーム内には、複数のＳＩＭＤコプロセッサ命令が組み込まれてよい。メインプロセッサ１６６のデコーダ１６５は、これらのＳＩＭＤコプロセッサ命令を、付属のＳＩＭＤコプロセッサ１６１によって実行されるべきタイプと認識する。従って、メインプロセッサ１６６は、これらのＳＩＭＤコプロセッサ命令（又は複数のＳＩＭＤコプロセッサ命令を表す制御信号）を、コプロセッサバス１６６において発行する。コプロセッサバス１６６から、これらの命令が、任意の付属のＳＩＭＤコプロセッサによって受信されてよい。この場合、ＳＩＭＤコプロセッサ１６１は、それ向けの、任意の受信されたＳＩＭＤコプロセッサ命令を受け付け及び実行してよい。

データは、複数のＳＩＭＤコプロセッサ命令による処理のために、無線インタフェース１６９を介して受信されてよい。一例では、音声通信が、デジタル信号の形態で受信されてよく、これは、複数の音声通信を表すデジタルオーディオサンプルを再生成すべく、複数のＳＩＭＤコプロセッサ命令によって処理されてよい。他の例では、圧縮されたオーディオ及び／又はビデオが、デジタルビットストリームの形態で受信されてよく、これは、複数のデジタルオーディオサンプル及び／又はモーションビデオフレームを再生成する複数のＳＩＭＤコプロセッサ命令によって処理されてよい。処理コア１７０の一実施形態において、メインプロセッサ１６６及びＳＩＭＤコプロセッサ１６１は、実行ユニット１６２、レジスタファイル１６４のセット、及び一実施形態に係る複数の命令を含む命令セット１６３の複数の命令を認識するデコーダ１６５を備える単一の処理コア１７０に集積されてよい。

図２は、本開示の複数の実施形態に係るプロセッサ２００のマイクロアーキテクチャのブロック図であり、当該プロセッサは、複数の命令を実行する複数のロジック回路を含んでよい。いくつかの実施形態において、一実施形態に係る命令は、バイト、ワード、ダブルワード、クワッドワード等のサイズと、単精度及び倍精度の整数及び浮動小数点のデータ型のようなデータ型とを有する複数のデータエレメントに対して動作するように実装されてよい。一実施形態において、インオーダフロントエンド２０１は、実行されるべき複数の命令をフェッチし、プロセッサパイプラインにおいて後に用いられるようにそれらの命令を準備するプロセッサ２００の一部を実装してよい。フロントエンド２０１は、いくつかのユニットを含んでよい。一実施形態において、命令プリフェッチャ２２６は、メモリからの複数の命令をフェッチし、次に当該命令を復号又は解釈する命令デコーダ２２８に、当該命令を供給する。例えば、一実施形態において、デコーダは、受信された命令を、機械により実行可能な「マイクロ命令」又は「マイクロオペレーション」と称される（マイクロｏｐ又はμｏｐとも称される）１つ又は複数のオペレーションとして復号する。複数の他の実施形態において、デコーダは、命令を、一実施形態に係る複数のオペレーションを実行するマイクロアーキテクチャによって利用可能なオペコード及び対応するデータならびに複数の制御フィールドに解析する。一実施形態において、トレースキャッシュ２３０は、復号された複数のμｏｐを、実行のために、μｏｐキュー２３４におけるプログラム順序付けシーケンス又はトレースに組み立ててよい。トレースキャッシュ２３０が複合命令に遭遇した場合、マイクロコードＲＯＭ２３２は、オペレーションを完了させるために必要な複数のμｏｐを提供する。

いくつかの命令は、単一のマイクロｏｐに変換されてよいが、複数の他の命令は、オペレーション全体を完了させるためにいくつかのマイクロｏｐを必要とする。一実施形態において、４つより多くのマイクロｏｐが命令完了のために必要な場合、デコーダ２２８は、マイクロコードＲＯＭ２３２にアクセスして命令を実行してよい。一実施形態において、命令は、命令デコーダ２２８における処理のために、少数のマイクロｏｐに復号されてよい。他の実施形態において、多数のマイクロｏｐがオペレーション実現のために必要な場合、命令は、マイクロコードＲＯＭ２３２内にストアされてよい。トレースキャッシュ２３０は、マイクロコードＲＯＭ２３２からの一実施形態に係る１つ又は複数の命令を完了させるべく、命令マイクロコードシーケンスを読み出すための正確なマイクロ命令ポインタを決定するエントリポイントプログラマブルロジックアレイ（ＰＬＡ）を指す。マイクロコードＲＯＭ２３２が命令に対する複数のマイクロｏｐのシーケンス処理を完了させた後、機械のフロントエンド２０１は、トレースキャッシュ２３０からの複数のマイクロｏｐのフェッチを再開してよい。

アウトオブオーダ実行エンジン２０３は、複数の命令を実行のために準備してよい。アウトオブオーダ実行ロジックは、多数のバッファを有し、これにより、複数の命令のフローを平滑化及びリオーダし、これらの命令がパイプラインを進み実行のためにスケジューリングされるにあたり、性能を最適化する。アロケータロジックは、実行のために各μｏｐが必要とする複数の機械バッファ及びリソースを割り当てる。レジスタリネーミングロジックは、複数のロジックレジスタをレジスタファイルの複数のエントリにリネーミングする。アロケータは、２つのμｏｐキューのうち１つにおいて、各μｏｐに対してエントリをさらに割り当てる。これらのμｏｐキューは、複数の命令スケジューラの前において、１つが複数のメモリオペレーション用、１つが非メモリオペレーション用である。複数の命令スケジューラは、メモリスケジューラ、高速スケジューラ２０２、低速／一般的浮動小数点スケジューラ２０４、及び単純浮動小数点スケジューラ２０６である。μｏｐスケジューラ２０２、２０４、２０６は、これらの従属入力レジスタオペランドソースの準備完了と、複数のμｏｐがこれらのオペレーション完了のために必要とする複数の実行リソースの可用性に基づいて、μｏｐが実行準備完了となるタイミングを決定する。一実施形態の高速スケジューラ２０２は、メインクロックサイクルの各半分に対してスケジューリングしてよく、他の複数のスケジューラは、メインプロセッサクロックサイクル毎に一度だけスケジューリングしてよい。複数のスケジューラは、実行のために複数のμｏｐをスケジューリングする複数のディスパッチポートを調整する。

レジスタファイル２０８、２１０は、スケジューラ２０２、２０４、２０６と実行ブロック２１１の実行ユニット２１２、２１４、２１６、２１８、２２０、２２２、２２４との間に構成されてよい。レジスタファイル２０８、２１０の各々は、それぞれ整数及び浮動小数点オペレーションを実行する。各レジスタファイル２０８、２１０は、レジスタファイルにまだ書き込まれていない完了したばかりの結果を、複数の新たな従属μｏｐに迂回させ又は転送し得るバイパスネットワークを含んでよい。整数レジスタファイル２０８及び浮動小数点レジスタファイル２１０は、他とデータ通信を行ってよい。一実施形態において、整数レジスタファイル２０８は、２つの別個のレジスタファイルに分割されてよく、そのうち１つのレジスタファイルはデータの下位３２ビット用であり、第２のレジスタファイルは、データの上位３２ビット用である。ファイル２１０の浮動小数点レジスタは、１２８ビット幅の複数のエントリを含んでよく、なぜなら、浮動小数点命令が、典型的には６４から１２８ビット幅のオペランドを有するからである。

実行ブロック２１１は、実行ユニット２１２、２１４、２１６、２１８、２２０、２２２、２２４を含んでよい。実行ユニット２１２、２１４、２１６、２１８、２２０、２２２、２２４は、複数の命令を実行してよい。実行ブロック２１１は、複数のマイクロ命令が実行する必要のある整数及び浮動小数点データオペランド値をストアするレジスタファイル２０８、２１０を含んでよい。一実施形態において、プロセッサ２００は、多数の実行ユニットを備えてよく、これらは、アドレス生成ユニット（ＡＧＵ）２１２、ＡＧＵ２１４、高速ＡＬＵ２１６、高速ＡＬＵ２１８、低速ＡＬＵ２２０、浮動小数点ＡＬＵ２２２、浮動小数点移動ユニット２２４である。他の実施形態において、浮動小数点実行ブロック２２２、２２４は、浮動小数点、ＭＭＸ、ＳＩＭＤ、及びＳＳＥ、又は他の複数のオペレーションを実行してよい。さらに他の実施形態において、除算、平方根、及び残りのマイクロｏｐを実行する浮動小数点ＡＬＵ２２２は、６４ビット対６４ビットの浮動小数点除算器を含んでよい。様々な実施形態において、浮動小数点値を含む複数の命令は、浮動小数点ハードウェアによって処理されてよい。一実施形態において、複数のＡＬＵオペレーションは、高速ＡＬＵ実行ユニット２１６、２１８に渡されてよい。高速ＡＬＵ２１６、２１８は、有効レイテンシが半クロックサイクルの高速オペレーションを実行してよい。一実施形態において、ほとんどの複雑な整数オペレーションは、低速ＡＬＵ２２０に進む。なぜなら、低速ＡＬＵ２２０は、乗算器、シフト、フラグロジック、及び分岐処理のようなレイテンシが長いタイプのオペレーション用の整数実行ハードウェアを含んでよいからである。メモリロード／ストアオペレーションは、ＡＧＵ２１２、２１４によって実行されてよい。一実施形態において、整数ＡＬＵ２１６、２１８、２２０は、６４ビットデータオペランドに対して複数の整数オペレーションを実行してよい。他の実施形態において、ＡＬＵ２１６、２１８、２２０は、１６、３２、１２８、２５６等のサイズを含む様々なデータビットサイズをサポートするように実装されてよい。同様に、浮動小数点ユニット２２２、２２４は、様々な幅のビットを有するオペランドの範囲をサポートするように実装されてよい。一実施形態において、浮動小数点ユニット２２２、２２４は、ＳＩＭＤ及びマルチメディア命令と併せて、１２８ビット幅パックドデータオペランドに対して動作してよい。

一実施形態において、μｏｐスケジューラ２０２、２０４、２０６は、親ロードの実行終了前に、複数の従属オペレーションをディスパッチする。複数のμｏｐは、プロセッサ２００において推測によりスケジューリング及び実行されてよいため、プロセッサ２００は、メモリ誤りを処理するロジックをさらに含んでよい。データキャッシュにおいてデータロードの誤りが発生した場合、スケジューラを一時的に誤ったデータを有する状態で残したパイプラインに、複数の従属オペレーションが実行中の状態で存在することがある。再生メカニズムは、誤ったデータを用いた複数の命令を追跡及び再実行する。複数の従属オペレーションのみが、再生されることを必要とすることがあり、複数の独立オペレーションは、完了可能であってよい。プロセッサの一実施形態の複数のスケジューラ及び再生メカニズムは、文字列比較オペレーションのための複数の命令シーケンスを捕捉するように設計されてもよい。

「レジスタ」という用語は、オペランドを特定する命令の一部として利用可能なオンボードプロセッサストレージ位置を指してよい。換言すると、レジスタは、（プログラマの観点から）プロセッサの外部から利用可能たり得るものであってよい。しかしながら、いくつかの実施形態において、レジスタは、特定のタイプの回路に限定されなくてよい。むしろ、レジスタは、データをストアしてよく、データを提供してよく、本明細書において説明される複数の機能を実行してよい。本明細書において説明されるレジスタは、任意の数の異なる技術を用いてプロセッサ内の回路によって実装されてよく、このような技術は、専用物理レジスタ、レジスタリネーミングを用いて動的に割り当てられた物理レジスタ、専用及び動的に割り当てられた物理レジスタの組み合わせ等である。一実施形態において、複数の整数レジスタは、３２ビットの整数データをストアする。一実施形態のレジスタファイルは、パックドデータ用に８つのマルチメディアＳＩＭＤレジスタをさらに含む。以下の説明について、レジスタは、パックドデータを保持するように設計されたデータレジスタであると理解されてよく、このようなデータレジスタは、カリフォルニア州サンタクララのインテルコーポレーションの、ＭＭＸ技術によって可能にされたマイクロプロセッサにおける６４ビット幅ＭＭＸ（商標）レジスタ（いくつかの例において「ｍｍ」レジスタとも称される）である。これらのＭＭＸレジスタは、整数及び浮動小数点形式の両方で利用可能であり、ＳＩＭＤ及びＳＳＥ命令に付随する複数のパックドデータエレメントで動作してよい。同様に、ＳＳＥ２、ＳＳＥ３、ＳＳＥ４、又はそれ以降（一般的に「ＳＳＥｘ」と称される）の技術に関連する１２８ビット幅ＸＭＭレジスタは、このような複数のパックドデータオペランドを保持してよい。一実施形態において、パックドデータ及び整数データのストアにおいて、複数のレジスタは、２つのデータ型間で区別することを必要としない。一実施形態において、整数及び浮動小数点は、同じレジスタファイル又は異なるレジスタファイルに含まれてよい。さらに、一実施形態において、浮動小数点及び整数データは、異なるレジスタ又は同じレジスタにストアされてよい。

以下の複数の図の例において、多数のデータオペランドが説明されてよい。図３Ａは、本開示の複数の実施形態に係る複数のマルチメディアレジスタにおける様々なパックドデータ型の表現を示す。図３Ａは、複数の１２８ビット幅オペランドに対するパックドバイト３１０、パックドワード３２０、及びパックドダブルワード（ｄｗｏｒｄ）３３０のデータ型を示す。この例のパックドバイトフォーマット３１０は、１２８ビット長であってよく、１６のパックドバイトデータエレメントを含む。バイトは、例えば、データの８ビットとして定義されてよい。各バイトデータエレメントの情報は、バイト０に対してビット７からビット０、バイト１に対してビット１５からビット８、バイト２に対してビット２３からビット１６、最終的には、バイト１５に対してビット１２０からビット１２７にストアされてよい。従って、全ての利用可能なビットは、レジスタにおいて利用可能である。このストレージ構成は、プロセッサのストレージ効率を向上させる。同様に、１６個のデータエレメントがアクセスされることにより、ここで、１つのオペレーションが、１６個のデータエレメントに対して並列に実行されてよい。

概して、データエレメントは、同じ長さの他の複数のデータエレメントと共に単一のレジスタ又はメモリ位置にストアされるデータの個々の部分を含んでよい。ＳＳＥｘ技術に関連する複数のパックドデータシーケンスにおいて、ＸＭＭレジスタにストアされるデータエレメントの数は、１２８ビットを個々のデータエレメントのビット長で除算したものであってよい。同様に、ＭＭＸ及びＳＳＥ技術に関連する複数のパックドデータシーケンスにおいて、ＭＭＸレジスタにストアされるデータエレメントの数は、６４ビットを個々のデータエレメントのビット長で除算したものであってよい。図３Ａに示される複数のデータ型は１２８ビット長であってよいが、本開示の複数の実施形態は、６４ビット幅又は他のサイズの複数のオペランドで動作してもよい。この例のパックドワードフォーマット３２０は、１２８ビット長であってよく、８つのパックドワードのデータエレメントを含む。各パックドワードは、１６ビットの情報を含む。図３Ａのパックドダブルワードフォーマット３３０は、１２８ビット長であってよく、４つのパックドダブルワードデータエレメントを含む。各パックドダブルワードデータエレメントは、３２ビットの情報を含む。パックドクワッドワードは、１２８ビット長であってよく、２つのパックドクワッドワードのデータエレメントを含んでよい。

図３Ｂは、本開示の複数の実施形態に係る適用可能な複数のレジスタ内データストレージフォーマットを示す。各パックドデータは、１つより多くの独立データエレメントを含んでよい。３つのパックドデータフォーマット、すなわち、パックドハーフ３４１、パックドシングル３４２、泳ぎパックドダブル３４３のデータフォーマットが示される。パックドハーフ３４１、パックドシングル３４２、及びパックドダブル３４３の一実施形態は、複数の固定小数点データエレメントを含む。他の実施形態について、パックドハーフ３４１、パックドシングル３４２、及びパックドダブル３４３のうちの１つ又は複数は、複数の浮動小数点データエレメントを含んでよい。パックドハーフ３４１の一実施形態は、８つの１６ビットデータエレメントを含む１２８ビット長であってよい。パックドシングル３４２の一実施形態は、１２８ビット長であってよく、４つの３２ビットデータエレメントを含む。パックドダブル３４３の一実施形態は、１２８ビット長であってよく、２つの６４ビットデータエレメントを含む。このような複数のパックドデータフォーマットは、他のレジスタ長、例えば、９６ビット、１６０ビット、１９２ビット、２２４ビット、２５６ビット又はそれより大きいレジスタ長にさらに拡張され得ることが理解されよう。

図３Ｃは、本開示の複数の実施形態に係る複数のマルチメディアレジスタにおける様々な符号付き及び符号なしパックドデータ型の表現を示す。符号なしパックドバイト表現３４４は、ＳＩＭＤレジスタの符号なしパックドバイトのストレージを示す。各バイトデータエレメントの情報は、バイト０に対してビット７からビット０、バイト１に対してビット１５からビット８、バイト２に対してビット２３からビット１６、最終的には、バイト１５に対してビット１２０からビット１２７にストアされてよい。従って、全ての利用可能なビットは、レジスタにおいて利用可能である。このストレージ構成は、プロセッサのストレージ効率を向上させ得る。同様に、１６個のデータエレメントがアクセスされることにより、ここで、１つのオペレーションが、１６個のデータエレメントに対して並列方式で実行されてよい。符号付きパックドバイト表現３４５は、符号付きパックドバイトのストレージを示す。なお、各バイトデータエレメントの第８のビットは、符号インジケータであってよい。符号なしパックドワード表現３４６は、ワード７からワードゼロが、どのようにＳＩＭＤレジスタにストア可能であるかを示す。符号付きパックドワード表現３４７は、符号なしパックドワードのレジスタ内表現３４６と同様であってよい。なお、各ワードのデータエレメントの第１６のビットは、符号インジケータであってよい。符号なしパックドダブルワード表現３４８は、複数のダブルワードデータエレメントがどのようにストアされるかを示す。符号付きパックドダブルワード表現３４９は、符号なしパックドダブルワードのレジスタ内表現３４８と同様であってよい。なお、必要な符号ビットは、各ダブルワードデータエレメントの第３２のビットであってよい。

図３Ｄは、オペレーション符号化（オペコード）の実施形態を示す。さらに、フォーマット３６０は、「ＩＡ－３２ＩｎｔｅｌＡｒｃｈｉｔｅｃｔｕｒｅＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｅｒ′ｓＭａｎｕａｌＶｏｌｕｍｅ２：ＩｎｓｔｒｕｃｔｉｏｎＳｅｔＲｅｆｅｒｅｎｃｅ」において説明されるオペコードフォーマットのタイプに対応するレジスタ／メモリオペランドアドレス指定モードを含んでよく、本マニュアルは、ワールドワイドウェブ（ｗｗｗ）ｉｎｔｅｌ．ｃｏｍ／ｄｅｓｉｇｎ／ｌｉｔｃｅｎｔｒにおいて、カリフォルニア州サンタクララのインテルコーポレーションから入手可能である。一実施形態において、命令は、フィールド３６１及び３６２のうちの１つ又は複数によって符号化されてよい。命令毎に、２つのソースオペランド識別子３６４及び３６５を含む２つまでのオペランド位置が特定されてよい。一実施形態において、デスティネーションオペランド識別子３６６は、ソースオペランド識別子３６４と同じであってよいが、複数の他の実施形態においては、これらは異なることがある。他の実施形態において、デスティネーションオペランド識別子３６６は、ソースオペランド識別子３６５と同じであってよいが、複数の他の実施形態においては、これらは異なることがある。一実施形態において、ソースオペランド識別子３６４及び３６５によって特定される複数のソースオペランドのうち１つは、複数の文字列比較オペレーションの結果によって上書きされてよいが、複数の他の実施形態において、識別子３６４は、ソースレジスタエレメントに対応し、識別子３６５は、デスティネーションレジスタエレメントに対応する。一実施形態において、オペランド識別子３６４及び３６５は、３２ビット又は６４ビットソース及びデスティネーションオペランドを特定してよい。

図３Ｅは、本開示の複数の実施形態に係る４０又はそれより多くのビットを有する他の適用可能なオペレーション符号化（オペコード）フォーマット３７０を示す。オペコードフォーマット３７０は、オペコードフォーマット３６０に対応し、任意のプレフィックスバイト３７８を備える。一実施形態に係る命令は、フィールド３７８、３７１、及び３７２のうちの１つ又は複数によって符号化されてよい。命令毎に２つまでのオペランド位置が、ソースオペランド識別子３７４及び３７５によって、かつプレフィックスバイト３７８によって、特定されてよい。一実施形態において、プレフィックスバイト３７８は、３２ビット又は６４ビットソース及びデスティネーションオペランドを特定するために用いられてよい。一実施形態において、デスティネーションオペランド識別子３７６は、ソースオペランド識別子３７４と同じであってよいが、複数の他の実施形態においては、これらは異なることがある。他の実施形態について、デスティネーションオペランド識別子３７６は、ソースオペランド識別子３７５と同じであってよいが、複数の他の実施形態においては、これらは異なることがある。一実施形態において、命令は、オペランド識別子３７４及び３７５によって特定される複数のオペランド及びのうちの１つ又は複数に対して動作してよく、オペランド識別子３７４及び３７５によって特定される１つ又は複数のオペランドは、当該命令の複数の結果によって上書きされてよいが、複数の他の実施形態において、識別子３７４及び３７５によって特定される複数のオペランドは、他のレジスタの他のデータエレメントに書き込まれてよい。オペコードフォーマット３６０及び３７０は、ＭＯＤフィールド３６３及び３７３によって、ならびに任意のスケールインデックスベース及び変位バイトによって部分的に指定される、レジスタトゥレジスタ、メモリトゥレジスタ、レジスタバイメモリ、レジスタバイレジスタ、レジスタバイ即値、レジスタトゥメモリアドレス指定を可能にする。

図３Ｆは、本開示の複数の実施形態に係るさらに他の適用可能なオペレーション符号化（オペコード）フォーマットを示す。複数の６４ビット単一命令複数データ（ＳＩＭＤ）演算オペレーションは、コプロセッサデータ処理（ＣＤＰ）命令を通して実行されてよい。オペレーション符号化（オペコード）フォーマット３８０は、ＣＤＰオペコードフィールド３８２及び３８９を有する１つのこのようなＣＤＰ命令を示す。ＣＤＰ命令のタイプ、他の実施形態については複数のオペレーションは、フィールド３８３、３８４、３８７及び３８８のうちの１つ又は複数によって符号化されてよい。２つのソースオペランド識別子３８５及び３９０ならびに１つのデスティネーションオペランド識別子３８６までを含む、命令毎に３つまでのオペランド位置が、特定されてよい。コプロセッサの一実施形態は、８、１６、３２、及び６４ビット値に対して動作してよい。一実施形態において、命令は、複数の整数データエレメントに対して実行されてよい。いくつかの実施形態において、命令は、条件フィールド３８１を用いて、条件的に実行されてよい。いくつかの実施形態について、複数のソースデータサイズが、フィールド３８３によって符号化されてよい。いくつかの実施形態において、ゼロ（Ｚ）、負（Ｎ）、キャリー（Ｃ）、及びオーバーフロー（Ｖ）の検出は、複数のＳＩＭＤフィールドに対してなされてよい。いくつかの命令について、飽和度のタイプが、フィールド３８４によって符号化されてよい。

図４Ａは、本開示の複数の実施形態に係るインオーダパイプライン及びレジスタリネーミングステージ、アウトオブオーダ発行／実行パイプラインを示すブロック図である。図４Ｂは、本開示の複数の実施形態に係るプロセッサに含まれるべきインオーダアーキテクチャコア及びレジスタリネーミングロジック、アウトオブオーダ発行／実行ロジックを示すブロック図である。図４Ａにおいて、複数の実線のボックスは、インオーダパイプラインを示し、複数の破線のボックスは、レジスタリネーミング、アウトオブオーダ発行／実行パイプラインを示す。同様に、図４Ｂにおいて、複数の実線のボックスは、インオーダアーキテクチャロジックを示し、複数の破線のボックスは、レジスタリネーミングロジック及びアウトオブオーダ発行／実行ロジックを示す。

図４Ａにおいて、プロセッサパイプライン４００は、フェッチステージ４０２、長さ復号ステージ４０４、復号ステージ４０６、割り当てステージ４０８、リネーミングステージ４１０、スケジューリング（ディスパッチ又は発行としても知られる）ステージ４１２、レジスタ読み出し／メモリ読み出しステージ４１４、実行ステージ４１６、ライトバック／メモリ書き込みステージ４１８、例外処理ステージ４２２、及びコミットステージ４２４を含んでよい。

図４Ｂにおいて、複数の矢印は、２つ又はそれより多くのユニット間の連結を示し、矢印の方向は、これらのユニット間におけるデータフローの方向を示す。図４Ｂは、実行エンジンユニット４５０に連結されるフロントエンドユニット４３０を含むプロセッサコア４９０を示し、これら両方は、メモリユニット４７０に連結されてよい。

コア４９０は、縮小命令セットコンピューティング（ＲＩＳＣ）コア、複合命令セットコンピューティング（ＣＩＳＣ）コア、超長命令語（ＶＬＩＷ）コア、又はハイブリッドもしくは代替的なコアタイプであってよい。一実施形態において、コア４９０は、例えば、ネットワーク又は通信コア、圧縮エンジン、グラフィックコア等のような特定用途向けコアであってよい。

フロントエンドユニット４３０は、命令キャッシュユニット４３４に連結される分岐予測ユニット４３２を含んでよい。命令キャッシュユニット４３４は、命令トランスレーションルックアサイドバッファ（ＴＬＢ）４３６に連結されてよい。ＴＬＢ４３６は、復号ユニット４４０に連結される命令フェッチユニット４３８に連結されてよい。復号ユニット４４０は、複数の命令を復号し、１つ又は複数のマイクロオペレーション、マイクロコード、エントリポイント、マイクロ命令、他の命令、又は、元の命令から復号されてよく、もしくは他の方法でこれらを反映してよく、もしくはこれらから派生してよい他の制御信号を、出力として生成してよい。デコーダは、様々な異なるメカニズムを用いて実装されてよい。適したメカニズムの例は、限定されるものではないが、ルックアップテーブル、ハードウェア実装、プログラマブルロジックアレイ（ＰＬＡ）、マイクロコードリードオンリメモリ（ＲＯＭ）等を含む。一実施形態において、命令キャッシュユニット４３４は、メモリユニット４７０の二次（Ｌ２）キャッシュユニット４７６にさらに連結されてよい。復号ユニット４４０は、実行エンジンユニット４５０のリネーミング／アロケータユニット４５２に連結されてよい。

実行エンジンユニット４５０は、リタイアメントユニット４５４に連結されるリネーミング／アロケータユニット４５２と、１つ又は複数のスケジューラユニット４５６のセットとを含んでよい。複数のスケジューラユニット４５６は、複数の予約ステーション、中央命令ウィンドウ等を含む任意の数の異なるスケジューラを表す。複数のスケジューラユニット４５６は、複数の物理レジスタファイルユニット４５８に連結されてよい。物理レジスタファイルユニット４５８の各々は、１つ又は複数の物理レジスタファイルを表し、これらの異なるいくつかは、スカラ整数、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点等のような１つ又は複数の異なるデータ型、ステータス（例えば、次に実行されるべき命令のアドレスである命令ポインタ）等をストアする。物理レジスタファイルユニット４５８は、リタイアメントユニット１５４にオーバーラップされてよく、これにより、レジスタリネーミング及びアウトオブオーダ実行が実装可能な（例えば、１つ又は複数のリオーダバッファ及び１つ又は複数のリタイアメントレジスタファイルを用いる、１つ又は複数のフューチャーファイル、１つ又は複数の履歴バッファ、及び１つ又は複数のリタイアメントレジスタファイルを用いる、複数のレジスタマップ及び複数のレジスタのプールを用いる等）様々な態様を示す。概して、複数のアーキテクチャレジスタは、プロセッサ外部から又はプログラマの視点から、可視であってよい。複数のレジスタは、公知の特定のタイプの回路に限定されるものではない。様々な複数の異なる型のレジスタは、本明細書において説明されるようにデータをストア及び提供する限り、適切であり得る。適したレジスタの例は、限定されるものではないが、専用物理レジスタ、レジスタリネーミングを用いて動的に割り当てられた物理レジスタ、専用及び動的に割り当てられた物理レジスタの組み合わせ等を含む。リタイアメントユニット４５４及び複数の物理レジスタファイルユニット４５８は、複数の実行クラスタ４６０に連結されてよい。複数の実行クラスタ４６０は、１つ又は複数の実行ユニット１６２のセット及び１つ又は複数のメモリアクセスユニット４６４のセットを含んでよい。複数の実行ユニット４６２は、様々なオペレーション（例えば、シフト、加算、減算、乗算）を、様々な型のデータ（例えば、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点）に対して実行してよい。いくつかの実施形態は、特定の複数の機能又は複数の機能の複数のセット専用の多数の実行ユニットを含んでよいが、複数の他の実施形態は、１つだけの実行ユニット又はその全部が全機能を実行する複数の実行ユニットを含んでよい。複数のスケジューラユニット４５６、複数の物理レジスタファイルユニット４５８、及び複数の実行クラスタ４６０は、複数である可能性もあるものとして示されるが、なぜなら、複数の特定の実施形態は、複数の特定の型のデータ／オペレーションに対して別個のパイプラインを形成するからである（例えば、スカラ整数パイプライン、スカラ浮動小数点／パックド整数／パックド浮動小数点／ベクトル整数／ベクトル浮動小数点パイプラインであり、及び／又はメモリアクセスパイプラインは、各々がそれら自身のスケジューラユニット、物理レジスタファイルユニット、及び／又は実行クラスタを有し、別個のメモリアクセスパイプラインの場合、複数の特定の実施形態は、このパイプラインの実行クラスタのみがメモリアクセスユニット４６４を有するように実装されてよい）。複数の別個のパイプラインが用いられる場合、これらのパイプラインのうちの１つ又は複数は、アウトオブオーダ発行／実行、残りはインオーダであってよいことも理解されたい。

複数のメモリアクセスユニット４６４のセットは、メモリユニット４７０に連結されてよく、メモリユニット４７０は、データＴＬＢユニット４７２を含んでよく、データＴＬＢユニット４７２は、データキャッシュユニット４７４に連結され、データキャッシュユニット４７４は、二次（Ｌ２）キャッシュユニット４７６に連結される。例示的な一実施形態において、複数のメモリアクセスユニット４６４は、ロードユニット、ストアアドレスユニット、及びストアデータユニットを含んでよく、その各々は、メモリユニット４７０のデータＴＬＢユニット４７２に連結されてよい。Ｌ２キャッシュユニット４７６は、１つ又は複数の他のレベルのキャッシュに連結されてよく、最終的にはメインメモリに連結されてよい。

例として、例示的なレジスタリネーミング、アウトオブオーダ発行／実行コアアーキテクチャは、以下のとおりパイプライン４００を実装してよい。すなわち、１）命令フェッチ４３８は、フェッチ及び長さ復号ステージ４０２及び４０４を実行してよい。２）復号ユニット４４０は、復号ステージ４０６を実行してよい。３）リネーミング／アロケータユニット４５２は、割り当てステージ４０８及びリネーミングステージ４１０を実行してよい。４）複数のスケジューラユニット４５６は、スケジューリングステージ４１２を実行してよい。５）複数の物理レジスタファイルユニット４５８及びメモリユニット４７０は、レジスタ読み出し／メモリ読み出しステージ４１４を実行してよい。実行クラスタ４６０は、実行ステージ４１６を実行してよい。６）メモリユニット４７０及び複数の物理レジスタファイルユニット４５８は、ライトバック／メモリ書き込みステージ４１８を実行してよい。７）様々なユニットは、例外処理ステージ４２２の性能に含まれてよい。８）リタイアメントユニット４５４及び複数の物理レジスタファイルユニット４５８は、コミットステージ４２４を実行してよい。

コア４９０は、１つ又は複数の命令セット（例えば、ｘ８６命令セット（複数のより新たなバージョンに追加されたいくつかの拡張を伴う）、カリフォルニア州サニーベールのＭＩＰＳテクノロジーズのＭＩＰＳ命令セット、カリフォルニア州サニーベールのＡＲＭホールディングスのＡＲＭ命令セット（ＮＥＯＮのような複数の任意の追加の拡張を伴う））をサポートしてよい。

コアは、マルチスレッディング（複数のオペレーション又はスレッドの２つ又はそれより多くの並列セットを実行すること）を、様々な態様でサポートしてよいことを理解されたい。マルチスレッディングのサポートは、例えば、時分割マルチスレッディング、同時マルチスレッディング（ここで、単一の物理コアは、物理コアが同時マルチスレッディングを実行する複数のスレッドの各各々に対する論理コアを提供する）、又はこれらの組み合わせを含むことによって実行されてよい。このような組み合わせは、例えば、時分割フェッチ及び復号、ならびにインテル（登録商標）ハイパースレッディングテクノロジなどにおけるその後の同時マルチスレッディングを含んでよい。

レジスタリネーミングは、アウトオブオーダ実行との関連で説明され得るが、レジスタリネーミングは、インオーダアーキテクチャにおいて用いられてよいことを理解されたい。プロセッサの示された実施形態は、別個の命令及びデータキャッシュユニット４３４／４７４及び共有Ｌ２キャッシュユニット４７６をさらに含んでよいが、複数の他の実施形態は、例えば、一次（Ｌ１）内部キャッシュのような複数の命令及びデータの両方のための単一の内部キャッシュ、又は複数のレベルの内部キャッシュを有してよい。いくつかの実施形態において、システムは、内部キャッシュ及びコア及び／又はプロセッサの外部にあり得る外部キャッシュの組み合わせを含んでよい。複数の他の実施形態において、キャッシュの全ては、コア及び／又はプロセッサの外部にあってよい。

図５Ａは、本開示の複数の実施形態に係るプロセッサ５００のブロック図である。一実施形態において、プロセッサ５００は、マルチコアプロセッサを含んでよい。プロセッサ５００は、１つ又は複数のコア５０２に通信可能に連結されるシステムエージェント５１０を含んでよい。さらに、複数のコア５０２及びシステムエージェント５１０は、１つ又は複数のキャッシュ５０６に通信可能に連結されてよい。複数のコア５０２、システムエージェント５１０、及び複数のキャッシュ５０６は、１つ又は複数のメモリ制御ユニット５５２を介して、通信可能に連結されてよい。さらに、複数のコア５０２、システムエージェント５１０、及び複数のキャッシュ５０６は、メモリ制御ユニット５５２を介してグラフィックモジュール５６０に通信可能に連結されてよい。

プロセッサ５００は、複数のコア５０２、システムエージェント５１０、及び複数のキャッシュ５０６、及びグラフィックモジュール５６０を相互接続する任意の適したメカニズムを含んでよい。一実施形態において、プロセッサ５００は、複数のコア５０２、システムエージェント５１０、及び複数のキャッシュ５０６、及びグラフィックモジュール５６０を相互接続するリングベースの相互接続ユニット５０８を含んでよい。複数の他の実施形態において、プロセッサ５００は、このような複数のユニットを相互接続する任意の数の周知技術を含んでよい。リングベースの相互接続ユニット５０８は、複数の相互接続を容易にする複数のメモリ制御ユニット５５２を用いてよい。

プロセッサ５００は、複数のコア内における１つ又は複数のレベルのキャッシュ、複数のキャッシュ５０６のような１つ又は複数の共有キャッシュユニット、又は複数の集積メモリコントローラユニット５５２のセットに連結される外部メモリ（不図示）を備えるメモリ階層を含んでよい。複数のキャッシュ５０６は、任意の適したキャッシュを含んでよい。一実施形態において、複数のキャッシュ５０６は、二次（Ｌ２）、三次（Ｌ３）、四次（Ｌ４）、又は他の複数のレベルのキャッシュのような１つ又は複数の中レベルキャッシュ、ラストレベルキャッシュ（ＬＬＣ）、及び／又はこれらの組み合わせを含んでよい。

様々な実施形態において、複数のコア５０２のうちの１つ又は複数は、マルチスレッディングを実行してよい。システムエージェント５１０は、複数のコア５０２を調整及び動作させる複数のコンポーネントを含んでよい。システムエージェントユニット５１０は例えば、電力制御ユニット（ＰＣＵ）を含んでよい。ＰＣＵは、複数のコア５０２の電力状態を調整するために必要なロジック及び複数のコンポーネントであってよく、又はこれらを含んでよい。システムエージェント５１０は、１つ又は複数の外部接続ディスプレイ又はグラフィックモジュール５６０を駆動するディスプレイエンジン５１２を含んでよい。システムエージェント５１０は、グラフィック用の複数の通信バスのためのインタフェース１２１４を含んでよい。一実施形態において、インタフェース１２１４は、ＰＣＩエクスプレス（ＰＣＩｅ）によって実装されてよい。さらなる実施形態において、インタフェース１２１４は、ＰＣＩエクスプレスグラフィック（ＰＥＧ）によって実装されてよい。システムエージェント５１０は、ダイレクトメディアインタフェース（ＤＭＩ）５１６を含んでよい。ＤＭＩ５１６は、マザーボード又はコンピュータシステムの他の部分上における複数の異なるブリッジ間にリンクを提供してよい。システムエージェント５１０は、コンピューティングシステムの複数の他のエレメントにＰＣＩｅリンクを提供するＰＣＩｅブリッジ１２１８を含んでよい。ＰＣＩｅブリッジ１２１８は、メモリコントローラ１２２０及びコヒーレンシロジック１２２２を用いて実装されてよい。

複数のコア５０２は、任意の適した態様で実装されてよい。複数のコア５０２は、アーキテクチャ及び／又は命令セットに関してホモジニアス又はヘテロジニアスであってよい。一実施形態において、複数のコア５０２のうちいくつかはインオーダであってよく、他はアウトオブオーダであってよい。他の実施形態において、複数のコア５０２のうち２つ又はそれより多くは同じ命令セットを実行してよいが、他は当該命令セット又は異なる命令セットのサブセットのみを実行してよい。

プロセッサ５００は、カリフォルニア州サンタクララのインテルコーポレーションから入手可能たり得るコア（商標）ｉ３、ｉ５、ｉ７、２Ｄｕｏ及びクワッド、Ｘｅｏｎ（商標）、Ｉｔａｎｉｕｍ（商標）、ＸＳｃａｌｅ（商標）、又はＳｔｒｏｎｇＡＲＭ（商標）プロセッサのような汎用プロセッサを含んでよい。プロセッサ５００は、ＡＲＭホールディングス、ＭＩＰＳ等のような他の会社から提供されてよい。プロセッサ５００は、例えば、ネットワーク又は通信プロセッサ、圧縮エンジン、グラフィックプロセッサ、コプロセッサ、組み込みプロセッサ等のような特定用途向けプロセッサであってよい。プロセッサ５００は、１つ又は複数のチップ上に実装されてよい。プロセッサ５００は、例えば、ＢｉＣＭＯＳ、ＣＭＯＳ、又はＮＭＯＳのような多数の処理技術のいずれかを用いて、１つ又は複数の基板の一部であってよく、及び／又はこれらの上に実装されてよい。

一実施形態において、複数のキャッシュ５０６のうち所与の１つは、複数のコア５０２のうちの複数によって共有されてよい。他の実施形態において、複数のキャッシュ５０６のうち所与の１つは、複数のコア５０２のうち１つの専用であってよい。複数のキャッシュ５０６の複数のコア５０２に対する割り当ては、キャッシュコントローラ又は他の適したメカニズムによって処理されてよい。複数のキャッシュ５０６のうち所与の１つは、所与のキャッシュ５０６の時分割を実装することによって、２つ又はそれより多くのコア５０２によって共有されてよい。

グラフィックモジュール５６０は、集中画像表示処理サブシステムを実装してよい。一実施形態において、グラフィックモジュール５６０は、グラフィックプロセッサを含んでよい。さらに、グラフィックモジュール５６０は、メディアエンジン５６５を含んでよい。メディアエンジン５６５は、媒体符号化及びビデオ復号を提供してよい。

図５Ｂは、本開示の複数の実施形態に係るコア５０２の例示的な実装のブロック図である。コア５０２は、アウトオブオーダエンジン５８０に通信可能に連結されるフロントエンド５７０を含んでよい。コア５０２は、キャッシュ階層５０３を通して、プロセッサ５００の複数の他の部分に通信可能に連結されてよい。

フロントエンド５７０は、上述されたように、完全に又は部分的に、フロントエンド２０１のような任意の適した態様で実装されてよい。一実施形態において、フロントエンド５７０は、キャッシュ階層５０３を通して、プロセッサ５００の複数の他の部分と通信を行ってよい。さらなる実施形態において、フロントエンド５７０は、プロセッサ５００の複数の部分からの複数の命令をフェッチし、当該命令がアウトオブオーダ実行エンジン５８０に渡されると、これらが後でプロセッサパイプラインにおいて用いられるように準備してよい。

アウトオブオーダ実行エンジン５８０は、上述されたように、完全に又は部分的に、アウトオブオーダ実行エンジン２０３のような任意の適した態様で実装されてよい。アウトオブオーダ実行エンジン５８０は、フロントエンド５７０から受信された複数の命令を、実行のために準備してよい。アウトオブオーダ実行エンジン５８０は、割り当てモジュール１２８２を含んでよい。一実施形態において、割り当てモジュール１２８２は、プロセッサ５００の複数のリソース又は複数のレジスタもしくはバッファのような他のリソースを、所与の命令を実行するために割り当ててよい。割り当てモジュール１２８２は、メモリスケジューラ、高速スケジューラ、又は浮動小数点スケジューラのようなスケジューラにおいて、割り当てを実行してよい。このようなスケジューラは、図５Ｂにおいて、複数のリソーススケジューラ５８４によって表されてよい。割り当てモジュール１２８２は、図２と併せて説明された割り当てロジックによって、完全に又は部分的に実装されてよい。リソーススケジューラ５８４は、命令が実行準備完了となるタイミングを、所与のリソースの複数のソースが準備完了であること及び命令の実行に必要な複数の実行リソースの可用性に基づいて決定してよい。複数のリソーススケジューラ５８４は、例えば、上述されたように、スケジューラ２０２、２０４、２０６によって実装されてよい。複数のリソーススケジューラ５８４は、１つ又は複数のリソースに対する複数の命令の実行をスケジューリングしてよい。一実施形態において、このようなリソースは、コア５０２の内部にあってよく、例えば、複数のリソース５８６として示されてよい。他の実施形態において、このようなリソースは、コア５０２の外部にあってよく、例えば、キャッシュ階層５０３によってアクセス可能であってよい。複数のリソースは、例えば、メモリ、キャッシュ、レジスタファイル、又はレジスタを含んでよい。コア５０２の内部にある複数のリソースは、図５Ｂにおいて、複数のリソース５８６によって表されてよい。必要であれば、複数のリソース５８６に書き込まれる又はここから読み出される複数の値は、例えば、キャッシュ階層５０３を通して、プロセッサ５００の複数の他の部分と調整されてよい。複数の命令が複数の割り当てられたリソースであると、これらは、リオーダバッファ５８８に配置されてよい。リオーダバッファ５８８は、複数の命令が実行されると、これらを追跡してよく、選択的に、プロセッサ５００の任意の適した基準に基づいて、これらの実行をリオーダしてよい。一実施形態において、リオーダバッファ５８８は、独立して実行可能な複数の命令又は一連の命令を特定してよい。このような複数の命令又は一連の命令は、他のこのような命令と並列に実行されてよい。コア５０２における並列実行は、任意の適切な数の別個の実行ブロック又は仮想プロセッサによって実行されてよい。一実施形態において、メモリ、レジスタ、及びキャッシュのような共有リソースは、所与のコア５０２内の複数の仮想プロセッサにアクセス可能であってよい。複数の他の実施形態において、複数の共有リソースは、プロセッサ５００内の複数の処理エンティティにアクセス可能であってよい。

キャッシュ階層５０３は、任意の適した態様で実装されてよい。例えば、キャッシュ階層５０３は、キャッシュ５７２、５７４のような１つ又は複数の下位又は中レベルキャッシュを含んでよい。一実施形態において、キャッシュ階層５０３は、キャッシュ５７２、５７４に通信可能に連結されるＬＬＣ５９５を含んでよい。他の実施形態において、ＬＬＣ５９５は、プロセッサ５００の全ての処理エンティティにアクセス可能なモジュール５９０に実装されてよい。さらなる実施形態において、モジュール５９０は、インテル社からの複数のプロセッサのアンコアモジュールに実装されてよい。モジュール５９０は、コア５０２の実行に必要なプロセッサ５００の複数の部分又はサブシステムを含んでよいが、コア５０２内に実装されなくてよい。ＬＬＣ５９５に加え、モジュール５９０は、例えば、複数のハードウェアインタフェース、メモリコヒーレンシコーディネータ、インタープロセッサ相互接続、命令パイプライン、又はメモリコントローラを含んでよい。プロセッサ５００に利用可能なＲＡＭ５９９へのアクセスは、モジュール５９０を通してなされてよく、より詳細には、ＬＬＣ５９５を通してなされてよい。さらに、コア５０２の複数の他のインスタンスは、同様に、モジュール５９０にアクセスしてよい。コア５０２の複数のインスタンスの調整は、モジュール５９０を通して部分的に促進されてよい。

図６－８は、プロセッサ５００を含むために適しした複数の例示的なシステムを示してよく、図９は、複数のコア５０２のうちの１つ又は複数を含んでよい例示的なシステムオンチップ（ＳｏＣ）を示してよい。ラップトップ、デスクトップ、ハンドヘルドＰＣ、パーソナルデジタルアシスタント、エンジニアリングワークステーション、サーバ、ネットワークデバイス、ネットワークハブ、スイッチ、組み込みプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、グラフィックデバイス、ビデオゲームデバイス、セットトップボックス、マイクロコントローラ、携帯電話、ポータブルメディアプレイヤ、ハンドヘルドデバイス及び様々な他の電子デバイス用の当技術分野で公知の複数の他のシステム設計及び実装も、適していることがある。概して、本明細書で開示されるように、プロセッサ及び／又は他の実行ロジックを組み込む多様なシステム又は電子デバイスが、概して適していることがある。

図６は、本開示の複数の実施形態に係るシステム６００のブロック図を示す。システム６００は、１つ又は複数のプロセッサ６１０、６１５を含んでよく、これらは、グラフィックメモリコントローラハブ（ＧＭＣＨ）６２０に連結されてよい。追加のプロセッサ６１５の任意の性質が、図６において破線で示される。

各プロセッサ６１０、６１５は、プロセッサ５００の何らかのバージョンであってよい。しかしながら、集中画像表示ロジック及び集積メモリ制御ユニットは、プロセッサ６１０、６１５に存在しなくてよいことに留意されたい。図６は、例えば、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）たり得るメモリ６４０に連結されてよいＧＭＣＨ６２０を示す。ＤＲＡＭは、少なくとも１つの実施形態について、不揮発性キャッシュに関連付けられてよい。

ＧＭＣＨ６２０は、チップセットであってよく、又はチップセットの一部であってよい。ＧＭＣＨ６２０は、プロセッサ６１０、６１５と通信を行ってよく、プロセッサ６１０、６１５とメモリ６４０との間のインタラクションを制御してよい。ＧＭＣＨ６２０は、プロセッサ６１０、６１５とシステム６００の複数の他のエレメントとの間において、加速バスインタフェースとして動作してもよい。一実施形態において、ＧＭＣＨ６２０は、フロントサイドバス（ＦＳＢ）６９５のようなマルチドロップバスを介してプロセッサ６１０、６１５と通信を行う。

さらに、ＧＭＣＨ６２０は、（フラットパネルディスプレイのような）ディスプレイ６４５に連結されてよい。一実施形態において、ＧＭＣＨ６２０は、集中画像表示アクセラレータを含んでよい。ＧＭＣＨ６２０は、入出力（Ｉ／Ｏ）コントローラハブ（ＩＣＨ）６５０にさらに連結されてよく、これは、様々な周辺デバイスをシステム６００に連結するために用いられてよい。外部グラフィックデバイス６６０は、他の周辺デバイス６７０と共にＩＣＨ６５０に連結される別個のグラフィックデバイスを含んでよい。

他の実施形態において、追加の又は異なるプロセッサが、システム６００にさらに存在してよい。例えば、追加のプロセッサ６１０、６１５は、プロセッサ６１０と同じであってよい複数の追加のプロセッサ、プロセッサ６１０とヘテロジニアスもしくは非対称であってよい複数の追加のプロセッサ、（例えば、グラフィックアクセラレータもしくはデジタル信号処理（ＤＳＰ）ユニットのような）複数のアクセラレータ、複数のフィールドプログラマブルゲートアレイ、又は任意の他のプロセッサを含んでよい。物理リソース６１０、６１５の間には、アーキテクチャ、マイクロアーキテクチャ、熱、電力消費特性等を含む様々な利益の基準に関して、様々な違いが存在し得る。これらの違いは、プロセッサ６１０、６１５の間の非対称性及びヘテロジニアス性として、違いそのものを効果的に表してよい。少なくとも１つの実施形態について、様々なプロセッサ６１０、６１５は、同じダイパッケージに存在してよい。

図７は、本開示の複数の実施形態に係る第２のシステム７００のブロック図を示す。図７に示されるように、マルチプロセッサシステム７００は、ポイントツーポイントインタコネクトシステムを含んでよく、ポイントツーポイントインタコネクト７５０を介して連結される第１のプロセッサ７７０及び第２のプロセッサ７８０を含んでよい。プロセッサ７７０及び７８０の各々は、プロセッサ６１０、６１５のうちの１つ又は複数として、プロセッサ５００の何らかのバージョンであってよい。

図７は、２つのプロセッサ７７０、７８０を示してよいが、本開示の範囲は、このように限定されるものではないことを理解されたい。複数の他の実施形態において、１つ又は複数追加のプロセッサが、所与のプロセッサに存在してよい。

プロセッサ７７０及び７８０は、それぞれ集積メモリコントローラユニット７７２及び７８２を含むものとして示される。プロセッサ７７０は、そのバスコントローラユニットの一部としてポイントツーポイント（Ｐ－Ｐ）インタフェース７７６及び７７８をさらに含んでよく、同様に、第２のプロセッサ７８０は、Ｐ－Ｐインタフェース７８６及び７８８を含んでよい。プロセッサ７７０、７８０は、Ｐ－Ｐインタフェース回路７７８、７８８を用いて、ポイントツーポイント（Ｐ－Ｐ）インタフェース７５０を介して情報を交換してよい。図７に示されるように、ＩＭＣ７７２及び７８２は、複数のプロセッサをそれぞれのメモリ、すなわちメモリ７３２及びメモリ７３４に連結してよく、一実施形態において、これらのメモリは、それぞれのプロセッサにローカルで付属するメインメモリの一部であってよい。

プロセッサ７７０、７８０は各々、ポイントツーポイントインタフェース回路７７６、７９４、７８６、７９８を用いて、個々のＰ－Ｐインタフェース７５２、７５４を介してチップセット７９０と情報を交換してよい。一実施形態において、チップセット７９０は、高性能グラフィックスインタフェース７３９を介して、高性能グラフィックス回路７３８とさらに情報を交換してよい。

共有キャッシュ（不図示）は、いずれかのプロセッサ内又は両方のプロセッサの外部に含まれてよく、さらにＰ－Ｐ相互接続を介してプロセッサに接続されてよく、これにより、いずれか又は両方のプロセッサのローカルキャッシュ情報は、プロセッサが低電力モードに置かれた場合に、共有キャッシュにストアされてよい。

チップセット７９０は、インタフェース７９６を介して第１のバス７１６に連結されてよい。一実施形態において、第１のバス７１６は、ペリフェラルコンポーネントインターコネクト（ＰＣＩ）バス、又はＰＣＩエクスプレスバスもしくは他の第３世代Ｉ／Ｏ相互接続バスのようなバスであってよいが、本開示の範囲は、このように限定されるものではない。

図７に示されるように、様々なＩ／Ｏデバイス７１４が、第１のバス７１６を第２のバス７２０に連結するバスブリッジ７１８と共に、第１のバス７１６に連結されてよい。一実施形態において、第２のバス７２０は、ローピンカウント（ＬＰＣ）バスであってよい。一実施形態において、例えば、キーボード及び／又はマウス７２２、通信デバイス７２７及び複数の命令／コード及びデータ７３０を含むディスクドライブもしくは他の大容量ストレージデバイスのようなストレージユニット７２８を含み得る様々なデバイスが、第２のバス７２０に連結されてよい。さらに、オーディオＩ／Ｏ７２４が、第２のバス７２０に連結されてよい。なお、他の複数のアーキテクチャが、適用可能であってよい。例えば、図７のポイントツーポイントアーキテクチャの代わりに、システムは、マルチドロップバス又は他のこのようなアーキテクチャを実装してよい。

図８は、本開示の複数の実施形態に係る第３のシステム８００のブロック図を示す。図７及び８における複数の同様の要素は、同様の参照番号が付され、図７の特定の複数の態様は、図８の他の複数の態様を不明瞭にしないように、図８から省略されている。

図８は、プロセッサ８７０、８８０が、集積メモリ及びＩ／Ｏ制御ロジック（「ＣＬ」）８７２及び８８２をそれぞれ含んでよいことを示す。少なくとも１つの実施形態について、ＣＬ８７２、８８２は、図５ＡからＢ及び７に関連して上述されたもののような集積メモリコントローラユニットを含んでよい。さらに、ＣＬ８７２、８８２は、Ｉ／Ｏ制御ロジックをさらに含んでよい。図８は、メモリ８３２、８３４がＣＬ８７２、８８２に連結されてよいのみならず、Ｉ／Ｏデバイス８１４がロジック８７２、８８２を制御するためにさらに連結されてよいことを示す。レガシＩ／Ｏデバイス８１５は、チップセット８９０に連結されてよい。

図９は、本開示の複数の実施形態に係るＳｏＣ９００のブロック図を示す。図５ＡからＢにおける複数の同様の要素は、同様の参照番号を付される。また、複数の破線のボックスは、より高度な複数のＳｏＣにおける任意の機能を表してよい。相互接続ユニット９０２は、１つ又は複数のコア９０２Ａ－Ｎのセット及び共有キャッシュユニット９０６を含んでよいアプリケーションプロセッサ９１０と、システムエージェントユニット９１０と、バスコントローラユニット９１６と、集積メモリコントローラユニット９１４と、集中画像表示ロジック９０８、スチール及び／又はビデオカメラ機能を提供するイメージプロセッサ９２４、ハードウェアオーディオ加速を提供するオーディオプロセッサ９２６、ビデオ符号化／復号加速を提供するビデオプロセッサ９２８を含んでよい１つ又は複数のメディアプロセッサのセット９２０と、スタティックランダムアクセスメモリ（ＳＲＡＭ）ユニット９３０と、ダイレクトメモリアクセス（ＤＭＡ）ユニット９３２と、１つ又は複数の外部ディスプレイに連結するディスプレイユニット９４０とに連結されてよい。

図１０は、本開示の複数の実施形態に係る少なくとも１つの命令を実行可能な中央処理装置（ＣＰＵ）及び画像処理ユニット（ＧＰＵ）を含むプロセッサを示す。一実施形態において、少なくとも一実施形態に係る複数のオペレーションを実行する命令は、ＣＰＵによって実行されてよい。他の実施形態において、命令は、ＧＰＵによって実行されてよい。さらに他の実施形態において、命令は、ＧＰＵ及びＣＰＵによって実行される複数のオペレーションの組み合わせを通して実行されてよい。例えば、一実施形態において、一実施形態に係る命令は、ＧＰＵにおける実行のために受信及び復号されてよい。しかしながら、復号された命令内の１つ又は複数のオペレーションは、ＣＰＵによって実行されてよく、その結果は、命令の最終的なリタイアのためにＧＰＵに戻されてよい。逆に、いくつかの実施形態において、ＣＰＵは主プロセッサとして、ＧＰＵはコプロセッサとして動作してよい。

いくつかの実施形態において、高度に並列なスループットプロセッサによって利益を享受する複数の命令は、ＧＰＵによって実行されてよいが、深くパイプライン化された複数のアーキテクチャから利益を享受する複数のプロセッサの性能から利益を享受する複数の命令は、ＣＰＵによって実行されてよい。例えば、グラフィック、科学用途、財務用途及び他の複数の並列ワークロードは、ＧＰＵの性能から利益を享受し、これに従って実行されてよいが、オペレーティングシステムカーネル又はアプリケーションコードのようなよりシーケンシャルな用途は、ＣＰＵにより適していることがある。

図１０において、プロセッサ１０００は、ＣＰＵ１００５、ＧＰＵ１０１０、イメージプロセッサ１０１５、ビデオプロセッサ１０２０、ＵＳＢコントローラ１０２５、ＵＡＲＴコントローラ１０３０、ＳＰＩ／ＳＤＩＯコントローラ１０３５、ディスプレイデバイス１０４０、メモリインタフェースコントローラ１０４５、ＭＩＰＩコントローラ１０５０、フラッシュメモリコントローラ１０５５、デュアルデータレート（ＤＤＲ）コントローラ１０６０、セキュリティエンジン１０６５、及びＩ^２Ｓ／Ｉ^２Ｃコントローラ１０７０を含む。他のロジック及び回路は、図１０のプロセッサに含まれてよく、より多くのＣＰＵ又はＧＰＵ及び他の周辺インタフェースコントローラを含む。

少なくとも１つの実施形態の１つ又は複数の態様は、プロセッサ内の様々なロジックを表す機械可読媒体にストアされた代表的なデータによって実装されてよく、このデータは、機械によって読み出された場合に、機械に、本明細書において説明される複数の技術を実行するロジックを製造させる。「ＩＰコア」として知られる複数のこのような表現は、有形の機械可読媒体（「テープ」）にストアされてよく、様々な顧客又は製造施設に供給されて、実際にロジック又はプロセッサを作り出す製造機械にロードされてよい。例えば、ＡＲＭホールディングスによって開発されたプロセッサのＣｏｒｔｅｘ（商標）ファミリのようなＩＰコア、及び中国科学院のコンピューティング技術研究所（ＩＣＴ）によって開発された龍芯（Ｌｏｏｎｇｓｏｎ）ＩＰコアは、テキサスインスツルメンツ、クアルコム、アップル、又はサムスンのような様々な顧客又はライセンシにライセンス供与又は販売され、これらの顧客又はライセンシによって製造されるプロセッサに実装されることがある。

図１１は、本開示の複数の実施形態に係る複数のＩＰコアの開発を示すブロック図を示す。ストレージ１１３０は、シミュレーションソフトウェア１１２０及び／又はハードウェアもしくはソフトウェアモデル１１１０を含んでよい。一実施形態において、ＩＰコア設計を表すデータは、メモリ１１４０（例えば、ハードディスク）、有線接続（例えば、インターネット）１１５０又は無線接続１１６０を介して、ストレージ１１３０に提供されてよい。シミュレーションツール及びモデルによって生成されたＩＰコア情報は、次に、製造施設に送信されてよく、それは、サードパーティによって、少なくとも１つの実施形態に係る少なくとも１つの命令を実行するように製造されてよい。

いくつかの実施形態において、１つ又は複数の命令は、第１の型又はアーキテクチャ（例えば、ｘ８６）に対応し、異なる型又はアーキテクチャのプロセッサ（例えば、ＡＲＭ）上で変換又はエミュレートされてよい。一実施形態に係る命令は、従って、ＡＲＭ、ｘ８６、ＭＩＰＳ、ＧＰＵ、又は他のプロセッサタイプもしくはアーキテクチャを含む任意のプロセッサ又はプロセッサタイプ上で実行されてよい。

図１２は、本開示の複数の実施形態に係る第１の型の命令が異なる型のプロセッサによってどのようにエミュレートされ得るかを示す。図１２において、プログラム１２０５は、一実施形態に係る命令と同じ又は実質的に同じ機能を実行可能ないくつかの命令を含む。しかしながら、プログラム１２０５の複数の命令は、プロセッサ１２１５とは異なる又はこれと非互換性のタイプ及び／又はフォーマットであることがあり、これは、プログラム１２０５のタイプの命令が、プロセッサ１２１５によってネイティブで実行できない可能性があることを意味する。しかしながら、エミュレーションロジック１２１０の補助により、プログラム１２０５の複数の命令は、プロセッサ１２１５によってネイティブで実行可能な複数の命令に変換されてよい。一実施形態において、エミュレーションロジックは、ハードウェアで具現化されてよい。他の実施形態において、エミュレーションロジックは、ソフトウェアを含む有形の機械可読媒体で具現化されてよく、これにより、プログラム１２０５のタイプの複数の命令を、プロセッサ１２１５によってネイティブで実行可能なタイプに変換する。他の実施形態において、エミュレーションロジックは、固定機能又はプログラマブルハードウェアと有形の機械可読媒体にストアされたプログラムとの組み合わせであってよい。一実施形態において、プロセッサは、エミュレーションロジックを含み、複数の他の実施形態において、エミュレーションロジックは、プロセッサの外部に存在し、サードパーティによって提供されてよい。一実施形態において、プロセッサは、プロセッサに含まれ、又はこれに関連付けられたマイクロコード又はファームウェアを実行することによって、ソフトウェアを含む有形の機械可読媒体で具現化されたエミュレーションロジックをロードしてよい。

図１３は、本開示の複数の実施形態に係るソース命令セットにおける複数のバイナリ命令をターゲット命令セットにおける複数のバイナリ命令に変換するソフトウェア命令コンバータの利用を対比したブロック図を示す。示された実施形態において、命令コンバータは、ソフトウェア命令コンバータであってよいが、命令コンバータは、ソフトウェア、ファームウェア、ハードウェア、又はこれらの様々な組み合わせで実装されてよい。図１３は、高水準言語１３０２のプログラムが、ｘ８６コンパイラ１３０４を用いてコンパイルされてよく、これにより、少なくとも１つのｘ８６命令セットコアを有するプロセッサ１３１６によってネイティブで実行可能なｘ８６バイナリコード１３０６を生成することを示す。少なくとも１つのｘ８６命令セットコアを有するプロセッサ１３１６は、インテルの少なくとも１つのｘ８６命令セットコアを有するプロセッサと実質的に同じ結果を実現するために、（１）インテルｘ８６命令セットコアの命令セットの大部分又は（２）インテルの少なくとも１つのｘ８６命令セットコアを有するプロセッサ上で動作することを目的とした複数のアプリケーションもしくは他のソフトウェアのオブジェクトコードバージョンを互換的に実行又は他の方法で処理することによって、インテルの少なくとも１つのｘ８６命令セットコアを有するプロセッサと実質的に同じ機能を実行可能な任意のプロセッサを表す。ｘ８６コンパイラ１３０４は、ｘ８６バイナリコード１３０６（例えば、オブジェクトコード）を生成するように動作可能であってよいコンパイラを表し、このコードは、追加のリンク処理により、又は当該処理なしでも、少なくとも１つのｘ８６命令セットコアを有するプロセッサ１３１６上で実行されてよい。同様に、図１３は、高水準言語１３０２のプログラムが、代替的な命令セットコンパイラ１３０８を用いてコンパイルされてよく、これにより、少なくとも１つのｘ８６命令セットコアを有さないプロセッサ１３１４（例えば、カリフォルニア州サニーベールのＭＩＰＳテクノロジーズのＭＩＰＳ命令セットを実行する、及び／又はカリフォルニア州サニーベールのＡＲＭホールディングスのＡＲＭ命令セットを実行する複数のコアを有するプロセッサ）によってネイティブで実行され得る代替的な命令セットバイナリコード１３１０を生成することを示す。命令コンバータ１３１２は、ｘ８６バイナリコード１３０６を、ｘ８６命令セットコアを有さないプロセッサ１３１４によってネイティブで実行可能なコードに変換するために用いられてよい。この変換されたコードは、代替的な命令セットバイナリコード１３１０と同じでなくてよい。しかしながら、変換されたコードが、一般的なオペレーションを実現し、代替的な命令セットからの複数の命令で構成される。従って、命令コンバータ１３１２は、エミュレーション、シミュレーション、又は任意の他の処理を通して、プロセッサ又はｘ８６命令セットプロセッサもしくはコアを有さない他の電子デバイスにｘ８６バイナリコード１３０６を実行させることを可能にするソフトウェア、ファームウェア、ハードウェア、又はこれらの組み合わせを表す。

図１４は、本開示の複数の実施形態に係るプロセッサの命令セットアーキテクチャ１４００のブロック図である。命令セットアーキテクチャ１４００は、任意の適した数又は種類のコンポーネントを含んでよい。

例えば、命令セットアーキテクチャ１４００は、１つ又は複数のコア１４０６、１４０７及び画像処理ユニット１４１５のような処理エンティティを含んでよい。コア１４０６、１４０７は、任意の適したメカニズムを通して、例えばバス又はキャッシュを通して、命令セットアーキテクチャ１４００の残りに通信可能に連結されてよい。一実施形態において、コア１４０６、１４０７は、バスインタフェースユニット１４０９及びＬ２キャッシュ１４１０を含んでよいＬ２キャッシュ制御１４０８を通して、通信可能に連結されてよい。コア１４０６、１４０７及び画像処理ユニット１４１５は、互いに通信可能に連結されてよく、相互接続１４１０を通して、命令セットアーキテクチャ１４００の残りと通信可能に連結されてよい。一実施形態において、画像処理ユニット１４１５は、複数の特定のビデオ信号が出力用に符号化及び復号される態様を定義するビデオコード１４２０を用いてよい。

命令セットアーキテクチャ１４００は、電子デバイス又はシステムの複数の他の部分とのインタフェース又は通信を行うために、任意の数又は種類のインタフェース、コントローラ、又は他のメカニズムをさらに含んでよい。このようなメカニズムは、例えば、周辺機器、通信デバイス、他のプロセッサ、又はメモリとのインタラクションを容易にすることができる。図１４の例において、命令セットアーキテクチャ１４００は、液晶ディスプレイ（ＬＣＤ）ビデオインタフェース１４２５、加入者インタフェースモジュール（ＳＩＭ）インタフェース１４３０、ブートＲＯＭインタフェース１４３５、シンクロナスダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）コントローラ１４４０、フラッシュコントローラ１４４５、及びシリアル周辺インタフェース（ＳＰＩ）マスタユニット１４５０を含んでよい。ＬＣＤビデオインタフェース１４２５は、例えば、ＧＰＵ１４１５からの複数のビデオ信号の出力を、例えば、ｍｏｂｉｌｅｉｎｄｕｓｔｒｙｐｒｏｃｅｓｓｏｒｉｎｔｅｒｆａｃｅ（ＭＩＰＩ）１４９０又は高精細度マルチメディアインタフェース（ＨＤＭＩ（登録商標））１４９５を通してディスプレイに提供してよい。このようなディスプレイは、例えばＬＣＤを含んでよい。ＳＩＭインタフェース１４３０は、ＳＩＭカード又はデバイスへのアクセス、又はこれらからのアクセスを提供してよい。ＳＤＲＡＭコントローラ１４４０は、ＳＤＲＡＭチップ又はモジュールのようなメモリへのアクセス、又はこれらからのアクセスを提供してよい。フラッシュコントローラ１４４５は、フラッシュメモリ又はＲＡＭの複数の他のインスタンスのようなメモリへのアクセス、又はこれらからのアクセスを提供してよい。ＳＰＩマスタユニット１４５０は、Ｂｌｕｅｔｏｏｔｈ（登録商標）モジュール１４７０、高速３Ｇモデム１４７５、全地球測位システムモジュール１４８０、又は８０２．１１のような通信規格を実装する無線モジュール１４８５のような通信モジュールへのアクセス、又はこれらからのアクセスを提供してよい。

図１５は、本開示の複数の実施形態に係る命令セットアーキテクチャを実装するプロセッサの命令アーキテクチャ１５００のより詳細なブロック図である。命令アーキテクチャ１５００は、マイクロアーキテクチャであってよい。命令アーキテクチャ１５００は、命令セットアーキテクチャ１４００の１つ又は複数の態様を実装してよい。さらに、命令アーキテクチャ１５００は、プロセッサ内の複数の命令を実行する複数のモジュール及びメカニズムを示してよい。

命令アーキテクチャ１５００は、１つ又は複数の実行エンティティ１５６５に通信可能に連結されるメモリシステム１５４０を含んでよい。さらに、命令アーキテクチャ１５００は、複数の実行エンティティ１５６５及びメモリシステム１５４０に通信可能に連結されるユニット１５１０のようなキャッシュ及びバスインタフェースユニットを含んでよい。一実施形態において、複数の命令の複数の実行エンティティ１５６５へのロードは、１つ又は複数の実行ステージによって実行されてよい。このようなステージは、例えば、命令プリフェッチステージ１５３０、デュアル命令復号ステージ１５５０、レジスタリネーミングステージ１５５５、発行ステージ１５６０、及びライトバックステージ１５７０を含んでよい。

一実施形態において、メモリシステム１５４０は、実行済み命令ポインタ１５８０を含んでよい。実行済み命令ポインタ１５８０は、複数のストランドによって表されるスレッド内のアウトオブオーダ発行ステージ１５６０において、複数の命令のバッチ内において、最も古いディスパッチされていない命令を特定する値をストアしてよい。実行済み命令ポインタ１５８０は、発行ステージ１５６０において算出され、ロードユニットに伝搬されてよい。命令は、複数の命令のバッチ内にストアされてよい。複数の命令のバッチは、複数のストランドによって表されるスレッド内にあってよい。最も古い命令は、最小ＰＯ（プログラム順序）値に対応してよい。ＰＯは、命令固有の番号を含んでよい。ＰＯは、コードのセマンティックの正確な実行を保証すべく、複数の命令を順序付けるために用いられてよい。ＰＯは、絶対値ではなく、命令において符号化されたＰＯのインクリメントを評価するもののようなメカニズムによって再構成されてよい。このような再構成されたＰＯは、ＲＰＯとして知られることがある。本明細書において、ＰＯが説明されてよいが、このようなＰＯは、ＲＰＯと相互交換可能に用いられてよい。ストランドは、互いに従属するデータである複数の命令のシーケンスを含んでよい。ストランドは、コンパイル時に、バイナリ変換器によって構成されてよい。ストランドを実行するハードウェアは、様々な命令のＰＯに従って、所与のストランドの複数の命令をインオーダで実行してよい。スレッドは、複数のストランドを含んでよく、これにより、異なるストランドの複数の命令は、互いに従属してよい。所与のストランドのＰＯは、発行ステージから実行のためにまだディスパッチされていない、ストランドにおいて最も古い命令のＰＯであってよい。従って、複数のストランドのスレッドが所与であり、各ストランドがＰＯによって順序付けされた複数の命令を含むとすると、実行済み命令ポインタ１５８０は、アウトオブオーダ発行ステージ１５６０において、スレッドの複数のストランドの中で最小の数によって示される最も古いＰＯをストアしてよい。

他の実施形態において、メモリシステム１５４０は、リタイアメントポインタ１５８２を含んでよい。リタイアメントポインタ１５８２は、最後にリタイアした命令のＰＯを特定する値をストアしてよい。リタイアメントポインタ１５８２は、例えば、リタイアメントユニット４５４によってセットされてよい。いずれの命令もまだリタイアしていない場合、リタイアメントポインタ１５８２は、ヌル値を含んでよい。

複数の実行エンティティ１５６５は、任意の適した数及び種類のメカニズムを含んでよく、これらにより、プロセッサは、複数の命令を実行してよい。図１５の例において、複数の実行エンティティ１５６５は、複数のＡＬＵ／乗算ユニット（ＭＵＬ）１５６６、ＡＬＵ１５６７、及び浮動小数点ユニット（ＦＰＵ）１５６８を含んでよい。一実施形態において、このようなエンティティは、所与のアドレス１５６９内に含まれる情報を利用してよい。複数の実行エンティティ１５６５は、ステージ１５３０、１５５０、１５５５、１５６０、１５７０との組み合わせで、実行ユニットを集合的に形成してよい。

ユニット１５１０は、任意の適した態様で実装されてよい。一実施形態において、ユニット１５１０は、キャッシュ制御を実行してよい。このような実施形態において、ユニット１５１０は、従って、キャッシュ１５２５を含んでよい。キャッシュ１５２５は、さらなる実施形態において、ゼロ、１２８ｋ、２５６ｋ、５１２ｋ、１Ｍ、又は２Ｍバイトのメモリのような、任意の適したサイズのＬ２統一キャッシュとして実装されてよい。他のさらなる実施形態において、キャッシュ１５２５は、エラー訂正コードメモリに実装されてよい。他の実施形態において、ユニット１５１０は、プロセッサ又は電子デバイスの複数の他の部分へのバスインタフェースを実行してよい。このような実施形態において、ユニット１５１０は、従って、相互接続、イントラプロセッサバス、インタープロセッサバス、もしくは他の通信バス、ポート、又はラインを介して通信を行うバスインタフェースユニット１５２０を含んでよい。バスインタフェースユニット１５２０は、例えば、メモリの生成、及び複数の実行エンティティ１５６５と命令アーキテクチャ１５００外部のシステムの一部との間でデータを転送するためのアドレスの入出力を実行するために、インタフェースを提供してよい。

その複数の機能をさらに容易とすべく、バスインタフェースユニット１５２０は、プロセッサ又は電子デバイスの複数の他の部分に対して割り込み及び他の通信を生成する割り込み制御及び分散ユニット１５１１を含んでよい。一実施形態において、バスインタフェースユニット１５２０は、複数の処理コアに対してキャッシュアクセス及びコヒーレンシを処理するスヌープ制御ユニット１５１２を含んでよい。さらなる実施形態において、このような機能を提供すべく、スヌープ制御ユニット１５１２は、複数の異なるキャッシュ間における情報交換を処理するキャッシュトゥキャッシュ転送ユニットを含んでよい。他のさらなる実施形態において、スヌープ制御ユニット１５１２は、他の複数のキャッシュ（不図示）のコヒーレンシを監視する１つ又は複数のスヌープフィルタ１５１４を含んでよく、これにより、ユニット１５１０のようなキャッシュコントローラは、このような直接的な監視を実行する必要がない。ユニット１５１０は、命令アーキテクチャ１５００の複数の動作を同期させる任意の適切な数のタイマ１５１５を含んでよい。また、ユニット１５１０は、ＡＣポート１５１６を含んでよい。

メモリシステム１５４０は、命令アーキテクチャ１５００の処理の必要性の情報をストアする任意の適した数及び種類のメカニズムを含んでよい。一実施形態において、メモリシステム１５４０は、メモリ又はレジスタへの書き込み又はこれらからの再読み出しを実行する複数の命令に関する情報をストアするロードストアユニット１５３０を含んでよい。他の実施形態において、メモリシステム１５４０は、物理アドレスと仮想アドレスとの間におけるアドレス値のルックアップを提供するトランスレーションルックアサイドバッファ（ＴＬＢ）１５４５を含んでよい。さらに他の実施形態において、バスインタフェースユニット１５２０は、仮想メモリへのアクセスを容易にするメモリ管理ユニット（ＭＭＵ）１５４４を含んでよい。さらに他の実施形態において、メモリシステム１５４０は、レイテンシ低減のために、複数の命令が実際に実行される必要が生じる前に、メモリからこのような命令を要求するプリフェッチャ１５４３を含んでよい。

命令を実行する命令アーキテクチャ１５００のオペレーションは、複数の異なるステージを通して実行されてよい。例えば、ユニット１５１０を用いて、命令プリフェッチステージ１５３０は、プリフェッチャ１５４３を通して命令にアクセスしてよい。取得された複数の命令は、命令キャッシュ１５３２にストアされてよい。プリフェッチステージ１５３０は、高速ループモードの選択肢１５３１を可能にしてよく、所与のキャッシュ内に合致するように十分小さいループを形成する一連の命令が実行される。一実施形態において、このような実行は、例えば、命令キャッシュ１５３２からの複数の追加命令へのアクセスを必要とすることなく実行されてよい。何の命令をプリフェッチするかの決定は、例えば、分岐予測ユニット１５３５によってなされてよく、当該ユニットは、コードの複数の分岐１５５７のいずれが次に実行されるかを決定すべく、グローバル履歴１５３６における実行の複数のインジケーション、複数のターゲットアドレス１５３７のインジケーション、又はリターンスタック１５３８のコンテンツにアクセスしてよい。このような分岐は、結果としてプリフェッチされる可能性があってよい。複数の分岐１５５７は、後述されるように、複数のオペレーションの他のステージを通して生成されてよい。命令プリフェッチステージ１５３０は、複数の命令及び今後の複数の命令についてのあらゆる予測を、デュアル命令復号ステージに提供してよい。

デュアル命令復号ステージ１５５０は、受信された命令を、実行可能なマイクロコードベースの複数の命令に変換してよい。デュアル命令復号ステージ１５５０は、クロックサイクル毎に２つの命令を同時に復号してよい。さらに、デュアル命令復号ステージ１５５０は、その複数の結果をレジスタリネーミングステージ１５５５に渡してよい。さらに、デュアル命令復号ステージ１５５０は、その復号及びマイクロコードの最終的な実行から、あらゆる結果的な分岐を決定してよい。このような結果は、複数の分岐１５５７に入力されてよい。

レジスタリネーミングステージ１５５５は、複数の仮想レジスタ又は他の複数のリソースへの参照を、複数の物理レジスタ又はリソースへの参照に変換してよい。レジスタリネーミングステージ１５５５は、レジスタプール１５５６におけるこのようなマッピングの複数のインジケーションを含んでよい。レジスタリネーミングステージ１５５５は、複数の命令を受信されたように変更し、その結果を発行ステージ１５６０に送信してよい。

発行ステージ１５６０は、複数のコマンドを複数の実行エンティティ１５６５に発行又はディスパッチしてよい。このような発行は、アウトオブオーダ方式で実行されてよい。一実施形態において、複数の命令は、実行前に発行ステージ１５６０に保持されてよい。発行ステージ１５６０は、このような複数のコマンドを保持する命令キュー１５６１を含んでよい。複数の命令は、所与の命令の実行のための複数のリソースの可用性又は適切性のような任意の許容可能な基準に基づいて、発行ステージ１５６０によって特定の処理エンティティ１５６５に対して発行されてよい。一実施形態において、発行ステージ１５６０は、命令キュー１５６１内の複数の命令をリオーダしてよく、これにより、受信された複数の第１の命令は、実行された複数の第１の命令でなくてよい。命令キュー１５６１の順序に基づいて、追加の分岐情報が、複数の分岐１５５７に提供されてよい。発行ステージ１５６０は、複数の命令を実行のために、複数の実行エンティティ１５６５に渡してよい。

実行にあたり、ライトバックステージ１５７０は、所与のコマンドの完了について通信を行うべく、命令アーキテクチャ１５００の複数のレジスタ、キュー、又は他の構造にデータを書き込んでよい。発行ステージ１５６０において構成された複数の命令の順序に応じて、ライトバックステージ１５７０のオペレーションは、実行されるべき複数の追加命令を可能にしてよい。命令アーキテクチャ１５００の性能は、トレースユニット１５７５によって監視又はデバッグされてよい。

図１６は、本開示の複数の実施形態に係るプロセッサの実行パイプライン１６００のブロック図である。実行パイプライン１６００は、例えば、図１５の命令アーキテクチャ１５００のオペレーションを示してよい。

実行パイプライン１６００は、複数の段階又はオペレーションの任意の適した組み合わせを含んでよい。１６０５において、次に実行されるべき分岐の複数の予測がなされてよい。一実施形態において、このような予測は、複数の命令の前の実行及びこれらの結果に基づいてよい。１６１０において、実行の予測された分岐に対応する複数の命令は、命令キャッシュにロードされてよい。１６１５において、命令キャッシュにおける１つ又は複数のこのような命令は、実行のためにフェッチされてよい。１６２０において、フェッチされた複数の命令は、マイクロコード又はより具体的な機械言語に復号されてよい。一実施形態において、複数の命令は、同時に復号されてよい。１６２５において、複数の復号された命令内における複数のレジスタ又は他のリソースへの参照は、再割り当てされてよい。例えば、複数の仮想レジスタへの参照は、複数の対応する物理レジスタへの参照に置換されてよい。１６３０において複数の命令は、実行のために複数のキューにディスパッチされてよい。１６４０において、複数の命令は、実行されてよい。このような実行は、任意の適した態様で実行されてよい。１６５０において、複数の命令は、適した実行エンティティに発行されてよい。命令が実行される態様は、その命令を実行する具体的なエンティティに応じて異なってよい。例えば、１６５５において、ＡＬＵは、複数の演算機能を実行してよい。ＡＬＵは、そのオペレーションのために単一のクロックサイクル及び２つのシフタを用いてよい。一実施形態において、２つのＡＬＵが用いられてよく、従って、１６５５において、２つの命令が実行されてよい。１６６０において、結果の分岐についての決定がなされてよい。プログラムカウンタは、分岐がなされるデスティネーションを指定するために用いられてよい。１６６０は、単一のクロックサイクル内で実行されてよい。１６６５において、浮動小数点演算は、１つ又は複数のＦＰＵによって実行されてよい。浮動小数点オペレーションは、２から１０サイクルのような複数のクロックサイクルを、実行のために要求してよい。１６７０において、乗算及び除算オペレーションが実行されてよい。このようなオペレーションは、４クロックサイクルのような複数のクロックサイクルで実行されてよい。１６７５において、パイプライン１６００の複数のレジスタ又は複数の他の部分へのロード及びストアオペレーションが実行されてよい。複数のオペレーションは、複数のアドレスのロード及びストアを含んでよい。このようなオペレーションは、４クロックサイクルで実行されてよい。１６８０において、複数のライトバックオペレーションが、１６５５から１６７５のオペレーション結果によって必要とされるように、実行されてよい。

図１７は、本開示の複数の実施形態に係るプロセッサ１７１０を用いる電子デバイス１７００のブロック図である。電子デバイス１７００は、例えば、ノートブック、ウルトラブック、コンピュータ、タワーサーバ、ラックサーバ、ブレードサーバ、ラップトップ、デスクトップ、タブレット、モバイルデバイス、電話、組み込みコンピュータ、又は任意の他の適した電子デバイスを含んでよい。

電子デバイス１７００は、任意の適した数又は種類のコンポーネント、周辺機器、モジュール、又はデバイスに通信可能に連結されるプロセッサ１７１０を含んでよい。このような連結は、Ｉ^２Ｃバス、システム管理バス（ＳＭバス）、ローピンカウント（ＬＰＣ）バス、ＳＰＩ、ハイデフィニションオーディオ（ＨＤＡ）バス、シリアルアドバンステクノロジーアタッチメント（ＳＡＴＡ）バス、ＵＳＢバス（バージョン１、２、３）、又は汎用非同期送受信機（ＵＡＲＴ）バスのような任意の適した種類のバス又はインタフェースによって実現されてよい。

このようなコンポーネントは、例えば、ディスプレイ１７２４、タッチスクリーン１７２５、タッチパッド１７３０、近距離通信（ＮＦＣ）ユニット１７４５、センサハブ１７４０、熱センサ１７４６、エクスプレスチップセット（ＥＣ）１７３５、トラステッドプラットフォームモジュール（ＴＰＭ）１７３８、ＢＩＯＳ／ファームウェア／フラッシュメモリ１７２２、デジタル信号プロセッサ１７６０、ソリッドステートディスク（ＳＳＤ）もしくはハードディスクドライブ（ＨＤＤ）のようなドライブ１７２０、無線ローカルエリアネットワーク（ＷＬＡＮ）ユニット１７５０、Ｂｌｕｅｔｏｏｔｈ（登録商標）ユニット１７５２、無線ワイドエリアネットワーク（ＷＷＡＮ）ユニット１７５６、全地球測位システム（ＧＰＳ）、ＵＳＢ３．０カメラのようなカメラ１７５４、又は、例えばＬＰＤＤＲ３規格で実装される低電力ダブルデータレート（ＬＰＤＤＲ）メモリユニット１７１５を含んでよい。これらのコンポーネントは、各々、任意の適した態様で実装されてよい。

さらに、様々な実施形態において、複数の他のコンポーネントは、上述された複数のコンポーネントを通してプロセッサ１７１０に通信可能に連結されてよい。例えば、加速度計１７４１、周辺光センサ（ＡＬＳ）１７４２、コンパス１７４３、及びジャイロスコープ１７４４は、センサハブ１７４０に通信可能に連結されてよい。熱センサ１７３９、ファン１７３７、キーボード１７４６、及びタッチパッド１７３０は、ＥＣ１７３５に通信可能に連結されてよい。スピーカ１７６３、ヘッドフォン１７６４、及びマイクロフォン１７６５は、オーディオユニット１７６４に通信可能に連結されてよく、次にオーディオユニット１７６４は、ＤＳＰ１７６０に通信可能に連結されてよい。オーディオユニット１７６４は、例えば、オーディオコーデック及びクラスＤ増幅器を含んでよい。ＳＩＭカード１７５７は、ＷＷＡＮユニット１７５６に通信可能に連結されてよい。ＷＬＡＮユニット１７５０及びＢｌｕｅｔｏｏｔｈ（登録商標）ユニット１７５２、ならびにＷＷＡＮユニット１７５６のようなコンポーネントは、次世代フォームファクタ（ＮＧＦＦ）で実装されてよい。

本開示の複数の実施形態は、リタイア可能な複数の命令を特定する命令及びロジックを含む。図１８は、本開示の複数の実施形態に係るリタイア可能な複数の命令を特定する命令及びロジックを実装する例示的なシステム１８００を示す。一実施形態において、このような命令は、アウトオブオーダプロセッサ又は処理エンティティ内においてリタイア可能であってよい。他の実施形態において、このような命令は、マルチストランドアウトオブオーダプロセッサ又は処理エンティティ内においてリタイア可能であってよい。マルチストランドアウトオブオーダプロセッサは、複数のストランドを並列に実行する処理エンティティを含んでよい。さらに、マルチストランドアウトオブオーダプロセッサは、複数の命令ポインタを含んでよい。スレッドの複数の命令は、複数のストランドにおいてグループ化されてよい。一実施形態において、マルチストランドアウトオブオーダプロセッサは、複数の他のストランドの複数の命令に対して、各ストランドの複数の命令を実行してよく、これにより、複数の命令は、プログラム順序外でフェッチ、発行、及び実行される。システム１８００は、このようなプロセッサの複数のエレメントを示してよく、これらは、任意のプロセッサコア、論理プロセッサ、プロセッサ、又は図１Ａから図１７に示されるもののような他の処理エンティティを含んでよい。

システム１８００は、命令ストリーム１８０２を処理する発行ステージ１５６０を含んでよい。命令ストリーム１８０２は、任意の適した数及び種類のストランド１８０４を含んでよい。各ストランド１８０４は、互いに従属するデータであるＰＯによって順序付けられた一連の命令を含んでよい。さらに、各ストランド１８０４は、例えば、複数のフォーキング又はループオペレーションを通して、複数の他のストランドに関連してよい。上述されたように、ＰＯは、コードのセマンティックの正確な実行を保証すべく、複数の命令を順序付ける命令固有の番号を含んでよい。さらに、システム１８００は、ライトバックステージ１５７０を含んでよい。

一実施形態において、システム１８００は、実行済み命令ポインタ１５８０を含んでよい。上述されたように、実行済み命令ポインタ１５８０は、命令ストリーム１８０２の最も古いプログラム順序ＰＯを特定する値をストアしてよい。さらなる実施形態において、実行済み命令ポインタ１５８０は、複数のストランド１８０４の中で最も古いＰＯを有する個々のストランド１８０４のＰＯをストアしてよい。

他の実施形態において、システム１８００は、リタイアメントポインタ１５８２を含んでよい。上述されたように、リタイアメントポインタ１５８２は、命令ストリーム１８０２の最後にリタイアした命令のＰＯを特定する値をストアしてよい。リタイアメントポインタ１５８２は、処理後に、所与の命令のリタイアに対してセットされてよい。所与の命令のリタイアは、実行後であっても、所与の命令に関する全てのデータ従属性、分岐、フォーク、又はループが解決されるまで遅延させられてよい。このような条件は、例えば、命令の再実行を要求してよい。

システム１８００は、リタイア可能な複数の命令を任意の適した態様で特定してよい。一実施形態において、システム１８００は、リタイア可能な複数の命令を特定するリタイアメントウィンドウ１８０８を生成してよい。複数のリタイアメントウィンドウ１８０８は、リタイア可能と特定された複数の命令のリストを含んでよい。リタイアメントウィンドウ１８０８は、ライトバックステージ１５７０のような任意の適したメカニズムによって生成されてよい。さらなる実施形態において、リタイアメントウィンドウ１８０８は、実行済み命令ポインタ１５８０を参照することによって生成されてよい。他のさらなる実施形態において、リタイアメントウィンドウ１８０８は、リタイアメントポインタ１５８２を参照することによって生成されてよい。様々な実施形態において、リタイアメントウィンドウ１８０８は、ＰＯを有する複数の命令を含んでよく、ＰＯは、リタイアメントポインタ１５８２によって特定された命令のＰＯと実行済み命令ポインタ１５８０によって特定された命令のＰＯとの間に存在する。いずれの命令もまだリタイアしていない場合、リタイアメントポインタ１５８２は、ヌル値を含んでよい。このような場合、リタイアメントウィンドウ１８０８は、第１のＮ個の命令を含んでよく、実行済み命令ポインタ１５８０は、命令ストリーム１８０２においてＮ番目の命令を示す（必ずしもＰＯ＃Ｎではない）。

命令ストリーム１８０２のＰＯの順序付けには、図１９Ａ－１９Ｅと併せてより詳細に説明されるように、複数のギャップが存在し得る。一実施形態において、リタイアメントウィンドウ１８０８は、不連続な複数のＰＯ値の範囲を含んでよい。他の実施形態において、リタイアメントウィンドウは、後で割り当て、再実行、アウトオブオーダフェッチ、又は他の利用を要求し得るあらゆる命令を省略してよい。従って、リタイアメントウィンドウ１８０８は、順序付けられ、不連続に付番された、安全にリタイア可能な複数の命令を含んでよい。

実行済み命令ポインタ１５８０は、任意の適した態様で生成されてよい。一実施形態において、システム１８００は、実行済み命令ポインタ１５８０を生成する実行済み命令ポインタ生成モジュール１８０６を含んでよい。実行済み命令ポインタ生成モジュール１８０６は、命令ストリーム１８０２において、どの命令が最も古いディスパッチされていない命令であるかを決定するように、任意の適した態様で実装されてよい。例えば、実行済み命令ポインタ生成モジュール１８０６は、ロジック、ハードウェア、コード、又は複数の命令によって実装されてよい。一実施形態において、実行済み命令ポインタ生成モジュール１８０６は、実行済み命令ポインタ１５８０を決定すべく、所与のストランド１８０４のＰＯを評価してよい。所与のストランド１８０４のＰＯは、最も古いディスパッチされていない命令のＰＯを含んでよい。従って、複数のストランド１８０４の各々は、そのＰＯ値をストア又は特定してよい。

実行済み命令ポインタ１５８０は、任意の適した時点で生成されてよい。一実施形態において、実行済み命令ポインタ１５８０は、システム１８００の各実行サイクルにおいて生成されてよい。実行サイクルが複数の追加命令のディスパッチをもたらし得るとして、実行済み命令ポインタ生成モジュール１８０６は、各実行サイクルに対して実行済み命令ポインタ１５８０を生成してよい。各実行サイクルに対する、生成された実行済み命令ポインタ１５８０のリフレッシュされた複数の値の必要は、図２０に示されるもののような実行済み命令ポインタ生成モジュール１８０６のハードウェア実装によって満たされ得る。

オペレーションにおいて、システム１８００は、各実行サイクルに対して実行済み命令ポインタ１５８０を生成してよい。従って、実行済み命令ポインタ１５８０は、複数のストランド１８０４のコード中で、最も古いＰＯを利用可能にしてよい。さらに、複数の命令がリタイアすると、最も直近でリタイアした命令のＰＯが、リタイアメントポインタ１５８２にストアされてよい。システム１８００は、実行済み命令ポインタ１５８０のＰＯとリタイアメントポインタ１５８２のＰＯとの間にあるＰＯを有する複数の命令を特定するために、例えば、ライトバックステージ１５７０を用いてよい。複数の特定された命令は、リタイアメントウィンドウ１８０８に含まれてよい。リタイアメントウィンドウ１８０８のこのような命令は、次に、例えばライトバックステージ１５７０のオペレーションを通して、システム１８００によってリタイアさせられてよい。

図１９Ａ－１９Ｅは、本開示の複数の実施形態に係るリタイア可能な複数の命令を特定する命令及びロジックを実装するシステム１８００のより詳細な図を示す。

図１９Ａにおいて、ＰＯによって順序付けられた一連の命令が示される。各命令は、そのそれぞれのＰＯと共に示される。このような一連の命令は、命令ストリーム１８０２の命令を含んでよい。図１９Ａに示されるように、命令ストリーム１８０２の複数の命令は、ＰＯに関して連続的でなくてよい。ＰＯの付番に複数のギャップが存在することがあり、なぜなら、様々な数がコンパイラによって静的に割り当てられることがあるからである。複数の命令が、条件付きループのような任意の数又は種類の動的分岐を記述し得るとして、当該命令が実行される場合に、コンパイラは、何の制御パスが最終的に用いられるかを認識しない。コードにおいて指定されない分岐は、実行されなくてよい。同様に、複数の命令は、静的に未知数のイテレーションを伴う複数のループを指定してよい。コンパイラはいつループが終了するかを予め認識しないので、コンパイラは、ループに対して特定のＰＯウィンドウを割り当ててよい。ループが早く終了した場合、いくつかの命令は実行しなくてよく、ギャップが出現することがある。

インオーダ処理との関連で、命令ストリーム１８０２は、最小ＰＯから最大ＰＯまで、線形的にインオーダで実行されてよい。しかしながら、システム１８００との関連で、命令ストリーム１８０２は、アウトオブオーダでフェッチ、発行、及び実行されてよい。

図１９Ｂにおいて、命令ストリーム１８０２は、適した数のストランド１８０４Ａ、１８０４Ｂ、１８０４Ｃの間で分割されるものとして示されてよい。所与のストランド１８０４内において、複数の命令は、ＰＯに従って線形的に実行されてよい。

ストランド１８０４Ａ、１８０４Ｂ、１８０４Ｃは、互いに対するデータ従属性を含んでよい。所与のストランド１８０４に対するデータ従属性が満たされると、所与のストランド１８０４の実行は開始してよい。例えば、ストランド１８０４Ｂは、ストランド１８０４Ａにおいて命令＃０が実行された後で、ストランド１８０４Ａからのフォークとして実行を開始してよい。ストランド１８０４Ａにおける命令＃０の実行は、ストランド１８０４Ｂのデータ要求を満たしてよい。他の例において、ストランド１８０４Ｃは、ストランド１８０４Ｂにおいて命令＃２が実行された後で、ストランド１８０４Ｂからのフォークとして実行を開始してよい。ストランド１８０４Ｂにおける命令＃０の実行は、ストランド１８０４Ｃのデータ要求を満たしてよい。

複数のデータ要求は、例えば、複数のレジスタにおける名称の従属性を含んでよい。複数の名称の従属性は、例えば、レジスタのより古い（下位ＰＯの）読み出しが全て実行されるまで、当該レジスタへの書き込みを防止することを含んでよい。さらに、複数のデータ要求は、メモリにおけるデータ及び名称の従属性を含んでよい。これらの従属性は、例えば、複数のメモリ位置に対して複数のプレディケートの読み出し及び書き込みが実行されるまで、当該メモリ位置のロード及びストアを防止することを含んでよい。さらに、複数のデータ要求は、不正確な例外又は割り込みに対する処理を含んでよい。このような処理は、より古い複数の命令がレジスタ又はメモリ状態をまだ更新していなかった場合、又は例外生成命令後の命令がレジスタ又はメモリ状態を既に更新していた場合に、例えば、例外を発生させる複数の命令を待つことを含んでよい。さらに、複数のデータ要求は、複数の制御従属性を含んでよい。これらの従属性は、例えば、命令のより古い分岐条件がまだ解決されていなかった場合に、複数のレジスタ又はメモリを更新する命令の実行を保持することを含んでよい。さらに、複数のデータ要求は、複数のメモリ整合性モデル要件を含んでよい。これらの要件は、例えば、他の複数の処理エンティティに露出される複数のメモリオペレーションを含んでよい。

図１９Ｃにおいて、ストランド１８０４Ａ、１８０４Ｂ、１８０４Ｃは、実行のスナップショット中の状態で示される。３つのストランド１８０４Ａ、１８０４Ｂ、１８０４Ｃは、並列に実行してよい。図１９Ｃに示される特定の瞬間に、システム１８００は、ディスパッチに対する１８０４Ａ、１８０４Ｂ、１８０４Ｃの各々からの命令を、実行のために現在評価していてよい。これらは、ストランド１８０４Ａからの命令＃１０、ストランド１８０４Ｂからの命令＃９、及びストランド１８０４Ｃからの命令＃６を含んでよい。命令＃１０、＃９、及び＃６は、まだディスパッチされていなくてよい。さらに、これらより新しい各ストランド１８０４の複数の命令も、まだディスパッチされていなくてよい。これらのディスパッチされていない命令は、ストランド１８０４Ａからの命令＃１３、ストランド１８０４Ｂからの命令＃１４、及びストランド１８０４Ｃからの命令＃１２を含んでよい。複数の他の命令は、既にディスパッチされていてよい。ストランド１８０４Ａの命令＃０は、既にディスパッチされ、実行され、リタイアしていてよい。これだけが、本例におけるリタイアした命令であるため、命令＃０は、リタイアメントポインタ１５８２によって特定されてよい。ストランド１８０４Ａの命令＃５、ストランド１８０４Ｂの命令＃２、ストランド１８０４Ｂの命令＃８、及びストランド１８０４Ｃの命令＃３は、ディスパッチされたものの、まだリタイアしていなくてよい。

一実施形態において、システム１８００は、もしあれば、複数のディスパッチ済みだがリタイアしていない命令のいずれがリタイアすべきかを決定してよい。このようなリタイアすべき命令は、リタイア候補と称されてよい。さらなる実施形態において、複数のディスパッチ済みだがリタイアしていない命令のいずれがリタイアすべきかを決定することは、生成されたリタイアメントウィンドウ１８０８によって実行されてよい。本例において、リタイアメントウィンドウ１８０８の生成は、ストランド１８０４Ａの命令＃５、ストランド１８０４Ｂの命令＃２、及びストランド１８０４Ｃの命令＃３をリタイアすべきものとして特定する結果をもたらしてよい。図１９ＡからＥに示されるスナップショットにおいて、リタイアメントウィンドウ１８０８は、ストランド１８０４Ｂの命令＃８を含まなくてよく、従って、この命令は、リタイアするものとしてまだ特定されていなくてよい。上述されたように、リタイアメントウィンドウ１８０８は、実行済み命令ポインタ１５８０とリタイアメントポインタ１５８２との間に命令ストリーム１８０２の複数のＰＯを含んでよい。

図１９Ｄにおいて、実行済み命令ポインタ１５８０及びリタイアメントポインタ１５８２の生成が示されてよい。生成された複数の値は、上述された結果を決定するために用いられてよい。

実行済み命令ポインタ生成モジュール１８０６は、実行済み命令ポインタ１５８０の値をセットしてよい。一実施形態において、実行済み命令ポインタ生成モジュール１８０６は、最小ＰＯを決定すべく、各ストランド１８０４Ａ、１８０４Ｂ、１８０４ＣのＰＯを評価してよい。最小のこのようなＰＯは、命令ストリーム１８０２のディスパッチされていない命令の全ての中で、最小ＰＯであってよい。このような各ストランドのＰＯは、ストランド内における複数のディスパッチされていない命令の最小ＰＯを含んでよい。各ストランド１８０４Ａ、１８０４Ｂ、１８０４Ｃは、例えば、レジスタ又はフリップフロップに、そのＰＯをストアしてよい。実行済み命令ポインタ生成モジュール１８０６は、ストランド１８０４Ａの命令＃１０、ストランド１８０４Ｂの命令＃９、又はストランド１８０４Ｃの命令＃６のいずれが最下位であるかを決定してよい。このような最小ＰＯがストランド１８０４Ｃの命令＃６であれば、実行済み命令ポインタ生成モジュール１８０６は、「６」の値を実行済み命令ポインタ１５８０にストアしてよい。実行済み命令ポインタ生成モジュール１８０６は、実行サイクル中、図１９Ｃに示されるスナップショットの直前に、このストレージを実行していてよい。

システム１８００の任意の適した部分は、リタイアメントポインタ１５８０の値をセットしてよい。一実施形態において、ライトバックステージ１５７０は、リタイアメントポインタ１５８０をセットしていてよい。リタイアメントポインタ１５８０は、命令の最も直近のリタイアに対してセットされていてよい。従って、ライトバックステージ１５７０は、ストランド１８０４Ａの命令＃０の前のリタイアに対して、リタイアメントポインタ１５８０に「０」を発行していてよい。

図１９Ｅにおいて、実行済み命令ポインタ１５８０及びリタイアメントポインタ１５８２の値を前提に、ライトバックステージ１５７０は、リタイアメントウィンドウ１８０８を生成してよい。リタイアメントウィンドウ１８０８を生成するために、命令ストリーム１８０２は評価されてよい。リタイアメントポインタ１５８２は、命令＃０を、最も直近でリタイアした命令と特定してよい。さらに、実行済み命令ポインタ１５８０は、命令＃６を、まだディスパッチされていない最も古い命令と特定してよい。一実施形態において、命令＃０と命令＃６との間における複数の命令の範囲は、従って、リタイア可能と特定されてよい。これらは、命令＃２、＃３、及び＃５を含んでよい。再び図１９Ｃを参照すると、これら３つの命令は、リタイア可能として示されている。

さらに、ストランド１８０４Ｂの命令＃８は、ディスパッチされているが、図１９Ｅにおけるリタイアメントウィンドウ１８０８の範囲外にある。従って、図１９Ｃにおいて、命令＃８は、リタイア可能と示されていない。

図２０は、本開示の複数の実施形態に係る複数のストランド中における最小ＰＯ値を決定するハードウェアロジック２０００の例を示す。一実施形態において、ハードウェアロジック２０００は、実行済み命令ポインタ生成モジュール１８０６を完全に又は部分的に実装してよい。ハードウェアロジック２０００は、任意の適した数、種類、又はタイプのコンポーネントによって実装されてよい。

一実施形態において、ハードウェアロジック２０００は、複数のノード２００４のカスケード構成によって実装されてよい。各ノード２００４は、２つの入力のうち小さいものを出力してよい。複数のノード２００４のカスケード構成は、任意の適したメカニズムからの入力を受け付けてよい。他の実施形態において、複数のノード２００４のカスケード構成は、評価されるべき各ストランドに対応するストレージメカニズムからの複数の入力を受け付けてよい。このようなストランドは、例えば、図１８の複数のストランド１８０４を含んでよい。任意の適した数のストランドと、従って複数の入力とは、受け付けられてよい。さらに他の実施形態において、各ストランドに対する複数のストレージメカニズムは、フリップフロップ２００２を含んでよい。各ストランドは、そのフリップフロップ２００２にそのＰＯをストアしてよい。

各ノード２００４は、２つの入力のうち小さいものを出力すべく、任意の適した態様で実装されてよい。一実施形態において、ノード２００４は、２つの入力ラインｉ及びｊを受け付けてよい。さらなる実施形態において、ノード２００４は、ｉ又はｊのいずれがより小さいかを決定する減算器２００６を含んでよい。さらに他の、さらなる実施形態において、ノード２００４は、ｉ及びｊのうち小さいものを選択するマルチプレクサ２００８を含んでよい。ノード２００４は、減算器２００６及びマルチプレクサ２００８に、ｉ及びｊをルーティングしてよい。減算器２００６は、ハードウェアで実装されてよく、ｉをｊから減算してよい。さらに、減算器２００６は、ｉをｊから減算した結果が正又は負のいずれであったかを示し、従って、ｉがｊより小さかったか又はｊより大きかったかを示す符号ビット２０１０を出力してよい。ノード２００４は、符号ビット２０１０をマルチプレクサ２００８のセレクタにルーティングしてよい。マルチプレクサ２００８は、ハードウェアで実装されてよく、ｉ及びｊのうち小さいものを出力２０１２へ選択的にルーティングすべく、符号ビット２０１０を用いてよい。出力２０１２は、従って、ｉ及びｊの小さい値であってよい。

出力２０１２は、全ての入力２００２が比較されるまで、ノード２００４のさらなるインスタンスに伝搬されてよく、これにより、複数の入力２００２のうち最小のものが決定される。複数の入力２００２のうち最小のものは、次に、実行済み命令ポインタ１５８０にストアされてよい。

例えば、複数の入力２００２は、ＰＯ値［２、５、６、１０、２５、４７、１２、９０…９］を含んでよい。他の複数の値は、含まれてよいが、図示されていない。任意の適切な数の入力２００２が、含まれてよい。追加の複数の入力２００２は、全ての入力２００２を十分比較できるように、追加の複数のレベルのノード２００４を要求してよい。

複数のカスケードノードの第１のレベルにおいて、ノード２００４Ａは、入力２００２Ａ（ＰＯ＃２を有する）が入力２００２Ｂ（ＰＯ＃５を有する）より小さいと決定してよく、結果の＃２をノード２００４Ｆにルーティングしてよい。ノード２００４Ｂは、入力２００２Ｃ（ＰＯ＃６を有する）が入力２００２Ｄ（ＰＯ＃１０を有する）より小さいと決定してよく、結果の＃６をノード２００４Ｆにルーティングしてよい。ノード２００４Ｃは、入力２００２Ｅ（ＰＯ＃２５を有する）が入力２００２Ｆ（ＰＯ＃２６を有する）より小さいと決定してよく、結果の＃２５をノード２００４Ｇにルーティングしてよい。ノード２００４Ｄは、入力２００２Ｇ（ＰＯ＃４７を有する）が入力２００２Ｈ（ＰＯ＃１２を有する）より大きいと決定してよく、結果の＃１２をノード２００４Ｇにルーティングしてよい。ノード２００４Ｅは、入力２００２Ｉ（ＰＯ＃９０を有する）が入力２００２Ｊ（ＰＯ＃９を有する）より大きいと決定してよく、結果の＃９をノード２００４Ｈにルーティングしてよい。

複数のカスケードノードの第２のレベルにおいて、ノード２００４Ｆは、ノード２００４Ａからの入力（ＰＯ＃２を有する）がノード２００４Ｂからの入力（ＰＯ＃６を有する）より小さいと決定してよく、結果の＃２をノード２００４Ｉにルーティングしてよい。ノード２００４Ｇは、ノード２００４Ｃからの入力（ＰＯ＃２５を有する）がノード２００４Ｄからの入力（ＰＯ＃１２を有する）より大きいと決定してよく、結果の＃１２をノード２００４Ｉにルーティングしてよい。ノード２００４Ｈは、未知のノードからの入力（ＰＯ＃７を有する）がノード２００４Ｅからの入力（ＰＯ＃９を有する）より小さいと決定してよく、結果の＃７をノード２００４Ｊにルーティングしてよい。

複数のカスケードノードの第３のレベルにおいて、ノード２００４Ｉは、ノード２００４Ｆからの入力（ＰＯ＃２を有する）がノード２００４Ｇからの入力（ＰＯ＃１２を有する）より小さいと決定してよく、結果の＃２をノード２００４Ｋにルーティングしてよい。ノード２００４Ｊは、未知のノードからの入力（ＰＯ＃１１を有する）がノード２００４Ｈからの入力（ＰＯ＃７を有する）より大きいと決定してよく、結果の＃７をノード２００４Ｋにルーティングする。

複数のカスケードノードの第４のレベルにおいて、ノード２００４Ｋは、ノード２００４Ｉからの入力（ＰＯ＃２を有する）がノード２００４Ｊからの入力（ＰＯ＃７を有する）より小さいと決定してよい。その結果は、複数の入力２００２の最小ＰＯであってよく、実行済み命令ポインタ１５８０にストアされてよい。

図２１は、本開示の複数の実施形態に係るリタイア可能な複数の命令を特定する例示的な方法２１００の図である。一実施形態において、このようなリタイアについての命令は、マルチストランドアウトオブオーダプロセッサにおいて特定されてよい。

方法２１００は、任意の適したポイントで開始してよく、任意の適した順序で実行してよい。一実施形態において、方法２１００は、２１０５で開始してよい。様々な実施形態において、方法２１００は、マルチストランドアウトオブオーダプロセッサの実行中に実行されてよい。

２１０５において、実行されるべく順序付けられた命令ストリームは、複数のストランドに分割されてよい。複数のストランドは、互いに並列に実行されてよい。複数のストランドは、互いに対してデータ従属性を有してよいが、互いに対してアウトオブオーダで実行されてよい。さらに、各ストランド内において、複数の命令が、インオーダで実行されてよい。複数の命令は、順序付け目的のためにＰＯインジケーションを含んでよい。

２１０７において、複数の処理段階が実行されてよい。このような段階は、例えば、プロセッサにおけるフェッチ、発行、ディスパッチ、又は実行命令を含んでよい。実行サイクルは、実行されてよい。実行済み命令ポインタは、前に進められてよい。

２１１０において、各ストランドからの複数のディスパッチされていない命令のＰＯが、ストアされてよい。２１１５において、全てのストランドからの複数のディスパッチされていない命令の最小ＰＯが、決定されてよい。複数のディスパッチされていない命令の最小ＰＯは、ストランドにおいて最も古いディスパッチされていない命令に対応してよい。このような各ストランドは、複数のディスパッチされていない命令の対応する最小ＰＯを、例えば、フリップフロップにストアしてよい。一実施形態において、最小ＰＯは、例えば、複数のストランドの各フリップフロップを、ハードウェアロジックへの入力として読み出すことによって決定されてよい。ハードウェアロジックは、複数のディスパッチされていない命令の最小ＰＯに対応する最小入力が決定されるまで、各入力を他の複数の入力と比較してよい。

２１２０において、複数のディスパッチされていない命令の最小ＰＯは、アクセス可能なファシリティ又は位置にストアされてよい。一実施形態において、この値は、実行済み命令ポインタにストアされてよい。

２１２５において、最も直近でリタイアした命令の特定が、ストアされてよい。このような特定は、ＰＯを含んでよい。最も直近でリタイアした命令は、そのリタイアに対して特定されてよい。一実施形態において、ＰＯは、リタイアメントポインタにストアされてよい。いずれの命令もまだリタイアしていない場合、リタイアメントポインタは、ヌルにセットされてよい。

２１３０において、リタイアメントウィンドウが決定されてよい。一実施形態において、リタイアメントウィンドウは、順序付けられた命令ストリーム内において、リタイアメントポインタにストアされたＰＯ及び実行済み命令ポインタにストアされたＰＯによって特定された複数の命令の間における、複数の命令の範囲として定義されてよい。リタイアメントポインタがヌルであり、いずれの命令もリタイアしていないことを示す場合、リタイアメントウィンドウは、命令ストリームにおいて、もしあれば、実行済み命令ポインタにストアされたＰＯによって特定された命令までの、第１のエレメント又は複数のエレメントを含んでよい。２１３５において、順序付けられた命令ストリームに適用されるリタイアメントウィンドウ内の複数の命令が、特定されてよい。２１４０において、これらの特定された命令は、リタイアを選択されてよく、一実施形態において、２４１５において、これらの特定された命令のリタイアが実行されてよい。

２１５０において、リタイアメントポインタは、更新されてよい。最も直近でリタイアした命令のＰＯは、リタイアメントポインタにストアされてよい。

２１６５において、プログラムがオペレーションを完了したか否かが決定されてよい。そうであれば、２１７０において、方法２１００は、終了してよい。さもなければ、方法２１００は、２１０７に戻ることのような、方法２１００の１つ又は複数のエレメントを繰り返してよい。

方法２１００は、任意の適した基準によって開始されてよい。さらに、方法２１００は特定の複数のエレメントのオペレーションを説明するが、方法２１００は、任意の適した組み合わせ又はタイプのエレメントによって実行されてよい。例えば、方法２１００は、図１Ａから図２０に示される複数のエレメントによって、又は方法２１００を実装するように動作可能な任意の他のシステムによって実装されてよい。このように、方法２１００の好ましい初期化ポイント及び方法２１００を備える複数のエレメントの順序は、選択された実装によって異なってよい。いくつかの実施形態において、いくつかのエレメントは、任意に省略され、再編成され、繰り返され、又は組み合わせられてよい。

本明細書に開示される複数のメカニズムの複数の実施形態は、ハードウェア、ソフトウェア、ファームウェア又はこのような複数の実装アプローチの組み合わせで実装されてよい。本開示の複数の実施形態は、少なくとも１つのプロセッサ、ストレージシステム（揮発性及び不揮発性メモリ及び／又は複数のストレージ要素を含む）、少なくとも１つの入力デバイス及び少なくとも１つの出力デバイスを備える複数のプログラマブルシステム上で実行する複数のコンピュータプログラム又はプログラムコードとして実装されてよい。

プログラムコードは、本明細書において説明される複数の機能を実行し、出力情報を生成する複数の入力命令に適用されてよい。出力情報は、１つ又は複数の出力デバイスに、公知の方式で適用されてよい。これを適用する目的のために、処理システムは、例えば、デジタル信号プロセッサ（ＤＳＰ）、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）又はマイクロプロセッサのようなプロセッサを有する任意のシステムを含んでよい。

プログラムコードは、処理システムと通信を行うために、高水準の手順型又はオブジェクト指向プログラミング言語で実装されてよい。プログラムコードは、望ましい場合には、アセンブリ又は機械言語で実装されてもよい。実際に、本明細書において説明される複数のメカニズムは、その範囲において、何らかの特定のプログラミング言語に限定されるものではない。いずれの場合であっても、言語は、コンパイラ型又はインタプリタ型言語であってよい。

少なくとも１つの実施形態の１つ又は複数の態様は、プロセッサ内の様々なロジックを表す機械可読媒体にストアされた代表的な複数の命令によって実装されてよく、このデータは、機械によって読み出された場合に、機械に、本明細書において説明される複数の技術を実行するロジックを製造させる。「ＩＰコア」として知られる複数のこのような表現は、有形の機械可読媒体にストアされてよく、様々な顧客又は製造施設に供給されて、実際にロジック又はプロセッサを作り出す製造機械にロードされてよい。

このような機械可読ストレージ媒体は、限定的ではないが、ハードディスク、フロッピ（登録商標）ディスク、光ディスク、コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、コンパクトディスクリライタブル（ＣＤ－ＲＷ）及び光磁気ディスクを含む任意の他のタイプのディスク、リードオンリメモリ（ＲＯＭ）のような半導体デバイス、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）のようなランダムアクセスメモリ（ＲＡＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、フラッシュメモリ、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、位相変化メモリ（ＰＣＭ）、磁気又は光カード、又は複数の電子的命令のストアに適した任意の他のタイプの媒体のような記憶媒体を含む、機械又はデバイスによって製造もしくは形成される複数の物品の非一時的かつ有形の構成を含んでよい。

従って、本開示の複数の実施形態は、複数の命令を含む、又は本明細書において説明される複数の構造、複数の回路、複数の装置、複数のプロセッサ及び／又は複数のシステム機能を定義するハードウェア記述言語（ＨＤＬ）のような設計データを含む非一時的かつ有形の機械可読媒体をさらに含んでよい。このような実施形態は、プログラム製品と称されてもよい。

いくつかの場合、命令コンバータは、ソース命令セットからターゲット命令セットに命令を変換するために用いられてよい。例えば、命令コンバータは、命令を、コアによって処理されるべき１つ又は複数の他の命令にトランスレート（例えば、静的バイナリ変換、動的コンパイルを含む動的バイナリ変換を用いて）、モーフィング、エミュレート、又は他の方法で変換してよい。命令コンバータは、ソフトウェア、ハードウェア、ファームウェア、又はこれらの組み合わせで実装されてよい。命令コンバータは、オンプロセッサであってよく、オフプロセッサであってよく、又は一部がオンプロセッサかつ一部がオフプロセッサであってよい。

従って、少なくとも一実施形態に係る１つ又は複数の命令を実行する複数の技術が開示されている。複数の特定の例示的な実施形態が複数の添付図面において説明及び図示されたが、このような実施形態は、単に例示であり、複数の他の実施形態に対する限定ではなく、当業者であれば本開示を参照することによって様々な他の変更に想到し得ることから、このような実施形態は、図示及び説明された具体的な複数の構造及び構成に限定されるものではないことを理解されたい。成長が速く、さらなる進歩が容易に予見し得ないこのような技術領域においては、本開示の原理又は添付された特許請求の範囲から逸脱することなく、技術的進歩を可能とすることによって促進されるように、開示された複数の実施形態は、構成及び詳細において容易に変更可能である。

Claims

命令ストリームをアウトオブオーダで実行する第１のロジックであって、前記命令ストリームは、複数のストランドに分割され、前記命令ストリーム及び各ストランドは、プログラム順序（ＰＯ）によって順序付けられる、第１のロジックと、
前記命令ストリームにおいて最も古いディスパッチされていない命令を決定し、前記最も古いディスパッチされていない命令に関連付けられたＰＯ値を、実行済み命令ポインタとしてストアする第２のロジックであって、前記命令ストリームは、ディスパッチされた命令及びディスパッチされていない命令を含む、第２のロジックと、
前記命令ストリームにおいて最も直近でリタイアした命令を決定し、前記最も直近でリタイアした命令に関連付けられたＰＯ値を、リタイアメントポインタとしてストアする第３のロジックと、
前記リタイアメントポインタ及び前記実行済み命令ポインタの間において複数の命令の範囲を選択する第４のロジックと、
前記第４のロジックにおいて選択された前記範囲における前記複数の命令を、リタイア可能と特定する第５のロジックと、
を備える、プロセッサ。
前記命令ストリームにおいて前記最も古いディスパッチされていない命令を決定する前記第２のロジックは、
複数のディスパッチされていない命令のセットを決定する第６のロジックであって、前記セットの各エレメントは、各ストランドからの最も古いディスパッチされていない命令に対応する、第６のロジックと、
前記セットから最も古いディスパッチされていない命令を決定する第７のロジックと、
を含む、請求項１に記載のプロセッサ。
前記命令ストリームにおいて前記最も古いディスパッチされていない命令を決定する前記第２のロジックは、
複数のデータストレージユニットであって、各データストレージユニットは、各ストランドからの最も古いディスパッチされていない命令のＰＯを保持する、複数のデータストレージユニットと、
カスケード構成に編成された複数の決定ノードであって、
前記複数のデータストレージユニットから、初期入力として情報を受け付ける前記複数の決定ノードの第１のレベルと、
前記命令ストリームにおいて前記最も古いディスパッチされた命令のＰＯを出力する前記複数の決定ノードの最終レベルと、
を含む複数の決定ノードと、
を含み、
各決定ノードは、前記決定ノードの複数の入力値を比較し、前記複数の入力値の最小値を出力する、
請求項１に記載のプロセッサ。
各決定ノードは、
第２の入力値から第１の入力値を減算する符号ビットを出力する減算器と、
前記減算器と通信可能に連結され、前記符号ビットに基づいて、前記第１の入力値又は前記第２の入力値のいずれかを選択的に出力するマルチプレクサと、
を含む、請求項３に記載のプロセッサ。
リタイア可能な複数の命令の前記範囲は、ディスパッチ及び実行された複数の命令を含む、請求項１から４のいずれか１項に記載のプロセッサ。
前記命令ストリームは、複数の命令の前記範囲外にある命令を含み、前記命令は、リタイアしておらず、ディスパッチされ、実行されている、請求項１から５のいずれか１項に記載のプロセッサ。
複数の命令の前記範囲における前記複数の命令の各々をリタイアさせる第６のロジックと、
複数の命令の前記範囲において前記第６のロジックによってリタイアさせられた最新の命令の前記ＰＯ値を、前記リタイアメントポインタとしてストアする第７のロジックと、
をさらに備える、請求項１に記載のプロセッサ。
プロセッサ内において、
命令ストリームをアウトオブオーダで実行する段階であって、前記命令ストリームは、複数のストランドに分割され、前記命令ストリーム及び各ストランドは、プログラム順序（ＰＯ）によって順序付けられる、段階と、
前記命令ストリームにおいて最も古いディスパッチされていない命令を決定し、前記最も古いディスパッチされていない命令に関連付けられたＰＯ値を、実行済み命令ポインタとしてストアする段階であって、前記命令ストリームは、ディスパッチされた命令及びディスパッチされていない命令を含む、段階と、
前記命令ストリームにおいて最も直近でリタイアした命令を決定し、前記最も直近でリタイアした命令に関連付けられたＰＯ値を、リタイアメントポインタとしてストアする段階と、
前記リタイアメントポインタ及び前記実行済み命令ポインタの間において複数の命令の範囲を選択する段階と、
前記範囲における前記複数の命令を、リタイア可能と特定する段階と、
を備える、方法。
前記命令ストリームにおいて前記最も古いディスパッチされていない命令を決定する段階は、
複数のディスパッチされていない命令のセットを決定する段階であって、前記セットの各エレメントは、各ストランドからの最も古いディスパッチされていない命令に対応する、段階と、
前記セットから最も古いディスパッチされていない命令を決定する段階と、
を含む、請求項８に記載の方法。
前記命令ストリームにおいて前記最も古いディスパッチされていない命令を決定する段階は、
各ストランドからの最も古いディスパッチされていない命令のＰＯを、データストレージ位置から、カスケード構成で編成された複数の決定ノードの第１のレベルへの入力として決定する段階と、
各決定ノードにおいて、前記決定ノードの複数の入力値を比較し、前記複数の入力値の最小値を出力する段階と、
前記複数の決定ノードの最終レベルにおいて、前記命令ストリームにおいて最も古いディスパッチされた命令のＰＯを出力する段階と、
を含む、請求項８に記載の方法。
前記決定ノードの複数の入力値を比較し、各決定ノードにおいて前記複数の入力値の最小値を出力する段階は、
第２の入力値から第１の入力値を減算し、符号ビットを決定する段階と、
前記符号ビットに基づいて、前記第１の入力値又は前記第２の入力値のいずれかを選択的に出力する段階と、
を含む、請求項１０に記載の方法。
リタイア可能な複数の命令の前記範囲は、ディスパッチ及び実行された複数の命令を含む、請求項８から１１のいずれか１項に記載の方法。
前記命令ストリームは、複数の命令の前記範囲外にある命令を含み、前記命令は、リタイアしておらず、ディスパッチされ、実行されている、請求項８から１２のいずれか１項に記載の方法。
複数のストランドに分割される命令ストリームであって、前記命令ストリーム及び各ストランドは、プログラム順序（ＰＯ）によって順序付けられる、命令ストリームと、
命令ストリームを受信し、アウトオブオーダで実行するプロセッサであって、
前記命令ストリームにおいて最も古いディスパッチされていない命令を決定し、前記最も古いディスパッチされていない命令の関連付けられたＰＯ値を実行済み命令ポインタとしてストアする第１のロジックであって、前記命令ストリームがディスパッチされた命令及びディスパッチされていない命令を含む、第１のロジックと、
前記命令ストリームにおいて最も直近でリタイアした命令を決定し、前記最も直近でリタイアした命令の関連付けられたＰＯ値を、リタイアメントポインタとしてストアする第２のロジックと、
前記リタイアメントポインタ及び前記実行済み命令ポインタの間において複数の命令の範囲を選択する第３のロジックと、
前記第３のロジックにおいて選択された前記範囲における複数の命令を、リタイア可能と特定する第４のロジックと、
を含むプロセッサと、
を備える、システム。
前記命令ストリームにおいて前記最も古いディスパッチされていない命令を決定する前記第１のロジックは、
複数のディスパッチされていない命令のセットを決定する第５のロジックであって、前記セットの各エレメントは、各ストランドからの最も古いディスパッチされていない命令に対応する、第５のロジックと、
前記セットから最も古いディスパッチされていない命令を決定する第６のロジックと、
を含む、請求項１４に記載のシステム。
前記命令ストリームにおいて前記最も古いディスパッチされていない命令を決定する前記第１のロジックは、
複数のデータストレージユニットであって、各データストレージユニットは、各ストランドからの最も古いディスパッチされていない命令のＰＯを保持する、複数のデータストレージユニットと、
カスケード方式で構成された複数の決定ノードであって、
前記複数のデータストレージユニットから、初期入力として情報を受け付ける前記複数の決定ノードの第１のレベルと、
前記命令ストリームにおいて前記最も古いディスパッチされた命令のＰＯを出力する前記複数の決定ノードの最終レベルと、
を含む複数の決定ノードと、
を含み、
各決定ノードは、前記決定ノードの複数の入力値を比較し、前記複数の入力値からの最小値を出力する、
請求項１４に記載のシステム。
各決定ノードは、
第２の入力値から第１の入力値を減算する符号ビットを出力する減算器と、
前記減算器と通信可能に連結され、前記符号ビットに基づいて、前記第１の入力値又は前記第２の入力値のいずれかを選択的に出力するマルチプレクサと、
を含む、請求項１６に記載のシステム。
リタイア可能な複数の命令の前記範囲は、ディスパッチ及び実行された複数の命令を含む、請求項１４から１７のいずれか１項に記載のシステム。
前記命令ストリームは、複数の命令の前記範囲外にある命令を含み、前記命令は、リタイアしておらず、ディスパッチされ、実行されている、請求項１４から１８のいずれか１項に記載のシステム。
前記プロセッサは、
複数の命令の前記範囲における前記複数の命令の各々をリタイアさせる第５のロジックと、
前記第５のロジックによってリタイアさせられた複数の命令の前記範囲における最新の命令の前記ＰＯ値を、前記リタイアメントポインタとしてストアする第６のロジックと、
をさらに含む、請求項１４に記載のシステム。