JP2024517706A

JP2024517706A - Ｓｍａｒｔｎｉｃにおけるネットワーク接続型ｍｐｉ処理アーキテクチャ

Info

Publication number: JP2024517706A
Application number: JP2023565613A
Authority: JP
Inventors: チョン，グアンウェン; フー，チェンチェン; ブレブナー，ゴードン・ジョン
Original assignee: Xilinx Inc
Current assignee: Xilinx Inc
Priority date: 2021-05-04
Filing date: 2022-03-16
Publication date: 2024-04-23
Also published as: EP4334814A1; US20220358002A1; WO2022235337A1; CN117178263A; KR20240004315A; US12050944B2

Abstract

本明細書の実施形態は、ハードウェア計算エンジン（１つ以上のアクセラレータを含み得る）に依存するＣＰＵ中心のソリューションにおけるデータコピーオーバーヘッドを低減するＳｍａｒｔＮＩＣにおけるインターフェースシェルを説明する。インターフェースシェルは、ＣＰＵの関与なしにタグマッチング及びアドレス変換をオフロードする。更に、インターフェースシェルは、計算エンジンが、余分なデータコピーなしに、すなわち、最初にデータをＣＰＵのメモリにコピーすることなしに、ネットワークから直接メッセージを読み出すことを可能にする。

Description

本開示の例は、概して、スマートネットワークインターフェースカード（ＳｍａｒｔＮＩＣ）のためのメッセージパッシングインターフェース（ＭＰＩ）シェルに関する。

データ及びスケールアウトワークロード／アプリケーションの膨張は、現代のデータセンタに拡張性及び性能の課題をもたらしている。現代のアプリケーションに低レイテンシ、高スループット、及び低電力消費を実現するために、データセンタは、しばしば、それらのコンピューティングタスクを分散及びネットワーク化された設定に置いている。例えば、データセンタは、ネットワークを介して接続された複数のノードを含むことができ、アーキテクチャ内の各ノードは、マルチコア中央処理装置（ＣＰＵ）と、ＡＳＩＣ（特定用途向け集積回路）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、又はＧＰＵ（グラフィックス処理ユニット）の形態のハードウェアアクセラレータとを有するホストを含む。

ＭＰＩは、科学コンピューティング、遺伝コンピューティング、及び機械学習などの種々のドメインにわたる多くの分散アプリケーションにおいて広く展開されている。それは、数十年の間、並列及び分散コンピューティングを開発するための事実上のプログラミングモデルであった。ＭＰＩは、ポイントツーポイント通信並びに集合的及び同期動作などの種々のプリミティブを提供する。ノード間のデータ通信（送信／受信）は、ネットワークを介して行われる。計算がアクセラレータにオフロードされる従来のＭＰＩアプリケーションでは、ネットワークから受信されたデータは、まずホストのメモリに記憶され、その後、ＰＣＩｅ（Peripheral Component Interconnect Express）バスを介して計算加速のためにアクセラレータのメモリ（以下、デバイスメモリと称する）にコピーされる。計算後、結果は通常、ホストのメモリに再びコピーされる。複数のデータコピーのオーバーヘッドにより、このＣＰＵ中心のソリューションではシステム性能が著しく低下し、大きなレイテンシを被る。別の言い方をすれば、ネットワークを介して別のノードからタスクを受信するとき、受信ノード上のＣＰＵは、最初にデータを処理し、次いで、ノード内のアクセラレータに対応するメモリにデータを送らなければならない。終了すると、アクセラレータは、ノードが処理されたデータを要求側ノードに最終的に伝送する前に、データをＣＰＵのメモリに返信する。したがって、ＭＰＩ環境においてアクセラレータを使用することは、データがＣＰＵのためのメモリとアクセラレータとの間で伝送されるため、大幅なオーバーヘッドが生成する可能性がある。

一実施形態は、ネットワークから受信したパケットをスニフしてメッセージパッシングインターフェース（ＭＰＩ）メッセージを識別し、ＭＰＩメッセージに含まれるデータを中央処理装置（ＣＰＵ）に対応するメモリに最初にコピーすることなく、ＭＰＩメッセージに含まれるデータを処理のために計算回路に転送するように構成された回路を含むＭＰＩシェルを含むネットワークインターフェースカード（ＮＩＣ）を説明する。また、ＣＰＵは、ＮＩＣと同じ計算ノードに配置される。

本明細書で説明される別の実施形態は、ハードウェア計算回路と、ネットワークから受信されたパケットをスニフしてＭＰＩメッセージを識別し、ＭＰＩメッセージに含まれるデータを処理のために計算回路に転送し、計算回路にＭＰＩメッセージに含まれるデータを処理するように命令する命令をＮＩＣの外部のＣＰＵから受信するように構成された回路を備えるＭＰＩシェルとを含むＮＩＣである。

本明細書で説明される別の実施形態は、ネットワークから受信されたパケットをスニフして、メッセージを使用して分散計算システム内のノード間でタスクが伝送される分散計算システムに対応するメッセージを識別し、メッセージに含まれるデータをＣＰＵに対応するメモリに最初にコピーすることなく、処理のためにメッセージに含まれるデータをハードウェア計算回路に転送するように構成された回路を備えるインターフェースシェルを含むＮＩＣである。また、ＣＰＵは、ＮＩＣと同じ計算ノードに配置される。

上記の特徴が詳細に理解され得るように、上記で簡潔に要約されたより具体的な説明が、例示的な実装形態を参照することによって行われ得、それらの実装形態のうちのいくつかが添付の図面に示される。しかしながら、添付の図面は、典型的な例示の実装形態のみを示しており、したがって、その範囲を限定するものと見なされるべきではないことに留意されたい。

一例による、ＭＰＩシェルを含むＳｍａｒｔＮＩＣを有する並列計算システムを示す。一例による、並列計算システムにおけるノードのブロック図である。一例による、ＭＰＩシェルのブロック図である。一例による、ＭＰＩシェル内のパケット分類器を示す。一例による、ＭＰＩシェル内のタグマッチャを示す。一例による、ＭＰＩシェル内のアドレス変換器を示す。一例による、ＭＰＩシェル内のデータムーバを示す。一例による、ＭＰＩシェル内の計算エンジンを示す。一例による、ＭＰＩシェル内のデータコントローラを示す。一例による、ＭＰＩシェルを異なるＳｍａｒｔＮＩＣ実装形態に統合することを示す。一例による、ＭＰＩシェルを異なるＳｍａｒｔＮＩＣ実装形態に統合することを示す。一例による、ＭＰＩシェルを異なるＳｍａｒｔＮＩＣ実装形態に統合することを示す。

様々な特徴が、図面を参照して以下に記載される。図面は縮尺どおりに描かれている場合もあるし、描かれていない場合もあり、同様の構造又は機能の要素は図面全体を通して同様の参照番号によって表されていることに留意されたい。図面は、特徴の説明を容易にすることのみを意図していることに留意されたい。それらは、明細書の網羅的な説明として、又は特許請求の範囲に対する限定として特徴付けられていない。加えて、図示された例は、示された全ての態様又は利点を有する必要はない。特定の実施例に関連して説明される態様又は利点は、必ずしもその実施例に限定されず、そのように例解されていない場合、又はそのように明示的に説明されていない場合であっても、任意の他の実施例において実施することができる。

本明細書の実施形態は、ハードウェアアクセラレータに依存するＣＰＵ中心のソリューションにおけるデータコピーオーバーヘッドを低減するＳｍａｒｔＮＩＣにおけるＭＰＩシェルを説明する。ＭＰＩシェルは、ＣＰＵの関与なしにタグマッチング及びアドレス変換をオフロードする。更に、ＭＰＩシェルは、アクセラレータが、余分なデータコピーなしに、すなわち、最初にデータをＣＰＵのメモリにコピーすることなしに、ネットワークから直接メッセージを読み出すことを可能にする。更に、ＭＰＩシェルは、ＭＰＩプログラミングモデルがＳｍａｒｔＮＩＣを有するネットワーク中心のデータセンタアーキテクチャを包含することを可能にし、ＭＰＩシェルは、アプリケーションにおける大規模な変更なしに既存のＭＰＩライブラリにシームレスに統合されることができ、ＭＰＩシェルは、データ計算を可能な限り近くに（例えば、ＳｍａｒｔＮＩＣ上のコンピュータエンジン又はアクセラレータに）もたらして、高性能、低レイテンシ、及び低電力消費を達成する。

一実施形態では、ＳｍａｒｔＮＩＣ及び計算エンジンは、ＦＰＧＡベースのＳｍａｒｔＮＩＣデバイスなどの単一のデバイス上に設計することができる。この種のデータセンタアーキテクチャは、高速（４０Ｇｂｐｓ～２００Ｇｂｐｓ）ネットワークをターゲットとし、その分散型適応コンピューティング機能により改善された計算能力を提供する。データセンタアーキテクチャの固有の異種性、スケーラビリティ、及び効率により、データセンタアーキテクチャは、高性能、低レイテンシ、及び低電力消費を要求する現代の分散システムアプリケーションを厳密に包含する。

図１は、一例による、ＭＰＩシェルを含むＳｍａｒｔＮＩＣを有する計算システム１００を示している。図示のように、計算システム１００（例えば、並列計算システム）は、ネットワーク１５０（例えば、ローカルアクセスネットワーク（ＬＡＮ））を介してインターコネクトされた複数のノード１０５を含む。各ノード１０５は、ＣＰＵ１１０及びＳｍａｒｔＮＩＣ１１５を含むことができるが、ノード１０５は、複数のＣＰＵ（複数のコアを含むことができる）及び複数のＳｍａｒｔＮＩＣ１１５を含み得る。一実施形態では、ノード１０５はＭＰＩを使用して通信するが、本明細書で説明される実施形態は、タスクがノード１０５間で伝送される任意の分散計算システムを含むように拡張することができる。

ノード１０５Ａにおいて、ＣＰＵ１１０は、ＳｍａｒｔＮＩＣ１１５に依存してネットワーク１５０と通信し、したがって他のノード１０５と通信する。ＳｍａｒｔＮＩＣ１１５は、ＳｍａｒｔＮＩＣ１１５がシステム１００内の他のノード１０５からノード１０５Ａに伝送されたデータを「スニフ」又は「インターセプト」することを可能にするＭＰＩシェル１２０を含む。このデータをＣＰＵ１１０に対応するメモリ（例えば、ＲＡＭ）に記憶する代わりに、ＣＰＵ１１０は、ＭＰＩシェル１２０に、代わりに統合計算エンジン１２５（計算回路とも称され、１つ以上のユーザ定義ハードウェアアクセラレータを含み得る）を用いてこのデータを処理するよう命令してよい。処理されると、ＣＰＵ１１０は、ネットワーク１５０を使用して処理されたデータを別のノード１０５に伝送するようにＳｍａｒｔＮＩＣ１１５に指示することができる。したがって、データ（受信されたデータ及び処理されたデータの両方）は、決してＣＰＵ１１０のメモリに記憶される必要はない。したがって、データ書き込み／読み出しプロセスは、ＣＰＵ及びその対応するメモリ複合体をバイパスする。

一実施形態では、計算エンジン１２５は、ＳｍａｒｔＮＩＣ１１５とは別個である。その場合、ＭＰＩシェル１２０は、依然として、ＭＰＩメッセージを処理のために計算エンジン１２５に直接提供し、処理されたデータを計算エンジン１２５から受信し、ＣＰＵ１１０のメモリコンプレックスをバイパスしながら、処理されたデータをシステム１００内の異なるノード１０５に転送することができる。ＣＰＵ１１０は、ＭＰＩシェル１２０を使用してこのプロセスを制御することができるが、ＭＰＩメッセージは、別個の計算エンジン１２５に到達するためにＣＰＵ１１０を通って流れる必要はない。

ＭＰＩシェル１２０及び計算エンジン１２５は、ＳｍａｒｔＮＩＣ１１５内のハードウェア（例えば、回路）である。一実施形態では、ＭＰＩシェル１２０及び計算エンジン１２５は、ＳｍａｒｔＮＩＣのＦＰＧＡのプログラマブルロジックに実装される。別の実施形態では、ＭＰＩシェル１２０及び計算エンジン１２５は、ＡＳＩＣ又はシステムオンチップ（ＳｏＣ）に実装される。その場合、ＭＰＩシェル１２０及び計算エンジン１２５を形成する回路は強化される。いずれの場合も、ＭＰＩシェル１２０は、ＳｍａｒｔＮＩＣ１１５内の集積回路に実装されてもよく、一方、計算エンジン１２５は、ＳｍａｒｔＮＩＣ１１５上の同じ集積回路又は異なる集積回路に実装されてもよく、ＳｍａｒｔＮＩＣ１１５とは別に実装されてもよい。

図２は、一例による、並列計算システムにおけるノードのブロック図である。一実施形態では、図２は、図１のノード１０５内の構成要素を示している。この例では、ノード１０５は、ＭＰＩアプリケーション２０５、ＭＰＩライブラリ２１０、及びドライバ２５０を含む、ＣＰＵ１１０によって実行されるソフトウェアを含む。これらのドライバ２５０は、ネットワークスタック２１５、カーネルドライバ２１７、及びＭＰＩシェルランタイム２２０を含む。ＭＰＩアプリケーション２０５は、科学コンピューティングアプリケーション、遺伝コンピューティングアプリケーション、又は機械学習／人口知能アプリケーションなどの任意のアプリケーションを含み得る。ＭＰＩライブラリ２１０は、ＭＰＩアプリケーション２０５が分散コンピューティング環境（例えば、図１の計算システム１００）を利用することを可能にする。ＭＰＩライブラリ２１０は、分散コンピューティング環境内のノード間のポイントツーポイント通信並びに集合的動作及び同期動作を可能にすることができる。

ドライバ２５０は、ＭＰＩアプリケーション２０５及びライブラリ２１０がＳｍａｒｔＮＩＣ１１５と通信することを可能にする。ネットワークスタック２１５及びカーネルドライバ２１７は、本明細書の実施形態を実施するために変更又は更新される必要はない。しかしながら、ＭＰＩシェルランタイム２２０は、ＣＰＵ１１０及びＣＰＵ１１０上で実行されるソフトウェア（例えば、ＭＰＩアプリケーション２０５）が、ＳｍａｒｔＮＩＣ１１５内のＭＰＩシェル１２０を制御し、通信することを可能にする新たなドライバ２５０である。一実施形態では、ＭＰＩシェルランタイム２２０は、デバイスメモリ管理と、ＣＰＵ１１０とＭＰＩシェル１２０との間の通信（例えば、後述するように計算エンジン１２５を制御すること）とに用いられるソフトウェアライブラリである。デバイスメモリ（すなわち、計算エンジン１２５によって使用されるローカルメモリ）のメモリ管理のために、ＭＰＩシェルランタイム２２０は、ハードウェアプロセスのためにデバイスメモリに物理的に配置されたメッセージバッファを割り当て、ハードウェアプロセスがそのライフサイクルを終了したときにバッファの割り当てを解除する。これは、固定サイズブロック割り当て、バディーメモリ割り当て、及びスラブ割り当てのような種々のメモリ管理アルゴリズムで実装することができる。ＭＰＩシェルランタイム２２０は、ＭＰＩシェル１２０とは別個のものとして示されているが、ＭＰＩシェルの一部と見なすことができ、ランタイム２２０はシェルのソフトウェア部分であり、シェルのハードウェア部分はＳｍａｒｔＮＩＣ１１５に配置される。

ＳｍａｒｔＮＩＣ１１５は、ＣＰＵ１１０で実行されるソフトウェアとインターフェースするＳｍａｒｔＮＩＣダイレクトメモリアクセス（ＤＭＡ）サブシステム２２５と、ＳｍａｒｔＮＩＣメディアアクセス制御（ＭＡＣ）サブシステム２３０とを含む。以下の説明では、概して、ＳｍａｒｔＮＩＣ１１５と同じノード内のＣＰＵ１１０、及びＣＰＵ１１０によって実行されるソフトウェアを含むことができる「ホスト」に言及する。

典型的なＭＰＩの実装形態に焦点を当てると、ＭＰＩ規格は概して、送信者（例えばＭＰＩ＿ｓｅｎｄ）と受信者（ＭＰＩ＿ｒｃｖ）とを含む両側通信を使用する。送信者では、第１のノード内のＣＰＵが、ＴＣＰ／ＩＰ、ＲｏＣＥ（Remote Direct Memory Access over Converged Ethernet）、又はｉＷＡＲＰなどのトランスポートプロトコルを使用して通信チャネルを介して送信するためのヘッダ及びデータを有するメッセージを準備し、通信チャネルを介して受信者にメッセージを伝送する。受信者では、第２のノード内のＣＰＵが、通信チャネルからメッセージヘッダ及びデータを抽出し、それらを一時バッファに記憶し、タグマッチングと称される動作を実施して、着信メッセージが受信者によってポストされた受信要求とマッチングするかどうかをチェックし、メッセージを宛先受信バッファにコピーする。

ノードがＳｍａｒｔＮＩＣ１１５に統合されたＭＰＩシェル１２０を有する場合、ＭＰＩプロセスは、ハードウェアプロセスとソフトウェアプロセスとに分離することができる。ハードウェアプロセスは、そのプロセスを実施するハードウェア計算エンジン１２５がＳｍａｒｔＮＩＣにあるか又はそれに取り付けられていることを示し、一方、ソフトウェアプロセスは、ＣＰＵ１１０においてのみ実施される従来のＭＰＩプロセスである。各プロセスは、その識別子として固有の番号、ランクを有する。ソフトウェアプロセスとハードウェアプロセスとの間の任意の両側通信に関して、以下のように４つの例に分類することができる。

例Ａ：送信者及び受信者がソフトウェアプロセスである場合、システムは、いかなる変更もなしに、上述の従来のＭＰＩ通信フローを活用する。すなわち、通信は、シェル１２０の影響を受けることなく、ＭＰＩシェル１２０を通過する。

例Ｂ：送信者がソフトウェアプロセスであるが、受信者がハードウェアプロセスである場合、システムは、上述の従来のＭＰＩ送信動作を何ら変更することなく活用する。しかし、受信者側では、ＭＰＩシェル１２０は、ＳｍａｒｔＮＩＣＭＡＣサブシステム２３０から直接、ハードウェアプロセスに関連するメッセージのパケットをスニフ／フィルタリングし、デバイスメモリ（すなわち、ローカルアクセラレータ又は計算エンジンメモリ）に配置された宛先受信バッファにデータを記憶する。タグマッチング及びアドレス変換は、ＣＰＵの関与なしにＭＰＩシェル１２０にオフロードされる（以下でより詳細に説明される）。メッセージが完全に受信され、デバイスメモリに記憶されると、ＭＰＩシェル１２０は、受信者のホスト（例えば、ＣＰＵ１１０で実行されるＭＰＩアプリケーション２０５）に通知する。全てのメッセージが準備されると、ホストは、メッセージアドレスを引数として有する計算コマンドを、計算のために特定のハードウェア計算エンジン１２５に発行する。計算エンジン１２５は、次いで、そのデバイスメモリからメッセージを読み取り、計算を開始し、適用可能な場合、結果をデバイスメモリにライトバックし、終了後、ホスト（例えば、ＭＰＩアプリケーション２０５）に通知する。

例Ｃ：送信者がハードウェアプロセスであるが、受信者がソフトウェアプロセスである場合、受信者において、受信動作は、上述した従来のＭＰＩ受信動作と同じである。しかし、送信者では、ホストは、ＳｍａｒｔＮＩＣＤＭＡサブシステム２２５を使用して、メッセージがデバイスメモリに記憶されている場合、ＳｍａｒｔＮＩＣ１１５内の伝送（ＴＸ）ロジックにメッセージアドレスを通知する。次いで、ＴＸロジックは、ＭＰＩシェル内のデータコントローラ（図３及び図９で詳細に説明する）を介してメッセージを読み出し、データをリモート受信者に送信する。メッセージがホスト側メモリに記憶されている場合、送信動作は従来のＭＰＩ動作と同じである。

例Ｄ：送信者と受信者の両方がハードウェアプロセスである場合、受信者では、例Ｂで述べた動作に従う。送信者では、例Ｃで述べた動作に従う。

図３は、一例による、ＭＰＩシェル１２０のブロック図である。特に、図３は、ＳｍａｒｔＮＩＣに存在するＭＰＩシェル１２０の部分を示している。図示されていないが、ＭＰＩシェル１２０は、ホスト（例えば、図２のＭＰＩシェルランタイム２２０）で実行されるＭＰＩシェルランタイム（例えば、ソフトウェアドライバ）を含み得る。

ＭＰＩシェル１２０のハードウェアは、データコントローラ３０５と、データムーバ３２０と、アドレス変換器３２５と、タグマッチャ３３０と、パケット分類器３３５と、計算エンジン１２５とを含む。これらのハードウェア要素（例えば、回路）の各々は、以下の図においてより詳細に説明される。しかしながら、簡単な導入として、パケット分類器３３５は、ＭＰＩメッセージに関連する受信パケットをフィルタリング（又は識別）し、それらのパケットのメタデータを生成する。次いで、このメタデータは、ＭＰＩシェル１２０内の下流のハードウェア要素によって使用される。図示されていないが、パケット分類器３３５は、図２のＳｍａｒｔＮＩＣＭＡＣサブシステム２３０からパケットを受信することができ、それは次にネットワークからパケットを受信する。

タグマッチャ３３０は、ソースプロセスからの着信メッセージを、宛先プロセスにポストされた受信要求とマッチングさせる。アドレス変換器３２５は、着信ＭＰＩメッセージパケットについてメモリ（例えば、ＳｍａｒｔＮＩＣ内のローカルメモリ）内の宛先アドレスを計算し、メッセージの準備完了を追跡する。データムーバ３２０は、ＡＸＩＳ（Advanced eXtensible Interface Streaming）プロトコルの形式のパケットをＡＸＩプロトコルの形式のデータに変換し、ＭＰＩメッセージが完全に受信されたときに、ローカルホスト（例えば、ローカルＣＰＵ及びＭＰＩアプリケーション）に割り込み又はプル信号を発行する。データコントローラ３０５は、ＭＰＩシェル１２０内の種々のハードウェア要素がＳｍａｒｔＮＩＣ内のメモリを共有及びアクセスするためのアービトレーションを実施する。計算エンジン１２５は、ＭＰＩメッセージ内のデータに対して任意のアクセラレータ機能を実施することができる。上述したように、計算エンジン１２５は、プログラム可能な又は強化されたロジックを使用して実装することができる。

図４は、一例による、ＭＰＩシェル１２０内のパケット分類器３３５を示している。パケット分類器３３５は、パーサ４０５及びマッチングテーブル４１０を含む。概して、パケット分類器３３５は、ＭＰＩ通信に関連するパケットをフィルタリングし、それらのパケットのメタデータを生成する。更に、図２のＭＰＩシェルランタイム２２０内のテーブル構成は、パケット分類器３３５内のマッチングテーブル４１０内のエントリを書き込み、削除することができる。

パーサ４０５は、着信パケットから情報を抽出する。情報は、メッセージヘッダ、パケットシーケンス番号、ペイロード長、及びフローＩＤを含み得る。一実施形態では、メッセージヘッダは、＜ｒａｎｋ_ｓｒｃ，ｒａｎｋ_ｄｓｔ，ｔａｇ，ｃｏｎｔｅｘｔ＿ｉｄ，ｏｐｃｏｄｅ，ｍｅｓｓａｇｅｌｅｎｇｔｈ（ｍｓｇ＿ｌｅｎ）＞を含み、ｏｐｃｏｄｅは、送信、受信、プット、及びゲットオペレーションなどのＭＰＩオペレーションを識別するために使用される。ｒａｎｋ_ｓｒｃ及びｒａｎｋ_ｄｓｔ信号は、それぞれ、ソースプロセス及び宛先プロセスの一意の識別子である。フローＩＤは、パケットを分類するために使用され、フローＩＤの一例は、＜ＩＰ送信元アドレス、ＩＰ宛先アドレス、プロトコル、送信元ポート、宛先ポート＞で設計することができる。

マッチングテーブル４１０は、パーサ４０５から導出されたフローＩＤ（ｆｉｄ）を入力として受け取り、ｆｉｄに対応するフローのＭＰＩ通信情報を検索する。ＭＰＩ通信情報は、ｒａｎｋ_ｓｒｃ、ｒａｎｋ_ｄｓｔ、ｔａｇ、ｃｏｎｔｅｘｔ＿ｉｄで定義される。マッチングテーブル４１０のエントリは、ホスト及びそのリモートピアがそれらのＭＰＩハンドシェイクプロセスを終了したときに、ホスト（例えば、ローカルＣＰＵ）によって更新又は書き込まれる。更新／書き込み動作は、ＡＸＩ－Ｌｉｔｅインターフェースを使用して実装され得る。マッチングテーブル４１０は、ハッシングバイナリ／ターナリ／セミターナリアドレッサブルメモリ（ＢＣＡＭ／ＴＣＡＭ／ＳＴＣＡＭ）などを使用して実装することができる。

パケット分類器３３５は、＜ｒａｎｋ_ｓｒｃ，ｒａｎｋ_ｄｓｔ，ｔａｇ，ｃｏｎｔｅｘｔ＿ｉｄ，ｏｐｃｏｄｅ，ｍｓｇ＿ｌｅｎ，ｐｋｔ＿ｓｅｑ，ｐａｙｌｏａｄ＿ｌｅｎ，ｄｒｏｐ＞を含むｍｅｔａｄａｔａ_ｐｃを出力し、ここで、ドロップ信号は、ルックアップ要求からのミス信号であり、マッチングテーブル４１０に出力される。すなわち、ドロップは、マッチングテーブル４１０がパーサ４０５から受信されたｆｉｄに対応するフローを見つけることができなかったときにハイとなる。ドロップ信号がハイであるとき、対応するパケットはＳｍａｒｔＮＩＣによってドロップされる。

図５は、一例による、ＭＰＩシェル１２０内のタグマッチャ３３０を示している。タグマッチャ３３０は、ソースプロセスからの送信動作を宛先プロセスからの受信要求とマッチングさせる。図５に示されるように、タグマッチャ３３０は、２つのルックアップテーブル、すなわち、受信後（ｐｏｓｔ＿ｒｅｃｖ）マッチングテーブル５０５及び予期せぬメッセージ（ｕｎｅｘｐｅｃｔｅｄ＿ｍｓｇ）マッチングテーブル５１０を含む。ｐｏｓｔ＿ｒｅｃｖマッチングテーブル５０５は、ｕｎｅｘｐｅｃｔｅｄ＿ｍｓｇテーブル５１０内にマッチする要素を見つけることができないローカルホストからの受信要求を記憶するために使用され、ｕｎｅｘｐｅｃｔｅｄ＿ｍｓｇマッチングテーブル５１０は、ｐｏｓｔ＿ｒｅｃｖマッチングテーブル５０５内にマッチするエントリを見つけることができない送信者からの到着メッセージを記憶する。テーブル５０５及び５１０は、ハッシング、トライベースの方法、ＴＣＡＭ、及び他の範囲探索技術を用いて実装され得る。

タグマッチャ３３０の入力は、ホストからの受信要求（ｒｅｃｖ＿ｒｅｑ）、ｍｅｔａｄａｔａ_ｐｃ、及びパケットである。パケットが送信者からのメッセージの第１のセグメントである場合、ｍｅｔａｄａｔａ_ｐｃは、＜ｒａｎｋ_ｓｒｃ，ｒａｎｋ_ｄｓｔ，ｃｏｎｔｅｘｔ＿ｉｄ，ｔａｇ＞を有するメッセージヘッダを含む。タグマッチャ３３０の出力は、パケット、メモリ割り当て要求（ａｌｌｏｃ＿ｒｅｑ_ｐｒ）、アドレス更新要求（ａｄｄｒ＿ｕｄ_ｕｍ）、及び複数のアドレスルックアップ要求（ａｄｄｒ＿ｌｐ_ｐｒ，ａｄｄｒ＿ｌｐ_{ｎｏｎ＿ｈｄｒ} ａｎｄａｄｄｒ＿ｌｐ_ｕｍ）を含む。

ａｄｄｒ＿ｌｐ_ｐｒ信号は、送信者からのターゲットメッセージのパケットが、ホストがその対応する受信要求ｒｅｃｖ＿ｒｅｑをポストした後に到着したことを示している。更に、ａｄｄｒ＿ｌｐ_ｐｒ信号は、それらのパケットについてｐｏｓｔ＿ｒｅｃｖマッチングテーブル内にエントリが存在することを示している。

ａｄｄｒ＿ｌｐ_ｕｍ信号は、タグマッチャ３３０が対応するメッセージをｕｎｅｘｐｅｃｔｅｄ＿ｍｓｇマッチングテーブル５１０に記録した後に、ホストによってポストされた受信要求が到着したことを示している。

ａｄｄｒ＿ｌｐ_{ｎｏｎ＿ｈｄｒ}信号は、そのペイロードにメッセージヘッダ情報を含まない送信者からのメッセージの連続パケットのメモリ位置を要求するために使用される。この信号は、＜ｒａｎｋ_ｓｒｃ，ｒａｎｋ_ｄｓｔ，ｔａｇ，ｐａｙｌｏａｄｌｅｎｇｔｈ（ｐａｙｌｏａｄ＿ｌｅｎ），ｐａｃｋｅｔｓｅｑｕｅｎｃｅｎｕｍｂｅｒ（ｐｋｔ＿ｓｅｑ）＞を含む。

ａｌｌｏｃ＿ｒｅｑ_ｐｒ信号は、送信者からのターゲットメッセージのパケットが、ホストが受信要求をポストする前に到着し、予期しないメッセージを記憶するためにメモリ空間を割り当てる必要があるときを示している。この信号は、＜ｒａｎｋ_ｓｒｃ，ｒａｎｋ_ｄｓｔ，ｔａｇ，ｍｅｓｓａｇｅｌｅｎｇｔｈ（ｍｌｅｎ），ｐａｃｋｅｔｓｅｑｕｅｎｃｅｎｕｍｂｅｒ（ｐｋｔ＿ｓｅｑ）＞を含む。

ａｄｄｒ＿ｕｄ_ｕｍ信号は、＜ｒａｎｋ_ｓｒｃ，ｒａｎｋ_ｄｓｔ，ｔａｇ，ホストによって割り当てられたアドレス（ａｄｄｒ），ｍｌｅｎ＞を含む受信要求である。この信号は、ｕｎｅｘｐｅｃｔｅｄ＿ｍｓｇマッチングテーブル５１０又はｐｏｓｔ＿ｒｅｃｖマッチングテーブル５０５のいずれにも見つからないホストからポストされる。この信号は、ＭＰＩシェル内のアドレス変換器（例えば、図３のアドレス変換器３２５）に、この受信要求のためにホストによって割り当てられたメモリアドレス／空間を通知する。

パケット分類器からパケットを受信すると、タグマッチャ３３０は、これがＭＰＩメッセージの第１のパケットであるかどうかを判定するために、ｍｅｔａｄａｔａ_ｐｃを使用してｐｏｓｔ＿ｒｅｃｖマッチングテーブル５０５内でルックアップを実施する。ｐｏｓｔ＿ｒｅｃｖテーブル５０５のエントリのキー（Ｋ_ｐｒ）は、＜ｒａｎｋ_ｓｒｃ，ｒａｎｋ_ｄｓｔ，ｃｏｎｔｅｘｔ＿ｉｄ，ｔａｇ＞を含む。ルックアップの結果がヒットである場合、対応するエントリがｐｏｓｔ＿ｒｅｃｖテーブル５０５から削除され、タグマッチャ３３０は、アドレスルックアップ要求（ａｄｄｒ＿ｌｐ_ｐｒ）をＭＰＩシェル内のアドレス変換器に発行して、このパケットのメモリ位置を取得する。そうでない場合、タグマッチャ３３０は、ｕｎｅｘｐｅｃｔｅｄ＿ｍｓｇマッチングテーブル５１０を更新し、タグマッチャ３３０がｐｏｓｔ＿ｒｅｃｖテーブル５０５内でマッチングを見つけることができなかったため、このメッセージに関するメモリ割り当て要求（ａｌｌｏｃ＿ｒｅｑ_ｐｒ）をアドレス変換器に発行する。受信されたパケットがメッセージのヘッダを含まない（例えば、ＭＰＩメッセージ内の第１のパケットではない）場合、タグマッチャ３３０は、アドレスルックアップ要求（ａｄｄｒ＿ｌｐ_{ｎｏｎ＿ｈｄｒ}）をアドレス変換器に発行して、このパケットのメモリ位置を取得する。

送信者からのＭＰＩ送信動作は、受信者からのＭＰＩ受信動作と対にされる。受信者がＭＰＩ受信動作（ＭＰＩ＿ｒｅｃｖ）を呼び出すと、ホストは受信要求（ｒｅｃｖ＿ｒｅｑ）をタグマッチャ３３０に通知する。受信要求は、＜ｒａｎｋ_ｓｒｃ，ｒａｎｋ_ｄｓｔ，ｃｏｎｔｅｘｔ＿ｉｄ，ｔａｇ，ｂａｓｅ＿ａｄｄｒ，ｍｌｅｎ＞を含むことができ、ｂａｓｅ＿ａｄｄｒは、メッセージのためにホストによって割り当てられたデバイスメモリのベースアドレスである。次に、タグマッチャ３３０は、＜ｒａｎｋ_ｓｒｃ，ｒａｎｋ_ｄｓｔ，ｃｏｎｔｅｘｔ＿ｉｄ，ｔａｇ＞を含むキー（Ｋ_ｕｍ）を受信要求から抽出し、ｕｎｅｘｐｅｃｔｅｄ＿ｍｓｇマッチングテーブル５１０を検索（ルックアップ）して、受信された予期しないメッセージが存在するか否かをチェックする。ルックアップがヒットした場合、予期せぬメッセージに対応するエントリは、予期せぬ＿ｍｓｇテーブル５１０から削除され、タグマッチャ３３０は、アドレスルックアップ要求（ａｄｄｒ＿ｌｐ_ｕｍ）をアドレス変換器に発行する。そうでない場合、タグマッチャ３３０は、メッセージに関連するベースアドレスを更新するために、アドレス更新要求（ａｄｄｒ＿ｕｄ_ｕｍ）をアドレス変換器に送信する。これはマッチしない受信要求であるため、タグマッチャ３３０は、受信された要求を含めるためにｐｏｓｔ＿ｒｅｃｖマッチングテーブル５０５に新しいエントリを書き込む。

図６は、一例による、ＭＰＩシェル内のアドレス変換器３２５を示している。アドレス変換器３２５は、着信メッセージパケットのデバイスメモリ内の宛先アドレスを計算し、メッセージの準備を追跡するために使用される。アドレス変換器３２５は、アドレステーブル６０５と、シーケンス範囲（ｓｅｑ＿ｒａｎｇｅ）テーブル６１０と、ステータスマネージャ６１５と、メモリマネージャ６２０とを含む。両テーブル６０５、６１０は、ターゲットメッセージのパケットに対して割り当てられたメモリアドレスを記録するのに使用される。

一実施形態では、アドレステーブル６０５の各エントリは、キー（Ｋ_ａｔ）及び値（Ｖ_ａｔ）を含み、Ｋ_ａｔは、＜ｒａｎｋ_ｓｒｃ，ｒａｎｋ_ｄｓｔ，ｔａｇ＞を有し、Ｖ_ａｔは、メッセージに割り当てられたベースアドレス（ａｄｄ_ｒａｔ）、ｍｌｅｎ、メッセージ配信の状況を照会するのに使用されるインデックス（ｉｄｘ）、及びメッセージヘッダを含むＭＰＩメッセージの第１のパケットのパケットシーケンス番号（ｐｋｔ＿ｂａｓｅ＿ｓｅｑ）を含む。

ｓｅｑ＿ｒａｎｇｅテーブル６１０は、テーブル６０５と同様のキー値構造を有する。異なる点は、ｓｅｑ＿ｒａｎｇｅテーブル６１０において、キー（Ｋ_ｔｓｒ）がパケットシーケンス範囲（ｐｋｔ＿ｓｅｑ＿ｒａｎｇｅ）を記述するフィールドを含むことである。ｐｋｔ＿ｓｅｑ＿ｒａｎｇｅ信号は、（メッセージの第１のパケットのｐｋｔ＿ｂａｓｅ＿ｓｅｑ、ｐｋｔ＿ｂａｓｅ＿ｓｅｑ＋ｍｌｅｎ）を含むタプルである。

アドレステーブル６０５は、図５のタグマッチャ３３０から、対応する受信要求がポストされたメッセージのマッチングした着信パケットのａｄｄｒ＿ｌｐ_ｐｒ、又は対応する予期しないメッセージが到着したポストされたマッチングした受信要求のａｄｄｒ＿ｌｐ_ｕｍのいずれかを、ルックアップ要求の入力として受信する。ａｄｄｒ＿ｌｐ_ｐｒのルックアップがヒットした場合、アドレステーブル６０５は、ｐｋｔ＿ｓｅｑ＿ｒａｎｇｅを有するキー値ペア（Ｋ_ｔｓｒ、Ｖ_ｔｓｒ）を生成し、それをｓｅｑ＿ｒａｎｇｅテーブル６１０に書き込む。一方、アドレス変換器３２５は、そのｐｋｔ＿ｓｅｑ＿ｒａｎｇｅ及び受信されたバイト（ｐａｙｌｏａｄ＿ｌｅｎ）を用いてステータスマネージャ６１５内のｉｄｘ番目のレジスタを更新し、新しいベースメモリアドレスａｄｄｒ’_ａｔ＝（ａｄｄｒ_ａｔ＋ｐｋｔ＿ｓｅｑ－ｐｋｔ＿ｂａｓｅ＿ｓｅｑ）を計算し、ここでａｄｄｒ_ａｔ及びｐｋｔ＿ｂａｓｅ＿ｓｅｑはＶ_ａｔからのものであり、ｐｋｔ＿ｓｅｑはａｄｄｒ＿ｌｐ_ｐｒからのものである。計算されたメモリアドレス（ａｄｄｒ’_ａｔ）は、次に、受信された対応するパケットを記憶するために、データムーバ（図７に詳細に示される）に送信される。

対照的に、ａｄｄｒ＿ｌｐ_ｕｍについてのルックアップがヒットした場合、要求はポストされた受信からのものであり、その予期しないメッセージが受信されているため、アドレステーブル６０５はｓｅｑ＿ｒａｎｇｅテーブル６１０を更新しない。このシナリオでは、アドレステーブル６０５は、タグマッチャがこのメッセージに対する受信要求をホストから受信したことをステータスマネージャ６１５内のｉｄｘ番目のレジスタに通知するだけである。アドレステーブル６０５は、ＭＰＩ＿ＡＮＹ＿ＳＯＵＲＣＥ及びＭＰＩ＿ＡＮＹ＿ＴＡＧなどのワイルドカード探索をサポートし得、ＴＣＡＭ又はＳＴＣＡＭを用いて実装され得る。

ｓｅｑ＿ｒａｎｇｅテーブル６１０は、ルックアップのための入力としてメッセージヘッダを有さないメッセージの着信パケットについてタグマッチャからａｄｄｒ＿ｌｐ_{ｎｏｎ＿ｈｄｒ}＜ｒａｎｋ_ｓｒｃ，ｒａｎｋ_ｄｓｔ，ｔａｇ，ｐａｙｌｏａｄ＿ｌｅｎ，ｐｋｔ＿ｓｅｑ＞）を受信する。ｒａｎｋ_ｓｒｃ、ｒａｎｋ_ｄｓｔ、タグ探索とは別に、ｓｅｑ＿ｒａｎｇｅテーブル６１０はまた、ａｄｄｒ＿ｌｐ_{ｎｏｎ＿ｈｄｒ}要求の範囲探索動作を行い、そのｐｋｔ＿ｓｅｑがいずれかのエントリのｐｋｔ＿ｓｅｑ＿ｒａｎｇｅ内に入るかどうかを検査する。ルックアップがヒットした場合、アドレステーブル６０５は、新しいベースメモリアドレスａｄｄｒ’_ｔｓｒ＝（ａｄｄｒ_ｔｓｒ＋ｐｋｔ＿ｓｅｑ－ｐｋｔ＿ｂａｓｅ＿ｓｅｑ）を計算し、ここで、ａｄｄｒ_ｔｓｒ及びｐｋｔ＿ｂａｓｅ＿ｓｅｑはＶ_ｔｓｒからのものであり、ｐｋｔ＿ｓｅｑはａｄｄｒ＿ｌｐ_{ｎｏｎ＿ｈｄｒ}からのものである。計算されたメモリアドレスａｄｄｒ’_ｔｓｒは、次に、対応する受信パケットを記憶するためにデータムーバに送信される。また、アドレス変換器３２５は、受信したバイト数（ｐａｙｌｏａｄ＿ｌｅｎ）でステータス管理部６１５のｉｄｘ番目のレジスタを更新する。ｓｅｑ＿ｒａｎｇｅテーブル６１０は、ワイルドカード及び範囲探索要件を有し、ＴＣＡＭを用いて実装され得る。

ステータスマネージャ６１５は、各メッセージの伝送ステータスを追跡する。一実施形態では、ステータスマネージャ６１５は、レジスタのセット及びレジスタアロケータを有する。レジスタのセットは、＜ｒａｎｋ_ｓｒｃ，ｒａｎｋ_ｄｓｔ，ｔａｇ，ａｄｄｒ（ホスト又はメモリマネージャ６２０のいずれかから割り当てられたアドレス），ｍｌｅｎ，受信バイト（ｒｅｃｖ＿ｂｙｔｅｓ），パケットシーケンス範囲（ｐｋｔ＿ｓｅｑ＿ｒａｎｇｅ），ｒｒ＿ｒｅｃｖｅｄ＞などの情報をメッセージについて記録することができ、ここで、ｒｒ＿ｒｅｃｖｅｄは、タグマッチャがこのメッセージについてホストから受信要求（ｒｅｃｖ＿ｒｅｑ）を受信し、ホストがメッセージを待っていることを示すレディ信号である。

レジスタアロケータは、アイドルレジスタのプールを管理し、ａｌｌｏｃ＿ｒｅｑ_ｐｒ又はａｄｄｒ＿ｕｄ_ｕｍ要求ごとにアイドルプールから新しいレジスタを割り当て、レジスタにアクセスするために他の構成要素にポインタ（ｉｄｘ）を出力することができる。ｉｄｘ番目のレジスタがｍｌｅｎに等しいｒｅｃｖ＿ｂｙｔｅｓを有し、ｒｒ＿ｒｅｃｖｅｄがハイにアサートされるとき、これは、対応するメッセージが完全に受信され、マッチングした受信要求が発見され、ホストが読み出す準備ができていることを示す。次に、ステータスマネージャ６１５は、＜ｒａｎｋ_ｓｒｃ，ｒａｎｋ_ｄｓｔ，ｔａｇ，ａｄｄｒ＞を含むレディ信号（ｍｓｇ＿ｒｅａｄｙ）をデータムーバに対して生成し、「削除」信号を発行して、アドレステーブル６０５及びｓｅｑ＿ｒａｎｇｅテーブル６１０内の対応するエントリを除去する。

一実施形態では、メモリマネージャ６２０は、着信する予期しないメッセージのためにメモリ空間を割り当て、アドレステーブル６０５のための更新要求を生成する。メモリマネージャ６２０は、割り当てられたメモリブロックとそれらの間の空きメモリ空間とを追跡する。メモリマネージャ６２０は、固定サイズブロック割り当て、バディーメモリ割り当て、及びスラブ割り当てのような種々のメモリ管理アルゴリズムで実装することができる。メモリマネージャ６２０は、ａｌｌｏｃ＿ｒｅｑ_ｐｒ信号（＜ｒａｎｋｓｒｃ，ｒａｎｋｄｓｔ，ｔａｇ，ｍｌｅｎ，ｐｋｔ＿ｓｅｑ＞）を入力とし、ａｌｌｏｃ＿ｒｅｑ_ｐｒからメッセージ長（ｍｌｅｎ）に応じて割り当てられた物理メモリアドレス（ａｄｄｒ_ｍｍ）を生成する。次いで、割り当てられたａｄｄｒ_ｍｍは、受信された対応するパケットを記憶するためにデータムーバに送信される。メモリアドレスはまた、メッセージステータスクエリ及び更新のために、（ｉｄｘ，ａｄｄｒ_ｍｍ）を介してステータスマネージャ６１５内のｉｄｘ番目のレジスタに記録される。また、メモリマネージャ６２０は、キーバリューペア（Ｋ_ａｔ＝＜ｒａｎｋ_ｓｒｃ，ｒａｎｋ_ｄｓｔ，ｔａｇ＞，Ｖ_ａｔ＝＜ａｄｄｒ_ｍｍ，ｍｌｅｎ，ｉｄｘ，ｐｋｔ＿ｓｅｑ＞）を含む更新要求を生成し、アドレステーブル６０５に書き込む。

アドレス変換器３２５は、タグマッチャからａｄｄｒ＿ｕｄ_ｕｍ信号を受信すると、アドレステーブル６０５のエントリを書き込み／更新する。ａｄｄｒ＿ｕｄ_ｕｍは、ホストが新しい受信要求をポストし、タグマッチ内のｕｎｅｘｐｅｃｔｅｄ＿ｍｓｇテーブル内に、ポストされた受信要求とマッチする予期せぬメッセージが存在しないことを示す。ａｄｄｒ＿ｕｄ_ｕｍ信号は、タグマッチャで説明したように、＜ｒａｎｋ_ｓｒｃ，ｒａｎｋ_ｄｓｔ，ｔａｇ，ａｄｄｒ，ｍｌｅｎ＞を含む。ａｄｄｒ＿ｕｄ_ｕｍ信号内のベースアドレス（ａｄｄｒ）は、タグを有するｒａｎｋ_ｓｒｃからｒａｎｋ_ｄｓｔへの専用メッセージを記憶するために、ホストによって割り当てられる。次に、キー値ペア（Ｋ_ａｔ＝＜ｒａｎｋ_ｓｒｃ，ｒａｎｋ_ｄｓｔ，ｔａｇ＞，Ｖ_ａｔ＝＜ａｄｄｒ，ｍｌｅｎ，ｉｄｘ，ｐｋｔ＿ｓｅｑ＝ｎｏｎｅ＞）を含む更新要求が、状態マネージャ６１５からのａｄｄｒ＿ｕｄ_ｕｍ及びｉｄｘを用いて生成され、アドレステーブル６０５に書き込まれる。

図７は、一例による、ＭＰＩシェル内のデータムーバ３２０を示している。データムーバ３２０は、ＡＸＩＳ－ｔｏ－ＡＸＩブリッジ７０５及びメッセージレディ（ｍｓｇ＿ｒｄｙ）ＦＩＦＯ７１０を含む。ＡＸＩＳ－ｔｏ－ＡＸＩブリッジ７０５は、ＡＸＩ－ストリーミングプロトコル形態のパケットデータ（例えば、ＡＸＩＳ＿ｄａｔａ）をＡＸＩプロトコル形態のデータ（例えば、ＡＸＩ＿ｄａｔａ）に変換する。次に、変換されたデータは、メモリコントローラを介してデバイスメモリに書き込まれる。ＡＸＩＳ＿ｄａｔａの対応するベースアドレス（アドレス）は、図６に示されるアドレス変換器から取得され、ＳｍａｒｔＮＩＣ内のローカルメモリ内のその宛先メモリ位置を示す。

ｍｓｇ＿ｒｄｙＦＩＦＯ７１０は、メッセージのレディステータスを記憶する。これらのレディステータスは、ソースプロセス及び宛先プロセスの識別子（ｒａｎｋ_ｓｒｃ及びｒａｎｋ_ｄｓｔ）、タグ、及びメッセージがデバイスメモリに完全に書き込まれ、読み出す準備ができていることを示すデバイスメモリ内のそのアドレスを含み得る。ｍｓｇ＿ｒｄｙＦＩＦＯ７１０の空信号は、メモリマップされたレジスタを介して、ＰＣＩｅ／ホストの割り込みシステム又はプルシステムのいずれかに接続され得る。割り込みシステムに接続されている場合、ｍｓｇ＿ｒｄｙＦＩＦＯが空でないとき、データムーバ３２０は割り込みシステムをトリガし、それに応じてホストに割り込みを処理させる。プリングシステムと接続される場合、データムーバ３２０は、ｍｓｇ＿ｒｄｙＦＩＦＯ７１０が要素を記憶したときに、レディ信号を専用のメモリマップレジスタに書き込む。ホストは、専用メモリマップレジスタの値を周期的／絶えずチェックし、それに応じてイベントを処理することができる。

図８は、一例による、ＭＰＩシェル内の計算エンジン８００を示している。この例では、計算エンジン８００は、１つ以上のハードウェアアクセラレータを形成し得る複数のカーネル（カーネル０～ｎ）を収容する。各カーネルは、制御ＦＩＦＯ８０５及びステータスＦＩＦＯ８１０を含む。制御ＦＩＦＯ８０５は、ホストから制御メッセージを受信する。これらの制御メッセージは、＜ワークロードの一意のＩＤ，アドレス引数の数（Ｎ），引数０のアドレス，引数１のアドレス，．．．，引数Ｎのアドレス＞を含み得る。ワークロードを有するカーネルを開始するために、ホストは、ＡＸＩ－Ｌｉｔｅインターフェースを介して制御ＦＩＦＯ８０５に制御メッセージを発行することができる。制御ＦＩＦＯ８０５が内部に要素を有すると、カーネルは、ＦＩＦＯ８０５から制御メッセージを取得し、実行を開始することができる。制御メッセージによって提供されるベースアドレスを用いて、カーネルは、ＡＸＩインターフェースを用いてデバイスメモリ内に記憶されたデータを読み出すことができる。カーネルは、複数のＡＸＩインターフェースをサポートして、そのメモリアクセス帯域幅を増加させることができる。カーネルはまた、ＡＸＩ－Ｌｉｔｅインターフェースを介してホストにアクセス可能なメモリマップされたレジスタを有し得る。

カーネルが実行を終了すると、カーネルはそのステータスＦＩＦＯ８１０に完了信号を書き込む。ステータスＦＩＦＯの空信号は、メモリマップレジスタを介してＰＣＩｅ／ホストの割り込みシステム又はプルシステムのいずれかに接続することができる。割り込みシステムを有する設計の場合、ステータスＦＩＦＯ８１０が空でないとき、カーネルは割り込みシステムをトリガし、それに応じてホストに割り込みを処理させる。プルシステムを有する設計の場合、カーネルは、ステータスＦＩＦＯが要素を有するときに、専用のメモリマップレジスタに完了信号を書き込む。ホストは、専用メモリマップレジスタの値を周期的に又は絶えずチェックし、「完了」ステータスを検出すると、それに応じてイベントを処理することができる。

計算エンジン８００がプログラマブルロジックを使用して実装される場合、カーネルは、高レベル合成（ＨＬＳ）又はレジスタ転送レベル（ＲＴＬ）コーディングのいずれかを使用して設計され得る。しかしながら、別の実施形態では、計算エンジン８００は、ＡＳＩＣ又はＳｏＣなどの強化された回路で実装されてもよい。

図９は、一例による、ＭＰＩシェル内のデータコントローラ３０５を示している。データコントローラ３０５は、種々の接続されたモジュール／構成要素のためのメモリアクセスチャネルを提供する。データコントローラ３０５は、ＡＸＩインターコネクト３１５及び１つ又は複数のメモリコントローラ３１０（この例では複数のメモリコントローラが示されている）を含む。メモリコントローラ３１０は、ＳｍａｒｔＮＩＣ内のデバイスメモリにアクセスする。データムーバ及び計算エンジン、ＳｍａｒｔＮＩＣ又はトランスポート層オフロードエンジンの接続されたホスト及び送信ロジックを含むモジュール及び構成要素は、ＡＸＩプロトコルを活用するＡＸＩインターコネクト３１５を介したメモリアクセスのためにメモリコントローラを共有することができる。ＡＸＩインターコネクト３１５は、ＭＰＩシェルとホスト（例えば、ＣＰＵ）との間のインターフェースとして機能する。

ホストとハードウェアアクセラレータとの間の通信は、メッセージの準備ができたときのホスト上の割り込み又はプル動作（図７でデータムーバ３２０を用いて説明される）、アクセラレータを開始するためのホストからの制御メッセージ、及びアクセラレータがその実行を終了したときのホスト上の割り込み又はプル動作（図８で計算エンジン１２５を用いて言及される）を含む。

更に、制御レジスタアクセスは、アクセラレータ内のスカラ引数、エラー情報、又は受信されたメッセージの数、ドロップされたメッセージの数、利用可能なアクセラレータの数、及びサポートされるアクセラレータのタイプなどの統計を収集するために、ＭＰＩシェル内のメモリマップされたレジスタを構成するか又は読み出すために使用される。

更に、ＭＰＩ＿ｂｃａｓｔ、ＭＰＩ＿ｇａｔｈｅｒ、ＭＰＩ＿ｓｃａｔｔｅｒ、及びＭＰＩ＿ｒｅｄｕｃｅなどの集合的動作は全て、ＭＰＩ＿ｓｅｎｄ及びＭＰＩ＿ｒｅｃｖにおける動作に基づく。ＭＰＩシェルを有するシステムは、いかなる変更もなしにこれらの集合的な動作をサポートすることもできる。更に、ＭＰＩ＿ｒｅｄｕｃｅ及びＭＰＩ＿ａｌｌｒｅｄｕｃｅなどのｒｅｄｕｃｅ関連演算は、ＭＰＩ＿ｍａｘ、ＭＰＩ＿ｍｉｎ、ＭＰＩ＿ｓｕｍ、ＭＰＩ＿ａｎｄ、及びＭＰＩ＿ｏｒなどのｃｏｍｐｕｔｅ演算を含む。これらの予め定義された計算動作は、ＭＰＩシェル内のアクセラレータに実装することができる。

図１０Ａ～図１０Ｃは、一例による、ＭＰＩシェルを異なるＳｍａｒｔＮＩＣ実装形態に統合することを示している。ネットワーク中心のデータセンタ内のノードは、通常、マルチコアＣＰＵを有するホストと、ネットワークに接続するＳｍａｒｔＮＩＣとして機能するデバイスとを含む。デバイスは、ＡＳＩＣ（特定用途向け集積回路）ＳｍａｒｔＮＩＣ又はプログラマブルＳｍａｒｔＮＩＣのいずれかであり得る。スニファとして機能するＭＰＩシェルは、種々のＳｍａｒｔＮＩＣシステムと統合することができる。図１０Ａ～図１０Ｃは、プログラマブルＳｍａｒｔＮＩＣにおけるＭＰＩシェル統合の３つの例を示している。

図１０Ａの第１の例は、基本ＳｍａｒｔＮＩＣに統合されたＭＰＩシェルを有するシステムアーキテクチャを示している。この例で使用される通信チャネルは、ＴＣＰ／ＩＰプロトコルである。システムは、ＳｍａｒｔＮＩＣにおけるＴＣＰ接続、再伝送、輻輳制御、ＴＣＰ伝送及びＴＣＰＡＣＫなどのＴＣＰ／ＩＰ制御のためにそのホストを活用する。より詳細には、このシステム内のホストは、ＭＰＩライブラリ、ＴＣＰ／Ｉｐなどのネットワーキングスタック、そのＳｍａｒｔＮＩＣ接続を制御するカーネルドライバ、及びＭＰＩシェルランタイムを担当する。ＭＰＩライブラリ２１０は、ＭＰＩプロセス管理、ポイントツーポイントメッセージング制御、集合的動作、及び同期などの種々の機能を含む。ＭＰＩシェルは、既存のネットワークフローを中断することなくスニファとして機能し、計算エンジン１２５に送信されるターゲットメッセージからのパケットのみを処理する。

ネットワークから受信されたパケット（Ｍ－ＲＸ）は、パケット分類器３３５に到達する前に、ＳｍａｒｔＮＩＣＭＡＣサブシステム２３０内の受信経路（Ｄ－ＲＸ）にリダイレクトすることができる。ハードウェアプロセス（すなわち、計算エンジン１２５）に送信されるメッセージの場合、ＭＰＩシェルは、受信された全てのＴＣＰパケットを肯定応答するためにホストに依存する。

送信動作に関して、メッセージデータがデバイスメモリ内に存在する場合、ホストは、（１）ヘッダ、メッセージデータのアドレス、及びダミーデータを有するメッセージを構築し、（２）通常のＴＣＰ送信動作を介してメッセージを送信する。パーサ１００５は、この種のメッセージを検出する。次いで、パーサ１００５は、セグメンテーションオフロードエンジン１０１０をトリガして、実際のメッセージパケットを送信するためにデバイスメモリからデータを読み出す。

図１０Ｂは、ＴＣＰオフローディングエンジン（ＴＯＥ）を有するＳｍａｒｔＮＩＣに統合されたＭＰＩシェルを有するシステムアーキテクチャを示している。この統合は図１０Ａの統合と同様である。このシステムは、２組のＴＣＰ管理を維持し、一方は、ソフトウェアプロセスのために従来のＣＰＵベースのＴＣＰ／ＩＰスタックを使用し、他方は、ハードウェアプロセスのためにＴＯＥを活用する。

ネットワーク（Ｍ－ＲＸ）から受信されたパケットは、パケット分類器３３５によって生成された結果に従って、Ｄ－ＲＸを介してホストに、又はＴＯＥ受信（ＴＯＥＲＸ）エンジン１０２５にリダイレクトされる。送信動作のために、ＴＯＥ伝送（ＴＯＥＴＸ）エンジン１０１５は、デバイスメモリからメッセージデータを読み取り、それをアービタ１０２０を介してリモートピアに送出することができる。

図１０Ｃは、ＲｏＣＥＲＸエンジン１０４０、ＲｏＣＥＴＸエンジン１０３０、及びアービタ１０３５を有するＳｍａｒｔＮＩＣに統合されたＭＰＩシェルを有するシステムアーキテクチャを示している。接続は、図１０Ａ及び図１０Ｂの接続と非常に類似しており、したがって、詳細には説明されない。

前述では、本開示において提示される実施形態が参照される。しかしながら、本開示の範囲は、特定の記載された実施形態に限定されない。代わりに、説明される特徴及び要素の任意の組み合わせは、異なる実施形態に関連するか否かにかかわらず、企図される実施形態を実装及び実践するために企図される。更に、本明細書に開示される実施形態は、他の可能な解決策又は従来技術に勝る利点を達成し得るが、特定の利点が所与の実施形態によって達成されるか否かは、本開示の範囲を限定するものではない。したがって、前述の態様、特徴、実施形態、及び利点は、単に例示的なものであり、特許請求の範囲に明示的に記載されている場合を除き、添付の特許請求の範囲の要素又は限定とは見なされない。

当業者によって理解されるように、本明細書に開示される実施形態は、システム、方法、又はコンピュータプログラム製品として具現化され得る。したがって、態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）、又は本明細書では全て一般に「回路」、「モジュール」、若しくは「システム」と呼ばれ得るソフトウェア態様とハードウェア態様とを組み合わせた実施形態の形態をとり得る。更に、態様は、コンピュータ可読プログラムコードが具現化された１つ以上のコンピュータ可読媒体において具現化されたコンピュータプログラム製品の形態をとり得る。

１つ以上のコンピュータ可読媒体の任意の組み合わせを利用し得る。コンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体であり得る。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、若しくは半導体のシステム、装置、若しくはデバイス、又は前述の任意の好適な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例（非網羅的なリスト）は、１つ以上のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（random access memory、ＲＡＭ）、読み取り専用メモリ（read-only memory、ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（erasable programmable read-only memory、ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（portable compact disc read-only memory、ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、又は前述の任意の好適な組み合わせを含む。本明細書の文脈では、コンピュータ可読記憶媒体は、命令実行システム、装置、又はデバイスによって、又はそれに関連して使用するためのプログラムを含むか、又は記憶することができる任意の有形媒体である。

コンピュータ可読信号媒体は、例えば、ベースバンドにおいて、又は搬送波の一部として、コンピュータ可読プログラムコードが具現化された伝搬データ信号を含み得る。そのような伝搬信号は、電磁気、光学、又はそれらの任意の好適な組み合わせを含むが、それらに限定されない、種々の形態のうちのいずれかをとり得る。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではなく、命令実行システム、装置、又はデバイスによって、又はそれに関連して使用するためのプログラムを通信、伝搬、又は移送することができる任意のコンピュータ可読媒体であり得る。

コンピュータ可読媒体上に具現化されたプログラムコードは、ワイヤレス、ワイヤライン、光ファイバケーブル、ＲＦなど、又は前述の任意の好適な組み合わせを含むが、それらに限定されない、任意の適切な媒体を使用して伝送され得る。

本開示の態様の動作を実行するためのコンピュータプログラムコードは、例えば、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語又は同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つ以上のプログラミング言語の任意の組み合わせで書き込まれ得る。プログラムコードは、ユーザのコンピュータ上で完全に、ユーザのコンピュータ上で部分的に、スタンドアロンソフトウェアパッケージとして、ユーザのコンピュータ上で部分的に、リモートコンピュータ上で部分的に、又はリモートコンピュータ若しくはサーバ上で完全に実行し得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク（local area network、ＬＡＮ）若しくは広域ネットワーク（wide area network、ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得るか、又は外部コンピュータ（例えば、インターネットサービスプロバイダを使用するインターネットを介して）に接続され得る。

本開示の態様は、本開示に提示された実施形態による方法、装置（システム）、及びコンピュータプログラム製品のフロー図説明及び／又はブロック図を参照して以下に記載されている。フロー図説明及び／又はブロック図の各ブロック、並びにフロー図説明及び／又はブロック図におけるブロックの組み合わせは、コンピュータプログラム命令によって実装することができることが理解されよう。これらのコンピュータプログラム命令は、コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フロー図及び／又はブロック図のブロックで指定された機能／行為を実装するための手段を作成するような機械をもたらすように、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサに提供され得る。

これらのコンピュータプログラム命令はまた、コンピュータ可読記憶媒体に記憶された命令が、フロー図及び／又はブロック図のブロックで指定された機能／行為の態様を実装する命令を含む製造物品を生成するように、コンピュータ、プログラマブルデータ処理装置、及び／又は他のデバイスに、特定の方法で機能するように指示することができる、コンピュータ可読記憶媒体に記憶され得る。

コンピュータプログラム命令はまた、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードされて、一連の動作ステップを、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行させて、コンピュータ実装プロセスを生成し得、そのため、コンピュータ、又は他のプログラマブル装置上で実行される命令は、フロー図及び／又はブロック図のブロックに指定される機能／行為を実装するためのプロセスを提供する。

図中のフロー図及びブロック図は、本発明の様々な実施例によるシステム、方法、及びコンピュータプログラム製品の可能な実装形態のアーキテクチャ、機能、及び動作を例解する。これに関して、フロー図又はブロック図の各ブロックは、指定された論理機能を実装するための１つ以上の実行可能命令を含む、命令のモジュール、セグメント、又は部分を表し得る。いくつかの代替的な実装形態では、ブロックに記載されている機能は、図に記載された順序から外れて発生する場合がある。例えば、連続して示される２つのブロックは、実際には実質的に同時に実行され得るか、又はブロックは、関与する機能に応じて、逆の順序で実行され得る。ブロック図及び／又はフロー図例解図の各ブロック、並びにブロック図及び／又はフロー図例解図におけるブロックの組み合わせは、指定された機能若しくは行為を実行するか、又は専用ハードウェアとコンピュータ命令との組み合わせを行う、専用ハードウェアベースのシステムによって実装することができることにも留意されたい。

上記は特定の例を対象とするが、他の例及び更なる例が、その基本的な範囲から逸脱することなく考案され得、その範囲は、以下の「特許請求の範囲」によって決定される。

Claims

ネットワークインターフェースカード（ＮＩＣ）であって、
回路を備えるメッセージパッシングインターフェース（ＭＰＩ）シェルを備え、前記回路は、
ネットワークから受信されたパケットをスニフしてＭＰＩメッセージを識別することと、
前記ＭＰＩメッセージに含まれるデータを、中央処理装置（ＣＰＵ）であって、前記ＣＰＵは、前記ＮＩＣと同じ計算ノードに配置される、ＣＰＵに対応するメモリに最初にコピーすることなく、処理のために前記ＭＰＩメッセージに含まれる前記データを計算回路に転送することと、を行うように構成されている、ＮＩＣ。
前記ＭＰＩシェルは、ＣＰＵの関与なしに前記ＭＰＩメッセージに含まれる前記データについてタグマッチング及びアドレス変換を実施するよう構成され、前記ＭＰＩシェルは、
前記ＭＰＩメッセージに対応するパケットを入力として受信し、アドレスルックアップ要求を生成するように構成されたタグマッチャと、
前記タグマッチャから前記アドレスルックアップ要求を受信し、前記ＣＰＵ又は前記アドレス変換器内に配置されたメモリマネージャのいずれかから割り当てられたアドレスを生成するように構成されたアドレス変換器と、
前記ＭＰＩメッセージを識別するために前記ネットワークから受信された前記パケットをスニフし、前記ＭＰＩメッセージに対応する前記パケットについてのメタデータであって、前記メタデータは、前記アドレスルックアップを生成するために前記タグマッチャによって使用される情報を含む、メタデータを生成するように構成されたパケット分類器と、
前記アドレス変換器から前記アドレスを受信し、前記ＭＰＩメッセージ内の前記データを、前記計算回路と共有されるターゲットメモリ内の前記アドレスに記憶するように構成されたデータムーバと、
ローカルメモリとインターコネクトとに結合されたメモリコントローラを備えるデータコントローラであって、前記データコントローラは、前記データムーバの出力に結合され、前記インターコネクトは、前記ＭＰＩシェルと前記ＣＰＵとの間のインターフェースとして機能する、データコントローラと、を更に備える、請求項１に記載のＮＩＣ。
ＮＩＣであって、
ハードウェア計算回路と、
回路を備えるＭＰＩシェルと、を備え、前記回路は、
ネットワークから受信されたパケットをスニフしてＭＰＩメッセージを識別することと、
前記ＭＰＩメッセージに含まれるデータを処理のために前記計算回路に転送することと、
前記ＭＰＩメッセージに含まれる前記データを処理するように前記計算回路に命令する命令を、前記ＮＩＣの外部のＣＰＵから受信することと、を行うように構成されている、ＮＩＣ。
ＮＩＣであって、
回路を備えるインターフェースシェルを備え、前記回路は、
ネットワークから受信されたパケットをスニフして、メッセージを使用してタスクが分散計算システム内のノード間で伝送される前記分散計算システムに対応するメッセージを識別することと、
前記メッセージに含まれるデータを、中央処理装置（ＣＰＵ）であって、前記ＣＰＵは、前記ＮＩＣと同じ計算ノードに配置される、ＣＰＵに対応するメモリに最初にコピーすることなく、処理のために前記メッセージに含まれる前記データをハードウェア計算回路に転送することと、を行うように構成されている、ＮＩＣ。
前記計算回路は、前記ＮＩＣ内に配置されている、請求項１、３又は４に記載のＮＩＣ。
前記計算回路及び前記インターフェースシェルは、前記ＮＩＣ内の同じ集積回路上に配置されている、請求項４に記載のＮＩＣ。
前記インターフェースシェルは、ＣＰＵの関与なしに前記メッセージに含まれる前記データについてタグマッチング及びアドレス変換を実施するように構成されている、請求項４に記載のＮＩＣ。
前記インターフェースシェルは、前記メッセージに含まれる前記データを処理するように前記計算回路に命令する命令を前記ＣＰＵから受信するように構成されている、請求項４に記載のＮＩＣ。
前記計算回路及び前記ＭＰＩシェルは、前記ＮＩＣ内の同じ集積回路上に配置されている、請求項１及び３に記載のＮＩＣ。
前記ＭＰＩシェルは、ＣＰＵの関与なしに、前記ＭＰＩメッセージに含まれる前記データについてタグマッチング及びアドレス変換を実施するよう構成されている、請求項１及び３に記載のＮＩＣ。
前記ＭＰＩシェルは、
前記ＭＰＩメッセージに対応するパケットを入力として受信し、アドレスルックアップ要求を生成するように構成されたタグマッチャと、
前記タグマッチャから前記アドレスルックアップ要求を受信し、前記ＣＰＵ又は前記アドレス変換器内に配置されたメモリマネージャのいずれかから割り当てられたアドレスを生成するように構成されたアドレス変換器と、を更に備える、請求項１０に記載のＮＩＣ。
前記ＭＰＩシェルは、
前記ＭＰＩメッセージを識別するために前記ネットワークから受信された前記パケットをスニフし、前記ＭＰＩメッセージに対応する前記パケットについてのメタデータであって、前記メタデータは、前記アドレスルックアップを生成するために前記タグマッチャによって使用される情報を含む、メタデータを生成するように構成されたパケット分類器を更に備える、請求項１１に記載のＮＩＣ。
前記ＭＰＩシェルは、
前記アドレス変換器から前記アドレスを受信し、前記ＭＰＩメッセージに含まれる前記データを、前記計算回路と共有されるアドレスターゲットメモリに記憶するように構成されたデータムーバを更に備える、請求項１２に記載のＮＩＣ。
前記ＭＰＩシェルは、ＣＰＵの関与なしに前記ＭＰＩメッセージに含まれる前記データについてタグマッチング及びアドレス変換を実施するよう構成され、前記ＭＰＩシェルは、
前記ＭＰＩメッセージに対応するパケットを入力として受信し、アドレスルックアップ要求を生成するように構成されたタグマッチャと、
前記タグマッチャから前記アドレスルックアップ要求を受信し、前記ＣＰＵ又は前記アドレス変換器内に配置されたメモリマネージャのいずれかから割り当てられたアドレスを生成するように構成されたアドレス変換器と、
前記ＭＰＩメッセージを識別するために前記ネットワークから受信された前記パケットをスニフし、前記ＭＰＩメッセージに対応する前記パケットについてのメタデータであって、前記メタデータは、前記アドレスルックアップを生成するために前記タグマッチャによって使用される情報を含む、メタデータを生成するように構成されたパケット分類器と、
前記アドレス変換器から前記アドレスを受信し、前記ＭＰＩメッセージ内の前記データを、前記計算回路と共有されるターゲットメモリ内の前記アドレスに記憶するように構成されたデータムーバと、
ローカルメモリとインターコネクトとに結合されたメモリコントローラを備えるデータコントローラであって、前記データコントローラは、前記データムーバの出力に結合され、前記インターコネクトは、前記ＭＰＩシェルと前記ＣＰＵとの間のインターフェースとして機能する、データコントローラと、を更に備える、請求項３に記載のＮＩＣ。