WO2021245758A1

WO2021245758A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2021245758A1
Application number: PCT/JP2020/021632
Authority: WO
Inventors: 一久石坂
Original assignee: 日本電気株式会社
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2021-12-09

Abstract

複数のデバイスのうち、入力データに対して所定の処理を実行する実行デバイスを当該入力データの要件に基づいて定める実行デバイス判定部と、前記入力データの所在を示す記述子を参照し、前記所在が前記実行デバイスとは他のデバイスであるか否かに応じて前記実行デバイスへの前記入力データの転送の要否を判定する転送制御部と、を備える。本実施形態は、情報処理装置、情報処理方法およびプログラムのいずれによっても実現することができる。

Description

情報処理装置、情報処理方法およびプログラム

　本発明は、情報処理装置、情報処理方法およびプログラムに関する。

　特許文献１には、複数の処理ユニットを備え、タスクを複数の処理ユニットに割り当て、複数の処理ユニット間でタスク割り当てを分散配置するデータ処理システムについて記載されている。特許文献１では、タスクを処理ユニットに割り当てることは、処理資源、すなわち処理ユニット、入力ならびに出力バッファを割当タスクおよび処理されるデータに割り振ることを指す。

　特許文献２には、ホストＣＰＵにより制御される計算デバイスを備える情報処理装置について記載されている。特許文献２に記載の情報処理装置では、計算デバイスにはデバイスメモリが接続され、ホストＣＰＵにはメインメモリが接続され、計算デバイスで処理を実行する前後で、デバイスメモリとメインメモリとでデータのコピーが行われる。

特表２０１４－５２５６１９号公報特表２０１４－１４９７６５号公報

　他方、個々の要素処理に係る副プログラムを利用する主プログラムが様々な環境で効率的に動作することが期待されている。例えば、複数のデバイス間におけるデータ転送に係る負荷を低減することが期待されていた。

　本発明は、上記の課題を解決する情報処理方法、情報処理方法、およびプログラムを提供することを目的とする。

　本発明の第１の態様によれば、情報処理装置は、複数のデバイスを備え、前記複数のデバイスのうち、入力データに対して所定の処理を実行する実行デバイスを当該入力データの要件に基づいて定める実行デバイス判定部と、前記入力データの所在を示す記述子を参照し、前記所在が前記実行デバイスとは他のデバイスであるか否かに応じて前記実行デバイスへの前記入力データの転送の要否を判定する転送制御部と、を備える。

　本発明の第２の態様によれば、情報処理方法は、複数のデバイスを備える情報処理装置における情報処理方法であって、前記複数のデバイスのうち、入力データに対して所定の処理を実行する実行デバイスを当該入力データの要件に基づいて定める第１のステップと、前記入力データの所在を示す記述子を参照し、前記所在が前記実行デバイスとは他のデバイスであるか否かに応じて前記実行デバイスへの前記入力データの転送の要否を判定する第２のステップと、を有する。

　本発明の第３の態様は、プログラムは、複数のデバイスを備える情報処理装置のコンピュータを、前記複数のデバイスのうち、入力データに対して所定の処理を実行する実行デバイスを当該入力データの要件に基づいて定める実行デバイス判定部と、前記入力データの所在を示す記述子を参照し、前記所在が前記実行デバイスとは他のデバイスであるか否かに応じて前記実行デバイスへの前記入力データの転送の要否を判定する転送制御部として機能させるプログラム。

　本発明によれば、個々の要素処理に係る副プログラムを利用する主プログラムが様々な環境で効率的に動作することができる。

本実施形態に係る情報処理装置のハードウェア構成例を示す概略ブロック図である。本実施形態に係る情報処理装置のホストデバイスの機能構成例を示す概略ブロック図である。本実施形態に係る情報処理装置の実行デバイスの機能構成例を示す概略ブロック図である。本実施形態に係る関数プログラムの一例を示す図である。本実施形態に係るデータ記述子の例を示す図である。本実施形態の変形例に係る主プログラムの例を示す図である。本実施形態の変形例に係るデータ記述子の例を示す図である。本実施形態に係る最小構成の情報処理装置の機能構成例を示す概略ブロック図である。本実施形態に係る関数プログラムのうち実行に係る命令の例を示す図である。従来の関数プログラムのうち実行に係る命令の例を示す図である。従来の主プログラムとライブラリの例を示す図である。従来の関数プログラムの例を示す図である。従来の関数プログラムの他の例を示す図である。

　以下、図面を参照して本発明の実施形態について説明する。
　図１は、本発明の一実施形態に係る情報処理装置１０のハードウェア構成例を示す概略ブロック図である。
　情報処理装置１０は、複数のデバイスを含んで構成される。本実施形態では、デバイスとは、各種の命令（コマンド）で指示される処理を実行する機能を有するハードウェア、主にプロセッサを指す。プロセッサは、典型的には、演算装置、レジスタおよび周辺回路を備える。デバイスは、ホストデバイス（Host Device）とアクセラレータ（Accelerator）に分類される。ホストデバイスは、コンピュータシステムにおいて中心的な処理を行うデバイスを意味し、単にホストと呼ばれることがある。ホストとして、主に中央処理装置（ＣＰＵ：Central Processing Unit）が用いられる。アクセラレータは、コンピュータシステムにおける処理の加速を支援するデバイスを意味する。アクセラレータとして用いられるデバイスは、ＣＰＵに限らず、画像処理装置（ＧＰＵ：Graphic Processing Unit）、ベクトルエンジン（ＶＥ：Vector Engine）、深層学習アクセラレータ（ＤＬＡ：Deep Learning Accelerator）、量子プロセッサ、などのいずれか、またはそれらの組み合わせが用いられる。

　図１に示す例では、情報処理装置１０は、ＣＰＵ１２、ＧＰＵ１４およびＶＥ１６を含んで構成されるコンピュータシステムをなす。ＣＰＵ１２、ＧＰＵ１４およびＶＥ１６は、所定の規格（例えば、ＰＣＩ（Peripheral Component interconnect） Express）に従って相互に各種のデータを入出力可能に接続される。ＣＰＵ１２は、ホストデバイスＨＤ０２（図２）として用いられる。ＧＰＵ１４とＶＥ１６は、それぞれアクセラレータとして用いられ、ＣＰＵ１２により、それらの処理が制御される。ＣＰＵ１２、ＧＰＵ１４、ＶＥ１６は、それぞれ各種のプログラムに記述されている命令で示される処理を実行するデバイスである実行デバイスＥＤ０４（図３）となりうる。なお、本願では各種のプログラムに記述された命令で示される処理を実行することを、プログラムを実行する、プログラムの実行、などと呼ぶことがある。また、その命令で示される処理を実行することを、命令を実行する、命令の実行、などと呼ぶことがある。

　ＣＰＵ１２、ＧＰＵ１４およびＶＥ１６には、それぞれメモリ１２ｍ、１４ｍ、１６ｍが接続されている。メモリ１２ｍ、１４ｍ、１６ｍは、例えば、ＤＲＡＭ（Dynamic Random Access Memory）などの揮発性メモリを備え、ＣＰＵ１２、ＧＰＵ１４およびＶＥ１６における処理に用いられるデータまたは生成されたデータを格納するための作業領域として用いられる。なお、メモリ１２ｍは、ＣＰＵ１２のシステムメモリとして用いられ、メモリ１２ｍの他、メモリ１４ｍ、１６ｍのそれぞれに格納されているデータの位置とサイズ（情報量）を示す管理データを記憶していてもよい。以下の説明では、ＣＰＵ１２、ＧＰＵ１４、ＶＥ１６のそれぞれに記憶されているデータには、ＣＰＵ１２、ＧＰＵ１４、ＶＥ１６のそれぞれに内蔵されているメモリに記憶されているデータの他、メモリ１２ｍ、１４ｍ、１６ｍのそれぞれに記憶されているデータが含まれてもよい。

　なお、情報処理装置１０が備えるデバイスの数は、３個に限られず、２個または４個以上であってもよい。情報処理装置１０においてアクセラレータとして用いられるデバイスの種別は、任意である。個々のデバイスには、内蔵のメモリの他、上記のように専用のメモリが接続されてもよいし、接続されていなくてもよい。また、情報処理装置１０は、操作入力を受け付け、受け付けた操作入力に応じて動作を指示するための操作信号を生成する操作部（図示せず）を備えてもよい。情報処理装置１０は、他の機器との各種のデータを所定の入出力規格（例えば、ＰＣＩ　Ｅｘｐｒｅｓｓ）または通信規格（例えば、ＩＥＥＥ８０２．３）に従って入力または出力するための入出力部（図示せず）を備えてもよい。

　次に、本実施形態に係る情報処理装置１０の機能構成例について説明する。図２、図３は、本実施形態に係る情報処理装置１０のホストデバイスＨＤ０２、実行デバイスＥＤ０４の機能構成例をそれぞれ示す概略ブロック図である。
　ホストデバイスＨＤ０２は、実行管理部２２と、実行デバイス判定部２４と、を備える。ホストデバイスＨＤ０２は、所定の制御プログラムを実行して実行管理部２２と実行デバイス判定部２４の機能を実現する。

　実行管理部２２は、実行対象の主プログラム（Main Program）を特定し、主プログラムに記述された１以上の各種の命令の実行を管理する。実行管理部２２は、操作部または入出力部から入力される操作信号に基づいて予めメモリ１２ｍに記憶された主プログラムのいずれかを特定してもよいし、入出力部から実行対象の主プログラムを取得してもよい。本願では、主プログラムとは、少なくとも１個の予め設定された副プログラムの呼び出し（参照）命令を含むプログラムを意味し、必ずしも一連のプログラムのセットのうち最上位のプログラムに限らない。本願での主プログラムは、例えば、他のプログラムからの呼出命令に応じて参照される副プログラムであってもよい。主プログラムは、典型的には個々のユーザが開発したユーザプログラムである。以下の説明では、副プログラムが主に実行終了時に出力データを返り値として提供、つまり、主プログラムの制御下に戻す関数プログラムである場合を例とするが、出力データを返さないサブルーチンであってもよい。ここで、関数プログラムをカーネル（Kernel）と呼ぶことがある。関数プログラムは、各種のデータ処理をなす所定の要素処理を指示するプログラムであってもよい。要素処理は、例えば、個々の関数値の演算に限らず、機械学習モデルを用いた画像認識、物理モデルを用いた気象情報の予測、など一連の演算セットであってもよい。

　実行管理部２２は、主プログラムに記述された個々の命令を順次実行する。即ち、実行管理部２２は、ある命令の実行が終了した後、次に記述された命令を実行する処理を、未実行の命令がなくなるまで順次繰り返す。主プログラムに１以上の命令の繰り返しが記述されている場合には、実行管理部２２は、その繰り返し条件に従って、繰り返し対象の命令の実行を繰り返す。主プログラムに条件判断が記述されている場合には、実行管理部２２は、その条件を満足するか否かを判定し、満足する場合には、その場合に実行すべき命令を実行し、満足しない場合には、その場合に実行すべき命令を実行する。但し、実行管理部２２は、個々の命令が所定の関数プログラムの呼び出しを示す命令（以下、呼出命令）であるか否かを判定する。実行管理部２２は、呼出命令であると判定するとき、その呼出命令を実行デバイス判定部２４に出力（通知）する。呼出命令には、その関数プログラムで示される処理において処理対象となる入力データの記述子（以下、入力データ記述子）が含まれる。入力データ記述子には、少なくとも入力データの所在を示すアドレスが含まれる。入力データ記述子には、その入力データの情報量、転送方式、データ型式のいずれか、またはその組み合わせが含まれてもよい。

　その後、実行管理部２２には、実行デバイス判定部２４からは、その関数プログラムで示される処理を実行する実行デバイスＥＤ０４を示す実行デバイス情報が入力される。実行管理部２２は、入力される実行デバイス情報で指示される実行デバイスに、その呼出命令を出力する。実行デバイスＥＤ０４には、呼出命令をもって、その関数プログラムとともに入力データ記述子が通知される。実行管理部２２は、その関数プログラムを実行した実行デバイスＥＤ０４から実行終了の通知（以下、実行終了通知）が入力されるとき、実行対象の命令を次の命令に変更する。

　なお、呼出命令には、その関数プログラムで指示される処理により出力データ記述子が含まれてもよい。呼出命令に出力データ記述子が含まれる場合には、実行デバイスから入力される実行完了通知に出力データ記述子が含まれる。従って、実行管理部２２は、実行デバイスから出力データ記述子を含む実行完了通知が入力されることで、その処理の終了を検出することができる。出力データ記述子は、その関数プログラムで示される処理により取得された出力データの記述子である。出力データ記述子には、少なくとも出力データの所在を示すアドレスが含まれる。出力データ記述子には、その出力データの情報量、転送方式、データ型式のいずれか、またはその組み合わせが含まれてもよい。

　実行デバイス判定部２４は、実行管理部２２から入力される呼出命令で指示される関数プログラムを特定する。実行デバイス判定部２４は、特定した関数プログラムに設定された所定の判定条件に従って、情報処理装置１０が備える複数のデバイスのうち、その関数プログラムを実行するための実行デバイスを定める。実行デバイス判定部２４は、呼出命令に伴って提供される入力データ記述子を参照し、その入力データ記述子に記述された入力データの要件が所定の判定条件を満足するデバイスのいずれかを実行デバイスとして定める。実行デバイス判定部２４は、定めた実行デバイスを示す実行デバイス情報を実行管理部２２に出力する。

　実行デバイス判定部２４は、入力データの要件として少なくとも入力データを処理することを可能とするデバイスを実行デバイスとして定める。例えば、実行デバイス判定部２４は、入力データの要件として入力データ記述子で指示されたデータ型のデータを処理することができるデバイスを実行デバイスの候補と定めることができる。実行デバイス判定部２４は、入力データ記述子で指示されたデータ転送方式を用いてホストデバイスもしくは他のデバイスとデータ転送を可能とするデバイスを実行デバイスの候補と定めてもよい。
　関数プログラムには、個々のデバイスごとに異なる判定条件が設定されていてもよい。実行デバイス判定部２４は、デバイスごとに入力データ記述子に記述された入力データの要件として、その入力データの特性とデータ転送方式の一方または双方が、その判定条件を満足するか否かを判定し、判定条件を満足する実行デバイスの候補を実行デバイスとして定めてもよい。

　入力データを処理可能なデバイスとして実行デバイスの候補が複数個存在する場合には、実行デバイス判定部２４は、その入力データの処理に最も適した実行デバイスを実行デバイスとして定めてもよい。実行デバイス判定部２４は、例えば、入力データ記述子に記述されたサイズが所定のサイズよりも大きい場合には、より演算速度が高速なデバイスを選択してもよい。実行デバイス判定部２４は、処理時間が短いデバイスほど優先して実行デバイスとして選択してもよい。処理時間は、概ね処理能力（例えば、クロック周波数）に対する入力データのサイズの比に比例する演算時間に相当する。但し、評価対象のデバイスが、入力データが存在するデバイスが異なる場合には、実行デバイス判定部２４は。演算時間とデータ転送時間を加えて処理時間を算出してもよい。データ転送時間は、所定のデバイス間のデータ転送速度に対する入力データのサイズの比に相当する。

　実行デバイスＥＤ０４は、転送制御部３２と、データ転送部３４と、カーネル実行部３６と、出力データ設定部３８と、を備える。実行デバイスＥＤ０４は、ホストデバイスＨＤ０２とは別個の所定の制御プログラムを実行して転送制御部３２、データ転送部３４、カーネル実行部３６および出力データ設定部３８の機能を実現する。

　転送制御部３２は、ホストデバイスＨＤ０２から入力される呼出命令に含まれる入力データ記述子を抽出し、抽出した入力データ記述子に記述された入力データの所在を特定する入力データ所在判定部として機能する。転送制御部３２は、特定した所在が自器であるか否かを判定し、自器である場合には転送否と判定し、その後、カーネル実行部３６に呼出命令を出力し、その処理を開始させる。転送制御部３２は、特定した入力データの所在が自器ではなく、他のデバイスである場合には転送要と判定し、その後、データ転送部３４に入力データ記述子を伴ってデータ転送要求を出力する。

　データ転送部３４は、転送制御部３２から入力されるデータ転送要求から入力データ記述子を抽出し、抽出した入力データ記述子に記述される入力データのアドレスを特定する。データ転送部３４は、特定したアドレスで指示される位置に記憶された入力データを読み出し、読み出した入力データの実行デバイスＥＤ０４へ転送（出力）する。入力データ記述子に入力データの所在としてアドレスとは別個にデバイスが設定されている場合には、そのデバイスを要求先デバイスとしてデータ転送要求を出力する。要求先デバイスは、データ転送部３４から入力されるデータ転送要求に記述されたアドレスに所在する入力データを読み出し、読み出した入力データをデータ転送部３４に転送（出力）する。入力データの転送が終わった後、カーネル実行部３６の処理が開始される。

　カーネル実行部３６は、ホストデバイスＨＤ０２から入力される呼出命令で指示される関数プログラムを特定し、特定した関数プログラムで示される所定の処理を行う。カーネル実行部３６は、処理により取得される出力データを出力データ設定部３８に出力する。
　出力データ設定部３８は、カーネル実行部３６から入力される出力データを当該関数プログラムで指示されるアドレスに出力データを格納する。出力データ設定部３８は、出力データ記述子に、出力データの所在を示すアドレスを記述し、記述したアドレスを含む出力データ記述子をホストデバイスＨＤ０２に出力する。

（関数プログラムの例）
　次に、本実施形態に係る関数プログラムの例について説明する。図４は、本実施形態に係る関数プログラムの例を示す図である。図４の左方の上から下にその順序で示される「ｋｅｒｎｅｌ１」、「ｋｅｒｎｅｌ２」は、主プログラムにおいて関数プログラムｋｅｒｎｅｌ１、ｋｅｒｎｅｌ２の実行がその順序で指示されることを示す。図４の右方には、関数プログラムｋｅｒｎｅｌ１、ｋｅｒｎｅｌ２をそれぞれ例示する。「ｋｅｒｎｅｌ１（Ｄｅｓｃ＊　ｏｕｔ，Ｄｅｓｃ＊　ｉｎ）」とは、ｋｅｒｎｅｌ１には、出力データｏｕｔに係る出力データ記述子Ｄｅｓｃ＊　ｏｕｔと入力データｉｎに係る入力データ記述子Ｄｅｓｃ＊　ｉｎが引数として指定されていることを示す。
　「ｉｆ（…）｛Ａ｝ｅｌｓｅ｛Ｂ｝」とは、判定条件…を満足する場合、命令セットＡで示される処理をＣＰＵ１２に実行デバイスとして実行させることを示し、判定条件…を満足しない場合、命令セットＢで示される処理をＧＰＵ１４に実行デバイスとして実行させることを示す。

　「ｉｎ－＞ｃｏｐｙ＿ｔｏ＿ｃｐｕ（）」とは、入力データｉｎがＣＰＵ１２に存在するか否かを判定し、存在する場合には入力データｉｎに対して処理を行わず、存在しない場合には入力データｉｎが存在するデバイスにＣＰＵ１２に対して複製（転送）することを示す。
　「ｆｕｎｃ１（ｏｕｔ，ｉｎ）」は、出力データｏｕｔ、入力データｉｎを引数として有する関数プログラムである。即ち、「ｆｕｎｃ１（ｏｕｔ，ｉｎ）」は、入力データｉｎに対して所定の処理を実行し、その実行により取得される出力データｏｕｔを返す処理をＣＰＵ１２に指示するための関数プログラムである。
　「ｏｕｔ－＞ｓｅｔ＿ｃｐｕ（）」は、出力データｏｕｔがＣＰＵ１２に存在することを出力データ記述子Ｄｅｓｃ＊　ｏｕｔに記述することを示す関数プログラムである。従って、判定条件…を満たす場合には、ＣＰＵ１２は自器に入力データｉｎが存在するか否かを判定し、存在しない場合に入力データｉｎが存在するデバイスに自器に転送させる。ＣＰＵ１２は、実行デバイスとして入力データｉｎに対して所定の処理を実行し、取得される出力データｏｕｔを保持する。

　他方、「ｉｎ－＞ｃｏｐｙ＿ｔｏ＿ｇｐｕ（）」とは、入力データｉｎがＧＰＵ１４に存在するか否かを判定し、存在する場合には入力データｉｎに対して処理を行わず、存在しない場合には入力データｉｎが存在するデバイスにＧＰＵ１４に対して複製（転送）することを示す。
　「ｆｕｎｃ１＿ｇｐｕ（ｏｕｔ，ｉｎ）」は、出力データｏｕｔ、入力データｉｎを引数として有し、ＧＰＵ１４に対して処理を実行させるための関数プログラムを示す。即ち、「ｆｕｎｃ１＿ｇｐｕ（ｏｕｔ，ｉｎ）」は、入力データｉｎに対して所定の処理を実行させ、その実行により取得される出力データｏｕｔを返す処理をＧＰＵ１４に指示するための関数プログラムの呼出命令である。
　「ｏｕｔ－＞ｓｅｔ＿ｇｐｕ（）」は、出力データｏｕｔがＧＰＵ１４に存在することを出力データ記述子Ｄｅｓｃ＊　ｏｕｔに記述することを示す関数プログラムである。従って、判定条件…を満たさない場合には、ＧＰＵ１４は自器に入力データｉｎが存在するか否かを判定し、存在しない場合に入力データｉｎが存在するデバイスに自器に転送させる。ＧＰＵ１４は、実行デバイスとして入力データｉｎに対して所定の処理を実行し、取得される出力データｏｕｔを保持する。

　上記の関数プログラムｋｅｒｎｅｌ１は、判定条件…を満足するか否かに応じてＣＰＵ１２とＧＰＵ１４のいずれのデバイスが処理を実行するかが可変であるのに対し、関数プログラムｋｅｒｎｅｌ２では、常にＧＰＵ１４が処理を実行することが指示される。関数プログラムｋｅｒｎｅｌ２は、ＧＰＵ１４に自器に入力データｉｎが存在するか否かを判定し、存在しない場合に入力データｉｎが存在するデバイスに自器に転送させるとともに、実行デバイスとして入力データｉｎに対して所定の他の処理を実行し、取得される出力データｏｕｔを保持させるためのプログラムである。

（データ記述子の例）
　次に、本実施形態に係るデータ記述子の例について説明する。図５は、本実施形態に係るデータ記述子の例を示す図である。「Ｓｔｒｕｃｔ　Ｄｅｓｃ」とは、データ型が構造体で名称が「Ｄｅｓｃ」である記述子を示し、入力データ、出力データのそれぞれに対して共通に設定される。
　「ｉｎｔ　ｐｌａｃｅ」とは、データ型を整数型とする変数ｐｌａｃｅを示す。変数ｐｌａｃｅは、データが存在するデバイスを示す整数値である。変数ｐｌａｃｅが「１」、「２」、「３」は、データが存在するデバイスがそれぞれＣＰＵ１２、ＧＰＵ１４、ＶＥ１６であることを示す。
　「ｖｏｉｄ　＊ｓｅｎｄ＿ｔｏ＿ｃｐｕ」は、関数プログラム「ｓｅｎｄ＿ｔｏ＿ｃｐｕ」の関数ポインタを示す。「ｖｏｉｄ」は、返り値を出力データとして返さない関数プログラムを示す。

　「ｖｏｉｄ　＊ａｄｄｒｅｓｓ」は、デバイス上でのデータのアドレスを示す。
　「ｉｎｔ　ｓｉｚｅ」は、データ型を整数型とする変数ｓｉｚｅを示す。変数ｓｉｚｅは、データのサイズ（情報量）を示す整数値（単位：バイト）である。
　「ｉｎｔ　ｔｙｐｅ」は、データ型を整数型とする変数ｔｙｐｅを示す。変数ｔｙｐｅは、データを構成する個々の数値のデータ型式を示す整数値である。「１」、「２」は、それぞれ浮動小数点型実数、倍精度型実数を示す。

　なお、データ記述子には、指定されるデータを転送するためのデータ転送方式を示す情報が含まれてもよい。データ転送方式として、そのデータが格納されているデバイスと他のデバイスとの間での入出力方式（例えば、ＰＣＩ　Express、ＳＡＴＡ：Serial Advanced Technology Attachment、等）が指示されてもよい。また、データ転送方式として、後述するように同期または非同期の区別が指示されてもよい。

（従来の関数プログラムの例）
　従来から複数のデバイスを備えた情報処理装置に対応したライブラリ（例えば、Ｏｐｅｎ　ＣＶ）が存在する。かかるライブラリには、個々のデバイス専用の関数プログラムと、複数のデバイス間におけるデータ転送機能を示す関数プログラムが含まれる。図１１に例示されるライブラリＬＢ１１２では、ＣＰＵ用の関数プログラムｋｅｒｎｅｌ１＿ｃｐｕとは別個に、そのプログラムと実質的に同じ処理を示すＧＰＵ用の関数プログラムｋｅｒｎｅｌ１＿ｇｐｕと、ＣＰＵからＧＰＵへのデータのコピー（転送）を示す関数プログラムｃｏｐｙ＿ｔｏ＿ｇｐｕが提供される。但し、ユーザは、当該ライブラリを用いたユーザプログラムの開発において、ＣＰＵとＧＰＵの使い分けを記述する必要があった。

　図１１に例示されるプログラムＵＰ１１２は、関数プログラムｋｅｒｎｅｌ１の処理をＣＰＵ１２に実行させ、その実行結果となる出力データを用いたｋｅｒｎｅｌ２の処理をＧＰＵ１４に実行させるためのユーザプログラムである。このユーザプログラムの開発のためには、ユーザは関数プログラムｋｅｒｎｅｌ１の出力データのＣＰＵ１２からＧＰＵ１４への転送を示す関数プログラムｃｏｐｙ＿ｔｏ＿ｇｐｕの呼出命令を関数プログラムｋｅｒｎｅｌ１＿ｃｐｕとｋｅｒｎｅｌ２＿ｃｐｕの間に設定する必要がある。また、関数プログラムｋｅｒｎｅｌ２の出力データをＣＰＵ１２で利用する場合には、その出力データのＧＰＵ１４からＣＰＵ１２への転送を示す関数プログラムｃｏｐｙ＿ｔｏ＿ｃｐｕの呼出命令が、関数プログラムｋｅｒｎｅｌ２＿ｇｐｕの後に設定する必要がある。そのため、プログラムの開発が煩雑になりがちであり、開発されたプログラムで定められた命令および順序でしか動作しない。

　図１２に示すプログラムの例では、関数プログラムｋｅｒｎｅｌ１に判定条件…を設け、判定条件…を満足するか否かにより関数プログラムｆｕｎｃ１をＣＰＵ１２に実行させるか、関数プログラムｆｕｎｃ１＿ｇｐｕを実行させるかを判定する処理が指示されている。関数プログラムｆｕｎｃ１＿ｇｐｕは、関数プログラムｆｕｎｃ１と実質的に同様な処理を示す。しかしながら、ＣＰＵ１２とＧＰＵ１４間でデータ転送が指示されていない。そのため、判定条件（…）を満たす場合であって、ＣＰＵ１２に入力データｉｎが存在しない場合、判定条件（…）を満たさない場合であって、ＧＰＵ１４に入力データｉｎが存在しない場合には、それぞれ関数プログラムｆｕｎｃ１、ｆｕｎｃ１＿ｇｐｕを実行することができない。また、関数プログラムｆｕｎｃ１、ｆｕｎｃ１＿ｇｐｕの出力データｏｕｔがＧＰＵ１４に存在しない場合には、関数プログラムｋｅｒｎｅｌ２を実行することができない。

　図１３に示すプログラムの例では、関数プログラムｋｅｒｎｅｌ１において、関数プログラムｆｕｎｃ１＿ｇｐｕの直前、直後に、それぞれ関数プログラムｃｏｐｙ＿ｔｏ＿ｇｐｕ（ｉｎ＿ｇ，ｉｎ）、ｃｏｐｙ＿ｆｒｏｍ＿ｇｐｕ（ｏｕｔ，ｏｕｔ＿ｇ）が設定されている。関数プログラムｃｏｐｙ＿ｔｏ＿ｇｐｕ（ｉｎ＿ｇ，ｉｎ）は、ＣＰＵ１２上の入力データｉｎをＧＰＵ１４に入力データｉｎ＿ｇとして転送することを示す。関数プログラムｃｏｐｙ＿ｆｒｏｍ＿ｇｐｕ（ｏｕｔ，ｏｕｔ＿ｇ）は、ＧＰＵ１４上の出力データｏｕｔ＿ｇをＣＰＵ１２に出力データｏｕｔとして転送することを示す。また、関数プログラムｋｅｒｎｅｌ２において、関数プログラムｆｕｎｃ２＿ｇｐｕの直前、直後に、関数プログラムｃｏｐｙ＿ｔｏ＿ｇｐｕ（ｉｎ＿ｇ，ｉｎ）、ｃｏｐｙ＿ｆｒｏｍ＿ｇｐｕ（ｏｕｔ，ｏｕｔ＿ｇ）がそれぞれ設定されている。

　よって、ＧＰＵ１４は、関数プログラムｆｕｎｃ１＿ｇｐｕ、ｆｕｎｃ２＿ｇｐｕを実行する場合に必要とする入力データｉｎ＿ｇを取得することができ、その処理結果としての出力データｏｕｔがＣＰＵ１２に提供される。ＧＰＵ１４で必要とするデータがＣＰＵ１２から提供され、ＧＰＵ１４での処理結果がＣＰＵ１２に提供されるため、図１２に示す例のように実行できない場合が解消される。
　しかし、図１３に示す例では、主プログラムを介してデータが関数プログラム間で逐一受け渡されるため無用な転送が発生してしまう。例えば、関数プログラムｋｅｒｎｅｌ１、ｋｅｒｎｅｌ２の処理を、ともにＧＰＵ１４が実行する場合には、無用な転送が発生してしまう。図１３に示す例では、ＧＰＵ１４は関数プログラムｋｅｒｎｅｌ１の処理結果となる出力データｏｕｔ＿ｇをＣＰＵ１２に転送せずにＧＰＵ１４に保持したままとし、関数プログラムｋｅｒｎｅｌ２の入力データｉｎ＿ｇとして利用すれば十分である。

　なお、従来から、コンピュータに複数のデバイスを備え、個々のデバイスに要素処理を分散させることで処理速度の高速化が図られている。また、デバイスの種別やその組み合わせが多様化している。多種のアクセラレータの登場、人工知能（ＡＩ：Artificial Intelligence）技術の普及により、複数種類のアクセラレータを備えたヘテロシステムを活用するハイブリッドアクセラレーション（ＨＡ：Hybrid Acceleration）の発展ないし普及が進展している。

　複数デバイスの機能を発揮させるために、従来から個々の要素処理を所定のデバイスに実行させるためのカーネルを有するカーネルライブラリを予めシステムに設定しておくことが試みられていた。ユーザは、必要とする処理を実現するためのカーネルを呼び出すための関数を組み込んでユーザプログラムを開発することが想定される。そのため、ユーザプログラムの開発段階では、カーネルで指示される処理を実行するためのデバイスは、意識されず、様々な環境で効率的に実行されることが期待される。ここで、複数のデバイス間におけるデータ転送に係る負荷をオーバーヘッドの低減が期待されていた。

　これに対し、本実施形態では、図４に例示したようにデータの所在を記述子Ｄｅｓｃに各デバイスから参照可能としている。実行デバイス判定部２４により入力データの要件に応じて関数プログラムに示す所定の処理を実行するための実行デバイスが判定される。そして、転送制御部３２により実行デバイスにおける入力データの存否に基づいてデバイス間におけるデータ転送の要否判定がなされる。そのため、実行デバイスを可変とする場合でも過不足なくデータ転送を実現することで、無用なデータ転送を回避することで処理の効率化を図ることができる。

　ここで、図４に示す関数プログラムｋｅｒｎｅｌ１、ｋｅｒｎｅｌ２をそれぞれ示す呼出命令がその順序で記述された主プログラムを情報処理装置１０が実行する場合を仮定する。但し、関数プログラムｋｅｒｎｅｌ１に対する入力データｉｎがＣＰＵ１２に存在し、実行デバイス判定部２４が判定条件…を満足しないものとする。その場合、図９に例示されるように、ＧＰＵ１４は、実質的には、関数プログラムｋｅｒｎｅｌ１（図４）のうち、関数プログラムｃｏｐｙ＿ｔｏ＿ｇｐｕ（ｉｎ＿ｇ，ｉｎ）、ｆｕｎｃ１＿ｇｐｕ（ｏｕｔ＿ｇ，ｉｎ＿ｇ）で示される処理を実行する。そして、ＧＰＵ１４は、実質的には、関数プログラムｋｅｒｎｅｌ２のうち、関数プログラムｆｕｎｃ２＿ｇｐｕ（ｏｕｔ＿ｇ，ｉｎ＿ｇ）で示される処理を実行する。

　これに対し、従来の手法として図１３に例示される関数プログラムｋｅｒｎｅｌ１、ｋｅｒｎｅｌ２をそれぞれ示す呼出命令がその順序で記述された主プログラムを情報処理装置１０が実行する場合を仮定する。その場合、図１０に例示されるように、ＧＰＵ１４は、関数プログラムｋｅｒｎｅｌを構成する関数プログラムｃｏｐｙ＿ｔｏ＿ｇｐｕ（ｉｎ＿ｇ，ｉｎ）、ｆｕｎｃ１＿ｇｐｕ（ｏｕｔ＿ｇ，ｉｎ＿ｇ）の他、関数プログラムｃｏｐｙ＿ｆｒｏｍ＿ｇｐｕ（ｏｕｔ，ｏｕｔ＿ｇ）で示される処理を実行する。そして、ＣＰＵ１２は、関数プログラムｋｅｒｎｅｌ２の関数プログラムｆｕｎｃ２＿ｇｐｕ（ｏｕｔ＿ｇ，ｉｎ＿ｇ）の他、その前後の関数プログラムｃｏｐｙ＿ｔｏ＿ｇｐｕ（ｉｎ＿ｇ，ｉｎ）、ｃｏｐｙ＿ｆｒｏｍ＿ｇｐｕ（ｏｕｔ，ｏｕｔ＿ｇ）で示される処理を実行する。
　ここで、関数プログラムｆｕｎｃ１、ｆｕｎｃ２の実行時間、ＣＰＵ１２とＧＰＵ１４との間のデータ転送時間をそれぞれ１００ｍｓと仮定する。その仮定のもとでは、図９に示す一連の処理の実行時間は、３００ｍｓであるのに対し、図１３に示す一連の処理の実行時間は６００ｍｓとなる。

（変形例）
　次に、本実施形態の変形例について説明する。但し、特に断らない限り、上記の実施形態と同様の構成を備えるものとし、その説明を援用する。ここで、本変形例では、主プログラムに記述された複数の呼出命令のそれぞれにより示される関数プログラムが逐次に実行され、ある関数プログラム（以下、先行プログラム）で示される処理の実行により取得された出力データを、より後の関数プログラム（以下、後続プログラム）で示される処理に入力データとして用い、後続プログラムには実行デバイスを判定するための判定条件が設定されている場合を前提とする。

　このような場合、上記の実施形態では、先行プログラムの実行終了と後続プログラムの実行開始を同期させていた。より具体的には、出力データ設定部３８が、先行プログラムの実行により取得された出力データの所在を示す出力データ記述子をホストデバイスに出力した後で、実行デバイス判定部２４は、後続プログラムの実行に係る実行デバイスを後続プログラムに所定の判定条件に基づいて判定する。そして、実行デバイスにおいて転送制御部３２は先行プログラムの出力データを入力データとする入力データ記述子を参照して入力データの転送の要否を判定する。これにより無用なデータ転送が回避される反面、後続プログラムに示す処理の実行開始が遅くなることがある。後続プログラムの実行デバイスが先行プログラムの実行デバイスとは異なる場合には、後続プログラムに示す処理を開始する前に、先行プログラムの実行デバイスから入力データを転送してもらう必要があるためである。

　そこで、本変形例では、先行プログラムの実行終了と後続プログラムの実行開始を非同期とし、先行プログラムで示される処理の終了時に、その実行により取得された出力データを所定の転送先デバイスに後続プログラムの実行開始を待機せずに転送を開始する（プリロード）。より具体的には、先行プログラムの実行デバイスにおいて、出力データ設定部３８は、出力データの所在として実行デバイスの他、先行プログラムに所定の転送先デバイスへの出力データの転送を記述した出力データ記述子を伴う実行終了通知をホストデバイスに出力する。

　その後、後続プログラムで示される処理の実行開始前に、出力データ設定部３８は、出力データの所定の転送先デバイスへの転送を開始する。転送先デバイスは、先行プログラム、またはその先行プログラムの出力データ記述子のいずれで設定されてもよい。転送先デバイスとして、出力データを入力データとして処理対象として他のデバイスよりも効率的に処理することができるデバイスが予め設定されてもよい。転送先デバイスが、先行プログラムの実行デバイスである場合には、出力データ設定部３８は、出力データの転送を行わない。

　なお、ホストデバイスから、自デバイス（つまり、先行デバイスの実行デバイス）を後続プログラムの実行デバイスとして示す実行デバイス情報が入力される場合には、出力データ設定部３８は、先行プログラムの出力データの転送先デバイスへの転送を中止する。その場合には、出力データ設定部３８は、出力データの所在を先行プログラムの実行デバイスを記述し、出力データの転送を消去した出力データ記述子を伴う転送中止通知をホストデバイスに出力してもよい。
　ホストデバイスから、自デバイス以外のデバイスを実行デバイスとして示す実行デバイス情報が入力される場合には、出力データ設定部３８は、先行プログラムの出力データの転送先デバイスへの転送を継続する。出力データ設定部３８は、出力データの転送が完了するとき、出力データの転送の終了を示す出力データ記述子を伴う転送出力通知をホストデバイスに出力する。出力データの転送の終了を示す情報として、出力データが所在する転送先デバイス、転送先アドレスの一方または双方が記述されてもよい。

　ホストデバイスから入力される実行デバイス情報が示す後続プログラムの実行デバイスが、転送先デバイス以外のデバイスである場合には、出力データ設定部３８は、先行プログラムの出力データの転送先デバイスへの転送を中止し、後続プログラムの実行デバイスへの転送を開始してもよい。その場合には、出力データ設定部３８は、出力データの所在するデバイスとして先行プログラムの実行デバイスを記述し、出力データの転送先デバイスへの転送を消去し、出力データの後続プログラムの実行デバイスへの転送を記述した出力データ記述子を伴う転送出力通知をホストデバイスに出力してもよい。

　他方、ホストデバイスにおいて、実行管理部２２は、先行プログラムの実行デバイスから実行終了通知が入力されるとき、実行対象とする次の命令として後続プログラムの実行を示す呼出命令に変更する。
　実行デバイス判定部２４は、先行プログラムの出力データを後続プログラムの入力データとして入力データ記述子を必要に応じて参照し、上記のように実行デバイスを定める。従って、先行プログラムの出力データの要件に基づいて、後続プログラムに設定された判定条件を用いて実行デバイスが定められる。実行デバイス判定部２４は、定めた実行デバイスを示す実行デバイス情報を実行管理部２２の他、先行プログラムについて定めた実行デバイスに対して出力する。

　後続プログラムの実行デバイスにおいて、転送制御部３２は、さらに次の処理を行ってもよい。転送制御部３２は、先行プログラムの出力データが、後続プログラムの入力データとして用いられる場合、自部に先行プログラムの出力データの出力データ記述子が入力されるごとに、その出力データ記述子を後続プログラムの入力データの入力データ記述子として更新する。出力データ記述子は、上記のように、実行終了通知、転送中止通知、転送出力通知に伴って先行プログラムの実行デバイスから入力されうる。転送制御部３２は、入力データ記述子に自デバイス（つまり、後続プログラムの実行デバイス）以外のデバイスが入力データの所在として記述されておらず、入力データ（つまり、先行プログラムの出力データ）の自デバイスへの転送が記述されている場合、入力データの転送が完了するまで待機する。

　転送制御部３２は、入力データの所在として自デバイスが記述された入力データ記述子に更新されるとき、自デバイスへの入力データの転送の完了を検出することができる。転送制御部３２は、入力データ記述子に自デバイス（つまり、後続プログラムの実行デバイス）以外のデバイスとして先行プログラムの実行デバイスが入力データの所在として記述され、入力データの自デバイス以外のデバイスの転送が記述されている場合には、上記のようにデータ転送部３４を経由して入力データ記述子を伴ってデータ転送要求を出力してもよい。これにより、先行プログラムの実行デバイスに入力データが要求される。

　データ転送部３４は、転送制御部３２から入力されるデータ転送要求から入力データ記述子を抽出し、抽出した入力データ記述子に記述される入力データのアドレスを特定する。データ転送部３４は、特定したアドレスで指示される位置に記憶された入力データを読み出し、読み出した入力データの実行デバイスＥＤ０４へ転送（出力）する。入力データの転送が終了した後、カーネル実行部３６の処理を開始する。

（関数プログラムの例）
　次に、本変形例に係る関数プログラムの例について説明する。図６は、本変形例に係る主プログラムの例を示す図である。図６に例示される主プログラムは、３個の関数プログラムｋｅｒｎｅｌ１、ｋｅｒｎｅｌ２、ｋｅｒｎｅｌ３それぞれの呼出命令をその順序に記述して構成される。図６の左方の上から下にその順序で示される「ｋｅｒｎｅｌ１」、「ｋｅｒｎｅｌ２」、「ｋｅｒｎｅｌ３」は、主プログラムにおいて関数プログラムｋｅｒｎｅｌ１、ｋｅｒｎｅｌ２、ｋｅｒｎｅｌ３の実行がその順序で指示されることを示す。但し、関数プログラムｋｅｒｎｅｌ１、ｋｅｒｎｅｌ２は、それぞれＣＰＵ１２で実行され、関数プログラムｋｅｒｎｅｌ３には実行デバイスが可変であり、その判定条件が設定されていることが仮定されている。関数プログラムｋｅｒｎｅｌ３の入力データとして、ｄａｔａ１、ｄａｔａ３が用いられ、それぞれ転送先デバイスとしてＧＰＵ１４が設定されている。
　なお、図６の右方に示す例では、データ記述子Ｄｅｓｃ＊の記述が省略されているが、データ記述子Ｄｅｓｃ＊が記述されていてもよい。

　「ｋｅｒｎｅｌ１（ｄａｔａ１，ｄａｔａ０）」は、入力データｄａｔａ０に対して所定の処理を行い、出力データｄａｔａ１を取得するための関数プログラムである。関数プログラムｋｅｒｎｅｌ１に示す処理が終了した後、関数プログラムｋｅｒｎｅｌ２に示す処理が開始される前に、出力データ設定部３８は、出力データｄａｔａ１を所定の転送先デバイスとしてＧＰＵ１４に出力する。
　「ｋｅｒｎｅｌ２（ｄａｔａ３，ｄａｔａ２）」は、入力データｄａｔａ２に対して所定の処理を行い、出力データｄａｔａ３を取得するための関数プログラムである。関数プログラムｋｅｒｎｅｌ２に示す処理が終了した後、関数プログラムｋｅｒｎｅｌ３に示す処理が開始される前に、出力データ設定部３８は、出力データｄａｔａ３を所定の転送先デバイスとしてＧＰＵ１４に出力する。

　「ｋｅｒｎｅｌ３（ｄａｔａ４，ｄａｔａ１，ｄａｔａ３）」は、入力データｄａｔａ１，ｄａｔａ３に対して所定の処理を行い、出力データｄａｔａ４を取得するための関数プログラムである。実行管理部２２は、関数プログラムｋｅｒｎｅｌ２の処理が終了するとき、関数プログラムｋｅｒｎｅｌ３の実行を開始する。この時点では、ＣＰＵ１２からＧＰＵ１４への入力データｄａｔａ１、ｄａｔａ２の転送が継続している可能性がある。

　その後、実行デバイス判定部２４は、関数プログラムｋｅｒｎｅｌ３に所定の判定条件に基づいて実行デバイスを定め、関数プログラムｋｅｒｎｅｌ１、ｋｅｒｎｅｌ２の実行デバイスに、関数プログラムｋｅｒｎｅｌ３の実行デバイス情報を通知する。
　ＧＰＵ１４を実行デバイスとして定めた場合、出力データ設定部３８は、ＣＰＵ１２からＧＰＵ１４への入力データｄａｔａ１、ｄａｔａ２の転送を継続する。転送制御部３２は、ＣＰＵ１２からＧＰＵ１４への入力データｄａｔａ１、ｄａｔａ２の転送の終了を待機する。入力データｄａｔａ１、ｄａｔａ２の転送が終了したとき、カーネル実行部３６は、関数プログラムｋｅｒｎｅｌ３に示す処理を開始する。
　ＣＰＵ１２を実行デバイスとして定めた場合、出力データ設定部３８は、ＣＰＵ１２からＧＰＵ１４への入力データｄａｔａ１、ｄａｔａ２の転送を中止する。
　転送制御部３２は、入力データｄａｔａ１、ｄａｔａ２が実行デバイスであるＣＰＵ１２に所在するためデータ転送不要と判定する。その後、カーネル実行部３６は、関数プログラムｋｅｒｎｅｌ３に示す処理を開始する。

　従って、本変形例によれば転送先デバイスが後続プログラムの実行デバイスとなる場合には、先行プログラムである関数プログラムｋｅｒｎｅｌ１、ｋｅｒｎｅｌ２に係る処理が終了した時点で、出力データの転送が開始される。そのため、実行デバイスにおける後続プログラムである関数プログラムｋｅｒｎｅｌ３に係る処理の開始を早めることができるので、システム全体としての処理効率を向上させることができる。また、仮に転送先デバイスが後続プログラムの実行デバイスと異なることが判定される場合であっても、その判定がなされた段階で出力データの転送が中止される。そのため、無用なデータ転送が抑制される。

　なお、上記の説明では後続プログラムの入力データの全体として、直前の２つの先行プログラムの出力データのそれぞれを用いる場合を例にしたが、これには限られない。後続プログラムの入力データとして用いる出力データを提供する先行プログラムの数は、２個に限らず、１個でも、３個以上であってもよい。後続プログラムの入力データの一部の入力データとして、先行プログラムの出力データを用い、残りの入力データが、その後続プログラムに独自に指示されてもよい。また、個々の先行プログラムから提供される出力データの全部が、後続プログラムの入力データとして用いられる場合に限らず、その出力データの一部が後続プログラムの入力データとして用いられてもよい。その出力データの一部が、転送先デバイスへの転送対象となり、残りの出力データは転送対処とならなくてもよい。
　後続プログラムの実行順序は、必ずしも先行プログラムの直後の実行順序でなくてもよく、先行プログラムの後の実行順序であれば、先行プログラムと後続プログラムの間の順序に、他のプログラムが存在していてもよい。

（記述子の例）
　次に、本変形例に係る記述子の例について上記の記述子との差異点を主として説明する。図７は、本変形例に係る記述子の例を示す図である。
　「ｖｏｉｄ　＊ｓｅｎｄ＿ｔｏ＿ｇｐｕ」は、関数プログラム「ｓｅｎｄ＿ｔｏ＿ｇｐｕ」の関数ポインタを示す。関数プログラム「ｓｅｎｄ＿ｔｏ＿ｇｐｕ」は、ＧＰＵ１４への同期通信、つまり、後続プログラムの実行デバイスとしてのＧＰＵ１４からのデータ転送要求に応じたデータの転送を示すプログラムである。
　「ｖｏｉｄ　＊ｓｅｎｄ＿ｔｏ＿ｇｐｕ＿ａｓｙｎｃ」は、関数プログラム「ｓｅｎｄ＿ｔｏ＿ｇｐｕ＿ａｓｙｎｃ」の関数ポインタを示す。関数プログラム「ｓｅｎｄ＿ｔｏ＿ｇｐｕ＿ａｓｙｎｃ」は、ＧＰＵ１４への非同期通信、つまり、転送先デバイスとしてのＧＰＵ１４へのデータの自発的な転送を示すプログラムである。
　「ｖｏｉｄ　＊ｃｈｅｃｋ＿ｇｐｕ＿ａｓｙｎｃ」は、関数プログラム「ｃｈｅｃｋ＿ｇｐｕ＿ａｓｙｎｃ」の関数ポインタを示す。関数プログラム「ｃｈｅｃｋ＿ｇｐｕ＿ａｓｙｎｃ」は、ＧＰＵ１４への非同期通信の終了判定、つまり、ＧＰＵ１４へのデータの自発的な転送の終了の有無を判定するための処理を示すプログラムである。なお、関数プログラム「ｃｈｅｃｋ＿ｇｐｕ＿ａｓｙｎｃ」は、判定結果として転送中であるか否かを示す値を返り値としても提供してもよい。

（最小構成）
　次に、本実施形態の最小構成について説明する。図８は、本実施形態の最小構成を例示する概略ブロック図である。
　図８に示すように本実施形態に係る情報処理装置１０は、複数のデバイスを備える情報処理装置である。情報処理装置１０は、実行デバイス判定部２４と、転送制御部３２と、を備える。
　実行デバイス判定部２４は、複数のデバイスのうち、入力データに対して所定の処理を実行する実行デバイスを当該入力データの要件に基づいて定める。
　転送制御部３２は、入力データの所在を示す記述子を参照し、入力データの所在が実行デバイスとは他のデバイスであるか否かに応じて実行デバイスへの入力データの転送の要否を判定する。

　この構成によれば、入力データの要件に応じた実行デバイスが定まる。また、記述子（例えば、入力データ記述子）の受け渡しにより入力データの所在が通知され、入力データの所在が他デバイスにあるか否かにより入力データの転送の要否が判定される。副プログラムで示される処理の効率を確保しながら不要なデータ転送を回避することでデータ転送に係る負荷を低減することができる。従って、個々の要素処理に係る副プログラムを利用する主プログラムが様々な環境で効率的に動作することができる。

　実行デバイス判定部２４は、入力データの要件として、入力データの情報量、他のデバイスから実行デバイスまでのデータの転送方式およびデータ型のいずれか１つ、またはそれらのいずれかの組み合わせに基づいて実行デバイスを定めてもよい。
　この構成により、実行デバイス判定部２４は、記述子に記述された入力データの要件が、副プログラムに所定の判定条件を満たす実行デバイスを判定することで、入力データに適合した実行デバイスを選択することができる。

　情報処理装置１０は、さらに出力データ設定部３８を備えてもよい。出力データ設定部３８は、複数のデバイスのうちホストデバイスから提供される記述子（例えば、入力データ記述子）で示される入力データに対して所定の処理を実行して取得された出力データの所在を示す第２の記述子をホストデバイスに提供してもよい。
　この構成により、ホストデバイスから提供される記述子により処理対象とする入力データが通知され、副プログラムで示される所定の処理を行って得られた出力データの所在を第２の記述子によりホストデバイスに通知することができる。そのため、ホストデバイスに提供する主プログラムに実行対象の処理を示す副プログラムと、その入力データの所在を示す記述子、その出力データの所在を示す記述子を定めることで、ユーザは実行主体とするデバイスを意識することなく主プログラムを開発することができる。

　出力データ設定部３８は、出力データ（例えば、先行プログラムの出力データ）に対する第２の所定の処理（例えば、後続プログラムに係る処理）の開始前に、所定の転送先デバイスへの出力データの転送を開始してもよい。
　実行デバイス判定部２４は、複数のデバイスのうち、第２の所定の処理を実行する第２の実行デバイスを出力データの要件に基づいて定めてもよい。
　第２の実行デバイス（例えば、後続プログラムの実行デバイス）が実行デバイス（例えば、先行プログラムの実行デバイス）と同一であるとき、出力データ設定部３８は、出力データの転送を中止し、第２の実行デバイスが転送先デバイスと同一であるとき、第２の実行デバイスは、出力データの転送が終了するとき、第２の所定の処理を開始する。
　この構成により、後続プログラムに係る第２の処理の開始前に、先行プログラムの出力データの転送先デバイスへの転送が開始されるので、転送先デバイスが第２の処理を実行する第２の実行デバイスである場合には、第２の処理を早期に開始することができる。また、先行プログラムに係る処理を実行する実行デバイスが第２の処理を実行する第２の実行デバイスとなる場合には、出力データの転送が中止される。そのため、データの転送に係る負荷を抑制しながらプログラム全体としての処理効率を向上させることができる。

　情報処理装置１０は、さらに実行管理部２２を備えてもよい。
　実行管理部２２は、記述子（例えば、入力データ記述子）と第２の記述子（出力データ記述子）を伴い、所定の処理を示す命令（例えば、呼出命令）に応じて、実行デバイスに記述子を提供し、実行デバイスから第２の記述子を取得してもよい。
　この構成により、主プログラムに命令に伴って記述される記述子により処理対象とする入力データの所在を実行デバイスに通知することができ、命令で指示される副プログラムで示される所定の処理を行って得られた出力データの所在を実行デバイスより第２の記述子により知得することができる。そのため、主プログラムに実行対象の処理を示す副プログラムと、その入力データの所在を示す記述子、その出力データの所在を示す記述子を定めることで、ユーザは実行主体とするデバイスを意識することなく主プログラムを開発することができる。

　なお、上記の情報処理装置１０は、その内部にコンピュータシステムを備えてもよい。そして、上述した各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記憶媒体に記憶され、このプログラムをコンピュータが読み出して実行することによって、それらの処理が行われる。コンピュータシステムは、ＯＳ（Operation System）、デバイスドライバ、ユーティリティプログラムなどのソフトウェアや周辺機器等のハードウェアを含むものとする。また、コンピュータ読み取り可能な記録媒体」とは、磁気ディスク、光磁気ディスク、ＲＯＭ（Read Only Memory）、半導体メモリ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに、コンピュータ読み取り可能な記録媒体、とは、インターネット等のネットワークや電話回線等の通信回線を用いてプログラムを送信する場合に用いる通信線など、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリなど、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

　また、上述した実施形態における情報処理装置１０の一部、または全部を、ＬＳＩ（Large Scale Integration）等の集積回路として実現してもよい。情報処理装置１０の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

　以上、本発明の好ましい実施形態を説明したが、本発明はこれら実施形態及びその変形例に限定されることはない。本発明の主旨を逸脱しない範囲で、構成の付加、省略、置換、およびその他の変更が可能である。
　また、本発明は前述した説明によって限定されることはなく、添付の特許請求の範囲によってのみ限定される。

　上記各態様の情報処理装置、情報処理方法およびプログラムによれば、入力データの要件に応じた実行デバイスが定まる。また、記述子の受け渡しにより入力データの所在が通知され、入力データの所在が他デバイスにあるか否かにより入力データの転送の要否が判定される。副プログラムで示される処理の効率を確保しながら不要なデータ転送を回避することでデータ転送に係る負荷を低減することができる。従って、個々の要素処理に係る副プログラムを利用する主プログラムが様々な環境で効率的に動作することができる。

１０…情報処理装置、１２…ＣＰＵ、１２ｍ…メモリ、１４…ＧＰＵ、１４ｍ…メモリ、１６…ＶＥ、１６ｍ…メモリ、２２…実行管理部、２４…実行デバイス判定部、３２…転送制御部、３４…データ転送部、３６…カーネル実行部、３８…出力データ設定部、ＨＤ０２…ホストデバイス、ＥＤ０４…実行デバイス

Claims

　複数のデバイスを備える情報処理装置であって、
　前記複数のデバイスのうち、入力データに対して所定の処理を実行する実行デバイスを当該入力データの要件に基づいて定める実行デバイス判定部と、
　前記入力データの所在を示す記述子を参照し、前記所在が前記実行デバイスとは他のデバイスであるか否かに応じて前記実行デバイスへの前記入力データの転送の要否を判定する転送制御部と、
　を備える情報処理装置。
　前記実行デバイス判定部は、
　前記入力データの情報量、前記他のデバイスから前記実行デバイスまでのデータの転送方式およびデータ型、の少なくとも１つに基づいて前記実行デバイスを定める
　請求項１に記載の情報処理装置。
　前記複数のデバイスのうちホストデバイスから提供される前記記述子で示される入力データに対して前記所定の処理を実行して取得された出力データの所在を示す第２の記述子をホストデバイスに提供する出力データ設定部
　を備える請求項２に記載の情報処理装置。
　前記出力データ設定部は、
　前記出力データに対する第２の所定の処理の開始前に、所定の転送先デバイスへの前記出力データの転送を開始し、
　前記実行デバイス判定部は、
　前記複数のデバイスのうち、前記第２の所定の処理を実行する第２の実行デバイスを前記出力データの要件に基づいて定め、
　前記第２の実行デバイスが前記実行デバイスと同一であるとき、前記出力データ設定部は、前記出力データの転送を中止し、
　前記第２の実行デバイスが前記転送先デバイスと同一であるとき、前記第２の実行デバイスは、前記出力データの転送が終了するとき、前記第２の所定の処理を開始する
　請求項３に記載の情報処理装置。
　前記記述子と前記第２の記述子を伴い、前記所定の処理を示す命令に応じて、前記実行デバイスに前記記述子を提供し、
　前記実行デバイスから前記第２の記述子を取得する実行管理部
　を備える請求項３または請求項４に記載の情報処理装置。
　複数のデバイスを備える情報処理装置における情報処理方法であって、
　前記複数のデバイスのうち、入力データに対して所定の処理を実行する実行デバイスを当該入力データの要件に基づいて定める第１のステップと、
　前記入力データの所在を示す記述子を参照し、前記所在が前記実行デバイスとは他のデバイスであるか否かに応じて前記実行デバイスへの前記入力データの転送の要否を判定する第２のステップと、
　を有する情報処理方法。
　複数のデバイスを備える情報処理装置のコンピュータを、
　前記複数のデバイスのうち、入力データに対して所定の処理を実行する実行デバイスを当該入力データの要件に基づいて定める実行デバイス判定部と、
　前記入力データの所在を示す記述子を参照し、前記所在が前記実行デバイスとは他のデバイスであるか否かに応じて前記実行デバイスへの前記入力データの転送の要否を判定する転送制御部と、
　として機能させるためのプログラム。