CN110389827B

CN110389827B - 在分布式系统中进行优化的方法、设备和计算机程序产品

Info

Publication number: CN110389827B
Application number: CN201810362333.7A
Authority: CN
Inventors: 崔嵬; 王鲲
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2023-05-12
Anticipated expiration: 2038-04-20
Also published as: US20190324817A1; US11048555B2; CN110389827A

Abstract

本公开的实现涉及在分布式系统中进行优化的方法、设备和计算机程序产品。根据本公开的一个示例性实现，提供了一种用于在分布式系统中进行优化的方法，该分布式系统包括客户端和多个主机，多个主机中的主机包括计算节点。该方法包括：接收来自客户端处的应用的请求使用计算节点的第一命令；确定第一命令的类型；以及基于第一命令的类型来调整第一命令以用于优化第一命令在分布式系统中的执行，其中计算节点是图形处理单元，以及第一命令是对图形处理单元的远程过程调用。根据本公开的其他示例性实现，提供了在分布式系统中进行优化的设备和计算机程序产品。根据本公开的示例性实现，可以降低分布式计算系统中的延迟并且提高应用的执行效率。

Description

在分布式系统中进行优化的方法、设备和计算机程序产品

技术领域

本公开的实现概括地涉及分布式系统，并且更具体地，涉及用于在分布式系统中进行优化的方法、设备以及计算机程序产品。

背景技术

客户端上的应用可以被设计用于利用处理和存储资源等计算资源来完成各种处理或分析任务。随着诸如机器学习、深度学习、数据挖掘等任务的需求和复杂度不断增加，需要大量和/或可变的计算节点来满足相应应用的运行。这可以通过具有多个计算节点的机器或系统来实现，其中应用可以被调度到该机器或系统的一个或多个计算节点上运行。例如，已经开发了基于云的分布式系统，该分布式系统包括具有一个或多个计算节点的机器。不同客户端可以根据需要来租赁该系统的计算节点(例如，计算节点)用以运行各自的应用。

随着计算机技术的发展，计算节点的种类越来越丰富，并且已经不再局限于传统的诸如中央处理单元的计算节点。例如，目前图形处理单元(Graphic Processing Unit，GPU)的计算能力越来越强。由于GPU特有性质，GPU特别适合于执行有关深度学习(DeepLearning)、高性能计算(High Performance Computing)、以及机器学习(MachineLearning)等方面的计算任务。然而，对于普通的客户端设备以及常规的云计算设备而言，这些设备的图形处理单元的性能通常较为有限，并不具有高性能的处理能力。因而，此时如何利用(例如以远程方式)利用其他设备所具有的图形处理单元的计算能力来处理计算任务成为一个研究焦点。

然而，应用通常需要基于网络来远程调用分布式系统的资源池中的多个计算节点。由于网络中可能会存在各种潜在故障，这导致应用和计算节点之间的交互可能出现延迟，进而导致应用的运行效率低下。因此，期望能够提供一种以简单并且有效的方式来在分布式系统中进行优化的技术方案。

发明内容

本公开的实现提供了用于在分布式系统中进行优化的方法、设备和相应的计算机程序产品。

根据本公开的第一方面，提供了一种用于在分布式系统中进行优化的方法。该分布式系统包括客户端和多个主机，多个主机中的主机包括计算节点。该方法包括：接收来自客户端处的应用的请求使用计算节点的第一命令；确定第一命令的类型；以及基于第一命令的类型来调整第一命令以用于优化第一命令在分布式系统中的执行，其中计算节点是图形处理单元，以及第一命令是对图形处理单元的远程过程调用。

根据本公开的第二方面，提供了一种在分布式系统中进行优化的设备，分布式系统包括客户端和多个主机，多个主机中的主机包括计算节点。该设备包括：至少一个处理器；易失性存储器；以及与至少一个处理器耦合的存储器，存储器具有存储于其中的指令，指令在被至少一个处理器执行时使得设备执行动作。该动作包括：接收来自客户端处的应用的请求使用计算节点的第一命令；确定第一命令的类型；以及基于第一命令的类型来调整第一命令以用于优化第一命令在分布式系统中的执行，其中计算节点是图形处理单元，以及第一命令是对图形处理单元的远程过程调用。

根据本公开内容的第三方面，提供了一种计算机程序产品。该计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令，机器可执行指令在被执行时使机器执行根据本公开第一方面方法。

提供发明内容部分是为了简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实现进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实现中，相同的参考标号通常代表相同部件。

图1示意性示出了适于实现本公开内容实现方式的示例性分布式系统的框图；

图2示意性示出了根据一个技术方案的用于在分布式系统中执行命令的框图；

图3示意性示出了根据本公开的一个示例性实现的用于在分布式系统中进行优化的方案的框图；

图4示意性示出了根据本公开的一个示例性实现的用于在分布式系统中进行优化的方法的流程图；

图5示意性示出了根据本公开的一个示例性实现的用于在分布式系统中进行优化的方案的框图；

图6A示意性示出了根据一个方案的用于在分布式系统中创建句柄的过程的框图；

图6B示意性示出了根据本公开的一个示例性实现的用于对图6A中的过程中进行优化的框图；

图7示意性示出了根据本公开的一个示例性实现的用于在分布式系统中执行数据拷贝命令的框图；

图8示意性示出了根据本公开的一个示例性实现的用于在分布式系统中执行数据拷贝命令的框图；以及

图9示意性示出了根据本公开的一个示例性实现的用于在分布式系统中进行优化的设备的框图；以及

图10示意性示出了根据本公开的一个示例性实现的用于在分布式系统中进行优化的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实现。虽然附图中显示了本公开的优选实现，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实现所限制。相反，提供这些实现是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实现”和“一个实现”表示“至少一个示例实现”。术语“另一实现”表示“至少一个另外的实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其它明确的和隐含的定义。

如上，计算节点可以在客户端本地或者可以由远程机器或系统提供。在一些示例中，可以部署基于云的计算系统，其中包括具有一个或多个计算节点的多个机器。该计算系统的计算节点可以由不同客户端根据需要来使用，以将相应的应用调度到可用的计算节点上运行。

图1示出了本公开的实现可以在其中被实现的示例分布式系统100的示意图。该计算系统100可以包括资源池170，并且其中部署了用于应用运行的多个主机，包括主机110-1、主机110-2、主机110-3、...、主机110-U(以下统称为主机110，其中U为大于1的自然数)。计算系统100还包括计算节点160-1、计算节点160-2、计算节点160-3、...、计算节点160-V(以下统称为计算节点160，其中V为大于1的自然数)。每个主机110上可以具有一个或多个计算节点160。

在图1的示例中，主机110-1具有计算节点160-1，主机110-2具有计算节点160-2，并且主机110-U具有计算节点160-V。将会理解，在此并不限制每个主机仅具有一个计算节点，而是一个主机可以具有一个或多个计算节点。因而，在此U和V的数值可以是不相等的。

在本公开的上下文中，计算节点160的示例可以包括但不限于图形计算节点(GPU)、现场可编程门阵列(FPGA)等。为便于讨论，某些实现将以GPU作为计算节点160的示例进行描述。除了计算节点160之外，主机110还可以包括诸如中央处理单元(CPU)的一个或多个通用处理单元(未示出)。

图1还示出了多个客户端120-1、120-2……、120-P等(以下统称或单独称为客户端120，其中P为大于1的自然数)，分别具有要运行的应用150-1、150-2、……、150-Q(以下统称为应用150，其中Q为大于1的自然数)。应用150可以是机器上可运行的任何应用，该应用可以被设计为执行相应数据处理或分析等任务。作为示例，应用150可以执行与神经网络相关的数据处理或分析任务。将会理解，在此并不限制每个客户端仅具有一个应用，而是一个客户端可以具有一个或多个应用。因而，在此P和Q的数值可以是不相等的。

为了能够快速高效运行这些应用和/或为了保留本地计算资源，客户端120可以请求主机110上的计算节点160来运行这些应用150。在这样的实现中，客户端120可以通过互连网络130连接到一个或多个主机110，并且将应用150交由主机110的一个或多个计算节点160运行。取决于客户端120、主机110和/或计算节点160所支持的接口，互连网络130可以支持基于诸如远程直接内存访问(RDMA)和传输控制协议(TCP)等各种网络传输技术的不同类型的有线或者无线连接。

应当理解，图1示出的设备和/或布置仅是一个示例。在其他示例中，该分布式计算系统100可以包括任意适当数目的主机110和客户端120。每个主机110可以具有任意适当数目的计算节点160，并且每个客户端120可以具有待运行的多个应用150。此外，尽管被单独示出，调度器140在实际应用中可以由独立于主机110的其他设备实现，或者可以被部分或全部实现在一个或多个主机110上。

为了描述清楚和简洁，将主要以GPU内为例来详细描述本公开的示例实现。但是，应当理解，GPU仅仅是一种示例性的计算节点，并非用于限制本公开的范围。在此描述的精神和原理可以应用于其他计算节点，例如诸如现场可编程门阵列(FPGA)之类的加速器中的计算节点，不论是目前已知的还是将来开发的，而并不仅仅限于GPU内核。

图2示意性示出了根据一个技术方案的用于在分布式系统100中执行命令的框图200。将会理解，在图2中仅示意性示出了一个客户端120和一个主机110之间的交互。在其他实现中，还可以涉及更多客户端120和更多主机110之间的交互。如图2所示，客户端120包括管理客户端210，以用于将来自客户端120处的应用150的命令进行解析，并转发至主机110处的管理服务器220。根据本公开的一个示例性实现，该管理客户端210可以基于客户端侧的库来实现。在此管理服务器220可以位于主机110处，并且用于接收来自管理客户端210的数据232，并且向管理客户端210返回处理结果(如箭头234所示)。在此管理服务器220例如可以通过服务器侧的守护程序(daemon)来实现。

将会理解，由于如箭头232和234所示的交互需要经由网络(例如图1中的互连网络130)来传输。由于互连网络130可能并不总是处于稳定状态，这将导致在某些情况下在客户端120和主机110之间的通信出现延迟或者其他故障。因而，此时如远程过程调用230所示的各种命令在从客户端120传输至主机110时将会出现延迟，并且来自主机110的执行结果也会出现延迟。鉴于现有技术中的上述问题，期待可以提供一种对分布式系统100进行优化的技术方案。期望该技术方案可以在尽量不改变分布式系统100的硬件配置的情况下，以更为快速并且高效的方式来辅助客户端120处的应用150调用资源池170中的主机110的计算节点160。

图3示意性示出了根据本公开的一个示例性实现的用于在分布式系统100中进行优化的方案的框图300。如图3所示，根据本公开的一个示例性实现，可以在管理客户端210处提供优化管理器310，该优化管理器310可以基于来自应用150的命令的类型来执行相应的优化操作。将会理解，尽管在图3中优化管理器310示出为在客户端120处部署，在其他实现中，该优化管理器310还可以被部署在其他位置，只要该优化管理器310能够接收来自应用150的命令并且基于命令的类型来执行相应的优化操作即可。

根据本公开的一个示例性实现，提供了一种用于在分布式系统100中进行优化的方法。分布式系统100包括客户端120和多个主机，多个主机中的主机110包括计算节点160。首先，接收来自客户端120处的应用150的请求使用计算节点160的第一命令。继而，可以确定第一命令的类型，并且基于第一命令的类型来调整第一命令以用于优化第一命令在分布式系统100中的执行。在此实现中，计算节点160是图形处理单元，并且第一命令是对图形处理单元的远程过程调用。

在此实现中，优化管理器310可以基于第一命令的类型，来调整第一命令。例如，可以尽量减少在客户端120和主机110之间的交互(如箭头320和330所示)。备选地和/或附加地，还可以将与第一命令和/或后续接收到的其他后续命令相关联的操作尽量部署在客户端120或者主机110处执行，以便降低由于互连网络130中的潜在故障而造成的延迟。

在下文中，将参见图4描述有关优化的更多细节。图4示意性示出了根据本公开的一个示例性实现的用于在分布式系统100中进行优化的方法400的流程图。在方框410处，接收来自客户端120处的应用150的请求使用计算节点160的第一命令。在此实现中，计算节点160是图形处理单元，并且第一命令是对图形处理单元的远程过程调用。

在方框420处，可以确定第一命令的类型。在此第一命令可以具有多种类型。例如，第一命令的类型可以包括但不限于用于查询信息的类型、用于创建句柄的类型、以及用于拷贝的类型，等等。将会理解，对于不同的计算节点160而言，该计算节点160所支持的命令的定义和类型可以是不同的。在本公开的上下文中，将仅以上述三种类型的命令作为示例来描述本公开的实现的细节。随着技术的进步，还可能会出现更多类型的命令。本领域技术人员可以基于本公开描述的原理，来针对各个类型的命令进行调整以便针对分布式系统100执行优化。在方框430处，可以基于第一命令的类型来调整第一命令以用于优化第一命令在分布式系统100中的执行。在下文中，将参见附图5至图8来详细描述如何针对不同类型的命令来执行优化。

首先描述与查询类型的命令相关联的优化。通常而言，对于一些查询命令而言，查询结果在应用150的执行期间并不会出现变化。因而，可以在第一次执行该查询命令时，即保存查询结果以用于后续使用。如果在后续接收到相同的查询命令时，并不需要经由互连网络130将该查询命令转发至主机110处以获取查询结果。而是，仅需要将保存的查询结果直接返回应用150即可。相对于每次执行查询命令都需要经由互连网络130在客户端120和主机110之间进行交互的现有技术而言，利用上述示例性实现可以降低由于互连网络130的潜在故障而导致的延迟，进而大大提高应用150的运行效率。

根据本公开的一个示例性实现，可以向主机110发送第一命令。在主机110执行该第一命令之后，可以接收来自主机110的对第一命令的执行结果。继而，在客户端120处，可以向应用返回执行结果，以及如果确定第一命令的类型指示第一命令的执行结果在应用150的执行期间保持不变，则存储执行结果。

根据本公开的一个示例性实现，可以存在执行结果保持不变的多个查询命令。例如，查询命令可以包括但不限于：

查询驱动版本的命令cuDriverGetVersion()；

查询函数相关的属性的命令cuFuncGetAttribute()；

查询设备相关的属性的命令cuDeviceGetAttribute()；

备选地和/或附加地，查询命令还可以包括其他命令，例如：

cuFuncMaxBlockOccupation()；

cudnnGetConvolutionBackwardDataWorkspaceSize()；

cudnnGetConvolutionBackwardFilterWorkspaceSize()，等。

将会理解，上文给出的命令仅仅是示例性的。对于不同的分布式系统100而言，所支持的查询命令可以是不同的。

图5示意性示出了根据本公开的一个示例性实现的用于在分布式系统100中进行优化的方案的框图500。在图5中示出了应用150、优化管理器310和管理服务器220之间的交互。如箭头510所示，优化管理器310处接收到来自应用150的命令。如箭头520所示，可以基于远程过程调用520来将该命令发送至管理服务器220，以便由主机中110的计算节点160执行该命令。接着如箭头530所示，管理服务器220可以向优化管理器310发送执行结果。继而，可以在优化管理器310处存储该结果(如箭头540-1所示)，并且向应用150返回该结果(如箭头540-2所示)。

利用上述示例性实现，仅需要在首次接收到命令时经由互连网络130传输命令。通过存储执行结果，在后续再次接收到相同的命令时，则不必再次经由互连网络130传输命令并接收执行结果。利用上述示例性实现，，可以大大降低由于互连网络130中的潜在故障而造成的延迟。继续参见图5，如果接收到来自应用的类型的第二命令(如箭头550所示)，可以向应用150返回存储的执行结果(如箭头560所示)。

在下文中，将参见图6A和图6B描述有关创建句柄的类型的命令的更多细节。图6A示意性示出了根据一个方案的用于在分布式系统100中创建句柄的过程的框图600A。如箭头610A所示，管理客户端210可以接收来自应用150的创建句柄的命令。接着，管理客户端210基于远程过程调用来通知管理服务器220创建句柄。管理服务器220创建真实句柄并向管理客户端210返回创建的真实句柄。继而，管理客户端210向应用150返回创建的真实句柄。在如图6A所示的框图中，由于箭头620A和箭头630A所示的交互是基于互连网络130来实现的，因而很可能会由于互连网络130中的各种潜在故障的影响而导致应用150需要等待真实句柄的返回。在应用150期望创建多个句柄时，延迟将会更为严重。

根据本公开的一个示例性实现，提供了一种优化的创建句柄的技术方案。在此实现中，可以基于虚拟句柄来服务于来自应用150的命令，并且通过在虚拟句柄与真实句柄之间建立映射关系，可以快速响应于来自应用150的创建句柄的命令。根据本公开的一个示例性实现，如果确定第一命令的类型是创建句柄的类型，可以向应用返回基于第一命令创建的虚拟句柄。接着，可以通知主机110以基于第一命令创建真实句柄，并且将虚拟句柄映射至真实句柄。

图6B示意性示出了根据本公开的一个示例性实现的用于对图6A中的过程中进行优化的框图600B。如图6B所示，如箭头610B所示，优化管理器310接收来自应用150的创建句柄的命令。接着，如箭头620B-1所示，可以在优化管理器310处创建虚拟句柄并将创建的虚拟句柄连同创建句柄命令一起发送至管理服务器220，以通知该管理服务器220来执行相应操作。进一步，如箭头620B-2所示，在已经创建虚拟句柄后可以立即向应用150返回该虚拟句柄。如箭头630B所示，管理服务器220可以创建真实句柄，并将虚拟句柄映射至创建的真实句柄。以此方式，可以在虚拟句柄和真实句柄之间建立关联关系，以便在后续接收到使用虚拟句柄的命令时，可以直接基于该映射关系调用真实句柄进行相应的操作。

根据本公开的一个示例性实现，如果接收到来自应用150的用于操作虚拟句柄的第二命令，可以通知主机110基于第二命令来操作真实句柄。继续参见图6B，在应用150的运行期间，应用150可以使用该虚拟句柄来调用计算节点160中的相应资源。

如箭头640B所示，在优化管理器310处可以接收来自应用150的使用虚拟句柄的命令。接着，如箭头650B处所示，优化管理器310可以将接收到的命令转发至管理服务器220，以用于通知计算节点160来基于与虚拟句柄相对应的真实句柄执行命令中所定义的操作。

根据本公开的一个示例性实现，如果接收来自管理服务器220的操作真实句柄的执行结果，可以向应用150返回执行结果以响应于第二命令。将会理解，图6B未示出执行相应的操作并且返回执行结果的步骤，此步骤可以类似于常规的操作流程，因而不再赘述。利用上述示例性实现，有关虚拟句柄和真实句柄之间的映射对于应用150而言是透明的。以此方式，可以以更为快速的方式响应于来自应用150的创建句柄的请求，并且降低由于互连网络130中的潜在故障而导致的应用150中的延迟。

根据本公开的一个示例性实现，如果确定第一命令的类型是数据拷贝的类型，并且在后续还接收到了类似的用于数据拷贝的第二命令，则此时可以根据比较两个拷贝命令来确定如何在分布式系统100中执行优化。

根据本公开的一个示例性实现，如果接收到第一命令(该第一命令指示将源设备中的源地址处的目标数据拷贝至目的地设备中的第一目的地地址)，则可以执行该第一命令。如果在后续接收到第二命令(该第二命令指示将目标数据拷贝至目的地设备中的第二目的地地址)，则此时可以基于比较第一目的地地址处的数据和目标数据来调整第二命令。

将会理解，由于从源设备向目的地设备的数据拷贝需要经由互连网络130传输待拷贝的目标数据，因而速度较慢。相比而言，在同一个设备(例如，源设备或者目的地设备)内部执行数据拷贝并不需要借助于互连网络130的数据传输，因而拷贝速度较快。基于上述原理，如果先后接收到从源设备中的相同地址向目标设备的不同地址拷贝数据的命令、并且将被拷贝的数据长度相同，则可以考虑是否可以将第二命令的从源设备向目的地设备执行的拷贝转换至在目的地设备内部的数据拷贝。

根据本公开的一个示例性实现，可以基于比较第一目的地地址处的数据在执行第一命令之后是否被改变来确定该数据是否可用。如果数据未被改变，则第一目的地地址处的数据是可用的，此时可以直接将用于在源设备和目的地设备之间的数据拷贝的第二命令转换为第三命令，该第三命令指示将目标设备的第一目的地地址处的数据拷贝至目的地设备中的第二目的地地址。利用上述示例性实现，通过将不同设备之间的数据拷贝转换为相同设备内部的数据拷贝，可以大大提高数据拷贝速度，进而降低由于互连网络130中的潜在故障而导致的应用150中的延迟，并提高应用150的运行效率。

根据本公开的一个示例性实现，源设备可以是客户端120和计算节点160中的任一项，并且目的地设备可以是客户端120和计算节点160中的另外一项。在下文中将参见图7和图8来分别描述以上两种情况。

图7示意性示出了根据本公开的一个示例性实现的用于在分布式系统中执行数据拷贝命令的框图700。如图7所示，memcpyH2D是从客户端120向计算节点160执行数据拷贝的命令。该命令指示将长度为size1的目标数据从客户端120的源地址cpu_p1处拷贝至计算节点160的目的地地址gpu_p1处。类似地，本领域技术人员可以理解命令714的含义。图7中的方框710处示意性示出了接收到的来自应用150的两个数据拷贝命令712和714。两个数据拷贝命令712和714都需要经由互连网络130来传输待拷贝的目标数据块，因而可能会面临时间延迟。

根据本公开的一个示例性实现，在执行命令712后至执行714之前的时间段内，如果确定地址gpu_p1处的数据并未发生改变，则可以利用命令724来替换命令714，以便形成如方框720所示的命令。参考数字724所指示的memcpyD2D是指在计算节点160内部执行数据拷贝的命令。该命令724指示在计算节点160内部，将长度为size1的数据从gpu_p1处拷贝至目的地地址gpu_p2处。利用上述示例性实现，在执行第二次数据拷贝时，并不需要经由互连网络130来传输待拷贝的目标数据。而是，可以以高速的方式在计算节点160内部执行数据拷贝，因而可以大大降低因互连网络130中的潜在故障造成延迟的风险。

图8示意性示出了根据本公开的一个示例性实现的用于在分布式系统100中执行数据拷贝命令的框图800。图8的示例类似于图7的示例，不同之处在于图8示出了从计算节点160向客户端120执行数据拷贝的情况。当在地址cpu_p1处的数据在执行命令812之后至执行命令814之前没有被改变的情况下，此时如图8中的方框810内的命令814可以被替换为方框820内的命令824。该命令824指示在客户端120内部，将长度为size1的数据从cpu_p1处拷贝至目的地地址cpu_p2处。基于与图7所描述类似的原理，本领域技术人员可以理解替换过程的具体细节，在此不再赘述。

在下文中，将分别描述如何判断第一目标地址处的数据是否被修改。基于第一目标地址所在的设备的不同，可以采用不同的判断方式。根据本公开的一个示例性实现，源设备是计算节点160以及目的地设备是客户端120。此时，可以在执行第一命令之后确定第一目标地址处的数据的第一签名，并且可以确定目标数据的目标签名。接着，可以基于第一签名与目标签名是否相匹配，来确定第一目的地地址处的数据是否被改变。如果第一签名匹配于目标签名，则可以确定第一目的地地址处的数据在执行第一命令之后未被改变。否则，可以确定第一目的地地址处的数据在执行第一命令之后已经被改变。

根据本公开的一个示例性实现，可以基于现在已知的或者将在未来开发的多种方法来确定数据的签名。例如，可以基于SHA256算法来确定签名的值。备选地和/或附加地，还可以基于其他算法来确定签名。

根据本公开的一个示例性实现，源设备是客户端120以及目的地设备是计算节点160。此时，可以确定是否接收到与第一目的地地址的范围重叠的数据拷贝命令，来确定第一目的地地址处的数据是否被改变。如果没有接收到与第一目的地地址重叠的数据拷贝类型的命令，确定第一目的地地址处的数据在执行第一命令之后未被改变。

在上文中已经参见图2至图8详细描述了根据本公开的方法的示例。在下文中将参见图9详细描述相应的设备的实现。图9示意性示出了根据本公开的一个示例性实现的用于在分布式系统100中进行优化的设备900的框图。分布式系统100包括客户端120和多个主机110，多个主机110中的主机110包括计算节点160。该设备900包括：接收模块910，配置用于接收来自客户端120处的应用150的请求使用计算节点160的第一命令；第一确定模块920，配置用于确定第一命令的类型；以及第二确定模块930，配置用于基于第一命令的类型来调整第一命令以用于优化第一命令在分布式系统100中的执行。在上述实现中，其中计算节点160是图形处理单元，以及第一命令是对图形处理单元的远程过程调用。在此的设备900可以配置用于执行上文描述的方法400中的各个步骤，在此不再赘述。

图10示意性示出了根据本公开的一个示例性实现的用于在分布式系统中进行优化的设备1000的框图。如图所示，设备1000包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序指令或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序指令，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法400，可由处理单元1001执行。例如，在一些实现中，方法400可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实现中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序被加载到RAM 1003并由CPU 1001执行时，可以执行上文描述的方法400的一个或多个步骤。备选地，在其他实现中，CPU 1001也可以以其他任何适当的方式被配置以实现上述过程/方法。

根据本公开的一个示例性实现，提供了一种在分布式系统中进行优化的设备，分布式系统包括客户端和多个主机，多个主机中的主机包括计算节点。设备包括：至少一个处理器；易失性存储器；以及与至少一个处理器耦合的存储器，存储器具有存储于其中的指令，指令在被至少一个处理器执行时使得设备执行动作。动作包括：接收来自客户端处的应用的请求使用计算节点的第一命令；确定第一命令的类型；以及基于第一命令的类型来调整第一命令以用于优化第一命令在分布式系统中的执行，其中计算节点是图形处理单元，以及第一命令是对图形处理单元的远程过程调用。

根据本公开的一个示例性实现，调整第一命令包括：响应于确定第一命令的类型指示第一命令的执行结果在应用的执行期间保持不变，向主机发送第一命令；接收来自主机的对第一命令的执行结果；以及向应用返回执行结果以及存储执行结果。

根据本公开的一个示例性实现，动作进一步包括：接收来自应用的类型的第二命令；以及向应用返回存储的执行结果。

根据本公开的一个示例性实现，调整第一命令包括：响应于确定第一命令的类型是创建句柄的类型，向应用返回基于第一命令创建的虚拟句柄；以及通知主机以基于第一命令创建真实句柄以及将虚拟句柄映射至真实句柄。

根据本公开的一个示例性实现，动作进一步包括：接收来自应用的用于操作虚拟句柄的第二命令；以及通知主机基于第二命令来操作真实句柄。

根据本公开的一个示例性实现，动作进一步包括：接收来自主机的操作真实句柄的执行结果；以及向应用返回执行结果以响应于第二命令。

根据本公开的一个示例性实现，动作进一步包括：响应于确定第一命令的类型是数据拷贝的类型，执行第一命令，第一命令指示将源设备中的源地址处的目标数据拷贝至目的地设备中的第一目的地地址，接收数据拷贝类型的第二命令，第二命令指示将目标数据拷贝至目的地设备中的第二目的地地址；基于比较第一目的地地址处的数据和目标数据来调整第二命令。

根据本公开的一个示例性实现，基于比较第一目的地地址处的数据和目标数据来调整第二命令包括：确定第一目的地地址处的数据在执行第一命令之后是否被改变；响应于确定第一目的地地址处的数据在执行第一命令之后未被改变，执行第三命令，第三命令指示将目标设备的第一目的地地址处的数据拷贝至目的地设备中的第二目的地地址。

根据本公开的一个示例性实现，源设备是计算节点以及目的地设备是客户端，其中动作进一步包括：在执行第一命令之后确定第一目标地址处的数据的第一签名；其中确定第一目的地地址处的数据在执行第一命令之后是否被改变包括：确定目标数据的目标签名；以及响应于第一签名与目标签名相匹配，确定第一目的地地址处的数据在执行第一命令之后未被改变；以及响应于第一签名与目标签名不相匹配，确定第一目的地地址处的数据在执行第一命令之后被改变。

根据本公开的一个示例性实现，源设备是客户端以及目的地设备是计算节点，其中确定第一目的地地址处的数据在执行第一命令之后是否被改变包括：响应于确定没有接收到与第一目的地地址重叠的数据拷贝类型的命令，确定第一目的地地址处的数据在执行第一命令之后未被改变。

根据本公开的一个示例性实现，提供了一种计算机程序产品。该计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令，机器可执行指令在被执行时使机器执行根据本公开方法。

根据本公开的一个示例性实现，提供了一种计算机可读介质。计算机可读介质上存储有机器可执行指令，当机器可执行指令在被至少一个处理器执行时，使得至少一个处理器实现根据本公开方法。

本公开可以是方法、设备、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实现中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实现的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各实现。

Claims

1.一种用于在分布式系统中进行优化的方法包括：

从客户端处的应用接收请求使用与包括多个主机的分布式系统中的主机相关联的计算节点的第一命令；

确定所述第一命令的类型；以及

响应于确定出所述第一命令的所述类型，基于所述第一命令的所述类型来调整所述第一命令以适配所述第一命令在所述分布式系统中的执行；

其中响应于确定所述第一命令的所述类型指示所述第一命令的执行结果在所述应用的执行期间将不改变：

向所述主机发送所述第一命令；

接收来自所述主机的对所述第一命令的执行结果；以及

向所述应用返回所述执行结果以及存储所述执行结果；

其中所述计算节点是图形处理单元，以及所述第一命令是对所述图形处理单元的远程过程调用。

2.根据权利要求1所述的方法，进一步包括：

接收来自所述应用的所述类型的第二命令；以及

向所述应用返回存储的所述执行结果。

3.根据权利要求1所述的方法，其中调整所述第一命令包括：响应于确定所述第一命令的所述类型是创建句柄的类型，

向所述应用返回基于所述第一命令创建的虚拟句柄；以及

通知所述主机以基于所述第一命令创建真实句柄以及将所述虚拟句柄映射至所述真实句柄。

4.根据权利要求3所述的方法，进一步包括：

接收来自所述应用的用于操作所述虚拟句柄的第二命令；以及

通知所述主机以基于所述第二命令操作所述真实句柄。

5.根据权利要求4所述的方法，进一步包括：

接收来自所述主机的操作所述真实句柄的执行结果；以及

向所述应用返回所述执行结果以响应于所述第二命令。

6.根据权利要求1所述的方法，进一步包括：响应于确定所述第一命令的所述类型是数据拷贝的类型，执行所述第一命令，所述第一命令指示将源设备中的源地址处的目标数据拷贝至目的地设备中的第一目的地地址，

接收数据拷贝类型的第二命令，所述第二命令指示将所述目标数据拷贝至所述目的地设备中的第二目的地地址；以及

基于比较所述第一目的地地址处的数据和所述目标数据来调整所述第二命令。

7.根据权利要求6所述的方法，其中基于比较所述第一目的地地址处的数据和所述目标数据来调整所述第二命令包括：

确定所述第一目的地地址处的所述数据在执行所述第一命令之后是否被改变；以及

响应于确定所述第一目的地地址处的数据在执行所述第一命令之后未被改变，执行第三命令，所述第三命令指示将所述目标设备中的所述第一目的地地址处的所述数据拷贝至所述目的地设备中的所述第二目的地地址。

8.根据权利要求7所述的方法，其中所述源设备是所述计算节点以及所述目的地设备是所述客户端，所述方法进一步包括：在执行所述第一命令之后确定所述第一目的地地址处的数据的第一签名；

其中确定所述第一目的地地址处的数据在执行所述第一命令之后是否被改变包括：

确定所述目标数据的目标签名；

响应于所述第一签名与所述目标签名相匹配，确定所述第一目的地地址处的数据在执行所述第一命令之后未被改变；以及

响应于所述第一签名与所述目标签名不相匹配，确定所述第一目的地地址处的数据在执行所述第一命令之后被改变。

9.根据权利要求7所述的方法，其中所述源设备是所述客户端以及所述目的地设备是所述计算节点，其中确定所述第一目的地地址处的数据在执行所述第一命令之后是否被改变包括：

响应于确定没有接收到与所述第一目的地地址重叠的数据拷贝类型的命令，确定所述第一目的地地址处的数据在执行所述第一命令之后未被改变。

10.一种用于在分布式系统中进行优化的设备，包括：

至少一个处理器；以及

与所述至少一个处理器耦合的存储器，所述存储器具有存储于其中的指令，所述指令在被所述至少一个处理器执行时使得所述设备执行动作，所述动作包括：

确定所述第一命令的类型；以及

向所述主机发送所述第一命令；

接收来自所述主机的对所述第一命令的执行结果；以及

向所述应用返回所述执行结果以及存储所述执行结果；

11.根据权利要求10所述的设备，其中所述动作进一步包括：

接收来自所述应用的所述类型的第二命令；以及

向所述应用返回存储的所述执行结果。

12.根据权利要求10所述的设备，其中调整所述第一命令包括：响应于确定所述第一命令的所述类型是创建句柄的类型，

向所述应用返回基于所述第一命令创建的虚拟句柄；以及

13.根据权利要求12所述的设备，其中所述动作进一步包括：

通知所述主机以基于所述第二命令操作所述真实句柄。

14.根据权利要求13所述的设备，其中所述动作进一步包括：

接收来自所述主机的操作所述真实句柄的执行结果；以及

向所述应用返回所述执行结果以响应于所述第二命令。

15.根据权利要求10所述的设备，其中所述动作进一步包括：响应于确定所述第一命令的所述类型是数据拷贝的类型，执行所述第一命令，所述第一命令指示将源设备中的源地址处的目标数据拷贝至目的地设备中的第一目的地地址，

16.根据权利要求15所述的设备，其中基于比较所述第一目的地地址处的数据和所述目标数据来调整所述第二命令包括：

17.根据权利要求16所述的设备，其中所述源设备是所述计算节点以及所述目的地设备是所述客户端，其中所述动作进一步包括：在执行所述第一命令之后确定所述第一目的地地址处的数据的第一签名；

确定所述目标数据的目标签名；

18.根据权利要求16所述的设备，其中所述源设备是所述客户端以及所述目的地设备是所述计算节点，其中确定所述第一目的地地址处的数据在执行所述第一命令之后是否被改变包括：

19.一种计算机可读介质，所述计算机可读介质上有形地存储有计算机程序产品，所述计算机程序产品包括机器可执行指令，所述机器可执行指令在被执行时使机器执行根据权利要求1至9中任一项所述的方法。