发明内容
为了克服上述问题,本发明的目的是提供一种支持多卡并行的嵌入式智能计算系统设计方法及装置,该方法采用高速RapidIO分布式对等网络,并采用标准VPX嵌入式智能计算系统多卡并行计算、标准VPX FPGA主控与IO板卡、标准VPX RapidIO网络交换板卡、标准VPX电源板卡、标准VPX背板,构建嵌入式智能计算系统多卡并行计算集群装置,在处理大规模数据和复杂智能算法网络时,通过该方法及装置不仅获得了系统级智能计算能力倍数增加和较好的算力可扩展性,同时通过采用RapidIO网络交换板卡主、控与IO板卡、多卡嵌入式智能计算板卡板间高速互联和并行计算设计,由RapidIO总线完成板间高速数据传输与交换、FPGA主要负责外部数据的接入与预处理、CPU主要负责高速DDR4缓存与拷贝、深度学习智能处理器主要负责高性能推理计算的并行异构计算架构,可实现大规模数据密集型计算密集型场景下图像/视频数据实时计算。
针对现有技术的不足,本发明提出一种支持多卡并行的嵌入式智能计算装置,其中包括多个嵌入式智能计算板卡、一个主控与IO板卡和一个RapidIO交换板卡;
该嵌入式智能计算板卡,采用嵌入式ARM处理器和深度学习处理器的异构计算架构,集成RapidIO转PCIE的高速总线桥片模块;该嵌入式智能计算板卡通过该异构计算架构和该高速总线桥片模块,主要负责运行嵌入式Linux操作系统、嵌入式智能算法应用程序和深度学习算法网络模型终端部署,实现高速RapidIO总线图像/视频数据流的实时接收缓存和和基于卷积神经网络的深度学习算法的高性能推理加速计算;
该主控与IO板卡,采用FPGA和内存的设计架构,用于根据该设计架构提供FPGA硬件逻辑编程和外部数据流缓存、预处理和推理计算任务的分发;FPGA的IO通信接口对外实现与图像/视频外部设备通信接口的接入,对内提供RapidIO总线通信互联接口;
该RapidIO交换板卡,用于提供多路RapidIO总线通信端口和各端口内部Mesh全连接交换网络,实现该主控及IO单元板卡与所有该嵌入式智能计算板卡间点对点RapidIO网络互联。
所述的支持多卡并行的嵌入式智能计算装置,其中包括电源板卡,用于为该嵌入式智能计算板卡、该主控及IO板卡、该IO交换板提供工作电源。
所述的支持多卡并行的嵌入式智能计算装置,其中采用插卡方式将所有该嵌入式智能计算板卡、该主控与IO板卡、该RapidIO交换板卡和该电源卡通过VPX连接器安装固定在VPX背板上。
所述的支持多卡并行的嵌入式智能计算装置,其中该嵌入式智能计算板卡包括该嵌入式ARM处理器单元、该深度学习处理器、RapidIO总线通信单元、电源模块、VPX连接器;
其中该嵌入式ARM处理器单元为主控单元,采用PCIe与该深度学习处理器、该高速RapidIO总线通信单元互联,该嵌入式ARM处理器单元作为PCIE RC节点,该深度学习处理器单元和该高速RapidIO总线通信单元均作为PCIE EndPoint节点;
该深度学习处理器则作为卷积神经网络推理加速专用部件,由专用深度学习智能处理芯片、DDR显存电路与PCIe接口电路互联构成;
该高速RapidIO总线通信单元,用于提供基于PCIe总线ARM处理器架构的嵌入式智能计算系统与RapidIO交换板卡或其它RapidIO功能板卡之间高带宽、低时延基于RapidIO包交换的高速数据传输通道和RapidIO网络系统级别互联功能,该高速RapidIO总线通信单元采用RapidIO-to-PCIe桥片专用集成芯片,实现RapidIO互联和RapidIO总线协议转PCIe总线协议的相互转换;
该电源模块与该VPX连接器上输入电源互联,提供该嵌入式智能计算板卡整板工作电源电压网络;
该VPX连接器,用于提供高速RapidIO总线通信接口单元差分传输线与VPX背板互联和VPX供电输入,物理端口构成包括端口P0、端口P1、端口P2组成,其中端口P0主要用于电源输入,端口P1主要用于RapidIO X4高速信号互联,端口P2主要用于对外引出硬件调试通信接口。
所述的支持多卡并行的嵌入式智能计算装置,其中该主控与IO板卡,包括FPGA单元、DDR3内存单元、高速数据缓存、预处理与分发模块、硬件IO可编程对外通信接口、高速RapidIO总线通信互联单元、电源模块、VPX连接器;
其中该FPGA单元用于对DDR3内存单元、对外通信硬件接口通信、RapidIO总线的控制;
该数据缓存、预处理与分发模块,将数据缓存至该DDR3内存单元,并通过Verilog/VHDL硬件编程语言完成数据预处理功能,进一步以异步的方式添加RapidIO目的ID等字段,将预处理后数据打包成RapidIO NWRITE报文,通过RapidIO NWRITE报文发送至该高速RapidIO总线通信单元;
该硬件IO可编程对外通信接口,用于FPGA主控芯片与外部图像/视频设备间数据通信;
该电源模块与该VPX连接器上输入电源互联,提供该主控与IO板卡整板工作电源电压网络;
该VPX连接器,为该FPGA单元提供高速RapidIO总线传输线、对外硬件通信接口与VPX背板互联和供电输入,物理端口构成包括端口P0、端口P1、端口P2,其中端口P0主要用于电源输入,端口P1主要用于RapidIO X4高速信号互联、端口P2则用于对外引出硬件控制通信接口到VPX背板。
所述的支持多卡并行的嵌入式智能计算装置,其中该RapidIO交换板卡,包括RapidIO交换芯片、电源模块、VPX连接器;
其中该RapidIO交换芯片,用于提供多路RapidIO 4X模式数据通道和无阻塞交换机;
该电源模块与该VPX连接器上输入电源互联,提供该RapidIO交换板卡整板工作电源电压网络;
该VPX连接器,提供多路RapidIO交换芯片RapidIO X4端口差分传输线与该VPX背板互联,并提供背板上电源板卡电流供电输入;该VPX连接器的端口包括端口P0、端口P1、端口P2,其中端口P0用于与该VPX背板电源输入相连,端口P1和端口P2均采用ANSI/VITA46标准4路RapidIO X4数据通道信号定义,共设计8路RapidIO X4数据通道,每路数据通道信号与交换芯片的一路RapidIO X4数据通道信号点对点互联,并通过该VPX连接器与该VPX背板上交换槽位连接器互联,以实现该RapidIO交换芯片多路RapidIO 4X数据通道到VPX背板互联。
所述的支持多卡并行的嵌入式智能计算装置,其中该电源板卡,用于将输入的直流电源,经内部DCDC电路模块,电源输出指定直流电压,并将各电源与该VPX背板互联。
所述的支持多卡并行的嵌入式智能计算装置,其中该VPX背板,用于提供背板电源互联电路和RapidIO网络互联电路;
该VPX背板采用多槽设计,分别为电源板卡槽位、RapidIO交换板卡槽位、主控与IO板卡槽位和多个嵌入式智能计算板卡槽位,其中该电源板卡槽位,用于通过连接器引出电源板上的输出引脚至背板,并通过背板电源互联电路,将电源板输出与各功能板卡电源输入互联;其它槽位以RapidIO交换槽位为中心,采用全连接Mesh网络,实现RapidIO交换槽位、主控与IO槽位以及嵌入式处理板槽位RapidIO网络分布式对等互联。
本发明还提出了一种遥感图像探测设备,其采用所述任意一种支持多卡并行的嵌入式智能计算装置。该设备具有红外、可见光、SAR一种或多种复合成像设备。
由以上方案可知,本发明的优点在于:
本发明提供了一种支持多卡并行的嵌入式智能计算系统设计方法及装置,该方法采用高速RapidIO分布式对等网络,并采用标准VPX嵌入式智能计算系统多卡并行、标准VPX主控与IO板卡、标准VPX RapidIO网络交换板卡、VPX电源板卡、标准3U 6槽VPX背板,构建嵌入式智能计算系统多卡并行计算集群装置,可有效实现多个嵌入式智能计算系统板卡并行计算工作,达到系统级计算能力倍数增加和可扩展目的,同时通过采用RapidIO网络交换板卡主、控与IO板卡、多卡嵌入式智能计算板卡高速互联和板卡间并行计算设计,由RapidIO总线完成板间高速数据传输与交换、由FPGA主要负责外部数据的接入与预处理、由CPU主要负责高速DDR4缓存与拷贝、由深度学习智能处理器主要负责高性能推理计算的并行异构计算架构,可实现大规模数据密集型计算密集型场景下图像/视频数据处理流程实时计算,克服了传统CPU、FPGA、DSP架构数字信号处理平台和单个智能处理器芯片计算平台在大规模数据和复杂深度学习智能算法网络计算应用时面临着计算资源单一、计算能力不足、数据处理流程“端到端”时延无法满足实时性等问题,具有较好的实用推广前景。
具体实施方式
本发明解决其技术问题所采用的技术方案是:一种支持多卡并行的嵌入式智能计算系统设计方法及装置,其特征在于,系统由多个VPX嵌入式智能计算系统板卡、一个主控与IO板卡、一个RapidIO交换板、一个VPX电源板卡、一个VPX背板构成,具体实现方法包括如下步骤:
步骤1、嵌入式智能计算系统板卡设计,采用ARM处理器+深度学习智能处理器嵌入式异构智能计算架构,系统组成包括嵌入式CPU处理器单元、深度学习智能处理器加速单元、高速RapidIO总线通信单元、电源模块、VPX连接器等,其中嵌入式CPU处理器单元作为主控单元,主要负责搭载运行嵌入式Linux操作系统、嵌入式智能算法应用程序以及和深度学习算法网络模型终端部署,完成RapidIO总线板间高速互联和RapidIO数据流高速接入与缓存、内部数据流分发与调度以及基于卷积神经网络的深度学习算法的高性能推理加速计算等功能,并与深度学习智能处理器单元、高速RapidIO总线通信单元采用PCIe总线互联,嵌入式CPU处理器单元作为PCIE RC节点,深度学习智能处理器单元和高速RapidIO总线通信接口单元均作为PCIE EndPoint节点;深度学习处理器单元则作为卷积神经网络推理加速专用部件,提供高效能比计算能力,由专用深度学习智能处理器芯片、DDR显存电路与PCIe接口电路互联构成,与CPU主控单元采用PCIe总线进行互联;高速RapidIO总线通信接口单元主要是提供基于PCIe总线ARM处理器架构的嵌入式智能计算系统与RapidIO交换板卡或其它RapidIO功能板卡之间高带宽、低时延基于包交换的数据传输通道和RapidIO网络系统级别互联功能,设计采用RapidIO-to-PCIe桥片专用集成芯片,实现RapidIO互联和RapidIO总线协议转PCIe总线协议的相互转换;电源模块与板卡VPX连接器上输入电源互联,主要是输入VPX 12V、3.3V、5V电源,经内部DCDC电源模块电路,提供整板工作电源电压网络;标准VPX连接器接口电路,其功能主要是提供高速RapidIO总线通信接口单元差分传输线与VPX背板互联和VPX供电输入,设计采用标准VITA46规范的3U VPX连接器,物理端口构成包括端口P0、端口P1、端口P2组成,其中端口P0主要用于电源输入,端口P1主要用于RapidIO X4高速信号互联、端口P2主要用于对外引出硬件调试通信接口。
步骤2、主控与IO板卡设计,用于提供硬件IO可编程对外通信接口和高速RapidIO总线内部通信互联接口,完成外部图像/视频设备数据采集、数据协议解析与缓存、数据预处理以及基于RapidIO总线数据流分发至嵌入式智能计算系统计算功能。板卡设计采用FPGA计算架构,功能组成包括FPGA单元、DDR3内存单元、高速数据缓存、预处理与分发模块、硬件IO可编程对外通信接口、高速RapidIO总线通信互联单元、电源模块、VPX连接器等,其中FPGA作为核心,通过FPGA Verilog和IP CORE硬件编程,实现DDR3内存控制器、RapidIOX4控制器、对外通信硬件接口通信(SPI、CAN、Cameralink等)、RapidIO总线控制器等功能,进一步通过DDR3内存控制器实现FPGA主控芯片对DDR3内存单元数据高速读写,通过RapidIO控制器实现FPGA主控芯片与RapidIO交换板卡、其它RapidIO功能板卡之间基于RapidIO总线协议的数据传输通道和高速互联;通过数据缓存、预处理与分发模块,将数据采集模块输出数据缓存至DDR3内存单元,并通过Verilog/VHDL硬件编程语言完成数据预处理过程,进一步以异步的方式添加RapidIO目的ID等字段,将预处理后的数据打包成RapidIO NWRITE报文,通过RapidIO NWRITE报文发送至RapidIO交换;通过对硬件IO可编程对外通信接口模块电气定义和Verilog编程,实现FPGA主控芯片与外部图像/视频设备之间数据通信;电源模块采用VPX连接器12V、3.3V、5V电源输入,经内部DCDC电源模块电路,提供FPGA整板工作电源网络;标准VPX连接器接口电路,其功能主要是提供FPGA主控芯片采用高速RapidIO总线传输线、对外硬件通信接口与VPX背板互联和供电输入,设计采用标准VITA46规范的3U VPX连接器,物理端口构成包括端口P0、端口P1、端口P2组成,其中端口P0主要用于电源输入,端口P1主要用于RapidIO X4高速信号互联、端口P2则用于引出对外硬件通信接口到VPX背板。
步骤3、RapidIO交换板卡设计,用于对外提供多路RapidIO通信端口和各端口全连接Mesh交换RapidIO网络,实现多个嵌入式智能计算系统板卡、主控及IO单元板卡之间点对点RapidIO网络高速互联。板卡组成主要包括RapidIO交换芯片、电源模块、标准VPX连接器接口电路等,其中RapidIO交换芯片作为核心模块,提供多路RapidIO 4X模式数据通道和无阻塞交换(矩阵)机,支持1.25Gbps、2.5Gbps、3.125Gbps的RapidIO工作速率;电源模块主要是输入VPX 12V、3.3V、5V电源,经内部DCDC电源模块电路,输出整板工作电压电源网络;标准VPX连接器接口电路,其功能主要是提供多路RapidIO交换芯片RapidIO X4端口差分传输线与VPX背板互联,同时提供背板上电源板卡大电流供电输入;设计采用标准VITA46规范的3U VPX连接器,物理端口构成包括端口P0、端口P1、端口P2组成,其中端口P0主要用于背板上12V、3.3V、5V电源输入,端口P1和端口P2均采用ANSI/VITA46标准4路RapidIO X4数据通道信号定义,共设计8路RapidIO X4数据通道,每路数据通道信号与交换芯片的一路RapidIO X4数据通道信号点对点互联,并通过VPX连接器与背板上交换槽位连接器互联,进而实现RapidIO交换芯片8路RapidIO 4X数据通道到VPX背板互联。
步骤4、VPX电源板卡设计,用于为单机背板上嵌入式智能计算系统板卡、主控及IO板卡、RapidIO交换板提供工作电源。设计采用标准VITA62成品电源模块,输入18Vdc~36Vdc电源,经内部DCDC电路模块,输出+12V、+3.3V、+5V,并通过标准VPX连接器接口电路与VPX背板互联。
步骤5、VPX背板设计,其功能是采用垂直插卡方式将所有功能板卡通过VPX连接器安装固定在VPX背板上,并提供背板电源互联电路和RapidIO网络互联电路。背板采用标准VPX 3U 6槽设计,从左至右分别为1个电源槽(slot0)、1个RapidIO交换板卡槽位(slot1)、1个主控与IO单元(slot2)和4个嵌入式智能处理板槽位(slot3、slot4、slot5、slot6),其中背板上电源槽位,用于通过连接器引出电源板上的输出引脚至背板,并通过背板电源互联电路,将电源板输出与各功能板卡电源输入互联;其它槽位以RapidIO交换槽位为中心,采用全连接Mesh网络,实现RapidIO交换槽位、主控与IO槽位以及嵌入式处理板槽位RapidIO网络分布式对等互联。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
如图1所示,一种支持多卡并行的嵌入式智能计算系统设计方法及装置由多个VPX嵌入式智能计算系统板卡、一个主控及IO板卡、一个RapidIO交换板、一个VPX电源板卡、一个VPX背板构成,具体实现方法包括如下步骤:
步骤1、嵌入式智能计算系统板卡设计,采用ARM处理器+深度学习智能处理器嵌入式异构智能计算架构,系统组成包括嵌入式CPU处理器单元、深度学习智能处理器单元、高速RapidIO总线通信单元、电源模块、VPX连接器等,其中嵌入式CPU处理器单元设计采用国产飞腾FT2000/4ARM处理器,最小硬件外围子系统组成主要包括64位DDR4内存、Micro TF卡FLASH存储、48MHz LVCMOS时钟模块、RTL8211FS PHY芯片+RJ45构成的千兆网口模块和SP3232EUART转RS232串口调试口模块等构成,并采用CPU处理器内置的2路PCIe X16总线控制器分别与深度学习智能处理器单元、高速RapidIO总线通信单元进行板内高速互联和数据交换,其中CPU处理器单元作为PCIE RC节点,深度学习智能处理器单元和高速RapidIO总线通信接口单元均作为PCIE EndPoint节点。深度学习处理器单元则作为卷积神经网络推理加速专用部件,设计采用寒武纪MLU系列深度学习智能处理器芯片、DDR显存电路与PCIe接口电路互联构成,通过MLU深度学习处理器为处理人工智能任务时提供不低于10TOPS(MLU220,INT8)的运算能力,MLU处理器通过PCIe总线与CPU主控单元进行高速互联;高速RapidIO总线通信接口单元设计采用IDT公司RapidIO-to-PCIe桥片专用集成芯片TSI721,实现基于PCIe总线ARM处理器主控单元PCIe总线协议转RapidIO总线协议的桥接转换;电源模块设计采用LTM4644、LTM4647 DCDC电源模块电路,输入VPX连接器上定义的12V、3.3V、5V电源,输出整板工作电源电压网络;标准VPX连接器接口电路,设计采用1个TYCO J1410189-3P0模块、1个J1410187-3P1模块、1个J1410187-3P2模块构成VPX连接器,通过模块引脚信号定义和电路互联,实现VPX供电输入和TSI721桥片高速RapidIO总线通信接口差分传输线与VPX背板互联。
步骤2、主控与IO板卡设计,采用FPGA计算架构,系统组成包括FPGA单元、DDR3内存单元高速数据缓存、预处理与分发模块、硬件IO可编程对外通信接口、高速RapidIO总线互联内部接口、电源模块、VPX连接器等,其中FPGA设计采用Xilinx公司XC7K325T,通过FPGAVerilog和IP CORE硬件编程,实现DDR3内存控制器、RapidIO X4控制器、对外通信硬件接口通信(SPI、CAN、Cameralink等)、RapidIO总线控制器等功能单元,其中通过IP CORE例化DDR3内存控制器实现FPGA芯片对DDR3内存单元数据高速读写;通过IP CORE例化RapidIO控制器实现FPGA主控芯片与RapidIO交换板卡、其它RapidIO功能板卡之间高速RapidIO总线数据传输通道和互联;通过数据缓存、预处理与分发模块,将采集的外部数据缓存至DDR3内存单元,并通过Verilog/VHDL硬件编程语言完成数据预处理过程,并以异步的方式将预处理后的数据包打包成RapidIO NWRITE报文,添加RapidIO目的ID等字段信息,通过RapidIONWRITE报文发送至RapidIO交换;通过对硬件IO可编程对外通信接口模块电气定义和Verilog编程,实现FPGA主控芯片与外部图像/视频设备之间数据通信;电源模块设计采用LTM4644、LTM4647 DCDC电源模块电路,输入VPX连接器上定义的12V、3.3V、5V电源,输出整板工作电源电压网络;标准VPX连接器接口电路,设计采用1个TYCO J1410189-3P0模块、1个J1410187-3P1模块、1个J1410187-3P2模块构成VPX连接器,通过模块引脚信号定义和电路互联,实现VPX供电输入和FPGA高速RapidIO总线通信接口差分传输线与VPX背板互联。
步骤3、RapidIO交换板卡设计,采用RapidIO交换芯片作为核心模块,系统组成包括RapidIO交换芯片、电源模块、标准VPX连接器接口电路等,其中RapidIO交换芯片采用IDTTSI578,将芯片配置为8路RapidIO 4X数据通道工作模式,每路RapidIO 4X数据传输通道差分传输线均通过VPX连接器连接至VPX背板交换槽位,通过芯片内部交换电路寄存器配置,实现各端口全连接Mesh交换RapidIO网络功能;电源模块设计采用LTM4644、LTM4647 DCDC电源模块电路,输入VPX连接器上定义的12V、3.3V、5V电源,输出整板工作电源电压网络;标准VPX连接器接口电路,设计采用1个TYCO J1410189-3P0模块、1个J1410187-3P1模块、1个J1410187-3P2模块构成VPX连接器,通过模块引脚信号定义和电路互联,实现VPX供电输入和8路RapidIO 4X总线通信接口差分传输线与VPX背板互联。
步骤4、VPX电源板卡设计,采用基于VITA62标准的成品电源模块,输入18Vdc~36Vdc电源,经内部DCDC电路模块,输出+12V、+3.3V、+5V,并通过标准VPX连接器接口电路与VPX背板互联。
步骤5、VPX背板设计,如图2所示,采用标准VPX 3U 6槽(slot)设计,从左至右分别为1个电源槽(slot0)、1个RapidIO交换板槽位(slot1)、1个主控与IO单元(slot2)和4个嵌入式智能处理板槽位(slot3、slot4、slot5、slot6),其中电源槽位连接器选用TYCO 1-6450869-4型号,通过该连接器引出电源板上12Vdc、5Vdc、3.3Vdc输出至背板,并通过背板内部电源互联电路,将电源板输出与各功能板卡VPX电源输入电气互联,其它功能槽位(slot1~slot6)连接器由TYCO 1410186-1、1410140-1、1410142-1三个物理连接器型号构成,每个连接器遵循ANSI/VITA46端口信号定义,并通过背板RpaidIO互联电路设计,实现以RapidIO交换槽位为中心,RapidIO交换槽位、主控与IO单元槽位、嵌入式处理板槽位全连接Mesh网络RapidIO互联设计。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种支持多卡并行的嵌入式智能计算装置,其中包括多个嵌入式智能计算板卡、一个主控与IO板卡和一个RapidIO交换板卡;
该嵌入式智能计算板卡,采用嵌入式ARM处理器和深度学习处理器的异构计算架构,集成RapidIO转PCIE的高速总线桥片模块;该嵌入式智能计算板卡通过该异构计算架构和该高速总线桥片模块,负责运行嵌入式Linux操作系统、嵌入式智能算法应用程序和深度学习算法网络模型终端部署,实现高速RapidIO总线图像/视频数据流的实时接收与缓存,和基于卷积神经网络的深度学习算法的高性能推理加速;
该主控与IO板卡,采用FPGA和DDR内存的设计架构,用于根据该设计架构提供FPGA硬件逻辑编程和外部数据流缓存、数据预处理以及根据图像数据类型或帧号分发数据至各嵌入式智能计算板卡进行并行推理计算;FPGA的IO通信接口对外实现与外部诸如图像/视频等设备通信接口的接入,对内实现RapidIO总线通信互联;其中外部指的是该嵌入式智能计算装置整体以外的设备。
该RapidIO交换板卡,用于提供多路RapidIO总线通信端口和各端口内部Mesh全连接交换网络,实现该主控及IO单元板卡与所有该嵌入式智能计算板卡间点对点RapidIO网络互联。
所述的支持多卡并行的嵌入式智能计算装置,其中包括电源板卡,用于为该嵌入式智能计算板卡、该主控及IO板卡、该IO交换板提供工作电源。
所述的支持多卡并行的嵌入式智能计算装置,其中采用垂直插卡方式将所有该嵌入式智能计算板卡、该主控与IO板卡、该RapidIO交换板卡和该电源卡通过VPX连接器安装固定在VPX背板上。
所述的支持多卡并行的嵌入式智能计算装置,其中该嵌入式智能计算板卡包括该嵌入式ARM处理器单元、该深度学习处理器、RapidIO总线通信单元、电源模块、VPX连接器;
其中该嵌入式ARM处理器单元为主控单元,采用PCIe与该深度学习处理器、该高速RapidIO总线通信单元互联,该嵌入式ARM处理器单元作为PCIE RC节点,该深度学习处理器单元和该高速RapidIO总线通信单元均作为PCIE EndPoint节点;
该深度学习处理器则作为深度学习算法网络模型推理计算加速专用部件,由专用深度学习智能处理芯片、DDR显存电路与PCIe接口电路互联构成;
该高速RapidIO总线通信单元,用于提供基于PCIe总线ARM处理器架构的嵌入式智能计算系统与RapidIO交换板卡或其它RapidIO功能板卡之间高带宽、低时延基于RapidIO包交换的高速数据传输通道和RapidIO网络系统级别互联功能,该高速RapidIO总线通信单元采用RapidIO-to-PCIe桥片专用集成芯片,实现RapidIO互联和RapidIO总线协议转PCIe总线协议的相互转换;
该电源模块与该VPX连接器上输入电源互联,提供该嵌入式智能计算板卡整板工作电源电压网络;
该VPX连接器,用于提供高速RapidIO总线通信接口单元差分传输线与VPX背板互联和VPX供电输入,物理端口构成包括端口P0、端口P1、端口P2组成,其中端口P0主要用于电源输入,端口P1主要用于RapidIO X4高速信号互联,端口P2则用于对外引出硬件调试通信接口到VPX背板。
所述的支持多卡并行的嵌入式智能计算装置,其中该主控与IO板卡,包括FPGA单元、DDR3内存单元、高速数据缓存、预处理与分发模块、硬件IO可编程对外通信接口、高速RapidIO总线通信互联单元、电源模块、VPX连接器;
其中该FPGA单元用于对DDR3内存单元、对外通信硬件接口通信、RapidIO总线的控制;
该数据缓存、预处理与分发模块,将数据缓存至该DDR3内存单元,并通过Verilog/VHDL硬件编程语言完成数据预处理功能,进一步以异步的方式添加RapidIO目的ID字段,将预处理后的数据打包成RapidIO NWRITE报文,通过RapidIO NWRITE报文发送至该高速RapidIO总线通信单元;
该硬件IO可编程对外通信接口,用于FPGA主控芯片与外部图像/视频设备间数据通信;
该电源模块与该VPX连接器上输入电源互联,提供该主控与IO板卡整板工作电源电压网络;
该VPX连接器,为该FPGA单元提供高速RapidIO总线传输线、对外硬件通信接口与VPX背板互联和供电输入,物理端口构成包括端口P0、端口P1、端口P2,其中端口P0主要用于电源输入,端口P1主要用于RapidIO X4高速信号互联、端口P2则用于引出对外硬件通信接口到VPX背板。
所述的支持多卡并行的嵌入式智能计算装置,其中该RapidIO交换板卡,包括RapidIO交换芯片、电源模块、VPX连接器;
其中该RapidIO交换芯片,用于提供多路RapidIO 4X模式数据通道和全双工通信、非阻塞、纵横交叉的内部交换结构,将包从输入端口传输到输出端口;
该电源模块与该VPX连接器上输入电源互联,提供该RapidIO交换板卡整板工作电源电压网络;
该VPX连接器,提供多路RapidIO X4端口差分传输线与该VPX背板互联,并提供背板上电源板卡供电输入;该VPX连接器的端口包括端口P0、端口P1、端口P2,其中端口P0用于与该VPX背板电源输入相连,端口P1和端口P2均采用ANSI/VITA46标准4路RapidIO X4数据通道信号定义,共设计8路RapidIO X4数据通道,每路数据通道信号与交换芯片的一路RapidIO X4数据通道信号点对点互联,并通过该VPX连接器与该VPX背板上交换槽位连接器互联,以实现该RapidIO交换芯片多路RapidIO 4X数据通道到VPX背板互联。
所述的支持多卡并行的嵌入式智能计算装置,其中该电源板卡,用于将输入的直流电源,经内部DCDC电路模块,电源输出指定直流电压,并将各电源与该VPX背板互联。
所述的支持多卡并行的嵌入式智能计算装置,其中该VPX背板,用于提供背板电源互联电路和RapidIO网络互联电路;
该VPX背板采用多槽设计,分别为电源板卡槽位、RapidIO交换板卡槽位、主控与IO板卡槽位和多个嵌入式智能计算板卡槽位,其中该电源板卡槽位,用于通过连接器引出电源板上的输出引脚至背板,并通过背板电源互联电路,将电源板输出与各功能板卡电源输入互联;其它槽位以RapidIO交换槽位为中心,采用全连接Mesh网络,实现RapidIO交换槽位、主控与IO槽位以及嵌入式处理板槽位RapidIO网络分布式对等互联。
本发明还提出了一种遥感图像探测设备,其采用所述任意一种支持多卡并行的嵌入式智能计算装置;所述的遥感图像探测设备具有红外、可见光、SAR一种或多种复合成像设备。