[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN106959937B - 一种面向gpdsp的反卷积矩阵的向量化实现方法 - Google Patents

一种面向gpdsp的反卷积矩阵的向量化实现方法 Download PDF

Info

Publication number
CN106959937B
CN106959937B CN201710201601.2A CN201710201601A CN106959937B CN 106959937 B CN106959937 B CN 106959937B CN 201710201601 A CN201710201601 A CN 201710201601A CN 106959937 B CN106959937 B CN 106959937B
Authority
CN
China
Prior art keywords
matrix
row element
calculating
consequence
deconvolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710201601.2A
Other languages
English (en)
Other versions
CN106959937A (zh
Inventor
郭阳
张军阳
扈啸
王慧丽
胡敏慧
王子聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201710201601.2A priority Critical patent/CN106959937B/zh
Publication of CN106959937A publication Critical patent/CN106959937A/zh
Application granted granted Critical
Publication of CN106959937B publication Critical patent/CN106959937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • G06F17/153Multidimensional correlation or convolution

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种面向GPDSP的反卷积矩阵的向量化实现方法,由GPDSP的CPU核为卷积神经网络中前向传播阶段产生的权值矩阵及反向计算阶段的残差矩阵分配相应的标量存储空间和向量存储空间,其步骤为,S1:设残差矩阵A(m,m)、权值矩阵B(n,n)及反卷积结果矩阵C(m+n‑1,m+n‑1),且m>n;S2:通过控制循环次数,首先计算反卷积结果矩阵C前n‑1行元素;S3:固定循环次数,计算反卷积结果矩阵C第n行至第m行元素;S4:通过控制循环次数,计算反卷积结果矩阵C倒数第n‑1行至倒数第1行元素。本发明具有原理简单、操作方便、能充分利用向量处理器完成特殊数据计算、缩短整个算法运行时间、提高算法执行效率等优点。

Description

一种面向GPDSP的反卷积矩阵的向量化实现方法
技术领域
本发明主要涉及到向量处理器及机器学习领域,特指一种面向GPDSP的反卷积矩阵的向量化实现方法。
背景技术
深度学习(Deep Learning,DL)是当前机器学习领域的一个重要研究方向。DL通过构造多层感知器(Multilayer Perception,MLP)来模拟人脑的分层感知方式,MLP能够通过组合低层次特征来表达属性类别或高层的抽象特征,从而成为当前目标识别领域的研究重点。
经典的DL模型主要包括自动编码机模型(Auto Encode,AE)、深度信念网络模型(Deep Belief Networks,DBNs)及卷积神经网络模型(Convolutional Neural Networks,CNN)。一般来说,上述模型主要通过编码器从输入图像中提取特征,从底层逐层向上将图像转化到高层特征空间,相应的,使用解码器将高层特征空间的特征通过网络自顶向下重构输入图像。其中,深度学习模型主要分为无监督学习模型和有监督学习模型,自动编码机和深度信念网络就是无监督学习模型的代表,它们可以自底向上地逐层学习丰富的图像特征并为高层次应用,如图像识别、语音识别等。而CNN模型则是有监督的学习模型,通过构建卷积层及池化层来构建多层的卷积神经网络,通过BP(Back Propogation)算法反向调整滤波模板,经过多次的正向计算和反向调优来构建具有高识别率的神经网络。
由于CNN模型涉及到大量的矩阵操作,如,矩阵与矩阵乘法、矩阵与向量乘法、向量与向量乘法、矩阵与矩阵卷积、矩阵扩充、矩阵反卷积以及各种超越函数的计算,使得CNN模型需要占用大量的计算资源。通过对CNN模型的深入分析发现,该模型中涉及大量的数据并行性,目前运行CNN模型的硬件平台主要有CPU、GPU、FPGA及专用的神经网络处理器,如中科院计算所的寒武纪系列。
通用计算数字信号处理器(General-Purpose Digital Signal Processor,GPDSP)一般包括CPU核和DSP核,CPU核主要负责包括文件控制、存储管理、进程调度、中断管理任务在内的通用事务管理及对通用操作系统的支持;DSP核主要包含若干具有强大计算能力的浮点或定点向量处理阵列,用于支持高密度的计算任务,向量处理器一般由N个处理单元(PE)组成,每个PE包含若干个功能单元,一般包括ALU部件、加法部件、移位部件等,这些部件可以读写一组局部寄存器,每个处理单元包含一组局部寄存器,所有处理单元同一编号的局部寄存器在逻辑上又组成了一个向量寄存器。向量处理器采用SIMD的方式,N个处理单元在同一条向量指令的控制下同时对各自的局部寄存器进行相同的操作,以开发应用程序的数据级并行性。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种原理简单、操作方便、能充分利用向量处理器完成特殊数据计算、缩短整个算法运行时间、提高算法执行效率的面向GPDSP的反卷积矩阵的向量化实现方法,用以满足计算密集型应用的需求。
为解决上述技术问题,本发明采用以下技术方案:
一种面向GPDSP的反卷积矩阵的向量化实现方法,其特征在于,由GPDSP的CPU核为卷积神经网络中前向传播阶段产生的权值矩阵及反向计算阶段的残差矩阵分配相应的标量存储空间和向量存储空间,其步骤为,
S1:设残差矩阵A(m,m)、权值矩阵B(n,n)及反卷积结果矩阵C(m+n-1,m+n-1),且m>n;
S2:通过控制循环次数,首先计算反卷积结果矩阵C前n-1行元素;
S3:固定循环次数,计算反卷积结果矩阵C第n行至第m行元素;
S4:通过控制循环次数,计算反卷积结果矩阵C倒数第n-1行至倒数第1行元素。
作为本发明的进一步改进:所述权值矩阵B置于标量存储体,反卷积矩阵A置于向量存储体,且权值矩阵B从后至前,倒序来取。
作为本发明的进一步改进:所述步骤S2的详细步骤为:
S2.1取权值矩阵B第n行的最后一个元素,bn-1,n-1,取残差矩阵A第一行元素,将bn-1,n-1广播至标量寄存器中的元素与矩阵A第一行元素对应相乘,累加上将bn-1,n-2向量化后与移位后的残差矩阵A的第一行元素一一对应相乘的结果;重复以上步骤n次,n位权值矩阵B列数,完成反卷积结果矩阵C第一行元素的计算;
S2.2顺移至残差矩阵A的第二行元素,计算过程如步骤2.1,循环n+n次完成反卷积结果矩阵C第二行元素的计算;
S2.3顺移至残差矩阵A的第n-1行元素,计算过程如步骤2.1,循环(n-1)*(n-1)次完成反卷积结果矩阵C第n-1行元素的计算。
作为本发明的进一步改进:所述步骤S3中,反卷积结果矩阵C的第n行至第m行的每一行元素的计算都在步骤S2.3的基础上顺移至残差矩阵A的第n行,计算过程如步骤2.1,循环n*n次完成反卷积结果矩阵C中间某一行行元素的计算。
作为本发明的进一步改进:所述步骤S4的详细步骤为:
S4.1倒数第n-1行元素由权值矩阵B的前n-1行元素参与计算,计算过程如步骤S2.3;
S3.3倒数第2行元素由权值矩阵B的前2行元素参与计算,计算过程如步骤S2.2;
S3.4倒数第1行元素由权值矩阵B的前1行元素参与计算,计算过程如步骤S2.1。
与现有技术相比,本发明的优点在于:
1、本发明的面向GPDSP的反卷积矩阵的向量化实现方法,将卷积神经网络反向计算中涉及到的残差矩阵A(m,m)和权值矩阵B(n,n)反卷积至输入空间,即,反卷积结果矩阵C(m+n-1,m+n-1),不仅避免了数据的搬移、矩阵的扩充,且能充分利用向量处理器中多个并行处理单元能够同时进行相同运算的特点来进行大量的同类型操作,使用特殊的VSHUFW指令,大大提高数据的复用率,进而大幅度提高反卷积矩阵的计算效率。
2、采用本发明的方法比传统的方法更加简单高效,目标向量处理器实现的硬件代价低,在实现相同功能的情况下,降低了功耗。另外,本发明的方法,实现简单、成本低廉、操作方便、可靠性好。
附图说明
图1是本发明方法的流程示意图。
图2是本发明面向的GPDSP的简化结构模型示意图。
图3是本发明中的反卷积计算流程示意图。
图4是本发明在具体应用实例中反卷积结果矩阵第1行元素计算示意图。
图5是本发明在具体应用实例中反卷积结果矩阵第2行元素计算示意图。
具体实施方式
以下将结合说明书附图和具体实施例对本发明做进一步详细说明。
假设C=A*B,即矩阵A和矩阵B的卷积是C,也就是说已知A和B求C的过程叫做卷积,那么如果已知C和A或者C和B求B或A的过程就叫做反卷积。如图2所示,为本发明所面向的GPDSP的简化结构模型示意图。
如图1和图3所示,本发明的面向GPDSP的反卷积矩阵的向量化实现方法,其步骤为:
S1:反卷积结果矩阵C前n-1行元素的计算;
S1.1由GPDSP的CPU核为卷积神经网络中前向传播阶段产生的权值矩阵及反向计算阶段的残差矩阵分配相应的标量存储空间和向量存储空间;
S1.2设残差矩阵A(m,m)、权值矩阵B(n,n)及反卷积结果矩阵C(m+n-1,m+n-1),且m>n;
S1.3取权值矩阵B第n行的最后一个元素,bn-1,n-1,取残差矩阵A第一行元素,将bn-1,n-1广播至标量寄存器中的元素与矩阵A第一行元素对应相乘,累加上将bn-1,n-2向量化后与移位后的残差矩阵A的第一行元素一一对应相乘的结果;重复以上步骤n次(权值矩阵B列数),完成反卷积结果矩阵C第一行元素的计算,计算过程如图4所示;
S1.4顺移至残差矩阵A的第二行元素,计算过程类似步骤1.3,循环n+n次完成反卷积结果矩阵C第二行元素的计算,计算过程如图5所示;
S1.5顺移至残差矩阵A的第n-1行元素,计算过程类似步骤1.3,循环(n-1)*(n-1)次完成反卷积结果矩阵C第n-1行元素的计算。
S2:反卷积矩阵C中间第n行至m行元素的计算;
由于第n行至m行的计算是由残差矩阵A所有行元素都参与运算,因此反卷积结果矩阵C的第n行至第m行的每一行元素的计算都要在步骤S1.5的基础上顺移至残差矩阵A的第n行,计算过程类似步骤S1.3,循环n*n次完成反卷积结果矩阵C中间某一行行元素的计算。
S3:反卷积结果矩阵C后n-1行元素的计算;
S3.1由于步骤S2是由权值矩阵B所有元素参与运算,而步骤S3中是由权值矩阵B的部分行元素参与运算,因此后n-1行元素的计算类似步骤S1,只是和步骤S1中的循环次数有所不同;
S3.2倒数第n-1行元素由权值矩阵B的前n-1行元素参与计算,计算过程类似步骤S1.5;
S3.3倒数第2行元素由权值矩阵B的前2行元素参与计算,计算过程类似步骤S1.4;
S3.4倒数第1行元素由权值矩阵B的前1行元素参与计算,计算过程类似步骤S1.3。
结合图3,本发明在一个具体应用实例中,详细流程为:
S100:设卷积神经网络反向传播计算中残差矩阵A的规模为8×8,权值矩阵B的规模为5×5,则反卷积结果矩阵C的规模为12×12,即(8+5-1),一般地,残差矩阵A放置在向量存储体,权值矩阵B放置在标量存储体。
S200:首先计算反卷积结果矩阵C的第1行元素,计算过程如下;
S2.1 b4,4×a0,0…b4,4×a0,7 b4,4×0 b4,4×0 b4,4×0 b4,4×0;
S2.2 b4,3×0 b4,3×a0,0…b4,3×a0,7 b4,3×0 b4,3×0 b4,3×0;
S2.3 b4,2×0 b4,2×0 b4,2×a0,0…b4,2×a0,7 b4,2×0 b4,2×0;
S2.4 b4,1×0 b4,1×0 b4,1×0 b4,1×a0,0…b4,1×a0,7 b4,1×0;
S2.5 b4,0×0 b4,0×0 b4,0×0 b4,0×0 b4,0×a0,0…b4,0×a0,7
S2.6将步骤2.1至步骤2.5每行的12个乘法结果对应相加,累加4次完成反卷积结果矩阵C第1行元素的计算,即2.7,计算过程如图4所示;
S2.7得出C矩阵第1行元素c0,0c0,1c0,2c0,3c0,4c0,5c0,6c0,7c0,8c0,9c0,10c0,11
S300:计算反卷积结果矩阵C的第2行元素,由于本次计算涉及到权值矩阵B两行元素的计算,因此,计算过程比步骤S200多5次循环,计算过程如下;
S3.1 b4,4×a1,0…b4,4×a1,7 b4,4×0 b4,4×0 b4,4×0 b4,4×0;
S3.2 b4,3×0 b4,3×a1,0…b4,3×a1,7 b4,3×0 b4,3×0 b4,3×0;
S3.3 b4,2×0 b4,2×0 b4,2×a1,0…b4,2×a1,7 b4,2×0 b4,2×0;
S3.4 b4,1×0 b4,1×0 b4,1×0 b4,1×a1,0…b4,1×a1,7 b4,1×0;
S3.5 b4,0×0 b4,0×0 b4,0×0 b4,0×0 b4,0×a1,0…b4,0×a1,7
S3.6 b3,4×a0,0…b3,4×a0,7 b3,4×0 b3,4×0 b3,4×0 b3,4×0;
S3.7 b3,3×0 b3,3×a0,0…b3,3×a0,7 b3,3×0 b3,3×0 b3,3×0;
S3.8 b3,2×0 b3,2×0 b3,2×a0,0…b3,2×a0,7 b3,2×0 b3,2×0;
S3.9 b3,1×0 b3,1×0 b3,1×0 b3,1×a0,0…b3,1×a0,7 b3,1×0;
S3.10 b3,0×0 b3,0×0 b3,0×0 b3,0×0 b3,0×a0,0…b3,0×a0,7
S3.11将步骤S3.1至步骤S3.10每行的12个乘法结果对应相加,累加9次完成反卷积结果矩阵C第2行元素的计算,即3.12,计算过程如图5所示;
S3.12得出C矩阵第2行元素;
c1,0 c1,1 c1,2 c1,3 c1,4 c1,5 c1,6 c1,7 c1,8 c1,9 c1,10 c1,11
S400:计算反卷积结果矩阵C的第3行元素,由于本次计算涉及到权值矩阵B三行元素的计算,因此,计算过程比步骤S300多5次循环,计算过程类似步骤S200;
S4.1最终得出C矩阵第3行元素:
c2,0 c2,1 c2,2 c2,3 c2,4 c2,5 c2,6 c2,7 c2,8 c2,9 c2,10 c2,11
S500:计算反卷积结果矩阵C的第4行元素,由于本次计算涉及到权值矩阵B四行元素的计算,因此,计算过程比步骤S400多5次循环,计算过程似步骤S200;
S5.1得出C矩阵第4行元素:
c30 c31 c32 c33 c34 c35 c36 c37 c38 c39 c310 c311
S600:计算反卷积结果矩阵C的第五行元素,由于本次计算涉及到权值矩阵B五行元素的计算,因此,计算过程比步骤S500多5次循环,计算过程似步骤S200;
S6.1得出C矩阵第5行元素:
c4,0 c4,1 c4,2 c4,3 c4,4 c4,5 c4,6 c4,7 c4,8 c4,9 c4,10 c4,11
S700:计算反卷积结果矩阵C的第5—8行元素,由于中间行计算涉及到权值矩阵B五行元素的计算,因此,计算过程如步骤S600;最终计算出反卷积结果矩阵C的第5—8行元素;
S7.1得出C矩阵第5至8行元素:
S800:计算反卷积结果矩阵C的第9行元素,由于权值矩阵B只有前4行参与计算,因此该行计算过程类似步骤S500;
S8.1得出C矩阵第9行元素:
c8,0 c8,1 c8,2 c8,3 c8,4 c8,5 c8,6 c8,7 c8,8 c8,9 c8,10 c8,11
S900:计算反卷积结果矩阵C的第10行元素,由于权值矩阵B只有前3行参与计算,因此该行计算过程类似步骤S400;
S9.1得出C矩阵第10行元素:
c9,0 c9,1 c9,2 c9,3 c9,4 c9,5 c9,6 c9,7 c9,8 c9,9 c9,10 c9,11
S1000:计算反卷积结果矩阵C的第11行元素,由于权值矩阵B只有前2行参与计算,因此该行计算过程类似步骤S300;
S10.1得出C矩阵第11行元素:
c10,0 c10,1 c10,2 c10,3 c10,4 c10,5 c10,6 c10,7 c10,8 c10,9 c10,10 c10,11
S1100:计算反卷积结果矩阵C的第12行元素,由于权值矩阵B只有第1行参与计算,因此该行计算过程类似步骤S200;
S11.1得出C矩阵第12行元素:
c11,0 c11,1 c11,2 c11,3 c11,4 c11,5 c11,6 c11,7 c11,8 c11,9 c11,10 c11,11
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (2)

1.一种面向GPDSP的反卷积矩阵的向量化实现方法,其特征在于,由GPDSP的CPU核为卷积神经网络中前向传播阶段产生的权值矩阵及反向计算阶段的残差矩阵分配相应的标量存储空间和向量存储空间,其步骤为,
S1:设残差矩阵A(m,m)、权值矩阵B(n,n)及反卷积结果矩阵C(m+n-1,m+n-1),且m>n;
S2:通过控制循环次数,首先计算反卷积结果矩阵C前n-1行元素;
所述步骤S2的详细步骤为:
S2.1取权值矩阵B第n行的最后一个元素bn-1,n-1,取残差矩阵A第一行元素,将bn-1,n-1广播至标量寄存器中的元素与矩阵A第一行元素对应相乘,累加上将bn-1,n-2向量化后与移位后的残差矩阵A的第一行元素一一对应相乘的结果;重复以上步骤n次,n为权值矩阵B列数,完成反卷积结果矩阵C第一行元素的计算;
S2.2顺移至残差矩阵A的第二行元素,计算过程如步骤2.1,循环n+n次完成反卷积结果矩阵C第二行元素的计算;
S2.3顺移至残差矩阵A的第n-1行元素,计算过程如步骤2.1,循环(n-1)*(n-1)次完成反卷积结果矩阵C第n-1行元素的计算;
S3:固定循环次数,计算反卷积结果矩阵C第n行至第m行元素;
所述步骤S3中,反卷积结果矩阵C的第n行至第m行的每一行元素的计算都在步骤S2.3的基础上顺移至残差矩阵A的第n行,计算过程如步骤2.1,循环n*n次完成反卷积结果矩阵C中间某一行行元素的计算;
S4:通过控制循环次数,计算反卷积结果矩阵C倒数第n-1行至倒数第1行元素;
S4.1倒数第n-1行元素由权值矩阵B的前n-1行元素参与计算,计算过程如步骤S2.3;
S4.2倒数第2行元素由权值矩阵B的前2行元素参与计算,计算过程如步骤S2.2;
S4.3倒数第1行元素由权值矩阵B的前1行元素参与计算,计算过程如步骤S2.1。
2.根据权利要求1所述的面向GPDSP的反卷积矩阵的向量化实现方法,其特征在于,所述权值矩阵B置于标量存储体,反卷积矩阵A置于向量存储体,且权值矩阵B从后至前,倒序来取。
CN201710201601.2A 2017-03-30 2017-03-30 一种面向gpdsp的反卷积矩阵的向量化实现方法 Active CN106959937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710201601.2A CN106959937B (zh) 2017-03-30 2017-03-30 一种面向gpdsp的反卷积矩阵的向量化实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710201601.2A CN106959937B (zh) 2017-03-30 2017-03-30 一种面向gpdsp的反卷积矩阵的向量化实现方法

Publications (2)

Publication Number Publication Date
CN106959937A CN106959937A (zh) 2017-07-18
CN106959937B true CN106959937B (zh) 2019-03-29

Family

ID=59470576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710201601.2A Active CN106959937B (zh) 2017-03-30 2017-03-30 一种面向gpdsp的反卷积矩阵的向量化实现方法

Country Status (1)

Country Link
CN (1) CN106959937B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108205702B (zh) * 2017-12-29 2020-12-01 中国人民解放军国防科技大学 一种多输入多输出矩阵卷积的并行处理方法
CN108416422B (zh) * 2017-12-29 2024-03-01 国民技术股份有限公司 一种基于fpga的卷积神经网络实现方法及装置
CN108920413B (zh) * 2018-06-28 2019-08-09 中国人民解放军国防科技大学 面向gpdsp的卷积神经网络多核并行计算方法
CN109214511B (zh) * 2018-08-15 2021-08-27 算丰科技(北京)有限公司 数据处理方法、数据处理装置以及电子设备
WO2020041962A1 (zh) * 2018-08-28 2020-03-05 深圳鲲云信息科技有限公司 一种并行反卷积计算方法、单引擎计算方法及相关产品
CN110110850A (zh) * 2019-04-29 2019-08-09 山东浪潮人工智能研究院有限公司 基于fpga前向反向可复用的处理单元实现方法
CN110555512B (zh) * 2019-07-30 2021-12-03 北京航空航天大学 一种二值卷积神经网络数据重用方法及装置
CN111881813B (zh) * 2020-07-24 2021-02-19 深圳市卡联科技股份有限公司 人脸识别终端的数据存储方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7324199B2 (en) * 2004-09-20 2008-01-29 Nomadics, Inc. System and deconvolution process for an optical filtering device based on WGM resonance
CN102411558A (zh) * 2011-10-31 2012-04-11 中国人民解放军国防科学技术大学 面向向量处理器的大矩阵相乘的向量化实现方法
CN103440229A (zh) * 2013-08-12 2013-12-11 浪潮电子信息产业股份有限公司 一种基于mic架构处理器的向量化优化方法
CN104615584A (zh) * 2015-02-06 2015-05-13 中国人民解放军国防科学技术大学 面向gpdsp的大规模三角线性方程组求解向量化计算的方法
CN104636316A (zh) * 2015-02-06 2015-05-20 中国人民解放军国防科学技术大学 面向gpdsp的大规模矩阵乘法计算的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7324199B2 (en) * 2004-09-20 2008-01-29 Nomadics, Inc. System and deconvolution process for an optical filtering device based on WGM resonance
CN102411558A (zh) * 2011-10-31 2012-04-11 中国人民解放军国防科学技术大学 面向向量处理器的大矩阵相乘的向量化实现方法
CN103440229A (zh) * 2013-08-12 2013-12-11 浪潮电子信息产业股份有限公司 一种基于mic架构处理器的向量化优化方法
CN104615584A (zh) * 2015-02-06 2015-05-13 中国人民解放军国防科学技术大学 面向gpdsp的大规模三角线性方程组求解向量化计算的方法
CN104636316A (zh) * 2015-02-06 2015-05-20 中国人民解放军国防科学技术大学 面向gpdsp的大规模矩阵乘法计算的方法

Also Published As

Publication number Publication date
CN106959937A (zh) 2017-07-18

Similar Documents

Publication Publication Date Title
CN106959937B (zh) 一种面向gpdsp的反卷积矩阵的向量化实现方法
CN107153873B (zh) 一种二值卷积神经网络处理器及其使用方法
Hanif et al. Competitive residual neural network for image classification
Kim et al. Nestednet: Learning nested sparse structures in deep neural networks
CN109840154B (zh) 一种移动云环境下基于任务依赖的计算迁移方法
Lee et al. Parallel deep convolutional neural network training by exploiting the overlapping of computation and communication
CN112084038B (zh) 神经网络的内存分配方法及装置
CN107341541A (zh) 一种用于执行全连接层神经网络训练的装置和方法
CN105512723A (zh) 一种用于稀疏连接的人工神经网络计算装置和方法
CN109325591A (zh) 面向Winograd卷积的神经网络处理器
CN103488662A (zh) 基于图形处理单元的自组织映射神经网络聚类方法及系统
CN110163354A (zh) 一种计算装置及方法
Basterrech et al. Self-organizing maps and scale-invariant maps in echo state networks
WO2017167114A1 (zh) 一种类Alexnet网络的模型训练方法和装置
CN110163333A (zh) 卷积神经网络的并行优化方法
CN108205703A (zh) 多输入多输出矩阵平均值池化向量化实现方法
CN111047022A (zh) 一种计算装置及相关产品
CN107133978A (zh) 基于一致点漂移算法的三维非刚体点云配准方法
CN108197075A (zh) 一种Inception结构的多核实现方法
Gao et al. Natural scene recognition based on convolutional neural networks and deep Boltzmannn machines
Zhang et al. A multi-granularity CNN pruning framework via deformable soft mask with joint training
Li et al. Optimized deep belief networks on CUDA GPUs
Tsutsui et al. Fast QAP solving by ACO with 2-opt local search on a GPU
Ahn Computation of deep belief networks using special-purpose hardware architecture
Tu et al. Multitarget prediction—A new approach using sphere complex fuzzy sets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant