[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN109993297A - 一种负载均衡的稀疏卷积神经网络加速器及其加速方法 - Google Patents

一种负载均衡的稀疏卷积神经网络加速器及其加速方法 Download PDF

Info

Publication number
CN109993297A
CN109993297A CN201910259591.7A CN201910259591A CN109993297A CN 109993297 A CN109993297 A CN 109993297A CN 201910259591 A CN201910259591 A CN 201910259591A CN 109993297 A CN109993297 A CN 109993297A
Authority
CN
China
Prior art keywords
convolution
data
load balancing
array
computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910259591.7A
Other languages
English (en)
Inventor
王瑶
朱志炜
秦子迪
苏岩
王宇宣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Jixiang Sensing And Imaging Technology Research Institute Co Ltd
Original Assignee
Nanjing Jixiang Sensing And Imaging Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Jixiang Sensing And Imaging Technology Research Institute Co Ltd filed Critical Nanjing Jixiang Sensing And Imaging Technology Research Institute Co Ltd
Priority to CN201910259591.7A priority Critical patent/CN109993297A/zh
Publication of CN109993297A publication Critical patent/CN109993297A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种负载均衡的稀疏卷积神经网络加速器及其加速方法。加速器包括主控制器、数据分发模块、卷积运算的计算阵列、输出结果缓存模块、线性激活函数单元、池化单元、在线编码单元和片外动态存储器。本发明的方案可以在很少的存储资源条件下实现卷积运算的计算阵列高效率运算,保证输入激励和权重数据的高复用率,计算阵列的负载均衡和高利用率;同时计算阵列支持通过静态配置的方式实现不同尺寸不同规模的卷积运算,以及行列间和不同特征图间两个层面的并行调度,具有很好的适用性和扩展性。

Description

一种负载均衡的稀疏卷积神经网络加速器及其加速方法
技术领域
本发明涉及一种负载均衡的稀疏卷积神经网络加速器及其加速方法,属于深度学习算法的技术领域。
背景技术
近些年来,深度学习算法在计算机视觉、自然语言处理和语音识别等方面获得了广泛的应用和卓越的效果,而卷积神经网络CNN是其中最重要的算法之一。卷积神经网络模型更高的准确率常常意味着更深的网络层数,以及更多的网络参数和运算量,其中90%的计算都集中在卷积层上,因此为了更好地在嵌入式系统上高效率运行卷积神经网络,优化卷积操作的能效比势在必行。
卷积神经网络CNN卷积层运算的主要特点有两个:一是运算的数据量大,卷积运算所需的特征图片和权重数据规模庞大,对其进行稀疏化并压缩存储可以很好地节省数据存储单元,最大化地利用数据传输带宽;二是运算数据流和控制流复杂,卷积运算需要根据卷积维度信息同时处理多个卷积核的多个通道,保证运算的流水进行。
稀疏化的卷积神经网络由于非零元素的不规则分布,计算过程中会增加无效计算,导致运算资源闲置率高。
发明内容
针对上述现有技术存在的问题,本发明旨在提供一种高效率负载均衡的稀疏卷积神经网络加速器,以实现权重和激励数据复用率高、数据传输量小、可扩展可并行度高以及所需硬件存储资源和DSP资源少的目的。本发明的另一目的是提供一种利用该加速器的加速方法。
本发明加速器采用的技术方案是:
一种负载均衡的稀疏卷积神经网络加速器,包括:主控制器,用于控制卷积运算的控制信号流和数据流,对数据进行处理和保存;数据分发模块,根据卷积运算的分块方案对计算阵列进行权重数据分发;卷积运算的计算阵列,用于完成稀疏卷积的乘加运算操作,输出部分和的结果;输出结果缓存模块,用于对计算阵列的部分和的结果进行累加缓存,并整理成统一格式,输出待激活处理和池化的特征图结果;线性激活函数单元,用于对累加完成的部分和结果的加偏置和激活函数操作;池化单元,用于对经激活函数处理后的结果的池化操作;在线编码单元,用于对仍需进行后续卷积层运算的激励值进行在线编码;片外动态存储器,用于存储原始图像数据、计算阵列运算的中间结果和最终输出的特征图。
本发明一种负载均衡的稀疏卷积神经网络加速器的加速方法,包括以下步骤:
1)对卷积神经网络模型权重数据进行剪枝,根据权重数据的规模参数对数据进行分组,然后在保证模型整体准确率的基础上对各组权重数据采取相同的剪枝方式进行稀疏化处理;
2)制定负载均衡的稀疏卷积运算映射方案,将稀疏化后的卷积神经网络映射到加速器的卷积运算的计算阵列上;
3)加速器根据映射方案的配置信息重构计算阵列和存储阵列,保证卷积运算的流水进行;
4)主控制器控制数据分发模块完成权重数据和激励数据的分发,计算阵列进行运算,输出卷积部分和结果;
5)对所述卷积部分和结果进行累加并线性修正,即完成加偏置和激活函数操作;
6)依据当前卷积层池化需求进行相应池化核尺寸和步长的池化操作;
7)判断当前卷积层操作是否为最后一层,如果不是,则进行在线编码,将编码后的激励结果送往下一层卷积,如果是,则输出到片外动态存储器,完成卷积神经网络的加速。
与现有技术相比,本发明的优点是:
本发明提供的一种负载均衡的稀疏卷积神经网络加速器及其加速方法,最大化地利用卷积运算数据的稀疏特性,可以在很少的存储资源条件下实现卷积运算的计算阵列高效率运算,保证输入激励和权重数据的高复用率,运算阵列的负载均衡和高利用率;同时计算阵列支持通过静态配置的方式实现不同尺寸不同规模的卷积运算,以及行列间和不同特征图间两个层面的并行调度,具有很好的适用性和扩展性。本发明的设计可以很好地满足目前在嵌入式系统下运行卷积神经网络的低功耗高能效比的需求。
附图说明
图1是负载均衡的稀疏卷积网络加速方法示意图。
图2是权重剪枝方式示意图。
图3是硬件加速器整体结构示意图。
图4是卷积运算映射方式示意图。
图5是PE组内卷积运算方式示意图。
图6是PE阵列负载均衡以及存储共享的实现示意图。
具体实施方式
下面结合附图对本发明方案进行详细说明。
如图1所示为负载均衡的稀疏卷积网络运算方法流程示意图,首先会对卷积神经网络模型权重数据进行剪枝,根据权重数据的规模参数对数据进行分组,然后在保证模型整体准确率的基础上对各组权重数据采取相同的剪枝方式进行稀疏化处理;然后根据卷积运算输入特征图和卷积核尺寸制定负载均衡的稀疏卷积运算映射方案,将稀疏化后的卷积神经网络映射到硬件加速器的卷积运算的PE(Process Element运算单元)阵列上;接着硬件加速器根据映射方案的配置信息重构PE阵列和存储阵列,保证卷积运算的流水进行;加速器的主控制器会控制完成权重数据和激励数据的分发,PE阵列进行运算,输出卷积部分和结果;线性修正单元对部分和结果进行累加并线性修正,即完成加偏置和激活函数操作;池化单元依据当前卷积层池化需求进行相应池化核尺寸和步长的池化操作,包括选择最大值池化还是平均值池化;最后会判断当前卷积层操作是否为最后一层,如果不是,则进行在线编码,将编码后的激励结果送往下一层卷积,如果是,则输出到片外存储,完成整个卷积加速。
负载均衡的稀疏卷积运算映射方案包括卷积运算映射方式、PE阵列分组方案、输入特征图片和权重数据的分发复用方式、以及PE阵列运算并行调度机制。
卷积运算映射方式:将输入特征图片按照行(列)维度展成一个矩阵,将权重数据按照输出通道维度展开成一个向量,从而把卷积运算转化成矩阵向量乘运算,通过设计的稀疏矩阵向量乘运算单元可以很好地跳过输入特征图片和权重数据中的零值,保证整体运算的高效率。
PE阵列分组方案:按照每层卷积运算的尺寸参数信息由主控制器静态配置完成分组运算,PE个数大于三维卷积核总个数时,一组会计算所有输出特征图通道,在此基础上,剩余PE按相同个数分组,负责计算输出特征图的不同行;PE个数小于三维卷积核总个数时,一组计算输出特征图通道数的最大约数,这样分组的原则在于保证各个PE运算速度匹配,PE阵列闲置率低。
输入特征图片和权重数据的分发复用方式:整个PE阵列由一块共享的片上存储器同步分发相同的激励数据作为运算所需的矩阵,由数据分发模块根据分块运算的控制信息分发每个PE所需的权重数据作为运算所需的向量,输入特征图片的复用主要在于不同PE的同时使用,权重数据的复用主要在于不同组间权重的复用和同一个PE更换矩阵后权重数据无需分发的再次利用。
PE阵列运算并行调度机制:PE阵列在运算时需要根据卷积层输出特征图片的尺寸信息确定不同分组是完成同一输出特征图片不同行(列)的输出,还是完成不同输出特征图片的运算。这样保证了PE阵列可以在两个层面上进行并行调度,一是单一特征图片的层内并行,二是不同特征图片的同步并行。
本实施例的一种负载均衡的稀疏卷积神经网络加速方案包含软件和硬件两个部分,如图2所示,图中为软件部分剪枝策略示意图。剪枝策略描述如下:对于初始的密集神经网络连接,会根据网络的连接数和神经元数对其进行分组,各个分组剪枝方式和位置相同,也就是说每个卷积核组的神经元和连接方式一样,只是连接的权重数据不同。以输入特征图为W*W*C为例,(W为特征图宽高尺寸,C为输入通道数),其卷积核尺寸为R*R*C*N,(R为卷积核的宽和高尺寸,C为卷积核通道数,N为卷积核个数,也即输出通道数),剪枝的时候会先把R*R*C的卷积核归为一个卷积核组,共计N个,对每个卷积核而言,它们中零元素的位置相同;如果剪枝后准确率达不到模型要求,会调整卷积核组大小,取R*R*C*N1(N1为N的约数)进行剪枝。
如图3所示为硬件部分的稀疏卷积神经网络加速器结构示意图。整体结构主要包含了:主控制器,从上位机CPU接收指令开始卷积运算,用于生成控制卷积运算的控制信号流和数据流;数据分发模块,根据卷积运算的分块方案对PE进行权重数据分发;卷积运算的PE(Process Element运算单元)阵列,根据主控制器的配置信息进行分组完成稀疏卷积的乘加运算操作,输出卷积结果或部分和结果;输出结果缓存模块,对PE的部分和结果进行累加缓存,整理成统一格式后送往后续单元进行操作;线性激活函数单元,完成卷积运算结果的加偏置和激活函数操作;池化单元,完成结果的最大值池化操作;在线编码单元,对中间结果进行在线CSR(压缩稀疏行存储)编码,以保证输出的结果满足后续卷积层运算的数据格式要求;片外动态存储器DDR4,用于存储原始图像数据,层间中间结果和卷积层最终输出结果。
数据分发模块包括取数地址计算单元、片上可配置的片上存储器存储单元和数据格式缓存转换的FIFO组。数据分发模块会根据接收到的主控制器发来的配置信息,由取数地址计算单元完成对片外动态存储器DDR4的取数操作,取出来的数据经由AXI4接口缓存到片上权重的片上存储器存储单元,并进一步进行格式转换,分发缓存到对应的FIFO中,等待运算发送数据。
卷积运算的PE阵列包括多个矩阵向量乘计算单元,可以根据静态配置信息的要求,完成特征图片的层内或层间并行卷积操作,输出卷积运算的部分和结果。同时多个PE单元的存储是公用的片上存储器,鉴于剪枝策略和硬件架构的设计,多个PE可以在使用很少存储资源的条件下,达到计算稀疏卷积过程中跳零加速计算以及不同PE运算速度匹配。
矩阵向量乘计算单元包括流水控制器模块、权重非零检测模块、指针控制模块、激励解压模块、乘加运算单元模块和公用片上存储器存储。权重非零检测模块会把数据分发模块发送的权重数据进行非零检测,只传输非零值和其对应的位置信息到PE单元;指针控制模块和激励解压模块会根据对应的非零权重值,从公用的片上存储器中取出非零权重值对应的运算所需的激励值,同时发送到各个PE单元以备运算;乘加运算单元主要负责矩阵向量乘中的乘法和加法计算。
如图4所示为卷积运算映射方式示意图,以输入特征图为W*W*C为例,(W为特征图宽高尺寸,C为输入通道数),其卷积核尺寸为R*R*C*N,(R为卷积核的宽和高尺寸,C为卷积核通道数,N为卷积核个数,也即输出通道数),F为输出特征图尺寸;首先由N大小确定每个PE组中PE单元的个数Num_PE,如果PE总个数大于N,即可让Num_PE等于N,每个组一批运算可以直接得出输出特征图所有通道的结果,否则就让Num_PE为N的约数M,整数批运算输出特征图部分通道的结果,保证某些PE不会被闲置;PE的组数Group_PE由PE总个数和Num_PE确定,如果一组已经可以完成所有输出通道的运算,则不同的组负责输出特征图的不同行,即如图中PE组2运算分工所示。
对于一层完整的卷积运算,一个PE组由Num_PE个PE单元(即矩阵向量乘单元)构成,每个矩阵向量乘单元负责输出特征图的一个通道的若干行,其中第一次运算会输出若干行的第一列,具体行数由矩阵向量乘的矩阵规模决定,矩阵向量乘中矩阵对应的是存储在共享的本地存储片上存储器中的激励数据,向量对应的是由数据分发模块发送的权重数据;对于其他PE组而言,其运算内容可以是输出特征图的后续行,即如图3所示的那样,也可以是其他输入特征图的卷积运算,即可以满足层内行列并行和不同特征图并行两种不同的并行运算模式。
如图5所示为PE组内卷积运算方式示意图,以不同的数值表示输入特征图和不同卷积核上不同位置的值,示例所取的矩阵向量乘规模是2*12的矩阵和12*1的向量,所以PE每次运算输出结果为2*1的向量,PE1在第一次运算时向量对应的是卷积核1的三个通道12*1,矩阵对应的是激励图像中(1,2,4,5)和(2,3,5,6)对应位置的三个通道,在进行乘加运算后输出结果即为输出特征图第一个通道第一列的前两行,后续矩阵会先更新,即取(4,5,7,8)和(5,6,8,9)位置的激励值,输出结果为输出特征图第一个通道第二列的前两行;在输出对应行的所有列数据后,向量对应的权重数据会进行更新,即后续会输出第三个通道的输出结果。而PE2对应的就是在计算输出特征图的第二个通道,权重数据更新后,变为计算输出的第四个通道。
如图6所示为PE阵列负载均衡以及存储共享的实现示意图,PE阵列的共享片上存储器存储着按照CSR(压缩稀疏行存储)格式存储的输入激励的非零值以及它们的索引和指针,根据数据分发模块发送的权重向量非零值的位置取出对应的激励进行乘加运算,由于PE组内所有的权重向量根据软件剪枝策略其非零元素的位置是相同的,所以每个PE所需要的对应激励值也是相同的,只需要很少的存储器保存一份激励值,并解码同时发送给PE即可满足PE阵列的矩阵要求。而对于所有PE而言,其进行矩阵向量乘运算中矩阵和向量的非零值位置完全相同,故PE阵列计算速度相匹配,达到运算阵列低存储负载均衡的设计目的。与此同时,不同的PE组还可以共享分发的权重数据,实现激励和权重的高复用率。
综上说述,利用本发明实施例提出的对于稀疏卷积神经网络的加速方法,可以有效地节省存储硬件资源,提高输入特征图和权重的复用率,并且能够实现PE阵列的负载均衡,对PE阵列进行静态配置可以满足不同并行运算要求,保证PE阵列的高利用率,以提高整体系统的数据吞吐率,达到很高的能效比,适用于低功耗的嵌入式系统。

Claims (8)

1.一种负载均衡的稀疏卷积神经网络加速器,其特征在于,包括:
主控制器,用于控制卷积运算的控制信号流和数据流,对数据进行处理和保存;
数据分发模块,根据卷积运算的分块方案对计算阵列进行权重数据分发;
卷积运算的计算阵列,用于完成稀疏卷积的乘加运算操作,输出部分和的结果;
输出结果缓存模块,用于对计算阵列的部分和的结果进行累加缓存,并整理成统一格式,输出待激活处理和池化的特征图结果;
线性激活函数单元,用于对累加完成的部分和结果的加偏置和激活函数操作;
池化单元,用于对经激活函数处理后的结果的池化操作;
在线编码单元,用于对仍需进行后续卷积层运算的激励值进行在线编码;
片外动态存储器,用于存储原始图像数据、计算阵列运算的中间结果和最终输出的特征图。
2.根据权利要求1所述的一种负载均衡的稀疏卷积神经网络加速器,其特征在于,所述卷积运算的计算阵列包括矩阵向量乘计算单元,所述矩阵向量乘计算单元包括流水控制器模块、权重非零检测模块、指针控制模块、激励解压模块、乘加运算单元模块和公用片上存储器;所述权重非零检测模块用于对数据分发模块发送的权重数据进行非零检测,并只传输非零值和其对应的位置信息到计算单元;所述指针控制模块和激励解压模块用于根据对应的非零权重值从公用片上存储器中取出非零权重值对应的运算所需的激励值,同时发送到各个计算单元;所述乘加运算单元用于运算矩阵向量乘中的乘法和加法。
3.一种负载均衡的稀疏卷积神经网络加速器的加速方法,其特征在于,包括以下步骤:
1)对卷积神经网络模型权重数据进行剪枝,根据权重数据的规模参数对数据进行分组,然后在保证模型整体准确率的基础上对各组权重数据采取相同的剪枝方式进行稀疏化处理;
2)制定负载均衡的稀疏卷积运算映射方案,将稀疏化后的卷积神经网络映射到加速器的卷积运算的计算阵列上;
3)加速器根据映射方案的配置信息重构计算阵列和存储阵列,保证卷积运算的流水进行;
4)主控制器控制数据分发模块完成权重数据和激励数据的分发,计算阵列进行运算,输出卷积部分和结果;
5)对所述卷积部分和结果进行累加并线性修正,即完成加偏置和激活函数操作;
6)依据当前卷积层池化需求进行相应池化核尺寸和步长的池化操作;
7)判断当前卷积层操作是否为最后一层,如果不是,则进行在线编码,将编码后的激励结果送往下一层卷积,如果是,则输出到片外动态存储器,完成卷积神经网络的加速。
4.根据权利要求3所述的一种负载均衡的稀疏卷积神经网络加速器的加速方法,其特征在于,所述步骤2)中,稀疏卷积运算映射方案包括卷积运算映射方式、计算阵列分组方案、输入特征图片和权重数据的分发复用方式、以及计算阵列运算并行调度机制。
5.根据权利要求4所述的一种负载均衡的稀疏卷积神经网络加速器的加速方法,其特征在于,所述卷积运算映射方式具体为:将输入特征图片按照行维度或列维度展成一个矩阵,将权重数据按照输出通道维度展开成一个向量,从而把卷积运算转化成矩阵向量乘运算。
6.根据权利要求4所述的一种负载均衡的稀疏卷积神经网络加速器的加速方法,其特征在于,所述计算阵列分组方案具体为:按照每层卷积运算的尺寸参数信息由主控制器静态配置完成分组运算,当计算单元个数大于三维卷积核总个数时,一组阵列用于计算所有输出特征图通道,在此基础上,剩余计算单元按相同个数分组,负责计算输出特征图的不同行;当计算单元个数小于三维卷积核总个数时,一组阵列用于计算输出特征图通道数的最大约数。
7.根据权利要求4所述的一种负载均衡的稀疏卷积神经网络加速器的加速方法,其特征在于,所述输入特征图片和权重数据的分发复用方式具体为:整个计算阵列由一块共享的片上存储器同步分发相同的激励数据作为运算所需的矩阵,由数据分发模块根据分块运算的控制信息分发每个计算单元所需的权重数据作为运算所需的向量。
8.根据权利要求4所述的一种负载均衡的稀疏卷积神经网络加速器的加速方法,其特征在于,所述计算阵列运算并行调度机制具体为:计算阵列在运算时需要根据卷积层输出特征图片的尺寸信息确定不同分组是完成同一输出特征图片不同行或不同列的输出,还是完成不同输出特征图片的运算。
CN201910259591.7A 2019-04-02 2019-04-02 一种负载均衡的稀疏卷积神经网络加速器及其加速方法 Pending CN109993297A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910259591.7A CN109993297A (zh) 2019-04-02 2019-04-02 一种负载均衡的稀疏卷积神经网络加速器及其加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910259591.7A CN109993297A (zh) 2019-04-02 2019-04-02 一种负载均衡的稀疏卷积神经网络加速器及其加速方法

Publications (1)

Publication Number Publication Date
CN109993297A true CN109993297A (zh) 2019-07-09

Family

ID=67132262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910259591.7A Pending CN109993297A (zh) 2019-04-02 2019-04-02 一种负载均衡的稀疏卷积神经网络加速器及其加速方法

Country Status (1)

Country Link
CN (1) CN109993297A (zh)

Cited By (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516801A (zh) * 2019-08-05 2019-11-29 西安交通大学 一种高吞吐率的动态可重构卷积神经网络加速器架构
CN110543900A (zh) * 2019-08-21 2019-12-06 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110738310A (zh) * 2019-10-08 2020-01-31 清华大学 一种稀疏神经网络加速器及其实现方法
CN110807513A (zh) * 2019-10-23 2020-02-18 中国人民解放军国防科技大学 一种基于Winograd稀疏算法的卷积神经网络加速器
CN110852422A (zh) * 2019-11-12 2020-02-28 吉林大学 基于脉冲阵列的卷积神经网络优化方法及装置
CN110991631A (zh) * 2019-11-28 2020-04-10 福州大学 一种基于fpga的神经网络加速系统
CN111047010A (zh) * 2019-11-25 2020-04-21 天津大学 降低cnn加速器首层卷积计算延时的方法及装置
CN111047008A (zh) * 2019-11-12 2020-04-21 天津大学 一种卷积神经网络加速器及加速方法
CN111062472A (zh) * 2019-12-11 2020-04-24 浙江大学 一种基于结构化剪枝的稀疏神经网络加速器及其加速方法
CN111079919A (zh) * 2019-11-21 2020-04-28 清华大学 支持权重稀疏的存内计算架构及其数据输出方法
CN111178508A (zh) * 2019-12-27 2020-05-19 珠海亿智电子科技有限公司 用于执行卷积神经网络中全连接层的运算装置及方法
CN111199277A (zh) * 2020-01-10 2020-05-26 中山大学 一种卷积神经网络加速器
CN111240743A (zh) * 2020-01-03 2020-06-05 上海兆芯集成电路有限公司 人工智能集成电路
CN111368988A (zh) * 2020-02-28 2020-07-03 北京航空航天大学 一种利用稀疏性的深度学习训练硬件加速器
CN111401554A (zh) * 2020-03-12 2020-07-10 交叉信息核心技术研究院(西安)有限公司 支持多粒度稀疏与多模式量化的卷积神经网络的加速器
CN111401532A (zh) * 2020-04-28 2020-07-10 南京宁麒智能计算芯片研究院有限公司 一种卷积神经网络推理加速器及加速方法
CN111415004A (zh) * 2020-03-17 2020-07-14 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111445012A (zh) * 2020-04-28 2020-07-24 南京大学 一种基于fpga的分组卷积硬件加速器及其方法
CN111445013A (zh) * 2020-04-28 2020-07-24 南京大学 一种针对卷积神经网络的非零探测器及其方法
CN111667051A (zh) * 2020-05-27 2020-09-15 上海赛昉科技有限公司 适用边缘设备的神经网络加速器及神经网络加速计算方法
CN111667052A (zh) * 2020-05-27 2020-09-15 上海赛昉科技有限公司 专用神经网络加速器的标准与非标准卷积一致性变换方法
CN111738433A (zh) * 2020-05-22 2020-10-02 华南理工大学 一种可重配置的卷积硬件加速器
CN111782356A (zh) * 2020-06-03 2020-10-16 上海交通大学 权重稀疏神经网络芯片的数据流方法及系统
CN111882028A (zh) * 2020-06-08 2020-11-03 北京大学深圳研究生院 用于卷积神经网络的卷积运算装置
CN111914999A (zh) * 2020-07-30 2020-11-10 云知声智能科技股份有限公司 一种减小神经网络加速器计算带宽的方法和设备
CN111967587A (zh) * 2020-07-27 2020-11-20 复旦大学 一种面向神经网络处理的运算单元阵列结构
CN112052941A (zh) * 2020-09-10 2020-12-08 南京大学 一种应用于cnn网络卷积层的高效存算系统及其运算方法
CN112418417A (zh) * 2020-09-24 2021-02-26 北京计算机技术及应用研究所 基于simd技术的卷积神经网络加速装置及方法
CN112506436A (zh) * 2020-12-11 2021-03-16 西北工业大学 用于卷积神经网络加速器的高效率数据动态存储分配方法
CN112766453A (zh) * 2019-10-21 2021-05-07 华为技术有限公司 一种数据处理装置及数据处理方法
CN112836803A (zh) * 2021-02-04 2021-05-25 珠海亿智电子科技有限公司 一种提高卷积运算效率的数据摆放方法
CN112989270A (zh) * 2021-04-27 2021-06-18 南京风兴科技有限公司 一种基于混合并行的卷积计算装置
CN113077047A (zh) * 2021-04-08 2021-07-06 华南理工大学 一种基于特征图稀疏性的卷积神经网络加速器
CN113128688A (zh) * 2021-04-14 2021-07-16 北京航空航天大学 通用型ai并行推理加速结构以及推理设备
CN113159302A (zh) * 2020-12-15 2021-07-23 浙江大学 一种用于可重构神经网络处理器的路由结构
CN113191493A (zh) * 2021-04-27 2021-07-30 北京工业大学 一种基于fpga并行度自适应的卷积神经网络加速器
CN113313251A (zh) * 2021-05-13 2021-08-27 中国科学院计算技术研究所 一种基于数据流架构的深度可分离卷积融合方法及系统
CN113435570A (zh) * 2021-05-07 2021-09-24 西安电子科技大学 可编程卷积神经网络处理器、方法、设备、介质、终端
CN113486200A (zh) * 2021-07-12 2021-10-08 北京大学深圳研究生院 一种稀疏神经网络的数据处理方法、处理器和系统
CN113496274A (zh) * 2020-03-20 2021-10-12 郑桂忠 基于存储器内运算电路架构的量化方法及其系统
CN113591025A (zh) * 2021-08-03 2021-11-02 深圳思谋信息科技有限公司 特征图的处理方法、装置、卷积神经网络加速器和介质
CN113705784A (zh) * 2021-08-20 2021-11-26 江南大学 一种基于矩阵共享的神经网络权重编码方法及硬件系统
CN113705794A (zh) * 2021-09-08 2021-11-26 上海交通大学 一种基于动态激活位稀疏的神经网络加速器设计方法
CN113791754A (zh) * 2021-09-10 2021-12-14 中科寒武纪科技股份有限公司 运算电路、芯片和板卡
CN113902097A (zh) * 2021-09-30 2022-01-07 南京大学 针对稀疏化cnn神经网络模型的游程编码加速器及方法
CN113946538A (zh) * 2021-09-23 2022-01-18 南京大学 一种基于行缓存机制的卷积层融合存储装置及方法
CN114065927A (zh) * 2021-11-22 2022-02-18 中国工程物理研究院电子工程研究所 一种硬件加速器的激励数据分块处理方法及硬件加速器
CN114092708A (zh) * 2021-11-12 2022-02-25 北京百度网讯科技有限公司 特征图像的处理方法、装置和存储介质
CN114595813A (zh) * 2022-02-14 2022-06-07 清华大学 异构加速处理器及数据计算方法
EP4007971A1 (en) * 2019-09-25 2022-06-08 DeepMind Technologies Limited Fast sparse neural networks
WO2022134465A1 (zh) * 2020-12-24 2022-06-30 北京清微智能科技有限公司 加速可重构处理器运行的稀疏化数据处理方法和装置
CN114723029A (zh) * 2022-05-05 2022-07-08 中山大学 一种基于混合多行数据流策略的dcnn加速器
CN114780910A (zh) * 2022-06-16 2022-07-22 千芯半导体科技(北京)有限公司 用于稀疏化卷积计算的硬件系统和计算方法
CN114912596A (zh) * 2022-05-13 2022-08-16 上海交通大学 面向稀疏卷积神经网络的多chiplet系统及其方法
CN115145839A (zh) * 2021-03-31 2022-10-04 广东高云半导体科技股份有限公司 一种深度卷积加速器及其实现加速深度卷积的方法
CN115529475A (zh) * 2021-12-29 2022-12-27 北京智美互联科技有限公司 视频流量内容检测与风控的方法和系统
CN115879530A (zh) * 2023-03-02 2023-03-31 湖北大学 一种面向rram存内计算系统阵列结构优化的方法
CN116029332A (zh) * 2023-02-22 2023-04-28 南京大学 一种基于lstm网络的片上微调方法及装置
CN116261736A (zh) * 2020-06-12 2023-06-13 墨芯国际有限公司 用于双稀疏卷积处理和并行化的方法和系统
CN117290279A (zh) * 2023-11-24 2023-12-26 深存科技(无锡)有限公司 基于共享紧耦合的通用型计算加速器
CN118070855A (zh) * 2024-04-18 2024-05-24 南京邮电大学 一种基于risc-v架构的卷积神经网络加速器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229967A (zh) * 2016-08-22 2017-10-03 北京深鉴智能科技有限公司 一种基于fpga实现稀疏化gru神经网络的硬件加速器及方法
CN107239824A (zh) * 2016-12-05 2017-10-10 北京深鉴智能科技有限公司 用于实现稀疏卷积神经网络加速器的装置和方法
CN108932548A (zh) * 2018-05-22 2018-12-04 中国科学技术大学苏州研究院 一种基于fpga的稀疏度神经网络加速系统
CN109472350A (zh) * 2018-10-30 2019-03-15 南京大学 一种基于块循环稀疏矩阵的神经网络加速系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229967A (zh) * 2016-08-22 2017-10-03 北京深鉴智能科技有限公司 一种基于fpga实现稀疏化gru神经网络的硬件加速器及方法
CN107239824A (zh) * 2016-12-05 2017-10-10 北京深鉴智能科技有限公司 用于实现稀疏卷积神经网络加速器的装置和方法
CN108932548A (zh) * 2018-05-22 2018-12-04 中国科学技术大学苏州研究院 一种基于fpga的稀疏度神经网络加速系统
CN109472350A (zh) * 2018-10-30 2019-03-15 南京大学 一种基于块循环稀疏矩阵的神经网络加速系统

Cited By (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516801A (zh) * 2019-08-05 2019-11-29 西安交通大学 一种高吞吐率的动态可重构卷积神经网络加速器架构
CN110516801B (zh) * 2019-08-05 2022-04-22 西安交通大学 一种高吞吐率的动态可重构卷积神经网络加速器
CN110543900A (zh) * 2019-08-21 2019-12-06 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
EP4007971A1 (en) * 2019-09-25 2022-06-08 DeepMind Technologies Limited Fast sparse neural networks
CN110738310A (zh) * 2019-10-08 2020-01-31 清华大学 一种稀疏神经网络加速器及其实现方法
CN110738310B (zh) * 2019-10-08 2022-02-01 清华大学 一种稀疏神经网络加速器及其实现方法
CN112766453A (zh) * 2019-10-21 2021-05-07 华为技术有限公司 一种数据处理装置及数据处理方法
CN110807513A (zh) * 2019-10-23 2020-02-18 中国人民解放军国防科技大学 一种基于Winograd稀疏算法的卷积神经网络加速器
CN111047008B (zh) * 2019-11-12 2023-08-01 天津大学 一种卷积神经网络加速器及加速方法
CN110852422A (zh) * 2019-11-12 2020-02-28 吉林大学 基于脉冲阵列的卷积神经网络优化方法及装置
CN111047008A (zh) * 2019-11-12 2020-04-21 天津大学 一种卷积神经网络加速器及加速方法
CN111079919A (zh) * 2019-11-21 2020-04-28 清华大学 支持权重稀疏的存内计算架构及其数据输出方法
CN111079919B (zh) * 2019-11-21 2022-05-20 清华大学 支持权重稀疏的存内计算架构及其数据输出方法
CN111047010A (zh) * 2019-11-25 2020-04-21 天津大学 降低cnn加速器首层卷积计算延时的方法及装置
CN110991631A (zh) * 2019-11-28 2020-04-10 福州大学 一种基于fpga的神经网络加速系统
CN111062472A (zh) * 2019-12-11 2020-04-24 浙江大学 一种基于结构化剪枝的稀疏神经网络加速器及其加速方法
CN111178508B (zh) * 2019-12-27 2024-04-05 珠海亿智电子科技有限公司 用于执行卷积神经网络中全连接层的运算装置及方法
CN111178508A (zh) * 2019-12-27 2020-05-19 珠海亿智电子科技有限公司 用于执行卷积神经网络中全连接层的运算装置及方法
CN111240743A (zh) * 2020-01-03 2020-06-05 上海兆芯集成电路有限公司 人工智能集成电路
CN111240743B (zh) * 2020-01-03 2022-06-03 格兰菲智能科技有限公司 人工智能集成电路
CN111199277B (zh) * 2020-01-10 2023-05-23 中山大学 一种卷积神经网络加速器
CN111199277A (zh) * 2020-01-10 2020-05-26 中山大学 一种卷积神经网络加速器
CN111368988B (zh) * 2020-02-28 2022-12-20 北京航空航天大学 一种利用稀疏性的深度学习训练硬件加速器
CN111368988A (zh) * 2020-02-28 2020-07-03 北京航空航天大学 一种利用稀疏性的深度学习训练硬件加速器
CN111401554A (zh) * 2020-03-12 2020-07-10 交叉信息核心技术研究院(西安)有限公司 支持多粒度稀疏与多模式量化的卷积神经网络的加速器
CN111401554B (zh) * 2020-03-12 2023-03-24 交叉信息核心技术研究院(西安)有限公司 支持多粒度稀疏与多模式量化的卷积神经网络的加速器
CN111415004A (zh) * 2020-03-17 2020-07-14 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111415004B (zh) * 2020-03-17 2023-11-03 阿波罗智联(北京)科技有限公司 用于输出信息的方法和装置
CN113496274A (zh) * 2020-03-20 2021-10-12 郑桂忠 基于存储器内运算电路架构的量化方法及其系统
CN111401532A (zh) * 2020-04-28 2020-07-10 南京宁麒智能计算芯片研究院有限公司 一种卷积神经网络推理加速器及加速方法
CN111445013A (zh) * 2020-04-28 2020-07-24 南京大学 一种针对卷积神经网络的非零探测器及其方法
CN111445012A (zh) * 2020-04-28 2020-07-24 南京大学 一种基于fpga的分组卷积硬件加速器及其方法
CN111738433A (zh) * 2020-05-22 2020-10-02 华南理工大学 一种可重配置的卷积硬件加速器
CN111738433B (zh) * 2020-05-22 2023-09-26 华南理工大学 一种可重配置的卷积硬件加速器
CN111667052A (zh) * 2020-05-27 2020-09-15 上海赛昉科技有限公司 专用神经网络加速器的标准与非标准卷积一致性变换方法
CN111667052B (zh) * 2020-05-27 2023-04-25 上海赛昉科技有限公司 专用神经网络加速器的标准与非标准卷积一致性变换方法
CN111667051A (zh) * 2020-05-27 2020-09-15 上海赛昉科技有限公司 适用边缘设备的神经网络加速器及神经网络加速计算方法
CN111782356A (zh) * 2020-06-03 2020-10-16 上海交通大学 权重稀疏神经网络芯片的数据流方法及系统
CN111782356B (zh) * 2020-06-03 2022-04-08 上海交通大学 权重稀疏神经网络芯片的数据流方法及系统
CN111882028A (zh) * 2020-06-08 2020-11-03 北京大学深圳研究生院 用于卷积神经网络的卷积运算装置
CN116261736A (zh) * 2020-06-12 2023-06-13 墨芯国际有限公司 用于双稀疏卷积处理和并行化的方法和系统
CN111967587B (zh) * 2020-07-27 2024-03-29 复旦大学 一种构建面向神经网络处理的运算单元阵列结构的方法
CN111967587A (zh) * 2020-07-27 2020-11-20 复旦大学 一种面向神经网络处理的运算单元阵列结构
CN111914999B (zh) * 2020-07-30 2024-04-19 云知声智能科技股份有限公司 一种减小神经网络加速器计算带宽的方法和设备
CN111914999A (zh) * 2020-07-30 2020-11-10 云知声智能科技股份有限公司 一种减小神经网络加速器计算带宽的方法和设备
CN112052941B (zh) * 2020-09-10 2024-02-20 南京大学 一种应用于cnn网络卷积层的高效存算系统及其运算方法
CN112052941A (zh) * 2020-09-10 2020-12-08 南京大学 一种应用于cnn网络卷积层的高效存算系统及其运算方法
CN112418417A (zh) * 2020-09-24 2021-02-26 北京计算机技术及应用研究所 基于simd技术的卷积神经网络加速装置及方法
CN112418417B (zh) * 2020-09-24 2024-02-27 北京计算机技术及应用研究所 基于simd技术的卷积神经网络加速装置及方法
CN112506436A (zh) * 2020-12-11 2021-03-16 西北工业大学 用于卷积神经网络加速器的高效率数据动态存储分配方法
CN112506436B (zh) * 2020-12-11 2023-01-31 西北工业大学 用于卷积神经网络加速器的高效率数据动态存储分配方法
CN113159302A (zh) * 2020-12-15 2021-07-23 浙江大学 一种用于可重构神经网络处理器的路由结构
WO2022134465A1 (zh) * 2020-12-24 2022-06-30 北京清微智能科技有限公司 加速可重构处理器运行的稀疏化数据处理方法和装置
CN112836803A (zh) * 2021-02-04 2021-05-25 珠海亿智电子科技有限公司 一种提高卷积运算效率的数据摆放方法
CN115145839B (zh) * 2021-03-31 2024-05-14 广东高云半导体科技股份有限公司 一种深度卷积加速器及其实现加速深度卷积的方法
CN115145839A (zh) * 2021-03-31 2022-10-04 广东高云半导体科技股份有限公司 一种深度卷积加速器及其实现加速深度卷积的方法
CN113077047B (zh) * 2021-04-08 2023-08-22 华南理工大学 一种基于特征图稀疏性的卷积神经网络加速器
CN113077047A (zh) * 2021-04-08 2021-07-06 华南理工大学 一种基于特征图稀疏性的卷积神经网络加速器
CN113128688A (zh) * 2021-04-14 2021-07-16 北京航空航天大学 通用型ai并行推理加速结构以及推理设备
CN113128688B (zh) * 2021-04-14 2022-10-21 北京航空航天大学 通用型ai并行推理加速结构以及推理设备
CN112989270A (zh) * 2021-04-27 2021-06-18 南京风兴科技有限公司 一种基于混合并行的卷积计算装置
CN113191493A (zh) * 2021-04-27 2021-07-30 北京工业大学 一种基于fpga并行度自适应的卷积神经网络加速器
CN113191493B (zh) * 2021-04-27 2024-05-28 北京工业大学 一种基于fpga并行度自适应的卷积神经网络加速器
CN113435570A (zh) * 2021-05-07 2021-09-24 西安电子科技大学 可编程卷积神经网络处理器、方法、设备、介质、终端
CN113435570B (zh) * 2021-05-07 2024-05-31 西安电子科技大学 可编程卷积神经网络处理器、方法、设备、介质、终端
CN113313251A (zh) * 2021-05-13 2021-08-27 中国科学院计算技术研究所 一种基于数据流架构的深度可分离卷积融合方法及系统
CN113313251B (zh) * 2021-05-13 2023-05-23 中国科学院计算技术研究所 一种基于数据流架构的深度可分离卷积融合方法及系统
CN113486200A (zh) * 2021-07-12 2021-10-08 北京大学深圳研究生院 一种稀疏神经网络的数据处理方法、处理器和系统
CN113591025A (zh) * 2021-08-03 2021-11-02 深圳思谋信息科技有限公司 特征图的处理方法、装置、卷积神经网络加速器和介质
CN113705784A (zh) * 2021-08-20 2021-11-26 江南大学 一种基于矩阵共享的神经网络权重编码方法及硬件系统
CN113705794B (zh) * 2021-09-08 2023-09-01 上海交通大学 一种基于动态激活位稀疏的神经网络加速器设计方法
CN113705794A (zh) * 2021-09-08 2021-11-26 上海交通大学 一种基于动态激活位稀疏的神经网络加速器设计方法
CN113791754A (zh) * 2021-09-10 2021-12-14 中科寒武纪科技股份有限公司 运算电路、芯片和板卡
CN113946538A (zh) * 2021-09-23 2022-01-18 南京大学 一种基于行缓存机制的卷积层融合存储装置及方法
CN113946538B (zh) * 2021-09-23 2024-04-12 南京大学 一种基于行缓存机制的卷积层融合存储装置及方法
CN113902097A (zh) * 2021-09-30 2022-01-07 南京大学 针对稀疏化cnn神经网络模型的游程编码加速器及方法
CN114092708A (zh) * 2021-11-12 2022-02-25 北京百度网讯科技有限公司 特征图像的处理方法、装置和存储介质
CN114065927B (zh) * 2021-11-22 2023-05-05 中国工程物理研究院电子工程研究所 一种硬件加速器的激励数据分块处理方法及硬件加速器
CN114065927A (zh) * 2021-11-22 2022-02-18 中国工程物理研究院电子工程研究所 一种硬件加速器的激励数据分块处理方法及硬件加速器
CN115529475A (zh) * 2021-12-29 2022-12-27 北京智美互联科技有限公司 视频流量内容检测与风控的方法和系统
CN114595813B (zh) * 2022-02-14 2024-09-06 清华大学 异构加速处理器及数据计算方法
CN114595813A (zh) * 2022-02-14 2022-06-07 清华大学 异构加速处理器及数据计算方法
CN114723029A (zh) * 2022-05-05 2022-07-08 中山大学 一种基于混合多行数据流策略的dcnn加速器
CN114912596A (zh) * 2022-05-13 2022-08-16 上海交通大学 面向稀疏卷积神经网络的多chiplet系统及其方法
CN114780910A (zh) * 2022-06-16 2022-07-22 千芯半导体科技(北京)有限公司 用于稀疏化卷积计算的硬件系统和计算方法
CN116029332B (zh) * 2023-02-22 2023-08-22 南京大学 一种基于lstm网络的片上微调方法及装置
CN116029332A (zh) * 2023-02-22 2023-04-28 南京大学 一种基于lstm网络的片上微调方法及装置
CN115879530A (zh) * 2023-03-02 2023-03-31 湖北大学 一种面向rram存内计算系统阵列结构优化的方法
CN117290279B (zh) * 2023-11-24 2024-01-26 深存科技(无锡)有限公司 基于共享紧耦合的通用型计算加速器
CN117290279A (zh) * 2023-11-24 2023-12-26 深存科技(无锡)有限公司 基于共享紧耦合的通用型计算加速器
CN118070855A (zh) * 2024-04-18 2024-05-24 南京邮电大学 一种基于risc-v架构的卷积神经网络加速器

Similar Documents

Publication Publication Date Title
CN109993297A (zh) 一种负载均衡的稀疏卷积神经网络加速器及其加速方法
KR102120396B1 (ko) 심층 신경망용 가속기
CN207458128U (zh) 一种基于fpga在视觉应用中的卷积神经网络加速器
EP2122542B1 (en) Architecture, system and method for artificial neural network implementation
CN107301456B (zh) 基于向量处理器的深度神经网络多核加速实现方法
CN106875012B (zh) 一种基于fpga的深度卷积神经网络的流水化加速系统
Klöckner et al. Nodal discontinuous Galerkin methods on graphics processors
CN108416436A (zh) 使用多核心处理模块进行神经网络划分的方法及其系统
CN107239823A (zh) 一种用于实现稀疏神经网络的装置和方法
Kim et al. FPGA-based CNN inference accelerator synthesized from multi-threaded C software
CN110390384A (zh) 一种可配置的通用卷积神经网络加速器
CN107609641A (zh) 稀疏神经网络架构及其实现方法
JP2021521516A (ja) 演算を加速するための加速器及びシステム
CN108932548A (zh) 一种基于fpga的稀疏度神经网络加速系统
CN106228238A (zh) 现场可编程门阵列平台上加速深度学习算法的方法和系统
CN109978161A (zh) 一种通用的卷积-池化同步处理卷积核系统
CN109472356A (zh) 一种可重构神经网络算法的加速装置及方法
JP2019522850A (ja) ディープニューラルネットワーク用のアクセラレータ
CN108108809A (zh) 一种针对卷积神经元网络进行推理加速的硬件架构及其工作方法
CN107886167A (zh) 神经网络运算装置及方法
CN104572011A (zh) 基于fpga的通用矩阵定点乘法器及其计算方法
Kim et al. DeepTrain: A programmable embedded platform for training deep neural networks
KR20130090147A (ko) 신경망 컴퓨팅 장치 및 시스템과 그 방법
KR20200128356A (ko) 혼합-정밀도 앤피유 타일
Yazdani et al. LSTM-sharp: An adaptable, energy-efficient hardware accelerator for long short-term memory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190709