本技术涉及人工智能领域,尤指一种学习突触装置、方法、片上学习系统及模型训练方法。
背景技术:
1、人工神经网络是一种类似于大脑神经突触联接的结构,它是一种模仿动物神经网络行为特征,进行信息处理的数学模型进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。在众多机器学习的算法中,循环脉冲神经网络(recurrent spiking neuralnetwork,rsnn)尤其适用于处理大量的时序数据,并能通过事件触发的方式有效的节约资源消耗。rsnn循环层的体系结构可以提取有用的特征信息,并通过隐藏层保持时序状态,从而利用过去的信息影响当下的输出,同时由于rsnn模拟了生物神经网络的工作方式,使其在模拟复杂脑功能和实现更高级认知任务方面具有更大的潜力。现有的将rsnn实现硬件化的工作大多是基于cpu和gpu开展的,这样会导致很大的能耗开销,即遭遇所说的冯诺依曼瓶颈,所以急需寻找一种新型存储器件能模拟人脑,同时实现对信息的存储和处理。
2、循环神经网络(rnn)是一种处理序列数据的强大工具,广泛用于语音识别、语言建模、机器翻译等领域。其能够在其隐藏层保留先前状态的信息,从而有效处理序列数据。rnn的训练通常依赖于时序反向传播算法(back propagation through time,bptt)。bptt的核心思想是将时间序列展开成一系列时间步,每个步骤都相当于一个传统的前馈神经网络层。这允许算法在每个时间步上计算梯度,并通过网络反向传播这些梯度以更新权重,然而,bptt要求网络在整个序列上存储大量中间状态,这不仅在处理长序列时尤其成问题,因为它需要大量的内存和计算资源来进行资源密集的网络展开。还导致其计算复杂度和内存需求非常高。这种高计算负担限制了bptt在处理大规模数据或复杂网络结构时的可行性。因此,bptt一般只能离线处理,即其只能进行离线计算,对于资源有限或者对于信号响应性要求较高的环境中无法较好的部署。其次,这样的处理机制不具有较好的生物可解释性,在实际应用中,bptt很难捕捉长时间序列下的长期依赖关系,即存在时间信用分配问题(temporal credit assignment,tca)。而在rnn中引入脉冲神经元之后,特别是具有自适应阈值特性的神经元(adaptive lif)之后,虽然可以解决tca问题,但其bptt计算将变得更为复杂。
3、其次,在硬件实现上,使用cmos电路实现rsnn时,所需的资源和能耗较高。同时由于冯·诺伊曼架构的限制,cmos实现rsnn在数据传输和处理上存在延迟。数据需要在处理单元和存储单元之间频繁移动,这限制了网络的吞吐量和响应速度。
技术实现思路
1、本技术目的在于提供一种学习突触装置、方法、片上学习系统及模型训练方法,基于自旋转移矩磁随机存取存储器(spin-transfer torque magnetic random-accessmemory,stt-mram)实现了对权重的在线更新,并全面地模拟了神经网络中的信息处理和学习机制,并适用于处理复杂的时序数据和执行高级认知任务,并且通过利用这样的新型突触,可以在对功耗敏感的硬件平台上实现更高效和响应性更强的神经形态计算。
2、为达上述目的,本技术所提供的学习突触装置,具体包含:前突触模块、后突触模块和突触组件;所述前突触模块和所述后突触模块通过所述突触组件相连;所述前突触模块将接收到的输入信号转换为预设信号后通过所述突触组件传递至所述后突出模块处理和响应;其中,所述突触组件用于通过第一自旋转移矩磁随机存取存储器的电阻值随着两端施加电信号进行改变的多阶电阻调控特性,模拟和存储所述前突触模块和所述后突触模块之间神经元信息对应的资格迹;以及,通过所述资格迹调整第二自旋转移矩磁随机存取存储器的电阻值更新权重值。
3、在上述学习突触装置中,可选的,所述突触组件包含资格迹模块,所述资格迹模块用于通过第一自旋转移矩磁随机存取存储器的电阻值随着两端施加电信号进行改变的多阶电阻调控特性,模拟和存储所述前突触模块和所述后突触模块之间神经元信息对应的资格迹,并将所述资格迹对应的电阻值存储在自旋转移矩磁随机存取存储器的电阻单元。
4、在上述学习突触装置中,可选的,所述突触组件包含权重模块,所述权重模块与所述资格迹模块相连,用于通过所述资格迹的值调整第二自旋转移矩磁随机存取存储器的电阻值更新突触权重值。
5、在上述学习突触装置中,可选的,所述突触组件包含耦合模块,所述耦合模块设置于所述权重模块与所述资格迹模块之间,用于控制所述权重模块与所述资格迹模块解耦和耦合;其中,所述耦合模块在将所述权重模块与所述资格迹模块解耦时,由所述前突触模块将预设信号分别传入所述权重模块和所述资格迹模块,由所述权重模块和所述资格迹模块分别完成预设信号经过权重值加成后的信号传递和资格迹的计算;以及,在将所述权重模块与所述资格迹模块耦合时,由所述权重模块通过所述资格迹调整第二自旋转移矩磁随机存取存储器的电阻值更新权重值。
6、在上述学习突触装置中,可选的,所述耦合模块包含温度编码模块和分压模块。
7、在上述学习突触装置中,可选的,所述预设信号包含脉冲信号或激活信号。
8、本技术还提供一种包含所述的学习突触装置的控制方法,所述方法包含:所述前突触模块将接收到的输入信号转换为脉冲信号或激活信号后提供至所述权重模块,由所述权重模块根据接收到的脉冲信号或激活信号和第一自旋转移矩磁随机存取存储器的电阻值对应的权重在所述后突触模块中完成积分,并计算所述资格迹模块中第一自旋转移矩磁随机存取存储器的电阻值获得资格迹;通过所述耦合模块将所述权重模块和所述资格迹模块耦合,使所述权重模块和所述资格迹模块在串联分压的作用下,所述第二自旋转移矩磁随机存取存储器的电阻值随所述资格迹调整完成权重值更新。
9、本技术还提供一种包含所述的学习突触装置的片上学习系统,所述片上学习系统包含多个学习突触装置组成的阵列结构。
10、本技术还提供一种适用于所述的学习突触装置的模型训练方法,所述方法包含:通过所述学习突触装置构建人工神经元模型或网络模型。
11、在上述模型训练方法中,可选的,所述人工神经元模型包含lif模型和alif模型;所述网络模型包含循环脉冲神经网络模型和长短记忆网络模型。
12、本技术的有益技术效果在于:基于stt-mram的neohebbian突触,通过前突触模块,后突触模块来捕捉前后突触对当前突触权重值的影响,并通过stt-mram器件的电阻随着两端施加电信号进行改变的多阶电阻调控特性来模拟和存储资格迹的值。通过解耦模块能有效的根据资格迹的值来调控权重的值,以在线的更新权重。本发明通过使用两个stt-mram器件和耦合模块来实现一个neohebbian突触,利用磁存储器的阻值变换来表示权重值。结合了脉冲神经元的特点,克服了传统bptt资源消耗大,不能在线学习,生物可解释性低的缺点。本发明采用耦合解耦的方式高效地实现突触间权重的更新,可以很大程度提高整个系统的运算速度,并大幅降低运行能耗,实现信息存储和计算的融合和循环脉冲神经网络的片上学习,有望实现对大脑规模神经网络的实时与低能耗模拟,解决传统冯诺依曼体系架构的大脑计算结构的缺点。
1.一种学习突触装置,其特征在于,所述装置包含:前突触模块、后突触模块和突触组件;
2.根据权利要求1所述的学习突触装置,其特征在于,所述突触组件包含资格迹模块,所述资格迹模块用于通过第一自旋转移矩磁随机存取存储器的电阻值随着两端施加电信号进行改变的多阶电阻调控特性,模拟和存储所述前突触模块和所述后突触模块之间神经元信息对应的资格迹,并将所述资格迹对应的电阻值存储在自旋转移矩磁随机存取存储器的电阻单元。
3.根据权利要求2所述的学习突触装置,其特征在于,所述突触组件包含权重模块,所述权重模块与所述资格迹模块相连,用于通过所述资格迹的值调整第二自旋转移矩磁随机存取存储器的电阻值更新突触权重值。
4.根据权利要求3所述的学习突触装置,其特征在于,所述突触组件包含耦合模块,所述耦合模块设置于所述权重模块与所述资格迹模块之间,用于控制所述权重模块与所述资格迹模块解耦和耦合;
5.根据权利要求1所述的学习突触装置,其特征在于,所述耦合模块包含温度编码模块和分压模块。
6.根据权利要求1至5中任一项所述的学习突触装置,其特征在于,所述预设信号包含脉冲信号或激活信号。
7.一种包含权利要求4所述的学习突触装置的控制方法,其特征在于,所述方法包含:
8.一种包含权利要求1至5中任一项所述的学习突触装置的片上学习系统,其特征在于,所述片上学习系统包含多个学习突触装置组成的阵列结构。
9.一种适用于权利要求1至5中任一项所述的学习突触装置的模型训练方法,其特征在于,所述方法包含:
10.根据权利要求9所述的模型训练方法,其特征在于,所述人工神经元模型包含lif模型和alif模型;所述网络模型包含循环脉冲神经网络模型和长短记忆网络模型。