一种基于U型脉冲网络的图像曝光矫正方法

allin2025-03-14  50


本发明涉及图像矫正,尤其涉及一种基于u型脉冲网络的图像曝光矫正方法。


背景技术:

1、自动驾驶技术的核心之一是使车辆能够通过其传感器独立理解周围环境,并做出安全有效的驾驶决策。在这些传感器中,视觉系统(如摄像头)扮演了至关重要的角色,它们为车辆提供了丰富的环境信息,包括道路标志、行人、其他车辆以及道路条件等。然而,这些视觉系统的性能极大依赖于光照条件,尤其是在光照强度变化剧烈的情况下,如车辆进出隧道时。

2、隧道入口和出口处的光照条件变化极其迅速,从强光到暗光或反之,这种急剧的曝光差异给自动驾驶车辆的视觉系统带来了巨大挑战。在这种情况下,视觉系统需要能够快速调整,以避免图像过曝或欠曝,这对于保证车辆能够准确识别路标、障碍物和其他关键信息至关重要。如果处理不当,这可能导致车辆反应延迟或做出错误的决策,进而增加交通事故的风险。

3、现有的曝光矫正技术主要是高动态范围(hdr)重构技术。由于低动态范围(ldr)设备捕获高动态范围(hdr)场景图像容易出现过曝光问题,过曝光区域会丢失纹理细节,从而给计算机视觉任务带来挑战。现实世界中的场景动态范围非常广,而传统的摄像机和显示设备只能捕获和显示有限的动态范围,这导致图像中可能出现过曝或欠曝的区域,失去一些重要的细节。过去解决这个问题的典型方法是根据mertens等人的建议,从多次曝光中重建hdr。然而,上述方法通常无法正确重建所需的hdr图像,从而导致最终hdr图像中出现伪影、重影和撕裂,尤其是当场景中引入运动时。长期以来,hdr重建的研究重点是减轻此类伪影。在深度学习的现代时代,kalantari等人提出了第一个基于学习的动态场景hdr图像重建方法,该方法使用卷积神经网络(cnn)执行图像对齐和合并。后来的工作中,prabhakar等人沿用了之前的流程,但使用cnn取代了对齐步骤中的传统光流。其他人选择端到端网络或生成对抗神经网络(gan)来解决这个问题。虽然上面这些方法可以生成高质量的hdr图像,但重影伪影等问题仍然没有得到很好的解决。

4、因此,使用单个图像进行hdr重建是有益的,因为可以避免未对准问题。eilertsen等人提出使用cnn来预测由于传感器饱和而导致的饱和区域丢失的信息丢失。与之前的工作不同,yang等人通过使用cnn首先恢复丢失细节的hdr图像来丰富ldr图像中的细节。然后,它学习了一个色调映射函数,该函数利用检索到的细节从hdr映射到ldr域。一些人提出了其他想法,例如采用混合损失、结合局部和全局特征或使用反馈网络,试图输出更真实的结果。最近,liu等人基于对反向hdr到ldr图像形成管道的建模,将hdr成像问题分解为三个子任务:动态范围裁剪、非线性映射和量化。类似的想法已应用于去噪任务中反转相机管道。santos等人提出了一种特征屏蔽机制来引导网络关注暴露良好区域中的有效信息而不是饱和区域,以避免在训练cnn时引起歧义。此外,他们的工作还表明,修复预训练可以帮助网络合成视觉上令人愉悦的内容饱和区域的纹理。之前的工作通常通过直接预测由传感器饱和引起的过度曝光区域的细节来扩展输入的动态范围。这些方法需要学习过程中可用的真实hdr才能实现该目标。从单个图像重建hdr的间接方法是通过多个曝光图像的预测,然后根据推断的包围式ldr图像重建最终的hdr照片。这种方法的好处是,通过在单独的过程中生成低曝光和高曝光,可以对细节进行更细粒度的控制。这个想法首先由endo等人探索,他们使用两个神经网络从中等曝光的ldr图像中推断出向上和向下曝光的图像。同样,li等人后来提出了一个包含链接结构中的六个子网络的单一模型,以顺序推断包围图像。当输入处于中间曝光值(ev0)时,随着网络的深入,他们的模型可以有效地推断出ev±1、±2、±3。由于合成的包围图像的数量随着每个图像的曝光而固定,任何克服这些限制的尝试可能需要重新训练网络。为了克服上述问题,lee等人定义了两个代表图像与相对ev之间关系的神经网络。所提出的结构可以随着生成图像的数量很好地扩展,而无需重新训练或添加更多子网络。随后,lee等人通过使用两个条件gan结构递归地生成多重曝光堆栈,改进了前人的工作。尽管上述框架可以合成合理的多重曝光堆栈,但它仍然有局限性,因为它既没有对输出曝光进行更精细的控制,也没有考虑图像形成管道。以上技术通常不适用于自动驾驶场景,因为它们无法满足自动驾驶对实时性和精确性的高要求。此外,这些hdr重构技术往往不能有效处理在极端光照条件下捕获的图像,特别是在快速变化的光照环境中。


技术实现思路

1、为此,本发明提供一种基于u型脉冲网络的图像曝光矫正方法,用以克服现有技术中自动驾驶系统中因光照变化极端而导致的图像异常曝光的问题。

2、为实现上述目的,本发明提供一种基于u型脉冲网络的图像曝光矫正方法,,包括:

3、获取输入图像;

4、利用正向激励学习对所述输入图像进行噪声优化以生成噪声图像;

5、将所述噪声图像与所述输入图像融合,并输入至训练完成的u型脉冲网络模型以进行曝光矫正;

6、将曝光矫正后的所述融合图像通过卷积操作与所述输入图像进行融合,得到曝光矫正图像。

7、进一步地,所述利用正向激励学习对所述输入图像进行噪声优化的过程包括:

8、利用卷积操作和relu激活函数来提取所述输入图像的若干特征;

9、通过两个线性层预测均值和方差的重参数化生成噪声图像。

10、进一步地,所述生成噪声图通过以下公式表示,设定:

11、x1=relu(conv(x))

12、m=clamp(linear(x1))

13、v=clamp(linear(x1))

14、map=reparameterize(m,v)

15、其中,x为输入特征张量,conv(·)表示卷积操作,relu(·)表示激活函数,linear(·)表示全连接层,clamp(·)表示限幅函数,reparameterize(·)表示重参数化,m表示预测的均值,v表示预测的方差,map表示噪音图。

16、进一步地,所述将所述噪声图像与所述输入图像融合,并输入至训练完成的u型脉冲网络模型以进行曝光矫正的过程包括:

17、将所述噪声图像叠加至所述输入图像得到融合图像;

18、将所述融合图像输入至所述u型脉冲网络模型中以回复所述输入图像的细节。

19、进一步地,所述将所述噪声图像与所述输入图像融合通过以下公式表示,设定:

20、f1=map+x

21、其中,x为输入特征张量,map表示噪音图,f1表示输出特征张量。

22、进一步地,所述u型脉冲网络模型包括脉冲卷积块、下采样模块和上采样模块,其中,

23、所述脉冲卷积块基于spikingjelly框架搭建,用于提取图像的特征并保持图像细节,所述脉冲卷积块由两个相同的脉冲卷积单元组成;

24、所述下采样模块由一个最大池化操作和两个脉冲卷积块组成,用以对特征空间进行压缩,通过稀疏性优化来增强网络的能量效率,并在脉冲域中捕获图像的本质特征;

25、所述上采样模块由脉冲神经网络和脉冲卷积块组成,用以分别通过脉冲神经网络和脉冲卷积块实现双线性上采样和特征放大融合,利用脉冲动态恢复图像的细节和结构,并利用稀疏性优势减少计算负荷,同时优化能量消耗。

26、进一步地,所述脉冲卷积单元首先执行一个卷积操作,再接批量归一化和基于脉冲的非线性激活,其中非线性激活使用lif神经元模型,输出通过批归一化层进行归一化处理;

27、其中,非线性激活使用lif神经元模型,卷积层应用一个大小为3×3的核,填充设置为1以保持空间维度。

28、进一步地,所述脉冲卷积单元通过以下公式表示,设定:

29、f2=lif(bn(conv(f1)))

30、其中,f1表示上一层的输出,conv(·)表示卷积操作,bn(·)表示批归一化操作,lif(·)表示lif神经元模型的激活函数。

31、进一步地,所述下采样模块的处理过程通过以下公式表示,设定:

32、f's=sconv(sconv(maxpool(fs)))

33、其中,fs表示脉冲卷积块的输出,maxpool(·)表示最大池化操作,sconv(·)表示单次脉冲卷积块操作;

34、所述上采样模块的处理过程通过以下公式表示,设定:

35、fup=sconv(sconv(bilinear(fdown)))

36、其中,fdown表示下采样模块的输出,bilinear(·)表示双线性下采样操作,sconv(·)表示单次脉冲卷积块操作。

37、进一步地,所述lif神经元的信息传递过程包括充电、放电和复位,所述lif神经元的充电和放电过程通过以下公式表示,设定:

38、ht=vt-1+xt

39、

40、其中,xt表示神经元的输入,它是时间步长t处的电压增量,ht表示充电后的瞬时电压,vt-1表示从上一个时间步长t-1保留下来的电压,θt表示输出尖峰的发生;

41、所述复位为膜电位恢复至静息水平,所述复位过程通过以下公式表示,设定:

42、vt=ht(1-θt)

43、或,

44、vt=ht-vthreshθt

45、其中,vt=ht(1-θt)是放电后电位复位为零,vt=ht-vthreshθt是复位到电流阈值vthresh。

46、与现有技术相比,本发明的有益效果在于,本发明通过高效重构丢失的颜色与细节,提高了图像的曝光矫正质量,特别适用于光照变化剧烈的自动驾驶环境,如进出隧道时。

47、尤其,通过u型脉冲网络(u-spikenet)设计:本发明核心为一个基于编码-解码结构的u-spikenet,专门针对图像的曝光矫正进行设计。该网络能够有效捕捉图像中的细节和颜色信息,通过重构过程恢复由于不当曝光而丢失或变形的图像内容。

48、尤其,通过正向激励学习:在u-spikenet处理之前,本技术采用正向激励学习对输入图像进行预处理。模型首先将图像进行下采样,然后通过正向激励学习生成噪音特征图。这一步骤旨在增强模型对于图像噪声和细节的感知能力,提高最终曝光矫正的质量和鲁棒性。

49、尤其,通过图像融合与曝光矫正:生成的噪音特征图将与下采样后的图像进行融合,以优化图像的噪声和细节表现。之后,优化后的图像输入到u-spikenet进行曝光矫正。最终,u-spikenet的输出特征与原始输入图像进行卷积融合,以得到最终的矫正结果。

50、进一步地,本发明通过设计u型脉冲网络(u-spikenet)作为基础模块,该网络通过一个编码-解码结构能够有效地重构丢失的颜色与细节。此外,在模型的输入图像信息基础上补充一个带有正向激励的噪音特征图以提升模型鲁棒性。模型首先将下采样图像输入到正向激励学习中来获得噪音特征图,然后将噪音特征图与下采样图像融合,从而对下采样图像进行噪声和细节优化,再将优化后的图输入到u-spikenet进行曝光矫正,将获得的特征通过一个卷积操作与输入图像进一步融合从而得到优化结果。

51、进一步地,现有的大部分方法都是基于卷积神经网络、循环神经网络和变压器(transformer)等方法,但是它们在模型推理过程需要大量的计算资源、功耗过高以及模型缺乏可解释。本发明使用脉冲神经网络构造了一个u型脉冲网络,由于在脉冲神经网络中,信息的表示是通过二进制时间序列数据而非连续形式实现的。这种方法使得脉冲神经网络能够采用低功耗的累加方式,而非传统神经网络中常用的高功耗乘法累加方法,从而显著提升了能源效率。此外,正向激励学习通过集成π噪声以优化复杂环境,为噪声在提高图像清晰度方面的性能提供了新的视角。


技术特征:

1.一种基于u型脉冲网络的图像曝光矫正方法,其特征在于,包括:

2.根据权利要求1所述的基于u型脉冲网络的图像曝光矫正方法,其特征在于,所述利用正向激励学习对所述输入图像进行噪声优化的过程包括:

3.根据权利要求2所述的基于u型脉冲网络的图像曝光矫正方法,其特征在于,所述生成噪声图通过以下公式表示,设定:

4.根据权利要求1所述的基于u型脉冲网络的图像曝光矫正方法,其特征在于,所述将所述噪声图像与所述输入图像融合,并输入至训练完成的u型脉冲网络模型以进行曝光矫正的过程包括:

5.根据权利要求4所述的基于u型脉冲网络的图像曝光矫正方法,其特征在于,所述将所述噪声图像与所述输入图像融合通过以下公式表示,设定:

6.根据权利要求1所述的基于u型脉冲网络的图像曝光矫正方法,其特征在于,所述u型脉冲网络模型包括脉冲卷积块、下采样模块和上采样模块,其中,

7.根据权利要求6所述的基于u型脉冲网络的图像曝光矫正方法,其特征在于,所述脉冲卷积单元首先执行一个卷积操作,再接批量归一化和基于脉冲的非线性激活,其中非线性激活使用lif神经元模型,输出通过批归一化层进行归一化处理;

8.根据权利要求7所述的基于u型脉冲网络的图像曝光矫正方法,其特征在于,所述脉冲卷积单元通过以下公式表示,设定:

9.根据权利要求6所述的基于u型脉冲网络的图像曝光矫正方法,其特征在于,所述下采样模块的处理过程通过以下公式表示,设定:

10.根据权利要求6所述的基于u型脉冲网络的图像曝光矫正方法,其特征在于,所述lif神经元的信息传递过程包括充电、放电和复位,所述lif神经元的充电和放电过程通过以下公式表示,设定:


技术总结
本发明涉及图像矫正技术领域,尤其涉及一种基于U型脉冲网络的图像曝光矫正方法,该方法包括获取输入图像;利用正向激励学习对所述输入图像进行噪声优化以生成噪声图像;将所述噪声图像与所述输入图像融合,并输入至训练完成的U型脉冲网络模型以进行曝光矫正;将曝光矫正后的所述融合图像通过卷积操作与所述输入图像进行融合,得到曝光矫正图像。本发明通过高效重构丢失的颜色与细节,提高了图像的曝光矫正质量,能够有效捕捉图像中的细节和颜色信息,解决了自动驾驶系统中因光照变化极端而导致的图像异常曝光的问题。

技术研发人员:卢月,张俊,代朋纹,王美琪,邓翔,任文琦
受保护的技术使用者:中山大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-19184.html

最新回复(0)