本发明属于计算机视觉领域,具体涉及一种基于扩散模型的图像生成技术。
背景技术:
1、光伏电池缺陷检测的研究通常涉及三种基于相机的测量方法:红外(ir)、光致发光(pl)和电致发光(el)成像。在这些方法中,电致发光(el)成像更有利于通过计算发光强度的差异来检测细小缺陷。近年来在这一领域中,许多深度学习方法被广泛深入研究以用于缺陷检测,并将其表述为图像分类任务。由于基于深度学习的缺陷检测方法具有强大的特征提取能力,所以其逐渐在检测准确性方面显著超过了传统的机器学习方法。大多数现有方法都专注于架构定制,以增强缺陷检测模型的判别能力。这些方法主要尝试通过将新模块整合到骨干网络网络(如vggnet和resnet)中来重新设计特征提取器。除了网络架构影响之外,深度学习模型的性能还受到训练数据的显著影响。然而,在现实场景中获取太阳能电池图像,特别是有缺陷的单晶和多晶图像面临着采样困难等限制,导致模型训练数据量有限甚至稀缺。因此,语义数据增强对于光伏电池缺陷检测至关重要,但在先前的方法中仍然没有与此相关的研究,所以目前为止该领域相对未被探索。
技术实现思路
1、基于上述现有技术的不足,本发明提出了有效且通用性高的一种基于扩散模型的图像生成技术。本发明的无架构特性使其可以集成到各种类型的深度分类模型中,且在各种类型的深度学习网络(如基于卷积和基于注意力的网络)中具有灵活性和适应性,提高了各缺陷检测模型的正确率。本发明的技术方案为:
2、一种基于扩散的光伏电池缺陷检测语义数据增强方法,包括步骤(1)训练光伏电池图像的条件扩散模型和步骤(2)光伏电池图像合成。
3、进一步,步骤(1)的具体过程为:
4、步骤(1.1),输入图像:将原始真实图像作为图像输入;
5、步骤(1.2),正向过程,也称为扩散过程:将原始图像加上服从正向分布的高斯噪声。具体的说,基于方差调度β1,...,βt逐渐将高斯噪声注入已知数据分布q(x0)(x0表示清晰图像),此过程可以固定为马尔可夫链:
6、
7、其中,t代表预先确定的总步数,t是时间步,xt代表t时刻的图像,同理xt-1代表t-1时刻的图像,代表从t=1时刻连乘至t=t时刻,q(xt|xt-1)代表在已有xt-1的条件下xt的概率,同理q(x1:t|x0)代表通过连乘计算后获得的在已知x0的条件下最终获得xt的概率,即从初始状态x0到最终态xt的联合概率分布,q(xt|xt-1)代表给定xt-1后xt的条件概率,n代表正态分布,代表均值,表示当前状态与前一步状态的关系,βti为方差,表示在时间步t上的噪声强度,i为单位矩阵;
8、步骤(1.3),得到加噪后的图像xt:通过结合上面两个公式,可以得到生成任意图像xt的推导公式如下:
9、
10、其中
11、步骤(1.4),嵌入条件信息:时间步t和类别标签y∈{0,1,2,3}作为条件信息被嵌入到u-net模型中,从技术上讲,时间步t通过位置编码position encoding进行处理,而类别标签y被输入到一个可学习的嵌入层embedding,通过这种方式,它们具有相同的向量维度进行逐元素求和:
12、τ=embedding(y)+pos_encoding(t) (4)
13、其中embedding(y)函数指将类别标签y输入到可学习的嵌入层中,pos_encoding(t)函数将时间步t放入位置编码进行处理,τ表示可以被合并到u-net网络中的混合条件信息;
14、步骤(1.5),反向过程:训练了一个u-net网络,即参数化的噪声估计器,表示为εθ,逐渐将噪声图像xt去噪为清晰图像x0,这个过程可以通过从t=t到t=1重复应用以下方程来实现,这里的t,按照步骤(1.4)进行信息嵌入,得到τ。
15、
16、其中xt表示在t时间步所生成的图像,εθ为所训练的u-net网络模型及参数化噪声估计器,依赖于当前状态xt和时间步τ,为缩放系数,其中
17、步骤(1.6),计算损失函数:条件扩散模型的训练目标为计算最小预测条件噪声与真实噪声之间的均方差损失,可以通过以下公式表述:
18、ldm=||εθ(xt,τ)-ε||2 (6)
19、其中ε是真实的噪声,预测噪声和真实噪声的误差误差越小越好,此外,为了产生更高质量的图像,采用了无分类器的引导方法,该方法同时利用了条件和无条件设置(y=φ)进行模型训练。
20、进一步,步骤(2)的具体过程为:
21、步骤(2.1),加噪真实图片:在训练不同光伏电池的条件扩散模型后,随机高斯分布的纯噪声通常被用作初始输入图像xt,在这项工作中,为了生成更自然的光伏电池图像,初始输入xt取而代之的是通过将一个真实参考图像应用正向扩散过程得到的,也就是说,用正态分布噪声n(0,i)逐渐填充真实的光伏电池图像,同时,真实图像的类别标签被用作条件信息来控制采样过程,与纯噪声输入相比,这种方法允许合成图像保留原始真实图像的结构信息;
22、步骤(2.2),采样过程:扩散模型在每个时间步t都经过已经训练好的u-net预测了条件噪声εθ(xt,τ)和无条件噪声εθ(xt,t),然后,将条件和无条件预测噪声进行线性插值以形成组合噪声εθ(xt,τ),如下所示:
23、
24、其中超参数ω根据经验设置为常数3,表示条件标签y的引导强度,接下来,通过在xt上减少噪声,可以得到去噪图像xt-1,如下所示:
25、
26、进一步,所述t设置为1000,t从1逐步递增到t
27、本发明的有益效果为:
28、(1)本发明是首次探索基于扩散模型的数据增强方法以解决光伏电池缺陷检测任务的研究,该简单有效且通用性高的方法可以为之后光伏太阳能电池缺陷检测技术的发展提供一个新颖的思路。
29、(2)本发明提出了一种基于扩散的语义数据增强技术,用于光伏电池缺陷检测。语义标签被明确建模为条件信息,以指导语义感知的电池图像合成过程。由于初始输入是通过逐步向真实图像添加高斯噪声而生成的,从而相比于经典扩散图像生成结果图像保留了更为丰富详细的结构信息,因此可以生成更接近真实数据的高质量图像,该发明方法可以有效地增加样本数据多样性,从而提高模型的泛化能力。
30、(3)本发明为光伏电池缺陷检测提供了一种普遍改进的技术。其无架构特性使其可以集成到各种类型的深度分类模型中,且在各种类型的深度学习网络(如基于卷积和基于注意力的网络)中具有灵活性和适应性,提高了各缺陷检测模型的正确率。与以往侧重于架构定制的光伏电池缺陷检测的深度学习方法不同,本发明通过扩展训练数据为光伏电池缺陷检测提供了一种新颖的的无架构技术。
31、(4)本发明所提出的方法可能在其他领域,如:具有有限数据集样本大小和数据获取成本高昂的特定领域具有更广泛的适用性和潜在应用价值,例如医学图像分析。
1.一种基于扩散的光伏电池缺陷检测语义数据增强方法,其特征在于,包括步骤(1)训练光伏电池图像的条件扩散模型和步骤(2)光伏电池图像合成。
2.根据权利要求1所述的一种基于扩散的光伏电池缺陷检测语义数据增强方法,其特征在于,步骤(1)的具体过程为:
3.根据权利要求1所述的一种基于扩散的光伏电池缺陷检测语义数据增强方法,其特征在于,步骤(2)的具体过程为:
4.根据权利要求1所述的一种基于扩散的光伏电池缺陷检测语义数据增强方法,其特征在于,所述t设置为1000,t从1逐步递增到t。