1.本发明属于机器学习技术领域,具体涉及一种基于深度学习的自动识别昆虫方法。
背景技术:2.地球上有数百万种物种,其中120万种已经被正式描述为。一些物种已被鉴定和描述使用分子技术,而形态学和形态计量学已被用于鉴定其他物种。然而,分子技术的应用需要大量的专业知识,成本高,时间长,而基于形态学的鉴定对隐蔽和不丰富的类群的鉴定提出了挑战。形态学识别的困难主要是由于有许多视觉上相似的类别来识别类间的相似性。因此,传统的物种鉴定需要每个物种的详细专家知识。此外,物种鉴定需要耗费大量时间。由于专家知识的缺乏、物种识别的成本高、耗时长等问题,人工智能在图像分类中的应用显得尤为重要。
3.现有技术存在的问题或者缺陷:卷积神经网络(cnn)图像分类的快速改进显示了显著的性能。这些模型能够识别肉眼可见和不可见的特征来对物体进行分类。然而这些模型需要大量的训练数据从每堂课学习的特性,被组织成一个特征向量,一个任意长度的向量,收集所有的属性用于描述对象在分析提高模型更好的性能。因此,超特异分类,如昆虫种类分类,在形态上具有属间相似性,需要极其大量的图像数据才能获得较高的验证精度。因此,利用深度学习和机器学习相结合构建分类构建提取特征来识别类间相似性巨大的昆虫物种是一种不可阻挡的趋势。
技术实现要素:4.基于此,本发明提供了一种基于深度学习的自动识别昆虫方法,由研究人员通过手机截图、单反相机捕捉和来自网站/博客的图像获相关的昆虫数据集,并将获取所得的粗糙数据集进行整理,并邀请相关的专家进行数据标注。完成数据收集后,对数据进行预处理,预处理包括分割,图像缩放、归一化等。将预处理后的数据输入搭建好的深度学习和机器学习的融合分类模型种进行网络模型的训练,待到模型损失函数不再下降,保存模型,完成模型构建。
5.本技术公开的一种基于深度学习的自动识别昆虫方法,包括如下步骤,
6.s1、数据采集:采集真实虎甲虫图像数据集,并对其类别进行标注,完成模型训练所需数据集的构建;
7.s2、数据预处理:由于原始数据集的颜色强度分布不均匀,每个图像的突出部分在尺寸上都有非常大的变化且包含背景噪声导致识别准确率不高,通过预处理对原始数据集进行相应的处理,预处理包括归一化、数据切割,统一数据尺度,并且扩增数据集,保证模型训练效果;
8.s3、构建:采用深度学习和机器学习相关技术搭建融合分类模型,将经过预处理的图像数据集输入,完成参数模型的搭建;
9.s4、模型保存:当模型的损失函数不再降低之后,保存模型。
10.进一步的,所述步骤s1中,该数据集包括野外调查期间拍摄的图像,来自野生动物和自然摄影师使用不同类型的相机和不同的图像质量,虎甲虫出版物和网站,其中图像是通过不同的来源进行收集:手机截图、单反相机捕捉和网站/博客,该原始图像数据集中本数据集由6种陆生虎甲虫和3种树栖虎甲虫的图像组成,且物种间存在显著的形态差异,可以通过视觉效果来区分各个部落,在同一属的物种中也可以看到鞘翅模式的微小变化便于专家进行数据标注。
11.进一步的,所述步骤s2中:包括数据归一化:对每条数据进行min-max归一化;
12.数据分割:将获取到的数据按照7:3进行分割,分为训练集和测试集,将训练集用于网络模型的输入,并且扩增数据集,增强网络识别能力;
13.数据扩充:为了增加图像的数量,通过图像增强的方法人工扩展数据集,采用不同的处理方式或多种处理的组合,如随机旋转、移位、剪切和翻转等;
14.图像缩放:由于获取的图像尺寸大小不一,因此在训练数据集之前需要把输入图像改为适合模型的相应尺寸,以获得最佳的训练结果。
15.进一步的,所述步骤s3中:将构建啊的训练集输入squeezenet模型中用于特征的提取,该模型克服了通道投影瓶颈,模型使用补偿映射捷径连接,通过网络模型训练更深的网络层数,首先通过瓶颈通道投影层输入,然后将其划分为两通道集,第一通道集通过3
×
3卷积展开,第二通道集通过通道投影展开,最终形成新的特征图谱,利用svm代替squeezenet模型中的全连接层充当识别分类模型的分类器。
16.本发明与现有技术相比,具有的有益效果是:
17.本发明设计了一种基于深度学习的自动识别昆虫方法,提出一个为斯里兰卡虎甲虫(鞘翅目,蝉科)创建的高度精确和多样化的数据集,其中包含两个部落九个属的甲虫图像。在基于不同特征提取技术(纹理、颜色、形状)的不同分类算法和带有或不使用预先训练的权值的深度学习模型上测试图像。进一步,通过从预训练的cnn模型中提取特征,并使用svm分类器对其进行分类,对增强平衡数据集进行评估,提高模型分类识别准确率。
附图说明
18.图1为本发明的流程框图。
具体实施方式
19.下面将结合本发明实施例中的附图,对本发明实施例中的技术发明进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
20.本技术公开的一种基于深度学习的自动识别昆虫方法,如图1所示,包括如下步骤,
21.s1、数据采集:该数据集包括野外调查期间拍摄的图像,来自野生动物和自然摄影师使用不同类型的相机和不同的图像质量,虎甲虫出版物和网站,其中图像是通过不同的来源进行收集:手机截图、单反相机捕捉和网站/博客,因此图像的质量不同,同时,由于某
些物种的稀有性和地方性,每个属只收集了有限数量的图像。该原始图像数据集中本数据集由6种陆生虎甲虫和3种树栖虎甲虫的图像组成,且物种间存在显著的形态差异,可以通过视觉效果来区分各个部落,在同一属的物种中也可以看到鞘翅模式的微小变化便于专家进行数据标注。本次实验构建的数据集将形成一种大型公共数据集供该专业的人员进行实验所用,数据集中的callytron limosa有独特的鞘翅斑疹图案。斑疹已缩小为从肱骨角到脊顶的一条狭窄的白色连续侧带;calomera angulata和calomera cardoni这两个物种在鞘翅上都有一个完整的肱骨月骨,但可以利用鞘翅的中间带进行分化,angulata的中腱束由前凹的横向部分组成,带末端连接较宽,鞘翅的白色从肩部延伸至顶端,在顶端月状补片之前有中断,而cardoni的中腱束的横向部分不向前凹,带末端连接较窄,鞘翅表面为深棕色或金属棕色,有黄白色不连续的侧斑;lophyra catena和lophyra cancellata在形态上非常相似,但lophyra catena中,头部的基因是刚毛的,而在lophyra cancellata中,是无毛的(光滑和无毛),根据以上物理特征可用于区分两者的类别;hyaetha biramosa的内侧有超过90%的鞘翅表面被深棕色/黑色斑疹所覆盖,并有一条黄白色的连续条纹从肱骨角延伸至顶端。这条带子内陷到鞘翅长度的一半左右,将深棕色/黑色的斑纹分成两个部分,hypaetha quadrilineata在鞘翅上有两条黄白色的纵长条纹;myriochila distinguenda和myriochila fastidiosa的特征是鞘翅斑疹的标准模式,包括肱骨月形、中间带和顶端月形,但myriochila distinguenda的肱半月基部是分开的,而myriochila fastidiosa肱半月基部是与肱半月的顶端相连的;cylinderawaterhousei和cylindera labioaenea的特征是鞘翅上有黄白色斑点,无肱部、顶端的小圆斑或边缘/中间带,但每一种柱体的鞘翅点的位置、数量和形状可能不同,通过该特点以此区分不同的类别;derocrania schaumi的眼睛突出,前侧更细长,顶部细长,鞘翅是拉长的,在后面几乎变宽,有时在某些物种后面非常强烈地隆起或几乎是扁平的,具有非常显眼的特征;tricondyla granulifera的特征是一个巨大的头部,深挖在两眼之间。眼睛后面的脖子是平行的。鞘翅前部狭窄,后部扩张,非常凸出。前侧几乎是平行的,宽,前后收缩,有时有点会聚,但前面没有柱体;neocollyris bonelli的特征是小而纤细,明亮的蓝色鞘翅几乎被刺穿。然而,鞘翅的颜色、大小和形状各不相同,有些种类的鞘翅中部有强烈的皱纹。
22.数据归一化:对每条数据进行min-max归一化。
[0023][0024]
s2、数据预处理:由于原始数据集的颜色强度分布不均匀,每个图像的突出部分在尺寸上都有非常大的变化且包含背景噪声导致识别准确率不高,通过预处理对原始数据集进行相应的处理,预处理包括归一化、数据切割,统一数据尺度,并且扩增数据集,保证模型训练效果。
[0025]
数据分割:将获取到的数据按照7:3进行分割,分为训练集和测试集,将训练集用于网络模型的输入,并且扩增数据集,增强网络识别能力。
[0026]
数据扩充:神经网络需要大量的训练数据有效地学习,避免过度学习导致准确率降低。为了增加图像的数量,通过图像增强的方法人工扩展数据集,采用不同的处理方式或多种处理的组合,如随机旋转、移位、剪切和翻转等。为此,使用augmentor的python包,旨在为识别分类任务辅助提供数据支撑。
[0027]
图像缩放:由于获取的图像尺寸大小不一,因此在训练数据集之前需要把输入图像改为适合模型的相应尺寸,以获得最佳的训练结果。
[0028]
s3、模型构建:将构建啊的训练集输入squeezenet模型中用于特征的提取,该模型克服了通道投影瓶颈(挤压层),大大减少了参数空间,降低了计算复杂度。此外,与残差网络类似,该模型使用补偿映射捷径连接,允许网络模型训练更深的网络层数,提高模型识别性能。首先通过瓶颈通道投影层输入,然后将其划分为两通道集。第一通道集通过3
×
3卷积展开,第二通道集通过通道投影展开,最终形成新的特征图谱,利用svm代替squeezenet模型中的全连接层充当识别分类模型的分类器。选择支持向量机算法作为分类器的主要原因是支持向量机更适合维数大于样本数量的数据集,同时可以更好地推广到高维空间,进一步提升模型分类准确率。
[0029]
s4、模型保存:当模型的损失函数不再降低之后,保存模型。
[0030]
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。
技术特征:1.一种基于深度学习的自动识别昆虫方法,其特征在于,包括如下步骤,s1、数据采集:采集真实虎甲虫图像数据集,并对其类别进行标注,完成模型训练所需数据集的构建;s2、数据预处理:由于原始数据集的颜色强度分布不均匀,每个图像的突出部分在尺寸上都有非常大的变化且包含背景噪声导致识别准确率不高,通过预处理对原始数据集进行相应的处理,预处理包括归一化、数据切割,统一数据尺度,并且扩增数据集,保证模型训练效果;s3、构建:采用深度学习和机器学习相关技术搭建融合分类模型,将经过预处理的图像数据集输入,完成参数模型的搭建;s4、模型保存:当模型的损失函数不再降低之后,保存模型。2.如权利要求1所述的一种基于深度学习的自动识别昆虫方法,其特征在于,所述步骤s1中,该数据集包括野外调查期间拍摄的图像,来自野生动物和自然摄影师使用不同类型的相机和不同的图像质量,虎甲虫出版物和网站,其中图像是通过不同的来源进行收集:手机截图、单反相机捕捉和网站/博客,该原始图像数据集中本数据集由6种陆生虎甲虫和3种树栖虎甲虫的图像组成,且物种间存在显著的形态差异,可以通过视觉效果来区分各个部落,在同一属的物种中也可以看到鞘翅模式的微小变化便于专家进行数据标注。3.如权利要求2所述的一种基于深度学习的自动识别昆虫方法,其特征在于,所述步骤s2中:包括数据归一化:对每条数据进行min-max归一化;数据分割:将获取到的数据按照7:3进行分割,分为训练集和测试集,将训练集用于网络模型的输入,并且扩增数据集,增强网络识别能力;数据扩充:为了增加图像的数量,通过图像增强的方法人工扩展数据集,采用不同的处理方式或多种处理的组合,如随机旋转、移位、剪切和翻转等;图像缩放:由于获取的图像尺寸大小不一,因此在训练数据集之前需要把输入图像改为适合模型的相应尺寸,以获得最佳的训练结果。4.如权利要求3所述的一种基于深度学习的自动识别昆虫方法,其特征在于,所述步骤s3中:将构建啊的训练集输入squeezenet模型中用于特征的提取,该模型克服了通道投影瓶颈,模型使用补偿映射捷径连接,通过网络模型训练更深的网络层数,首先通过瓶颈通道投影层输入,然后将其划分为两通道集,第一通道集通过3
×
3卷积展开,第二通道集通过通道投影展开,最终形成新的特征图谱,利用svm代替squeezenet模型中的全连接层充当识别分类模型的分类器。
技术总结本发明属于机器学习技术领域,具体涉及一种基于深度学习的自动识别昆虫方法,包括如下步骤,数据采集:采集真实虎甲虫图像数据集,并对其类别进行标注,完成模型训练所需数据集的构建;数据预处理:由于原始数据集的颜色强度分布不均匀,每个图像的突出部分在尺寸上都有非常大的变化且包含背景噪声导致识别准确率不高,通过预处理对原始数据集进行相应的处理,预处理包括归一化、数据切割,统一数据尺度,并且扩增数据集,保证模型训练效果;构建:采用深度学习和机器学习相关技术搭建融合分类模型,将经过预处理的图像数据集输入,完成参数模型的搭建;模型保存:当模型的损失函数不再降低之后,保存模型。保存模型。保存模型。
技术研发人员:潘晓光 王小华 焦璐璐 宋晓晨 李娟
受保护的技术使用者:山西三友和智慧信息技术股份有限公司
技术研发日:2022.03.18
技术公布日:2022/7/5