本发明涉及计算机,尤其是涉及一种基于图结构和多模态大模型的解耦表征学习方法和设备。
背景技术:
1、近年来,深度学习技术的可解释性问题引起了广泛关注,能否让数据驱动的人工智能模型真正理解和感知物理概念及规律显得至关重要。
2、解耦表征学习,其目标是以人类可以理解的方式从真实数据中分解具有明确物理含义的表征因子,并通过相应的隐码进行控制。例如,人脸图像可以被解耦为五官、肤色和发型等因子;建筑图像可以被解耦为门窗、屋檐和纹理等因子;医学图像可以被解耦为器官、病灶和阴影等因子。
3、解耦表征学习在人工智能的下游任务中有着广泛的应用。它可以为数据中的复杂变化提供鲁棒性表示,并利用提取的语义信息进行识别、分类和域适应等任务。传统解耦表征学习模型通常使用自编码器或变分自编码器框架,通过最小化重构误差和正则化潜在空间的分布,来提高数据的可解释性和潜在因素的独立性。然而,现有技术如beta-vae、factorvae、dear等依旧存在以下三个主要问题:
4、(1)传统解耦表征学习方法假设数据背后的语义属性是相互独立且互不影响的。这一假设过于理想化,导致这些方法难以有效处理复杂数据集。
5、(2)现有的解耦表征方法依赖于生成数据和数据标签,并且通常只能应用于简单的数据集。这种依赖性降低了模型的泛化能力和鲁棒性,使其在更广泛的应用场景中表现不佳。
6、(3)现有方法往往忽视了语义属性之间的内在物理联系,导致模型在真实场景中的应用受限,难以产生实际价值。
7、综上,当前缺少一种解耦表征学习方法,以解决或部分解决前述问题。
技术实现思路
1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于图结构和多模态大模型的解耦表征学习方法和设备,通过充分解耦数据背后的表征因子,同时感知这些因子之间的内在物理联系,以在复杂数据和真实场景中实现语义感知和表征解耦。
2、本发明的目的可以通过以下技术方案来实现:
3、本发明的一个方面,提供了一种基于图结构和多模态大模型的解耦表征学习方法,包括如下步骤:
4、步骤s1,获取原始图像信息并进行关键点检测;
5、步骤s2,利用预设的语义编码器,将关键点检测结果映射至预设的隐空间中,得到细粒度表征解耦后的属性因子,其中,所述隐空间中每个隐码维度独立表示一个属性或表征;
6、步骤s3,针对所述属性因子进行初始化,基于关键点检测结果和初始化后的属性因子,通过与预设的大语言模型交互得到属性因子间的关联关系;
7、步骤s4,基于属性因子和属性因子间的关联关系进行结构化编码,利用预设的更新器对预先建立的图结构进行更新,基于解码器生成的图像和所述原始图像信息进行自监督优化,实现解耦表征学习。
8、作为优选的技术方案,所述的原始图像信息包括人脸图像,所述的属性因子包括五官、头发和肤色。
9、作为优选的技术方案,所述的图结构包括节点和边,其中,节点为细粒度表征解耦后的属性因子,边为属性因子间的关联关系。
10、作为优选的技术方案,所述的步骤s4中,利用预设的更新器,基于预设的提示词对图结构进行更新。
11、作为优选的技术方案,所述的图结构为双向有权图结构。
12、作为优选的技术方案,所述的更新器包括图神经网络。
13、作为优选的技术方案,所述的语义编码器基于beta-vae构建。
14、本发明的另一个方面,提供了一种基于图结构和多模态大模型的解耦表征学习设备,包括:
15、属性因子解耦模块,用于利用预设的语义编码器,将原始图像信息的关键点检测结果映射至预设的隐空间中,得到细粒度表征解耦后的属性因子,其中,所述隐空间中每个隐码维度独立表示一个属性或表征
16、属性关联感知模块,用于针对所述属性因子进行初始化,基于关键点检测结果和初始化后的属性因子,通过与预设的大语言模型交互得到属性因子间的关联关系;
17、图结构编码模块,用于基于属性因子和属性因子间的关联关系进行结构化编码,利用预设的更新器对预先建立的图结构进行更新,基于解码器生成的图像和所述原始图像信息进行自监督优化,实现解耦表征学习。
18、本发明的另一个方面,提供了一种电子设备,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行前述基于图结构和多模态大模型的解耦表征学习方法的指令。
19、本发明的另一个方面,提供了一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行前述基于图结构和多模态大模型的解耦表征学习方法的指令。
20、与现有技术相比,本发明至少具有以下有益效果之一:
21、(1)实现复杂数据和真实场景中的语义感知和表征解耦:本发明首先利用语义编码器,将关键点检测结果映射至预设的隐空间中,得到细粒度表征解耦后的属性因子,然后通过与大语言模型交互得到属性因子间的关联关系,最后利用预设的更新器对预先建立的图结构进行更新并进行自监督优化,实现属性间的关系的感知和建模,从而适用于复杂数据和真实场景。
22、(2)改善泛化性和鲁棒性:本发明利用大模型的语义知识来预测表征属性之间的内在关联,并通过图神经网络更新器对网络参数进行持续更新和优化,从而提升了模型的泛化性和鲁棒性。
23、(3)增强可控性:本发明将属性及其内在关联编码于一个双向有权图中,分别通过节点和边来表示属性和内在关联,这种编码方式增强了模型的可控性,有利于算法的实际应用。
1.一种基于图结构和多模态大模型的解耦表征学习方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于图结构和多模态大模型的解耦表征学习方法,其特征在于,所述的原始图像信息包括人脸图像,所述的属性因子包括五官、头发和肤色。
3.根据权利要求1所述的一种基于图结构和多模态大模型的解耦表征学习方法,其特征在于,所述的图结构包括节点和边,其中,节点为细粒度表征解耦后的属性因子,边为属性因子间的关联关系。
4.根据权利要求1所述的一种基于图结构和多模态大模型的解耦表征学习方法,其特征在于,所述的步骤s4中,利用预设的更新器,基于预设的提示词对图结构进行更新。
5.根据权利要求1所述的一种基于图结构和多模态大模型的解耦表征学习方法,其特征在于,所述的图结构为双向有权图结构。
6.根据权利要求1所述的一种基于图结构和多模态大模型的解耦表征学习方法,其特征在于,所述的更新器包括图神经网络。
7.根据权利要求1所述的一种基于图结构和多模态大模型的解耦表征学习方法,其特征在于,所述的语义编码器基于beta-vae构建。
8.一种基于图结构和多模态大模型的解耦表征学习设备,其特征在于,包括:
9.一种电子设备,其特征在于,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-8任一所述基于图结构和多模态大模型的解耦表征学习方法的指令。
10.一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-8任一所述基于图结构和多模态大模型的解耦表征学习方法的指令。