本申请涉及人工智能,尤其涉及一种模型测评方法、装置、设备、介质及产品。
背景技术:
1、随着人工智能的发展,大模型技术在各个领域备受关注。将大语言模型应用于化学领域,可以辅助化学研究。
2、目前,通常会基于化学领域内不同研究课题的需求对大模型在不同的能力维度进行定制优化,以使其满足不同研究课题的需求。这样会造成化学领域内不同的大模型之间难以横向比较,且测评不够全面,增加大模型的选取难度。
技术实现思路
1、基于上述技术现状,本申请提出一种模型测评方法、装置、设备、介质及产品,能够对泛化学领域内不同的大模型进行全面测评,提高测评的全面性。
2、为了达到上述技术目的,本申请具体提出如下技术方案:
3、本申请第一方面提出一种模型测评方法,包括:通过对泛化学领域内多个候选大模型的任务进行聚类,得到所述泛化学领域的多级测评维度;获取待测评的大模型在所述多级测评维度下的测评指标和测评数据集,所述待测评的大模型包括基于所述多个候选大模型进行筛选得到的大模型;基于所述多级测评维度下的测评指标和测评数据集,对所述待测评的大模型从多级测评维度进行测试,得到所述待测评的大模型在所述多级测评维度下的测评结果。
4、在一些实施例中,所述获取待测评的大模型在所述多级测评维度下的测评指标和测评数据集之前,所述方法还包括:获取所述泛化学领域内多个候选大模型各自对应的编码结果,所述编码结果包括基本信息编码结果和任务编码结果,所述基本信息编码结果包括模型发布时间和权重指示信息,所述权重指示信息表征该候选大模型是否提供权重参数,所述任务编码结果表征所述多个候选大模型各自对应的任务;基于所述任务编码结果,从所述多个候选大模型中筛选覆盖的任务最多的m个候选大模型,所述m为正整数;基于所述模型发布时间和权重指示信息,从所述m个候选大模型中筛选提供权重参数且模型发布时间最新的n个候选大模型,并基于所述n个候选大模型确定待测评的大模型,所述n为正整数。
5、在一些实施例中,所述任务编码结果中包括所述多个候选大模型各自对应的测评指标;获取待测评的大模型在所述多级测评维度下的测评指标,包括:基于所述多个候选大模型各自对应的测评指标,确定各个测评指标的使用频次;选取所述各个测评指标中使用频次大于预设使用频次的测评指标,确定为所述大模型在所述多级测评维度下的测评指标。
6、在一些实施例中,所述多级测评维度包括一级测评维度、二级测评维度和三级测评维度;获取待测评的大模型在所述多级测评维度下的测评数据集,包括:基于预设的不同来源的测评数据集与一级测评维度之间的对应关系,以及一级测评维度与三级测评维度之间的对应关系,确定各个三级测评维度对应的测评数据集。
7、在一些实施例中,所述多个候选大模型的任务对应有任务类别,所述任务对应所述三级测评维度;基于所述多级测评维度下的测评指标和测评数据集对所述大模型从所述多级测评维度进行测试,得到所述大模型在所述多级测评维度下的测评结果,包括:基于各个三级测评维度各自对应的任务所属的任务类别,确定各个三级测评维度对应的提示信息;将各个三级测评维度对应的提示信息输入待测评的大模型中,以使所述待测评的大模型基于所述各个三级测评维度对应的提示信息对所述各个三级测评维度对应的测评数据集进行预测,得到所述大模型在各个三级测评维度下的预测结果;基于所述大模型在各个任务对应的任务类别下的测评指标,以及任务类别与三级测评维度之间的对应关系,对所述大模型在各个三级测评维度下的预测结果进行测评,得到所述各个三级测评维度下的测评指标值;基于各个二级测评维度各自对应的三级测评维度的测评指标值的加权结果,确定各个二级测评维度的测评指标值。
8、在一些实施例中,所述基于所述多级测评维度下的测评指标和测评数据集对所述大模型从多级测评维度进行测试,得到所述大模型在所述多级测评维度下的测评结果,包括:基于各个一级测评维度各自对应的二级测评维度的测评指标值的加权结果,确定各个一级测评维度的测评指标值。
9、在一些实施例中,所述基于所述多级测评维度下的测评指标和测评数据集对所述大模型从多级测评维度进行测试,得到所述大模型在所述多级测评维度下的测评结果,包括:对所述各个一级测评维度的测评指标值进行加权求和,得到所述大模型的综合测评结果。
10、在一些实施例中,所述一级测评维度包括多个,该多个一级测评维度表征大模型在化学能力上的逐步深入。
11、本申请第二方面提出一种模型测评装置,包括:聚类单元,用于对泛化学领域内多个候选大模型的任务进行聚类,得到所述泛化学领域的多级测评维度;获取单元,用于获取待测评的大模型在所述多级测评维度下的测评指标和测评数据集,所述待测评的大模型包括基于所述多个候选大模型进行筛选得到的大模型;测评单元,用于基于所述多级测评维度下的测评指标和测评数据集对所述大模型从多级测评维度进行测试,得到所述大模型在所述多级测评维度下的测评结果。
12、本申请第三方面提出一种电子设备,包括存储器和处理器;所述存储器与所述处理器连接,用于存储程序;所述处理器用于通过运行所述存储器中的程序,实现第一方面以及第一方面的实现方式中的任意一项所述的模型测评方法。
13、本申请第四方面提出一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现第一方面以及第一方面的实现方式中的任意一项所述的模型测评方法。
14、本申请第五方面提出一种计算机程序产品,包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器实现第一方面以及第一方面的实现方式中的任意一项所述的模型测评方法。
15、本申请提出的模型测评方法,通过对泛化学领域内多个候选大模型的任务进行聚类,得到泛化学领域的多级测评维度,以及获取待测评的大模型在多级测评维度下的测评指标和测评数据集,待测评的大模型包括基于多个候选大模型进行筛选得到的大模型;基于多级测评维度下的测评指标和测评数据集,对待测评的大模型从多级测评维度进行测试,得到待测评的大模型在多级测评维度下的测评结果。其中,多级测评维度不仅能够对待测评的大模型进行更加全面地测评,还能够从能力进阶的角度对待测评的大模型在化学能力上的进阶表现进行测评。另外,通过统一的测评维度、测评指标和测评数据集对各个待测评的大模型进行测评,可以为大模型的横向比较提供依据,进而为模型选取提供更加精确的参考信息,以便研究者根据自己需求选取合适的大模型用于泛化学领域内的研究课题,以提高泛化学领域的研究效率。
1.一种模型测评方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取待测评的大模型在所述多级测评维度下的测评指标和测评数据集之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述任务编码结果中包括所述多个候选大模型各自对应的测评指标;
4.根据权利要求1-3任一项所述的方法,其特征在于,所述多级测评维度包括一级测评维度、二级测评维度和三级测评维度;
5.根据权利要求4所述的方法,其特征在于,所述多个候选大模型的任务对应有任务类别,所述任务对应所述三级测评维度;
6.根据权利要求5所述的方法,其特征在于,所述基于所述多级测评维度下的测评指标和测评数据集对所述大模型从多级测评维度进行测试,得到所述大模型在所述多级测评维度下的测评结果,包括:
7.根据权利要求6所述的方法,其特征在于,所述基于所述多级测评维度下的测评指标和测评数据集对所述大模型从多级测评维度进行测试,得到所述大模型在所述多级测评维度下的测评结果,包括:
8.根据权利要求4所述的方法,其特征在于,所述一级测评维度包括多个,该多个一级测评维度表征大模型在化学能力上的逐步深入。
9.一种泛化学领域大模型的测评装置,其特征在于,包括:
10.一种电子设备,其特征在于,包括存储器和处理器;
11.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现如权利要求1至8中任意一项所述的方法。
12.一种计算机程序产品,其特征在于,包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器实现如权利要求1至8中任意一项所述的方法。
