本发明涉及用于机器学习(ml)的异常检测器配置。本文是用于异常检测器的超参数优化的元学习(meta-learning),该异常检测器是域中立的并且高度可再用的。
背景技术:
1、随着数据量的不断增长,机器学习(ml)一直在获得关注,解决了许多以前认为不可行的问题。利用有监督训练的ml一直是研究和产业界关注的焦点,因为它比无监督训练更容易。无监督异常检测(uad)致力于在不访问真实标签集的情况下检测不寻常的、罕见的、分布之外的数据点。
2、ml模型依赖于各种训练因素,例如训练数据集和为ml模型选择的超参数值。虽然大多数ml算法都伴随着一组默认的超参数值,但这些值并不能使相应模型针对每个数据集达到最佳性能。几乎不存在允许对不同模型和模型配置进行评分的无监督方法。
3、必须专门为每个数据集选择超参数值。基于评估的超参数值发现的贪婪方法被称为超参数调谐,这导致在有监督情况下的显著性能提升,其中可用的训练标签允许对超参数进行直接评估。在没有标签的uad中,获得一组好的默认超参数值尤其重要和有挑战性,例如利用和评估多个不同的目标模型类,这些目标模型类的超参数调谐过程彼此独立。
4、目标ml模型的性能高度依赖于(例如,巨大的)数据集。应该谨慎地选择目标模型配置设置,诸如利用在计算上非常昂贵(即,缓慢)的过程并且严重依赖于对目标模型的(例如,许多)实际评估的评分的超参数调谐。许多技术只能通过借助于使用默认提供的超级参数值来避免这种延迟,这使得主要的性能改善没有得到充分利用。
技术实现思路
1.一种计算机实现的方法,包括:
2.如权利要求1所述的方法,还包括训练元模型以推断所述异常检测器的训练场景的验证分数,其中所述元模型执行所述推断验证分数,并且训练所述元模型基于:
3.如权利要求2所述的方法,其中从由以下各项构成的组中选择一项:
4.如权利要求2所述的方法,还包括:
5.如权利要求4所述的方法,其中所述第二优化器是从由线性回归和逻辑回归构成的组中选择的一项。
6.如权利要求2所述的方法,其中:
7.如权利要求2所述的方法,其中:
8.如权利要求7所述的方法,还包括将所述第一异常检测器的实例和所述第二异常检测器的实例组合到集成体中。
9.如权利要求2所述的方法,其中所述元模型不包括人工神经网络。
10.如权利要求1所述的方法,其中从由以下各项构成的组中选择至少一项:
11.如权利要求10所述的方法,还包括:
12.如权利要求1所述的方法,其中所述异常检测器的所述多个经验证的训练场景的所述训练数据集包含从由以下各项构成的组中选择的至少一项:
13.如权利要求1所述的方法,其中:
14.一种或多种存储指令的非瞬态计算机可读介质,所述指令在由一个或多个处理器执行时使得执行如权利要求1-13中的任一项所述的步骤。