本技术涉及数据传输,且更为具体地,涉及复杂工况下异常数据检测剔除方法和系统。
背景技术:
1、在现代工业生产和网络数据传输中,尤其是在矿井下作业等复杂工况环境下,传感器数据的可靠性和准确性对于安全生产和高效运作至关重要。然而,由于矿井下环境的特殊性,如信号传输不稳定、电磁干扰、设备老化等因素,导致传感器采集的数据中常常存在大量的异常数据。这些异常数据不仅影响数据分析的准确性,还可能导致错误的决策。
2、目前,现有的异常数据检测方法主要包括统计方法、机器学习方法等。虽然这些方法在一定程度上能够识别异常数据,但在复杂工况下,特别是在通信环境较差的情况下,传统的异常检测方法往往难以满足高精度和实时性的要求。因此,需要一种新的技术方案,在复杂工况下有效地识别和剔除异常数据,提高数据处理的准确性和可靠性。
技术实现思路
1、为了解决上述技术问题,提出了本技术,以提供一种复杂工况下异常数据检测剔除方法和系统,能够在复杂工况下有效地识别和剔除异常数据,提高数据处理的准确性和可靠性。
2、第一方面,本技术提供了一种复杂工况下异常数据检测剔除方法,包括:接收预设复杂工况作业过程中的多个传感器的数据流;按照预设的多个时间点,对所述多个传感器中的每个传感器的数据流提取特征,其中,所述多个传感器的数据流在所述多个时间点中的每个时间点的特征组成一个特征向量,所述多个传感器的数据流在所述多个时间点的特征组成多个特征向量;根据预设的邻域半径和最小点数,找出所有邻域内特征向量的数量达到所述最小点数的特征向量作为核心数据点,对所述多个特征向量进行聚类,形成多个特征簇以及位于所述多个特征簇之外的噪声数据点;计算所述噪声数据点的离群值度量;根据所述噪声数据点的离群值度量,计算所述噪声数据点为异常数据点的概率;在所述噪声数据点为异常数据点的概率高于预设阈值时,根据所述异常数据点对应的时间点,从所述多个传感器的数据流中剔除数据。
3、可选地,在前述的复杂工况下异常数据检测剔除方法中,在根据预设的邻域半径和最小点数,找出所有邻域内特征向量的数量达到所述最小点数的特征向量作为核心数据点之前,还包括:按照预设的基准半径,统计所述多个特征向量中的每个特征向量邻近的其他特征向量的数量;根据所述每个特征向量邻近的其他特征向量的数量,计算所述每个特征向量的局部密度,其中,第k个特征向量的局部密度为;计算所述多个特征向量的平均局部密度;计算所述最小点数,其中,第k个特征向量对应的最小点数。
4、可选地,在前述的复杂工况下异常数据检测剔除方法中,在根据预设的邻域半径和最小点数,找出所有邻域内特征向量数量达到所述最小点数的特征向量作为核心数据点之前,还包括:计算所述每个特征向量与其他特征向量的距离;根据所述每个特征向量对应的最小点数,按照距离由近到远的次序从所述每个特征向量与其他特征向量的距离中选出典型距离,第k个特征向量的典型距离为所述第k个特征向量与其他特征向量的距离中的第个距离;计算所述多个特征向量的平均典型距离;计算所述邻域半径,其中,为预设的调节因子,表示所述多个特征向量的数量。
5、可选地,在前述的复杂工况下异常数据检测剔除方法中,计算所述噪声数据点的离群值度量,包括:计算所述多个特征簇的中心,其中,第i个特征簇的中心为;计算所述噪声数据点至所述多个特征簇的中心的距离,其中,所述噪声数据点至所述第i个特征簇的中心的距离为,表示所述噪声数据点;计算所有特征向量至其所在的特征簇的中心的距离,并取均值以及取标准差;计算所述噪声数据点的离群值度量,其中,m为所述多个特征簇的数量,为预设的权重系数。
6、可选地,在前述的复杂工况下异常数据检测剔除方法中,在计算所述噪声数据点的离群值度量之后,还包括:查询所述噪声数据点对应的时间点的上一时间点;查询所述多个传感器的数据流在所述上一时间点的特征向量;计算所述噪声数据点的波动幅值,其中,为预设的基准时间;基于所述噪声数据点的波动幅值,对所述噪声数据点的离群值度量进行修正,修正后的所述噪声数据点的离群值度量,其中,为预设的修正系数。
7、可选地,在前述的复杂工况下异常数据检测剔除方法中,根据所述噪声数据点的离群值度量,计算所述噪声数据点为异常数据点的概率,包括:计算所述噪声数据点的初步异常得分,其中,和为预设参数,是控制所述噪声数据点的初步异常得分对应的曲线的陡峭程度参数和中心位置参数;计算所述噪声数据点的空间一致性得分,其中,和为预设参数,是控制所述噪声数据点的空间一致性得分对应的曲线的陡峭程度参数和中心位置参数;计算所述噪声数据点为异常数据点的概率。
8、可选地,在前述的复杂工况下异常数据检测剔除方法中,所述根据所述异常数据点对应的时间点从所述多个传感器的数据流中剔除数据,包括:将所述异常数据点对应的时间点作为剔除时间点,按照预设的时间间隔,从所述剔除时间点之前选择第一候选剔除时间点,从所述剔除时间点之后选择第二候选剔除时间点;计算所述剔除时间点对应的特征向量与所述第一候选剔除时间点对应的特征向量之间的差距,在差距超过预设差距值时,将所述第一候选剔除时间点作为新的剔除时间点,并继续向前选择新的第一候选剔除时间点;计算所述剔除时间点对应的特征向量与所述第二候选剔除时间点对应的特征向量之间的差距,在差距超过预设差距值时,将所述第二候选剔除时间点作为新的剔除时间点,并继续向后前选择新的第二候选剔除时间点;将所述多个传感器的数据流中的最小的剔除时间点与最大的剔除时间点间的数据全部剔除。
9、可选地,在前述的复杂工况下异常数据检测剔除方法中,在将所述多个传感器的数据流中的最小的剔除时间点与最大的剔除时间点间的数据全部剔除之后,还包括:在所述最小的剔除时间点和所述最大的剔除时间点间进行数据填充,使得所述最小的剔除时间点和所述最大的剔除时间点间任意两点对应的特征向量之间的差距不超过所述预设差距值。
10、第二方面,本技术提供了一种复杂工况下异常数据检测剔除系统,包括:数据流接收模块,接收预设复杂工况作业过程中的多个传感器的数据流;特征提取模块,按照预设的多个时间点,对所述多个传感器中的每个传感器的数据流提取特征,其中,所述多个传感器的数据流在所述多个时间点中的每个时间点的特征组成一个特征向量,所述多个传感器的数据流在所述多个时间点的特征组成多个特征向量;噪声识别模块,根据预设的邻域半径和最小点数,找出所有邻域内特征向量的数量达到所述最小点数的特征向量作为核心数据点,对所述多个特征向量进行聚类,形成多个特征簇以及位于所述多个特征簇之外的噪声数据点;离群计算模块,计算所述噪声数据点的离群值度量;异常计算模块,根据所述噪声数据点的离群值度量,计算所述噪声数据点为异常数据点的概率;数据剔除模块,在所述噪声数据点为异常数据点的概率高于预设阈值时,根据所述异常数据点对应的时间点,从所述多个传感器的数据流中剔除数据。
11、本技术的上述一个或多个技术方案至少具有如下一种或多种有益效果:
12、根据本发明的技术方案,通过特征提取、聚类分析、离群值度量、概率评估等步骤,有效地提高了数据质量,增强了异常检测能力,提升了数据处理效率,改善了通信环境适应性,增强了系统的安全性和可靠性,并且具有广泛的适用性,这些技术效果使得本实施例在复杂工况下的数据处理方面具有显著的优势。
1.复杂工况下异常数据检测剔除方法,其特征在于,包括:
2.根据权利要求1所述的复杂工况下异常数据检测剔除方法,其特征在于,在根据预设的邻域半径和最小点数,找出所有邻域内特征向量的数量达到所述最小点数的特征向量作为核心数据点之前,还包括:
3.根据权利要求2所述的复杂工况下异常数据检测剔除方法,其特征在于,在根据预设的邻域半径和最小点数,找出所有邻域内特征向量的数量达到所述最小点数的特征向量作为核心数据点之前,还包括:
4.根据权利要求1所述的复杂工况下异常数据检测剔除方法,其特征在于,计算所述噪声数据点的离群值度量,包括:
5.根据权利要求4所述的复杂工况下异常数据检测剔除方法,其特征在于,在计算所述噪声数据点的离群值度量之后,还包括:
6.根据权利要求1所述的复杂工况下异常数据检测剔除方法,其特征在于,根据所述噪声数据点的离群值度量,计算所述噪声数据点为异常数据点的概率,包括:
7.根据权利要求1所述的复杂工况下异常数据检测剔除方法,其特征在于,根据所述异常数据点对应的时间点,从所述多个传感器的数据流中剔除数据,包括:
8.根据权利要求7所述的复杂工况下异常数据检测剔除方法,其特征在于,在将所述多个传感器的数据流中的最小的剔除时间点与最大的剔除时间点间的数据全部剔除之后,还包括:
9.复杂工况下异常数据检测剔除系统,其特征在于,包括: