一种基于大数据的多通道红外气体检测系统及方法与流程

allin2025-05-16  39


本发明涉及大数据,具体为一种基于大数据的多通道红外气体检测系统及方法。


背景技术:

1、大数据技术是指用于处理、存储和分析大规模数据集的一系列技术和工具,通过分布式存储系统,允许数据分散存储在多个节点上,以提高容量和性能。数据湖架构是一种数据存储和管理模式,它允许存储各种类型和格式的数据,并支持多种数据处理和分析工具。离散傅里叶变换是一种将时域信号转换为频域信号的数学工具,常用于信号处理和频谱分析。在大数据领域,离散傅里叶变换通常用于提取频域特征,从而分析和处理时域数据。

2、在现有技术中,仅依赖于传统的特征提取方法,无法充分捕获到光谱强度的频域特征,导致特征表示不够全面;缺乏对各种特征进行统一的标准化处理,可能导致特征空间的不一致性,使得模型难以有效地进行训练和泛化。此外,使用传统的分类算法,如逻辑回归或决策树等,将无法充分利用数据的复杂结构和特征之间的相互关系,导致分类模型的性能相对较低。针对实时数据处理方面,缺乏高效的流式处理引擎,可能导致系统无法及时响应和处理实时数据流,从而影响监测和预警的准确性和及时性。


技术实现思路

1、本发明的目的在于提供一种基于大数据的多通道红外气体检测系统及方法,以解决上述背景技术中提出的问题。

2、为了解决上述技术问题,本发明提供如下技术方案:

3、一种基于大数据的多通道红外气体检测系统,包括:

4、多通道红外传感器模块:采用红外传感器阵列,包含若干个独立通道,每个通道负责检测特定波长的红外光谱;每个通道配备独立的滤波器和检测器组件,用于选择特定的红外波长,并转换光信号为电信号,对从检测器中输出的微弱信号进行放大和处理;

5、数据预处理模块:从多通道红外传感器模块获取原始数据,所述原始数据包括各通道的光谱强度、时间戳、环境参数和传感器状态;进行模拟数字转换处理,对原始数据进行滤波处理,去除高频噪声和干扰信号,对传感器输出的数据进行校准和校正,从预处理后的数据中提取特征;对提取的特征进行归一化处理,对特征空间进行降维处理,检测和处理数据中的异常值,将预处理后的数据进行可视化展示;

6、模式识别与分类模块:从数据预处理模块中获取特征,使用支持向量机模型,通过预先标记的训练数据进行训练,建立气体分类模型;使用验证数据集对训练好的气体分类模型进行评估,评估模型的分类性能和泛化能力,根据评估结果对模型进行优化,对数据进行分类预测;

7、实时监测与报警模块:不断监测从数据预处理模块获取的气体浓度数据,保持与传感器模块的实时通信;设定气体浓度的阈值,用于判断是否达到报警条件,能够根据需要进行动态调整;当监测到气体浓度超过设定的阈值时,触发报警机制,根据气体浓度的不同,设定不同的报警级别;系统记录每次报警事件的详细信息;

8、数据存储与管理模块:采用hdfs存储处理后的数据,使用apache hbase存储结构化数据,建立数据湖架构,将结构化数据和非结构化数据存储在同一个存储池中;针对实时数据流,采用流式处理引擎apache kafka进行实时数据处理和存储;实施分布式数据备份策略,将数据备份存储在若干个地理位置,建立容灾机制,采用加密技术对数据进行加密存储。

9、所述数据预处理模块采用adc芯片,将从多通道红外传感器模块获取的模拟信号转换为数字形式;各通道的光谱强度反映各通道检测到的红外信号强度,使用低通滤波,用户选择截止频率,去除各通道的光谱强度的高频噪声;使用中值滤波,在滑动窗口中取中值,去除各通道的光谱强度的异常值和脉冲噪声;使用高斯滤波,平滑各通道的光谱强度,降低各通道的光谱强度的噪声水平;对于时间戳数据进行校验和修正,确保时间顺序的正确性;对于环境参数,采用移动平均滤波,减少环境参数的随机波动,根据环境参数中数据的权重进行加权滤波;所述传感器状态反映出传感器的运行状态和故障信息,使用状态检测算法检测传感器的异常状态或故障,将异常数据修正并标记;使用滞后滤波,平滑传感器的状态变化,减少传感器状态突变的影响。

10、所述数据预处理模块使用傅里叶变换对各通道的光谱强度提取频域特征,对于每个通道的光谱强度的时域信号在第n个采样点的值x(n),使用离散傅里叶变换将x(n)转换为每个通道的光谱强度的频域信号x(k),公式如下:

11、

12、其中,k是频率的索引,表示频域信号中的每个频率分量在离散频率域上的位置;n是每个通道光谱强度数据的采样点数;n是时域采样点索引,从0开始递增,直到n-1;e-i2πkn/n是旋转因子,用于将时域信号转换为频域信号,e是自然对数的底,i是虚数单位。

13、基于每个通道的光谱强度的频域信号x(k),计算频谱能量,公式如下:

14、

15、其中,e是频谱能量,表示每个通道的光谱强度数据在频域上的总能量,反映了该通道的整体频谱特性;

16、基于x(k),计算频谱均值,公式如下:

17、

18、其中,是频谱均值,表示频域信号的均值频率;频谱均值用于表示每个通道的光谱强度数据在频域上的平均频率,反映了光谱分布的中心位置;

19、基于x(k),计算频谱带宽,公式如下:

20、

21、其中,bw是频谱带宽,表示每个通道的光谱强度数据在频域上的分布范围,反映了光谱信号的宽度和波动性。

22、对时间戳进行特征提取时,统计时间戳之间的时间间隔,所述时间间隔包括平均时间间隔、最大时间间隔和最小时间间隔,反映数据的采样频率和稳定性;将时间戳转换为精确到秒的时间单位,提取数据的周期性;分析时间段内数据的分布密度,检测数据的采样偏差或异常情况;

23、对环境参数进行特征提取时,统计环境参数的平均值、方差、最大值和最小值,描述环境参数的整体分布情况;分析环境参数之间的相关性,使用相关系数评估不同环境参数之间的相关程度;如果环境参数具有周期性变化,提取周期性特征,所述周期性特征包括周期性变化的幅度、周期和相位;

24、对传感器状态进行特征提取时,统计传感器状态的持续时间,计算每种状态的平均持续时间、最长持续时间和最短持续时间;分析传感器状态之间的转换情况,计算状态转换的频率或模式,评估传感器的稳定性和性能;对传感器状态进行编码和分类。

25、所述模式识别与分类模块从已知类别的样本中准备训练数据集,每个样本包含特征向量和相应的类别标签;所述特征向量包括各通道的光谱强度特征、时间戳特征、环境参数特征和传感器状态特征,所述类别标签指示样本所属的气体类型;使用均值归一化对特征向量进行标准化处理;使用支持向量机算法对训练数据集进行训练,训练过程中,支持向量机模型将学习到一个最优的超平面,以最大化数据的间隔并正确分类已知的样本;

26、支持向量机的损失函数采用合页损失函数,公式定义如下:

27、

28、其中,w是超平面的法向量,用于将特征空间中的数据分隔开;b是偏置项,用于调整决策边界的位置;ui是样本i的特征向量;yi是样本i的真实类别标签,表示该样本所属的气体类型;m是样本数量;max(0,1-yi(w·ui+b))是合页损失函数,用于衡量模型预测与真实标签之间的误差,对于误分类的样本,损失值为非零。

29、支持向量机的目标函数包括两部分:正则化项和损失函数;其中,正则化项用于控制模型的复杂度,防止过拟合;目标函数表示为:

30、

31、其中,||w||2是w的范数,用于正则化;c是惩罚参数,用于平衡正则化项和损失函数项;目标函数的优化目标是最小化正则化项和损失函数项的和;

32、为求解支持向量机的优化问题,采用对偶问题的方法,通过拉格朗日乘子法,得到如下的对偶优化问题公式:

33、

34、其中,α是拉格朗日乘子向量,表示训练样本在决策函数中的权重,反映了支持向量的重要性;ui是样本i的特征向量,uj是样本j的特征向量,ui和uj都是从数据预处理模块中提取的特征;yi是样本i的真实类别标签,表示样本i所属的气体类型;yj是样本j的真实类别标签,表示样本j所属的气体类型。

35、一种基于大数据的多通道红外气体检测方法,包括如下步骤:

36、s100、采用红外传感器阵列,每个通道负责检测特定波长的红外光谱,转换光信号为电信号,对从检测器中输出的微弱信号进行放大和处理;

37、s200、获取原始数据,所述原始数据包括各通道的光谱强度、时间戳、环境参数和传感器状态,对原始数据进行预处理;

38、s300、从预处理后的数据中提取特征,对提取的特征进行归一化处理,对特征空间进行降维处理,检测和处理数据中的异常值,将预处理后的数据进行可视化展示;

39、s400、使用支持向量机模型,通过预先标记的训练数据进行训练,建立气体分类模型;

40、s500、使用验证数据集对训练好的气体分类模型进行评估,评估模型的分类性能和泛化能力,根据评估结果对模型进行优化,对数据进行分类预测;

41、s600、不断监测气体浓度数据,保持与传感器模块的实时通信;设定气体浓度的阈值,用于判断是否达到报警条件;

42、s700、当监测到气体浓度超过设定的阈值时,触发报警机制,根据气体浓度的不同,设定不同的报警级别;系统记录每次报警事件的详细信息;

43、s800、采用hdfs存储处理后的数据,使用apache hbase存储结构化数据,建立数据湖架构,将结构化数据和非结构化数据存储在同一个存储池中;

44、s900、针对实时数据流,采用流式处理引擎apache kafka进行实时数据处理和存储;实施分布式数据备份策略,建立容灾机制,采用加密技术,实施自动化运维机制。

45、根据步骤s700,系统设定低、中、高三个报警级别,针对不同的气体浓度范围,设置相应的阈值;当监测到的气体浓度超过特定阈值时,系统将触发相应级别的报警;报警机制采用若干种方式进行通知,包括声音报警、光闪报警、电子邮件和短信通知;

46、当系统将触发低级别报警时,采取预警措施,提醒相关人员注意,并进行初步的应急处理;当系统触发中级别报警时,需要进行疏散人员和封闭区域;当系统触发高级别报警时,立即采取紧急措施,确保人员安全;系统将记录每次报警事件的详细信息,所述详细信息包括报警级别、触发时间、气体浓度值、触发原因和报警处理人员,存储在数据存储与管理模块中。

47、根据步骤s800,采用hdfs存储处理后的数据是一种常见的大数据存储方案。hdfs是一种分布式文件系统,专门设计用于存储和处理大规模数据集。它的主要特点包括高可靠性、高吞吐量、容错性和可扩展性。在该系统中,数据被分割成多个块并分布式存储在集群的不同节点上,从而实现了数据的并行处理和高效存储。apache hbase则是一个开源的、分布式的、面向列的nosql数据库,它构建在hdfs之上。hbase主要用于存储结构化数据,并提供快速的随机读/写访问。它适用于需要实时访问大量结构化数据的场景,例如在本发明中,用于存储气体检测系统中的结构化数据,比如各通道的光谱强度、时间戳、环境参数和传感器状态等信息。

48、建立数据湖架构意味着将不同类型和格式的数据存储在同一个存储池中,包括结构化数据、半结构化数据和非结构化数据。这种架构使得数据变得更加灵活,便于统一管理和分析,同时也提高了数据的可用性和可扩展性。将结构化数据和非结构化数据存储在同一个存储池中,可以为数据分析和挖掘提供更广泛的视角和更丰富的信息,从而更好地支持数据驱动的决策和应用。

49、根据步骤s900,在数据存储与管理模块中部署apache kafka集群,所述集群包括若干个kafka broker,用于接收、处理和存储实时数据流;配置kafka topic,将每个通道的原始数据作为消息发送到对应的topic中,每个消息包含光谱强度、时间戳、环境参数和传感器状态;在消费者端,开发相应的kafka消费者应用程序,从各个topic中消费数据并进行实时处理;处理后的数据根据需求再次发送到kafka中的其他topic中;

50、在kafka集群中配置副本机制,确保每个topic的数据在多个broker之间进行备份;部署若干个kafka集群在不同的地理位置,确保数据的分布式备份,当某个集群发生故障,其他集群仍能继续提供服务;针对每个kafka集群,设置监控系统实时监测集群的健康状况,并配置自动故障转移机制,在检测到故障时自动将流量转移到备用集群上;

51、在kafka集群之间的通信中使用tls/ssl协议进行加密,确保数据在传输过程中的安全性;在kafka集群内部,配置访问控制列表acl限制对topic的访问,只有经过身份验证的用户才能访问数据;对数据进行端到端的加密,确保数据在存储和处理过程中的安全性;部署监控系统实时监测kafka集群的运行状态,所述运行状态包括集群吞吐量、延迟和磁盘使用率;开发自动化脚本和工具实现集群的自动部署、配置和扩展,以及故障的自动检测和恢复。

52、与现有技术相比,本发明所达到的有益效果是:

53、本发明的数据预处理模块利用傅立叶变换提取频域特征,能够更准确地对各通道的光谱强度进行分析,从而提高了气体检测的准确性和稳定性。

54、本发明的模式识别与分类模块采用支持向量机算法,并结合了多个特征向量对样本进行训练和分类,相比传统方法,能够更好地识别气体类型,提高了分类模型的性能和泛化能力。

55、本发明的数据存储与管理模块采用hdfs、apache hbase和apache kafka等技术,能够实现高效的数据存储、处理和备份,提高了数据管理的效率和可靠性。


技术特征:

1.一种基于大数据的多通道红外气体检测系统,其特征在于:包括:

2.根据权利要求1所述的一种基于大数据的多通道红外气体检测系统,其特征在于:所述数据预处理模块采用adc芯片,将从多通道红外传感器模块获取的模拟信号转换为数字形式;各通道的光谱强度反映各通道检测到的红外信号强度,使用低通滤波,用户选择截止频率,去除各通道的光谱强度的高频噪声;使用中值滤波,在滑动窗口中取中值,去除各通道的光谱强度的异常值和脉冲噪声;使用高斯滤波,平滑各通道的光谱强度,降低各通道的光谱强度的噪声水平;对于时间戳数据进行校验和修正,确保时间顺序的正确性;对于环境参数,采用移动平均滤波,减少环境参数的随机波动,根据环境参数中数据的权重进行加权滤波;所述传感器状态反映出传感器的运行状态和故障信息,使用状态检测算法检测传感器的异常状态或故障,将异常数据修正并标记;使用滞后滤波,平滑传感器的状态变化,减少传感器状态突变的影响。

3.根据权利要求1所述的一种基于大数据的多通道红外气体检测系统,其特征在于:所述数据预处理模块使用傅里叶变换对各通道的光谱强度提取频域特征,对于每个通道的光谱强度的时域信号在第n个采样点的值x(n),使用离散傅里叶变换将x(n)转换为每个通道的光谱强度的频域信号x(k),公式如下:

4.根据权利要求3所述的一种基于大数据的多通道红外气体检测系统,其特征在于:基于每个通道的光谱强度的频域信号x(k),计算频谱能量,公式如下:

5.根据权利要求1所述的一种基于大数据的多通道红外气体检测系统,其特征在于:对时间戳进行特征提取时,统计时间戳之间的时间间隔,所述时间间隔包括平均时间间隔、最大时间间隔和最小时间间隔,反映数据的采样频率和稳定性;将时间戳转换为精确到秒的时间单位,提取数据的周期性;分析时间段内数据的分布密度,检测数据的采样偏差或异常情况;

6.根据权利要求1所述的一种基于大数据的多通道红外气体检测系统,其特征在于:所述模式识别与分类模块从已知类别的样本中准备训练数据集,每个样本包含特征向量和相应的类别标签;所述特征向量包括各通道的光谱强度特征、时间戳特征、环境参数特征和传感器状态特征,所述类别标签指示样本所属的气体类型;使用均值归一化对特征向量进行标准化处理;使用支持向量机算法对训练数据集进行训练,训练过程中,支持向量机模型将学习到一个最优的超平面,以最大化数据的间隔并正确分类已知的样本;

7.根据权利要求6所述的一种基于大数据的多通道红外气体检测系统,其特征在于:支持向量机的目标函数包括两部分:正则化项和损失函数;其中,正则化项用于控制模型的复杂度,防止过拟合;目标函数表示为:

8.一种基于大数据的多通道红外气体检测方法,应用于权利要求1-7中任一项所述的一种基于大数据的多通道红外气体检测系统,其特征在于:包括如下步骤:

9.根据权利要求8所述的一种基于大数据的多通道红外气体检测方法,其特征在于:根据步骤s700,系统设定低、中、高三个报警级别,针对不同的气体浓度范围,设置相应的阈值;当监测到的气体浓度超过特定阈值时,系统将触发相应级别的报警;报警机制采用若干种方式进行通知,包括声音报警、光闪报警、电子邮件和短信通知;

10.根据权利要求8所述的一种基于大数据的多通道红外气体检测方法,其特征在于:根据步骤s900,在数据存储与管理模块中部署apache kafka集群,所述集群包括若干个kafka broker,用于接收、处理和存储实时数据流;配置kafka topic,将每个通道的原始数据作为消息发送到对应的topic中,每个消息包含光谱强度、时间戳、环境参数和传感器状态;在消费者端,开发相应的kafka消费者应用程序,从各个topic中消费数据并进行实时处理;处理后的数据根据需求再次发送到kafka中的其他topic中;


技术总结
本发明公开了一种基于大数据的多通道红外气体检测系统及方法,属于大数据技术领域。本发明包括:多通道红外传感器模块:采用红外传感器阵列,包含若干个独立通道,每个通道负责检测特定波长的红外光谱;数据预处理模块:对原始数据进行预处理,从预处理后的数据中提取特征;对提取的特征进行归一化处理,将预处理后的数据进行可视化展示;模式识别与分类模块:使用支持向量机模型,通过预先标记的训练数据进行训练,建立气体分类模型;实时监测与报警模块:不断监测从数据预处理模块获取的气体浓度数据,当监测到气体浓度超过设定的阈值时,触发报警机制;数据存储与管理模块:存储处理后的数据,实施分布式数据备份策略,建立容灾机制。

技术研发人员:钱荣,钱华,单鸣雷,徐杰,李博洋,陈文文
受保护的技术使用者:江苏久创电气科技有限公司
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-21131.html

最新回复(0)