首页 > 论文范文 > 医药卫生论文 > 呼吸疾病论文 > 新冠肺炎论文 > 面向新冠肺炎疫情时序数据的异常检测算法

面向新冠肺炎疫情时序数据的异常检测算法

2025-02-27 89 上传者：管理员

摘要：针对新冠肺炎疫情的监测预警，提出基于自编码器(AE)和门控循环单元(GRU)的异常检测模型。首先，用时滞互相关分析法筛选出与病例数相关性较大的搜索词，得到时序关系。其次，根据时序关系和贝叶斯超参数优化构造AE-GRU模型，进行数据重构。然后，用滑动窗口阈值法标注模型检测出的异常点。最后，与AE、GRU模型进行对比实验，观察不同数据集在AE-GRU模型上的表现。结果表明，所建模型在数据拟合与异常检测方面的效果明显占优，融合搜索指数病例数据的异常检测正确率高于历史病例数据。

关键词：
AE-GRU模型
传染病预警
异常检测
时间序列
贝叶斯优化
加入收藏

新冠肺炎疫情防控要求完善预警机制,通过监测疫情发现异常点发布预警,启动相应预案｡需要监测的新冠疫情异常点主要表现为异于历史情形的节点,其本质即在时域中对离散数据变化趋势的异常判断｡在网络应用普及条件下,通过搜集人的行为数据并加以分析,可能及时发现异常点,提高异常检测时效性｡鉴于网络平台的搜索数据获取成本低,更容易获得病人的求医行为数据,故基于搜索引擎的传染病预警研究展现了独特前景｡

基于搜索引擎数据分析的传染病预警,多通过建立机器学习模型进行数据拟合,达到一定的预警效果｡2008年,谷歌推出了一款预测流感的产品,根据搜索关键词实时监测和预警流感确诊数据[1],显示了基于搜索指数的传染病预警法的有效性｡Yuan等利用百度搜索数据预测全国范围内的流感趋势,成功预测了2012年的流感病例数[2]｡王若佳等基于百度关键词搜索指数拟合流感阳性数,进行流感疫情预测[3]｡相较人工神经网络和BP神经网络,非线性的LSTM和GRU模型在处理时间序列数据上更占优势[4]｡2013年,高秋菊等建立LSTM模型预测石家庄市手足口病病例数,效果优于ARIMA模型[5]｡徐可强等使用LSTM模型预测乙脑风险与登革热病例数[6]｡2020年,Yang使用LSTM模型和数值模拟方法预测疫情确诊人数,拟合效果较好[7]｡张帆等使用GRU模型和降维数据建立传染病预警系统,预警的时效性较好｡以上预警研究的主要思想是通过找寻病例数与影响因素的映射关系和阈值得到异常点,相关因素的异常直接导致结果异常,而不考虑病例数本身对于异常的影响,故该方法胜在时效性,但忽略了关键的影响因素,可能影响预警的正确性｡

在此基础上,本文提出一种融合新增病例数和网络搜索指数的疫情异常检测模型及其求解方法｡使用高维空间筛选数据特征,学习到时间序列数据｡同时使用贝叶斯算法优化模型训练效果,构建异常得分机制与自适应阈值对病例数据做出异常判断｡

1、理论框架与模型

1.1理论框架

本研究旨在构建针对全国范围的疫情预警模型,将各关键词与每日全国新增确诊病例数进行时间滞后互相关分析,得到各关键词与确诊病例数之间的最大相关系数和先行时间段｡筛选先行性和相关系数较好的关键词作为特征数据｡在异常检测部分,将异常风险值作为异常检测指标,要根据相关系数为各特征属性赋以权重,并构造加权损失函数计算出节点的最终异常得分｡最后利用自适应阈值的方法得到异常点警示标示,模型框架见图1｡

图1模型结构

1.2模型介绍

1.2.1基于贝叶斯优化的AE-GRU模型

门控循环单元(GRU),是对长短时记忆神经网络(LSTM)改进后形成的循环神经网络,利用门控机制控制输入､记忆等信息｡其重置门rt与更新门zt在t时刻使用式(1)更新,其中Wr､Wz､Ur和Uz是各神经元参数,在训练学习中更新得出,σ是sigmoid函数,xt是t时刻信号,ht-1是t-1时刻信号｡

按式(2)所示规律控制当前记忆内容ht和当前时间步的最终记忆内容ht,便可使重置门和更新门产生门控作用｡

自编码器(Autoencoder)是一种无监督学习模型,利用编码器学习从高维学习数据特征,用解码器调整网络参数,以此达到学习输入数据的目的｡

AE-GRU的本质,是将数据解构再重构的学习过程｡相较自编码器,AE-GRU把构成编码器与解码器普通神经网络替换为GRU网络,结合历史数据的影响来学习数据特征,更适合时间序列数据的学习｡

在机器学习算法中,超参数的选择常关系到数据的拟合和预测效果｡贝叶斯优化是目标函数表达式未知时解决函数优化问题的重要方法,根据观测点估计目标函数分布,寻找下一个最有可能包含极值点的集合,如此迭代重复,得到目标函数的最优解,流程见图2.

图2超参数的贝叶斯优化流程

1.2.2异常检测机制得分计算

本文的异常检测模型依靠无监督学习的重构误差,计算得到各时间节点的异常得分,并与各时间节点的滑动窗口阈值比较,异常得分若大于阈值,则标注为异常点｡

根据先行关键词对疫情发展贡献构造的权重矩阵,和每日新增病例数,计算各数据特征损失的加权和,以此作为各时间点的异常得分｡若用欧式距离定义各时间点的loss值,将各属性数据在t时刻得到的loss标为{losst1,losst2,…,losstn},把目标属性标为lossty,权重向量为{w1,w2,…,wn,wy},则t时刻的异常得分可用式(3)求取:

为提高异常检测的时效性,本文采用滑动窗口计算阈值,根据各固定窗口数据,为各时间点计算各自阈值｡对于数据点xn,若其受到影响窗口数据序列为X={xn-1,…,xn-i},若其均值为m,方差为d,根据拉伊达准则,xn点的阈值为m+3d.

2、实验

2.1数据源

本文数据源选取2020年3月21日至2022年3月20日国家卫健委的新冠疫情日增数据,以及百度搜索收录的关键词日搜索量数据｡

2.2关键词选择

2.2.1关键词初选

根据疫情期间的信息需求,在“疫情预防”“疫情自测”“类似症状自治”和“疫情常用词”等四个类别中选取关键词｡在百度搜索指数平台上观察各关键词的需求图谱,将其衍生关键词与长尾词也收录到初选关键词集合｡

关键词集合构造完成后,利用BaiduX包,获取全国范围内各关键词的百度指数,剔除未被百度指数平台收录或收录太迟的关键词数据,初选关键词集合见表1.

表1初选关键词

2.2.2时滞互相关分析

时间滞后互相关(TLCC),通过对两个信号在不同时滞下相关系数的计算,判断信号间是否存在引导或追随重复的关系,从而筛选出与目标属性具有相关关系的属性变量,并得到对应的先行或滞后时差,实验选择Spearman相关系数作为TLCC的相关性度量

对初选词库中各关键词搜索指数数据和每日新增确诊病例数进行时滞互相关分析｡设置相对时滞范围为-21到21,计算各时滞对应的相关系数,并筛选出最大相关系数大于0.3的关键词及相应的时间差｡具体的关键词､最大相关系数和最佳时滞见表2.

表2关键词先行时间与相关系数

异常检测模型应考虑尽可能多的影响因素以保证准确性,故本文选择先行2天的关键词作为模型变量,按列对各关键词的搜索指数进行汇总,将每日新增数据､隔离､低烧､咽痛､干咳､新冠肺炎后遗症和疫情最新数据消息按时序排列,得到长度为730､维度为7的原始数据集｡

2.3异常检测模型搭建

2.3.1数据集划分及归一化

为验证融合数据对异常检测的有效性,增加不同数据集作为对照组,其中将6个关键词搜索指数与新增病例数作为多维数据集合,把单独的每日新增病例数据作为单维数据集合｡同时,为方便模型训练,将数据集分为训练集和测试集,分别占80%和20%,得到训练集､测试集的数据量分别为585和145.由于各维度数据的量纲不同,为保持样本数据的间距,使用归一化方法处理各变量数据｡

2.3.2时间子序列划分

为完成GRU部分的模型训练,需要对数据进行子序列划分｡利用大小为seq_size､步长为s的滑动窗口和切片对长度为n的数据序列X={x1,…,xn}进行分割,得到子序列P={pi},i=1,…,m和子序列Q={qi},i=1,…,m,其中,pi={xi,xi+1,xi+seq_size},qi={xi,xi+1,xi+s},m=n-seq_sizes+1.实验用前2天的数据预测其后1天的数据,取seq_size=2,s=1,得到两个长度为583的训练数据和两个长度为143的测试数据集｡

2.3.3重构网络模型构建

在Keras架构上搭建AE-GRU网络模型,将GRU网络作为编码器,得到最后一个时间步隐藏状态｡模型解码器用RepeatVector层将编码器输入复制seq_size次,为GRU层的各隐藏单元设置相同输入,用一个基于全连接的TimeDistributed层合并时间子序列的重构数据,输出2行×7列的子序列｡该模型将先行两天的子序列和当天状态子序列数据集作为输入,重构先行两天的子序列数据集作为输出,模型的超参数选取见2.3.4节｡模型同时使用丢失率为0.2的dropout层,防止模型过于复杂｡在模型训练时,采用平均绝对误差(MAE)作为数据训练时的损失函数,利用重构数据和实际数据的2范数作为重构损失｡

2.3.4贝叶斯优化

使用bayes_opt库,取训练集的准确性和损失值的平均和为目标函数,首次迭代先随机取30个样本点,进行600次循环,在迭代过程中的最大值即模型的最佳超参数设置｡超参数搜寻范围与最后取值见表3.

表3贝叶斯优化结果

2.3.5异常得分与阈值

根据各变量和新增病例数的相关性大小,得到异常影响因素的权重,其权重矩阵为[0.23,0.12,0.12,0.12,0.16,0.1,0.17],将各点的重构误差进行加权求和,计算得到各时刻的异常得分｡将阈值窗口设为2,用过去2个时间点的异常得分和当前得分综合判断异常程度,并得到训练集数据上自适应阈值曲线｡

2.4模型实验对比

本文就模型拟合重构效果和异常检测效率,对不同数据集上各方法进行比较｡其中,用平均重构误差表征模型拟合效果与泛化能力;异常检测效果用召回率､精确率､F1值和准确率表征｡目前暂缺疫情异常点标注,实验根据相邻新增病例数差值标注异常点,将高于20的点作为异常,得到参考异常点39个｡

实验为各模型设置最优超参数后,分别得到模型在训练集和测试集数据上的重构误差｡从图3和图4可以看出,相较于其他两个模型,AE-GRU模型在多维数据集各点上的重构误差最小｡表4是模型在数据集上计算得到的整体损失值,可以看出,AE-GRU模型无论在多维数据集上还是在单维数据集上损失均小于AE和GRU模型,表明其重构效果最优｡

各模型在测试集上完成重构数据后,还需要根据重构误差计算各节点的异常得分和自适应阈值曲线｡图5是AE-GRU模型异常得分和阈值的分布关系,当阈值低于异常得分,该点判为异常点｡由于模型还具备对疫情发展趋势的预测,故对异常点的检测不仅针对实时点,根据关键词先行时间关系和子序列的分割窗口,还要考虑异常点是否相对提前,故将提前2天内检测到的异常点也作为正样本,更符合实际意义｡据此各模型在多维数据集上分别识别出37､36､32个异常点,在单维数据上分别识别出34､36､34个异常点,且分别得到的召回率､精确率和F1值见表5.从中可见,AE-GRU模型在不同数据集上的召回率､精确率和F1值均优于GRU和AE模型,其异常检测效果明显占优｡

图3训练集损失图

图4测试集各点损失图

表4模型损失

表5异常检测评价指标

图5测试集上AE-GRU模型异常得分和阈值分布

从不同数据集上模型表现来看,模型在单维数据集损失小于多维数据,从异常检测效果来看,单维数据集在AE-GRU和AE模型上的异常检测效果均不及多维数据集,但在GRU模型上,单维数据集的异常检测效果优于多维数据,由此可见,AE模型和AE-GRU模型学习多维特征的能力要强于GRU模型｡

根据实验对数据的划分,可得到训练集数据范围在2020年3月21日到2021年10月26日,测试集数据在2021年10月27日到2022年3月20日时间范围｡由于新冠疫情在测试集时间轴上暴发性远强于训练集,导致测试集数据与训练集数据相比,具有很大异常,甚至出现很多千人感染数据,故模型在训练集和测试集上的损失值差距较大,体现出模型对异常点检测的有效性｡结合模型重构效果和异常检测效率来看,一方面,由于多维数据集包含多种数据特征,数据体量大于单维特征数据,不仅包含了不同特征在时间上的规律,还囊括了不同特征之间的联系,故对多维数据的学习要难于单维数据,直接导致模型在多维数据集上的重构损失较大｡另一方面,由于多维数据拥有多种时间维和特征维上的联系,故对异常点的揭示更加准确｡通过实验分析可以得出,AE和AE-GRU模型在多维数据集上的异常检测效果均好于单维数据集,而GRU模型在多维数据集上的异常检测表现不及单维数据,可见GRU模型并不善于捕捉多因素造成的异常点｡综合以上分析,AE-GRU模型无论在重构效果还是异常检测方面均优于AE和GRU模型,且在多维数据集上的检测效果优于单维数据集｡

3、结论

融合百度搜索数据和病例数据,构建基于AEGRU多维特征的疫情异常检测模型,考虑了数据的相关性及历史数据的影响,反映了疫情出现异常的多因素影响｡使用滑动窗口阈值方法,为考察的各时间点的疫情形势规定上限,同时在异常检测评价中不使用传统的点异常评价,代之以考虑时间效率,把提前检测出的异常作为正样本,赢得了响应时间,体现了疫情监测预警工作的价值｡

参考文献:

[3]王若佳.融合百度指数的流感预测机理与实证研究[J].情报学报,2018,37(2):206-219.

[4]胡姣姣,王晓峰,张萌,等.基于深度学习的时间序列数据异常检测方法[J].信息与控制,2019(1):1-8.

[5]高秋菊,周宇畅,赵树青,等.ARIMA乘积季节模型和LSTM深度神经网络对石家庄市手足口病疫情预测效果的比较[J].中华疾病控制杂志,2020,24(1):73-78.

[6]许可强.基于深度学习的媒介传染病预测方法研究[D].河南新乡:河南师范大学,2020.

[8]张帆.基于机器学习的传染病预警系统的研究与实现[D].银川:宁夏大学,2020.

基金资助:教育部产学合作协同育人项目(202102076011);山西省高校教学改革创新项目(J2021441);山西省哲社科学规划课题(2022YD120);山西省高等学校科技创新项目(2021L322);太原科技大学研究生教育改革研究课题(XJG21019);

文章来源:冯志婷,薛颂东.面向新冠肺炎疫情时序数据的异常检测算法[J].太原科技大学学报,2025,46(01):71-76.