摘要:目的 构建乌鲁木齐市其他感染性腹泻病的时间序列模型,比较季节性差分自回归滑动平均(seasonal autoregressive integrated moving average, SARIMA)模型、霍尔特温特斯(Holt-Winters)模型和先知(Prophet)模型的预测能力,为乌鲁木齐市其他感染性腹泻病的防控提供理论参考。方法 根据2010年1月至2021年12月乌鲁木齐市其他感染性腹泻病的发病率分别建立SARIMA模型、Holt-Winters模型和Prophet模型,比较三种模型的拟合效果,以均方根误差(root mean squared error, RMSE)、平均绝对误差(mean absolute error, MAE)、平均绝对百分比误差(mean absolute percentage error, MAPE)、决定系数(coefficient of determination, R2)作为评价指标选取最优模型。结果 季节指数显示,5~10月为乌鲁木齐市其他感染性腹泻病的流行季节;SARIMA(0,0,3)(0,1,1)12模型拟合RMSE为2.54、MAE为1.56、MAPE为0.28、R2为0.71;Holt-Winters模型拟合RMSE为3.32、MAE为2.06、MAPE为0.33、R2为0.54;Prophet模型拟合RMSE为3.37、MAE为2.15、MAPE为0.44、R2为0.48;SARIMA(0,0,3)(0,1,1)12模型预测RMSE为4.26、MAE为3.64、MAPE为0.46。结论 三种模型中SARIMA(0,0,3)(0,1,1)12模型拟合效果最好,能较好的捕捉乌鲁木齐市其他感染性腹泻病发病趋势,对乌鲁木齐市其他感染性腹泻病科学防控具有一定指导价值。
其他感染性腹泻病在我国被定义为除霍乱、痢疾、伤寒和副伤寒以外的感染性腹泻类疾病[1]。感染性腹泻病是最常见的传染病之一,是代表一个地区公众健康的重要指标[2],2015年全球约23亿人经历过腹泻病[3],我国作为发展中国家,腹泻病给我国带来了较大的经济负担。由于其他感染性腹泻病的病原体种类较多,又缺乏有效的疫苗保护,我国很多省份其他感染性腹泻病的发病率较高[4]。乌鲁木齐市位于中国西北地区,经济、卫生等条件与发达地区相比仍存在一定差距,其他感染性腹泻病在乌鲁木齐市有着一定程度的流行,2015—2017年发病率高于全国水平[5]。因此,建立能精确预测其他感染性腹泻病的发病情况,为乌鲁木齐市其他感染性腹泻病的防控提供依据很有必要。阳明芬等[6]利用自回归移动平均(autoregressive integrated moving average, ARIMA)模型预测乌鲁木齐市其他感染性腹泻病的发病情况,预测发病例数的平均相对误差为20%,而目前尚无应用多种模型比较的方法研究乌鲁木齐市其他感染性腹泻病的文献。SARIMA模型和Holt-Winters模型作为传统时间序列模型,在传染病领域应用广泛,Prophet模型是较新的时间序列模型,赵大仁[7]运用Prophet和ARIMA模型预测预测四川省COVID-19累计确诊病例,结果显示模型拟合和预测上Prophet模型均优于ARIMA模型。本研究选择SARIMA模型、Holt-Winters模型和Prophet模型,利用乌鲁木齐市2010年1月—2021年12月其他感染性腹泻病月发病率建立时间序列模型,通过比较上述三种模型对其他感染性腹泻病发病趋势的预测效能,选择最优模型用于乌鲁木齐市其他感染性腹泻病的预测,掌握乌鲁木齐市其他感染性腹泻病的发病趋势,合理分配卫生资源,为乌鲁木齐市其他感染性腹泻病的防控提供理论参考。
1、资料与方法
1.1资料来源
本研究数据资料来源于国家《疾病监测信息报告管理系统》,按发病日期和现住址收集2010年1月—2022年6月乌鲁木齐市其他感染性腹泻病的个案资料,乌鲁木齐市人口学资料来源于疾病预防控制综合管理系统。2010年1月—2021年12月的其他感染性腹泻病发病率数据用于建立模型,2022年1—6月的其他感染性腹泻病发病率数据用于验证模型的预测效果。
1.2模型简介
1.2.1 SARIMA模型
SARIMA模型的完整表达式为SARIMA(p,d,q)(P,D,Q)s,p、d和q分别代表自回归阶数、非季节差分阶数和移动平均项数,P、D和Q代表季节性自回归阶数、季节差分阶数和移动平均阶数,s指季节周期[8]。建模过程如下①序列前期处理:将2010年1月—2021年12月其他感染性腹泻病发病率数据按月份导入,定义时间序列(按月份)。利用RStudio软件“decompose”函数绘制时间序列成分分解图,观察时间序列的趋势性、季节性和随机性。以单位根(augmented Dickey-Fuller, ADF)检验判断序列的平稳性,对不平稳序列差分处理使其平稳化。②模型选择:利用RStudio软件“forecast”包中auto.arima函数自动选择最优模型,此过程简洁快速,省去繁杂的模型参数选择过程,并且减少人为主观因素带来的偏倚。后对模型拟合残差进行Ljung-Box检验,判断残差是否为白噪声。③模型评价:以RMSE、MAE、MAPE、R2指标来评价模型的拟合效果。④模型的预测:利用最优模型预测2022年1—6月乌鲁木齐市其他感染性腹泻病发病率。
1.2.2 Holt-Winters模型
Holt-Winters模型是一种指数平滑模型,该模型可通过分析序列的季节性和倾向性并进行指数平滑,确定最优方程后对原始时间序列进行预测[9]。根据计算方法的不同,Holt-Winters模型又可分为加法模型和乘法模型[10],本研究选取Holt-Winters加法模型,该模型共3个参数,α表示水平项、β表示趋势项、γ表示季节项,利用RStudio软件Holt-Winters函数建立Holt-Winters模型。以RMSE、MAE、MAPE、R2指标来评价模型的拟合效果。
1.2.3 Prophet模型
Prophet模型是目前比较新的一种时间序列模型,相比于传统预测模型,Prophet模型加入了假期项,并且对于有异常值、缺失值的时间序列Prophet模型预测效果更好[11]。该模型由趋势项(trend)、季节项(season)、假期项(holiday)等组成,属于加法模型[12]。模型结构如下:
γ(t)=g(t)+s(t)+h(t)+ε(t)
其中,g(t)项为趋势项,表示非周期性变化;s(t)为季节项,表示周期及季节性变化;h(t)为假日项,表示不规则影响;ε(t)为误差项,表示未预测到的趋势。利用RStudio软件“prophet”包建立Prophet模型。以RMSE、MAE、MAPE、R2指标来评价模型的拟合效果。
1.3季节指数
季节指数(seasonal index, SI)是指用各年同月发病的平均数与研究年份全部月份平均数的比值来反映传染病的流行情况[13],计算公式:
C=A/B
其中,C为季节指数,A为各年份同月观测值的平均数,B为各年份所有月份观测值的平均值。C≥1表示流行季节;C<1表示非流行季节。
1.4统计学分析
运用Excel 2021软件建立数据库,利用RStudio软件中“forecast”、“prophet”、“zoo”等包建立模型,以RMSE、MAE、MAPE、R2指标来评价模型的拟合效果。以P<0.05为差异有统计学意义,检验水准α=0.05。
2、结 果
2.1季节效应
对乌鲁木齐市2010年1月—2021年12月的其他感染性腹泻病月发病率绘制时间序列图和分解图,见图1、2,分析趋势性和季节性。图2显示,乌鲁木齐市其他感染性腹泻病的发病率呈现一定长期趋势和明显的季节性,因此将SI引入模型,探索其季节性。季节指数显示,乌鲁木齐市其他感染性腹泻病发病率存在明显的季节效应,发病主要集中在5~10月,见表1。
图1乌鲁木齐市2010年1月—2021年12月其他感染性 腹泻病的时间序列图
图2乌鲁木齐市2010年1月—2021年12月其他感染性腹泻病的时间分解图
表1季节指数
2.2模型拟合情况
2.2.1 SARIMA模型拟合结果
对原始时间时间序列进行单位根检验,单位根统计量ADF=-5.641,P<0.05,认为原始时间序列为近似平稳的时间序列,图1、图2显示原始序列存在明显的季节性,对序列进行1阶季节性差分处理并进行单位根检验,单位根统计量ADF=-18.109,P<0.05,并进行Ljung-Box检验,结果显示P>0.05,说明经过差分处理的序列是近似平稳的非白噪声时间序列,可用于建立模型。
根据差分情况,D取1,利用R语言auto.arima函数,参数为“D=1,seasonal=T,trace=T,lambda=auto”,RStudio软件自动选择最优模型为SARIMA(0,0,3)(0,1,1)12。模型拟合残差的Ljung-Box检验结果显示P>0.05,说明残差为白噪声序列,信息提取完整,模型可用于预测。SARIMA(0,0,3)(0,1,1)12模型拟合指标RMSE为2.54、MAE为1.56、MAPE为0.28、R2为0.71。
2.2.2 Holt-Winters模型拟合结果
利用R语言Holt-Winters函数,参数为“seasonal=multiplicative”,以2010年1月—2021年12月数据建立Holt-Winters模型,Holt-Winters模型拟合指标RMSE为3.32、MAE为2.06、MAPE为0.33、R2为0.54。
2.2.3 Prophet模型拟合结果
利用R语言prophet函数对2010年1月—2021年12月数据拟合Prophet模型,参数选为“weekly.seasonality=TRUE,daily.seasonality=TRUE”,拟合结果显示,Prophet模型拟合指标RMSE为3.37、MAE为2.15、MAPE为0.44、R2为0.48。
2.3模型拟合效果对比
分别采用RMSE、MAE、MAPE、R2来评价模型的拟合效果。三种模型中SARIMA(0,0,3)(0,1,1)12模型的拟合效果优于另外两种模型,因此对于该时间序列,最终选择SARIMA(0,0,3)(0,1,1)12模型为最优模型,见表2。
表2不同模型的拟合效果评价
2.4模型预测
应用SARIMA(0,0,3)(0,1,1)12模型预测乌鲁木齐市2022年1月—6月的其他感染性腹泻病月发病率,见图3。由图3可知,SARIMA(0,0,3)(0,1,1)12模型拟合和预测效果较好,与乌鲁木齐市其他感染性腹泻病实际发病率较接近。SARIMA(0,0,3)(0,1,1)12模型预测RMSE为4.26、MAE为3.64、MAPE为0.46。
图3 SARIMA(0,0,3)(0,1,1)12模型拟合及预测
3、讨 论
其他感染性腹泻病发病率较高,尤其影响青少年健康的一种传染病[14],其流行面较广,对人群生活影响较大。因此,准确预测其他感染性腹泻病的发病情况,开展监测预警,对其他感染性腹泻病的防控具有重要意义。
现如今,有很多数学模型可用于对传染病的预测,常用的时间序列预测模型有ARIMA模型、Holt-Winters模型、长短期记忆模型、Prophet模型等[15,16,17]。本文应用乌鲁木齐市2010年1月—2021年12月其他感染性腹泻病的月发病率构建时间序列,对该序列分别拟合SARIMA(0,0,3)(0,1,1)12模型、Holt-Winters模型和Prophet模型。与传统的时间序列模型相比,Prophet模型引入了假期项,较好的考虑了节假日对传染病的影响[16],对于存在离群值或异常值的序列,其相比传统模型,有更好的拟合效果。对Holt-Winters模型来说,近期数据对其影响较大,因此该模型适用于分析随时间变化不大的序列,而乌鲁木齐市其他感染性腹泻病在2020年和2021年存在较大波动,这也可能是Holt-Winters模型表现较差的原因。SARIMA模型是传染病预测中最常用的方法之一,在传染病预测中表现优异。一些研究也表明混合模型在建模和预测方面效果更好[18,19]。
季节指数显示,乌鲁木齐市其他感染性腹泻病存在明显的季节效应,5~10月为流行季节,这可能由于该季节乌鲁木齐市天气较热,适合其他感染性腹泻病的各类传染源的滋生,易发生其他感染性腹泻病的传播。从模型拟合结果来看,三种模型均能完整的提取时间序列,完成拟合,模型拟合效果评价指标显示,SARIMA(0,0,3)(0,1,1)12模型拟合效果优于Holt-Winters和Prophet模型,因此SARIMA(0,0,3)(0,1,1)12模型能较好的捕捉乌鲁木齐市其他感染性腹泻病的发病趋势,可用于乌鲁木齐市其他感染性腹泻病的预测,可作为预警系统用于疫情监测,为科学防控提供依据。
本文的局限性在于未考虑其他因素对模型的影响。有研究指出将气象因素引入随机森林模型,模型预测精度显著提高[20]。王海涛等[21]研究显示气温对其他感染性腹泻病有滞后效应。刘世科等[22]发现在低温条件下其他感染性腹泻病的发病风险明显增加。薛宝德等[23]的研究表明气象因素与兰州市0~5岁儿童其他感染性腹泻病的发病有关。本文希望后续将气象因素引入模型,充分考虑多种因素的影响,以提升模型的预测性能。
参考文献:
[1]中华人民共和国卫生部.WS 271—2007感染性腹泻诊断标准[S].北京:人民卫生出版社,2007.
[4]贺兆锴,汪静,孙昊,等.不同病原体导致感染性腹泻的症状特征与差异研究[J].中华流行病学杂志,2020,41(8):1328-1334.
[5]阿不都热依木·阿不都克力木,陈薇,高枫,等.乌鲁木齐市2012年—2017年其他感染性腹泻流行特征分析[J].医学信息,2018,31(18):104-105,108.
[6]阳明芬,贺湘焱,郜振国,等.2014—2018年新疆乌鲁木齐市其他感染性腹泻流行特征及ARIMA模型预测[J].中华实验和临床病毒学杂志,2023,37(1):71-77.
[7]赵大仁.基于Prophet与ARIMA模型的四川省COVID-19累计确诊病例预测研究[J].预防医学情报杂志,2023,39(6):621-627.
[9]荀梦君,李进岚,黄爱菊,等.ARIMA模型和Holt-Winters指数平滑法在贵州省肺结核发病预测中的应用[J].中国预防医学杂志,2023,24(7):678-682
[10]张鲁玉,孙亮,马兰,等.SARIMA模型和Holt-Winters模型在我国丙肝月报告发病人数预测中的应用比较[J].现代预防医学,2020,47(21):3855-3858,3951.
[11]李顺勇,李可心.ARIMA和Prophet模型在艾滋病发病预测中的应用[J].河南科学,2020,38(9):1387-1393.
[12]杨振,聂艳武,孙亚红,等.基于Prophet等时间序列季节模型的肺结核发病预测及对比分析[J].现代预防医学,2021,48(21):3841-3846,3883.
[13]张晶晶,刘永鹏,田庆,等.2005—2020年山东省手足口病发病的季节性特征分析[J].现代预防医学,2021,48(22):4054-4058.
[14]李欣,靳金,史雪宁,等.2010—2017年全国其他感染性腹泻空间聚集情况及预测[J].中华疾病控制杂志,2022,26(4):376-379,462.
[18]赖晓蓥,钱俊.ARIMA-LSTM-XGBoost加权组合模型在肺结核发病趋势预测的研究[J].现代预防医学,2021,48(1):5-9.
基金资助:科技创新团队(天山团队创新)项目——生物安全战略防御一体化建设创新团队(2022TSYCTD0015);乌鲁木齐市疾病预防控制中心科研基金项目(SJK2021007);
文章来源:祖力皮卡尔·吐迪,杨振,卢耀勤等.SARIMA等模型在乌鲁木齐市其他感染性腹泻病发病预测中的应用[J].医学动物防制,2024,40(05):435-439.
分享:
HCV是一种嗜肝单股正链RNA病毒,HCV感染可引起急性和慢性肝炎,伴进行性肝损伤,导致肝硬化、失代偿性肝病和肝细胞癌(HCC)[1]。据世界卫生组织估计,2015年全球有慢性HCV感染者7 100万,39.9万死于HCV感染引起的肝硬化或HCC[2]。2019年全球有慢性HCV感染者5 800万,29万死于HCV感染引起的肝硬化或HCC,2019年全球新发感染者约150万[3]。由于全球HCV感染人口的基数庞大,因此,HCV相关终末期肝病和HCC仍然是肝移植的主要适应证[4]。
2024-04-24截至2023年8月16日,新型冠状病毒感染(coronavirusdisease2019,COVID-19)全球报告病例数超过7.6亿,死亡人数超过695万,是全球范围的公共卫生问题之一。新型冠状病毒(SARS-Co V-2)有很多亚型,并在持续变异,奥密克戎(Omicron)是其中的一种。我国2022年12月至2023年3月流行的Omicron变异株主要为BA.5系列亚分支,包括BA.5.2、BF.7及其亚分支等。
2024-04-22新型冠状病毒(SARS-CoV-2,简称新冠病毒)主要通过呼吸道飞沫和密切接触传播[1]。新冠病毒感染疫情期间,我国多地报告在进口冷冻鲑鱼、鳕鱼等冷链食品外包装检出新冠病毒核酸阳性,2020年青岛在进口食品包装中分离出新冠病毒活病毒,表明新冠病毒在低温、不通风的封闭空间运输过程中仍能保持活性和传染性[2,3]。
2024-04-22皮肤感染性疾病在皮肤科十分多见,尤其是细菌感染性皮肤病,常见的有丹毒、毛囊炎、蜂窝织炎、疖、脓疱疮等,可发生于身体各个部位[1,2]。目前常用的治疗方法是皮损处涂药、抗菌药物治疗[3]。近年,过度或不合理使用抗生素的情况越来越多,导致皮肤感染性疾病的病原菌发生变迁,耐药菌株不断增多,导致患者病情迁延,久治不愈,为患者带来极大的痛苦[4,5],因此如何合理使用抗菌药物就得到了业内人士的关注。
2024-04-16威海市位于山东半岛的东南端,属于温带季风气候,四季分明,气候温和宜人,降水量充沛。特定的地理环境和气候条件非常适宜寄生虫的传播。2015年全省第三次寄生虫病调查结果显示,威海乳山肠道寄生虫感染率全省最高,为8.23%,远高于全省平均感染水平(1.06%)。
2024-04-12儿童血流感染是一种高发病率、高病死率和高治疗费用的感染性疾病,病死率为20%~50%。大量文献报道,葡萄球菌属是我国儿童院内血流感染主要病原菌,其中以凝固酶阴性葡萄球菌、金黄色葡萄球菌等常见,占50%~60%。近年来,血流感染的发生率不断升高,而抗菌药物的大量、不规范使用,使多重耐药菌越来越常见,其中以耐甲氧西林葡萄球菌(MRS)常见。
2024-04-11我国《慢性乙型肝炎防治指南(2022年版)》(以下简称《2022版指南》)将“HBeAg阳性慢性HBV感染”与“HBeAg阴性慢性HBV感染”推荐作为“正名” (下文简称“推荐命名”)分别替代以往慢性HBV感染自然史的“免疫耐受期或慢性HBV携带”与“免疫控制期或非活动HBsAg携带”。其意义与影响不可小觑,本文拟对其推荐与使用的合理性进行探讨。
2024-04-02其他感染性腹泻病在我国被定义为除霍乱、痢疾、伤寒和副伤寒以外的感染性腹泻类疾病。感染性腹泻病是最常见的传染病之一,是代表一个地区公众健康的重要指标,2015年全球约23亿人经历过腹泻病,我国作为发展中国家,腹泻病给我国带来了较大的经济负担。由于其他感染性腹泻病的病原体种类较多,又缺乏有效的疫苗保护,我国很多省份其他感染性腹泻病的发病率较高。
2024-03-29伊丽莎白菌属是革兰阴性杆菌,广泛存在于环境中,可导致免疫功能低下人群感染,引起肺炎、脑膜炎、菌血症等疾病。伊丽莎白菌属对多种抗菌药物天然耐药,临床治疗中可选择的抗菌药物较少,患者感染后病死率高。随着广谱抗菌药物的应用,人口老龄化,以及免疫功能低下人群增加,伊丽莎白菌属感染发病率逐年上升,有的地区甚至出现感染暴发。
2024-03-25发热伴血小板减少综合征(Severe fever with thrombocytopenia syndorme,SFTS)是由发热伴血小板减少综合征布尼亚病毒(Severe fever with thrombocytopenia syndorme bunyavirus,SFTSV)感染所致新发疫症,以蜱虫叮咬为主要传播途径,具有较强传染性[1]。典型临床表现见于白细胞(White blood count,WBC)、血小板(Patelet,PLT)减少等,更为严重者,还可造成心肌、凝血乃至中枢神经功能损伤,
2024-03-21人气:9300
人气:9185
人气:8256
人气:8238
人气:6626
我要评论
期刊名称:医学信息学杂志
期刊人气:6314
主管单位:中华人民共和国国家卫生和计划生育委员会
主办单位:中国医学科学院
出版地方:北京
专业分类:医学
国际刊号:1673-6036
国内刊号:11-5447/R
邮发代号:2-664
创刊时间:1979年
发行周期:月刊
期刊开本:大16开
见刊时间:1年以上
影响因子:0.590
影响因子:0.640
影响因子:0.297
影响因子:0.000
影响因子:0.690
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!