91学术服务平台

您好,欢迎来到91学术官网!业务合作:91xueshu@sina.com,站长邮箱:91xszz@sina.com

发布论文

论文咨询

SARIMA等模型在乌鲁木齐市其他感染性腹泻病发病预测中应用

  2024-03-29    上传者:管理员

摘要:目的 构建乌鲁木齐市其他感染性腹泻病的时间序列模型,比较季节性差分自回归滑动平均(seasonal autoregressive integrated moving average, SARIMA)模型、霍尔特温特斯(Holt-Winters)模型和先知(Prophet)模型的预测能力,为乌鲁木齐市其他感染性腹泻病的防控提供理论参考。方法 根据2010年1月至2021年12月乌鲁木齐市其他感染性腹泻病的发病率分别建立SARIMA模型、Holt-Winters模型和Prophet模型,比较三种模型的拟合效果,以均方根误差(root mean squared error, RMSE)、平均绝对误差(mean absolute error, MAE)、平均绝对百分比误差(mean absolute percentage error, MAPE)、决定系数(coefficient of determination, R2)作为评价指标选取最优模型。结果 季节指数显示,5~10月为乌鲁木齐市其他感染性腹泻病的流行季节;SARIMA(0,0,3)(0,1,1)12模型拟合RMSE为2.54、MAE为1.56、MAPE为0.28、R2为0.71;Holt-Winters模型拟合RMSE为3.32、MAE为2.06、MAPE为0.33、R2为0.54;Prophet模型拟合RMSE为3.37、MAE为2.15、MAPE为0.44、R2为0.48;SARIMA(0,0,3)(0,1,1)12模型预测RMSE为4.26、MAE为3.64、MAPE为0.46。结论 三种模型中SARIMA(0,0,3)(0,1,1)12模型拟合效果最好,能较好的捕捉乌鲁木齐市其他感染性腹泻病发病趋势,对乌鲁木齐市其他感染性腹泻病科学防控具有一定指导价值。

  • 关键词:
  • Holt-Winters模型
  • Prophet模型
  • SARIMA模型
  • 其他感染性腹泻病
  • 季节指数
  • 模型比较
  • 加入收藏

其他感染性腹泻病在我国被定义为除霍乱、痢疾、伤寒和副伤寒以外的感染性腹泻类疾病[1]。感染性腹泻病是最常见的传染病之一,是代表一个地区公众健康的重要指标[2],2015年全球约23亿人经历过腹泻病[3],我国作为发展中国家,腹泻病给我国带来了较大的经济负担。由于其他感染性腹泻病的病原体种类较多,又缺乏有效的疫苗保护,我国很多省份其他感染性腹泻病的发病率较高[4]。乌鲁木齐市位于中国西北地区,经济、卫生等条件与发达地区相比仍存在一定差距,其他感染性腹泻病在乌鲁木齐市有着一定程度的流行,2015—2017年发病率高于全国水平[5]。因此,建立能精确预测其他感染性腹泻病的发病情况,为乌鲁木齐市其他感染性腹泻病的防控提供依据很有必要。阳明芬等[6]利用自回归移动平均(autoregressive integrated moving average, ARIMA)模型预测乌鲁木齐市其他感染性腹泻病的发病情况,预测发病例数的平均相对误差为20%,而目前尚无应用多种模型比较的方法研究乌鲁木齐市其他感染性腹泻病的文献。SARIMA模型和Holt-Winters模型作为传统时间序列模型,在传染病领域应用广泛,Prophet模型是较新的时间序列模型,赵大仁[7]运用Prophet和ARIMA模型预测预测四川省COVID-19累计确诊病例,结果显示模型拟合和预测上Prophet模型均优于ARIMA模型。本研究选择SARIMA模型、Holt-Winters模型和Prophet模型,利用乌鲁木齐市2010年1月—2021年12月其他感染性腹泻病月发病率建立时间序列模型,通过比较上述三种模型对其他感染性腹泻病发病趋势的预测效能,选择最优模型用于乌鲁木齐市其他感染性腹泻病的预测,掌握乌鲁木齐市其他感染性腹泻病的发病趋势,合理分配卫生资源,为乌鲁木齐市其他感染性腹泻病的防控提供理论参考。


1、资料与方法


1.1资料来源

本研究数据资料来源于国家《疾病监测信息报告管理系统》,按发病日期和现住址收集2010年1月—2022年6月乌鲁木齐市其他感染性腹泻病的个案资料,乌鲁木齐市人口学资料来源于疾病预防控制综合管理系统。2010年1月—2021年12月的其他感染性腹泻病发病率数据用于建立模型,2022年1—6月的其他感染性腹泻病发病率数据用于验证模型的预测效果。

1.2模型简介

1.2.1 SARIMA模型

SARIMA模型的完整表达式为SARIMA(p,d,q)(P,D,Q)s,p、d和q分别代表自回归阶数、非季节差分阶数和移动平均项数,P、D和Q代表季节性自回归阶数、季节差分阶数和移动平均阶数,s指季节周期[8]。建模过程如下①序列前期处理:将2010年1月—2021年12月其他感染性腹泻病发病率数据按月份导入,定义时间序列(按月份)。利用RStudio软件“decompose”函数绘制时间序列成分分解图,观察时间序列的趋势性、季节性和随机性。以单位根(augmented Dickey-Fuller, ADF)检验判断序列的平稳性,对不平稳序列差分处理使其平稳化。②模型选择:利用RStudio软件“forecast”包中auto.arima函数自动选择最优模型,此过程简洁快速,省去繁杂的模型参数选择过程,并且减少人为主观因素带来的偏倚。后对模型拟合残差进行Ljung-Box检验,判断残差是否为白噪声。③模型评价:以RMSE、MAE、MAPE、R2指标来评价模型的拟合效果。④模型的预测:利用最优模型预测2022年1—6月乌鲁木齐市其他感染性腹泻病发病率。

1.2.2 Holt-Winters模型

Holt-Winters模型是一种指数平滑模型,该模型可通过分析序列的季节性和倾向性并进行指数平滑,确定最优方程后对原始时间序列进行预测[9]。根据计算方法的不同,Holt-Winters模型又可分为加法模型和乘法模型[10],本研究选取Holt-Winters加法模型,该模型共3个参数,α表示水平项、β表示趋势项、γ表示季节项,利用RStudio软件Holt-Winters函数建立Holt-Winters模型。以RMSE、MAE、MAPE、R2指标来评价模型的拟合效果。

1.2.3 Prophet模型

Prophet模型是目前比较新的一种时间序列模型,相比于传统预测模型,Prophet模型加入了假期项,并且对于有异常值、缺失值的时间序列Prophet模型预测效果更好[11]。该模型由趋势项(trend)、季节项(season)、假期项(holiday)等组成,属于加法模型[12]。模型结构如下:

γ(t)=g(t)+s(t)+h(t)+ε(t)

其中,g(t)项为趋势项,表示非周期性变化;s(t)为季节项,表示周期及季节性变化;h(t)为假日项,表示不规则影响;ε(t)为误差项,表示未预测到的趋势。利用RStudio软件“prophet”包建立Prophet模型。以RMSE、MAE、MAPE、R2指标来评价模型的拟合效果。

1.3季节指数

季节指数(seasonal index, SI)是指用各年同月发病的平均数与研究年份全部月份平均数的比值来反映传染病的流行情况[13],计算公式:

C=A/B

其中,C为季节指数,A为各年份同月观测值的平均数,B为各年份所有月份观测值的平均值。C≥1表示流行季节;C<1表示非流行季节。

1.4统计学分析

运用Excel 2021软件建立数据库,利用RStudio软件中“forecast”、“prophet”、“zoo”等包建立模型,以RMSE、MAE、MAPE、R2指标来评价模型的拟合效果。以P<0.05为差异有统计学意义,检验水准α=0.05。


2、结 果


2.1季节效应

对乌鲁木齐市2010年1月—2021年12月的其他感染性腹泻病月发病率绘制时间序列图和分解图,见图1、2,分析趋势性和季节性。图2显示,乌鲁木齐市其他感染性腹泻病的发病率呈现一定长期趋势和明显的季节性,因此将SI引入模型,探索其季节性。季节指数显示,乌鲁木齐市其他感染性腹泻病发病率存在明显的季节效应,发病主要集中在5~10月,见表1。

图1乌鲁木齐市2010年1月—2021年12月其他感染性 腹泻病的时间序列图  

图2乌鲁木齐市2010年1月—2021年12月其他感染性腹泻病的时间分解图 

表1季节指数

2.2模型拟合情况

2.2.1 SARIMA模型拟合结果

对原始时间时间序列进行单位根检验,单位根统计量ADF=-5.641,P<0.05,认为原始时间序列为近似平稳的时间序列,图1、图2显示原始序列存在明显的季节性,对序列进行1阶季节性差分处理并进行单位根检验,单位根统计量ADF=-18.109,P<0.05,并进行Ljung-Box检验,结果显示P>0.05,说明经过差分处理的序列是近似平稳的非白噪声时间序列,可用于建立模型。

根据差分情况,D取1,利用R语言auto.arima函数,参数为“D=1,seasonal=T,trace=T,lambda=auto”,RStudio软件自动选择最优模型为SARIMA(0,0,3)(0,1,1)12。模型拟合残差的Ljung-Box检验结果显示P>0.05,说明残差为白噪声序列,信息提取完整,模型可用于预测。SARIMA(0,0,3)(0,1,1)12模型拟合指标RMSE为2.54、MAE为1.56、MAPE为0.28、R2为0.71。

2.2.2 Holt-Winters模型拟合结果

利用R语言Holt-Winters函数,参数为“seasonal=multiplicative”,以2010年1月—2021年12月数据建立Holt-Winters模型,Holt-Winters模型拟合指标RMSE为3.32、MAE为2.06、MAPE为0.33、R2为0.54。

2.2.3 Prophet模型拟合结果

利用R语言prophet函数对2010年1月—2021年12月数据拟合Prophet模型,参数选为“weekly.seasonality=TRUE,daily.seasonality=TRUE”,拟合结果显示,Prophet模型拟合指标RMSE为3.37、MAE为2.15、MAPE为0.44、R2为0.48。

2.3模型拟合效果对比

分别采用RMSE、MAE、MAPE、R2来评价模型的拟合效果。三种模型中SARIMA(0,0,3)(0,1,1)12模型的拟合效果优于另外两种模型,因此对于该时间序列,最终选择SARIMA(0,0,3)(0,1,1)12模型为最优模型,见表2。

表2不同模型的拟合效果评价

2.4模型预测

应用SARIMA(0,0,3)(0,1,1)12模型预测乌鲁木齐市2022年1月—6月的其他感染性腹泻病月发病率,见图3。由图3可知,SARIMA(0,0,3)(0,1,1)12模型拟合和预测效果较好,与乌鲁木齐市其他感染性腹泻病实际发病率较接近。SARIMA(0,0,3)(0,1,1)12模型预测RMSE为4.26、MAE为3.64、MAPE为0.46。

图3 SARIMA(0,0,3)(0,1,1)12模型拟合及预测  


3、讨 论


其他感染性腹泻病发病率较高,尤其影响青少年健康的一种传染病[14],其流行面较广,对人群生活影响较大。因此,准确预测其他感染性腹泻病的发病情况,开展监测预警,对其他感染性腹泻病的防控具有重要意义。

现如今,有很多数学模型可用于对传染病的预测,常用的时间序列预测模型有ARIMA模型、Holt-Winters模型、长短期记忆模型、Prophet模型等[15,16,17]。本文应用乌鲁木齐市2010年1月—2021年12月其他感染性腹泻病的月发病率构建时间序列,对该序列分别拟合SARIMA(0,0,3)(0,1,1)12模型、Holt-Winters模型和Prophet模型。与传统的时间序列模型相比,Prophet模型引入了假期项,较好的考虑了节假日对传染病的影响[16],对于存在离群值或异常值的序列,其相比传统模型,有更好的拟合效果。对Holt-Winters模型来说,近期数据对其影响较大,因此该模型适用于分析随时间变化不大的序列,而乌鲁木齐市其他感染性腹泻病在2020年和2021年存在较大波动,这也可能是Holt-Winters模型表现较差的原因。SARIMA模型是传染病预测中最常用的方法之一,在传染病预测中表现优异。一些研究也表明混合模型在建模和预测方面效果更好[18,19]。

季节指数显示,乌鲁木齐市其他感染性腹泻病存在明显的季节效应,5~10月为流行季节,这可能由于该季节乌鲁木齐市天气较热,适合其他感染性腹泻病的各类传染源的滋生,易发生其他感染性腹泻病的传播。从模型拟合结果来看,三种模型均能完整的提取时间序列,完成拟合,模型拟合效果评价指标显示,SARIMA(0,0,3)(0,1,1)12模型拟合效果优于Holt-Winters和Prophet模型,因此SARIMA(0,0,3)(0,1,1)12模型能较好的捕捉乌鲁木齐市其他感染性腹泻病的发病趋势,可用于乌鲁木齐市其他感染性腹泻病的预测,可作为预警系统用于疫情监测,为科学防控提供依据。

本文的局限性在于未考虑其他因素对模型的影响。有研究指出将气象因素引入随机森林模型,模型预测精度显著提高[20]。王海涛等[21]研究显示气温对其他感染性腹泻病有滞后效应。刘世科等[22]发现在低温条件下其他感染性腹泻病的发病风险明显增加。薛宝德等[23]的研究表明气象因素与兰州市0~5岁儿童其他感染性腹泻病的发病有关。本文希望后续将气象因素引入模型,充分考虑多种因素的影响,以提升模型的预测性能。


参考文献:

[1]中华人民共和国卫生部.WS 271—2007感染性腹泻诊断标准[S].北京:人民卫生出版社,2007.

[4]贺兆锴,汪静,孙昊,等.不同病原体导致感染性腹泻的症状特征与差异研究[J].中华流行病学杂志,2020,41(8):1328-1334.

[5]阿不都热依木·阿不都克力木,陈薇,高枫,等.乌鲁木齐市2012年—2017年其他感染性腹泻流行特征分析[J].医学信息,2018,31(18):104-105,108.

[6]阳明芬,贺湘焱,郜振国,等.2014—2018年新疆乌鲁木齐市其他感染性腹泻流行特征及ARIMA模型预测[J].中华实验和临床病毒学杂志,2023,37(1):71-77.

[7]赵大仁.基于Prophet与ARIMA模型的四川省COVID-19累计确诊病例预测研究[J].预防医学情报杂志,2023,39(6):621-627.

[9]荀梦君,李进岚,黄爱菊,等.ARIMA模型和Holt-Winters指数平滑法在贵州省肺结核发病预测中的应用[J].中国预防医学杂志,2023,24(7):678-682

[10]张鲁玉,孙亮,马兰,等.SARIMA模型和Holt-Winters模型在我国丙肝月报告发病人数预测中的应用比较[J].现代预防医学,2020,47(21):3855-3858,3951.

[11]李顺勇,李可心.ARIMA和Prophet模型在艾滋病发病预测中的应用[J].河南科学,2020,38(9):1387-1393.

[12]杨振,聂艳武,孙亚红,等.基于Prophet等时间序列季节模型的肺结核发病预测及对比分析[J].现代预防医学,2021,48(21):3841-3846,3883.

[13]张晶晶,刘永鹏,田庆,等.2005—2020年山东省手足口病发病的季节性特征分析[J].现代预防医学,2021,48(22):4054-4058.

[14]李欣,靳金,史雪宁,等.2010—2017年全国其他感染性腹泻空间聚集情况及预测[J].中华疾病控制杂志,2022,26(4):376-379,462.

[18]赖晓蓥,钱俊.ARIMA-LSTM-XGBoost加权组合模型在肺结核发病趋势预测的研究[J].现代预防医学,2021,48(1):5-9.


基金资助:科技创新团队(天山团队创新)项目——生物安全战略防御一体化建设创新团队(2022TSYCTD0015);乌鲁木齐市疾病预防控制中心科研基金项目(SJK2021007);


文章来源:祖力皮卡尔·吐迪,杨振,卢耀勤等.SARIMA等模型在乌鲁木齐市其他感染性腹泻病发病预测中的应用[J].医学动物防制,2024,40(05):435-439.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

医学信息学杂志

期刊名称:医学信息学杂志

期刊人气:6314

期刊详情

主管单位:中华人民共和国国家卫生和计划生育委员会

主办单位:中国医学科学院

出版地方:北京

专业分类:医学

国际刊号:1673-6036

国内刊号:11-5447/R

邮发代号:2-664

创刊时间:1979年

发行周期:月刊

期刊开本:大16开

见刊时间:1年以上

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

400-069-1609

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定