摘要:目的 构建乌鲁木齐市其他感染性腹泻病的时间序列模型,比较季节性差分自回归滑动平均(seasonal autoregressive integrated moving average, SARIMA)模型、霍尔特温特斯(Holt-Winters)模型和先知(Prophet)模型的预测能力,为乌鲁木齐市其他感染性腹泻病的防控提供理论参考。方法 根据2010年1月至2021年12月乌鲁木齐市其他感染性腹泻病的发病率分别建立SARIMA模型、Holt-Winters模型和Prophet模型,比较三种模型的拟合效果,以均方根误差(root mean squared error, RMSE)、平均绝对误差(mean absolute error, MAE)、平均绝对百分比误差(mean absolute percentage error, MAPE)、决定系数(coefficient of determination, R2)作为评价指标选取最优模型。结果 季节指数显示,5~10月为乌鲁木齐市其他感染性腹泻病的流行季节;SARIMA(0,0,3)(0,1,1)12模型拟合RMSE为2.54、MAE为1.56、MAPE为0.28、R2为0.71;Holt-Winters模型拟合RMSE为3.32、MAE为2.06、MAPE为0.33、R2为0.54;Prophet模型拟合RMSE为3.37、MAE为2.15、MAPE为0.44、R2为0.48;SARIMA(0,0,3)(0,1,1)12模型预测RMSE为4.26、MAE为3.64、MAPE为0.46。结论 三种模型中SARIMA(0,0,3)(0,1,1)12模型拟合效果最好,能较好的捕捉乌鲁木齐市其他感染性腹泻病发病趋势,对乌鲁木齐市其他感染性腹泻病科学防控具有一定指导价值。
加入收藏
其他感染性腹泻病在我国被定义为除霍乱、痢疾、伤寒和副伤寒以外的感染性腹泻类疾病[1]。感染性腹泻病是最常见的传染病之一,是代表一个地区公众健康的重要指标[2],2015年全球约23亿人经历过腹泻病[3],我国作为发展中国家,腹泻病给我国带来了较大的经济负担。由于其他感染性腹泻病的病原体种类较多,又缺乏有效的疫苗保护,我国很多省份其他感染性腹泻病的发病率较高[4]。乌鲁木齐市位于中国西北地区,经济、卫生等条件与发达地区相比仍存在一定差距,其他感染性腹泻病在乌鲁木齐市有着一定程度的流行,2015—2017年发病率高于全国水平[5]。因此,建立能精确预测其他感染性腹泻病的发病情况,为乌鲁木齐市其他感染性腹泻病的防控提供依据很有必要。阳明芬等[6]利用自回归移动平均(autoregressive integrated moving average, ARIMA)模型预测乌鲁木齐市其他感染性腹泻病的发病情况,预测发病例数的平均相对误差为20%,而目前尚无应用多种模型比较的方法研究乌鲁木齐市其他感染性腹泻病的文献。SARIMA模型和Holt-Winters模型作为传统时间序列模型,在传染病领域应用广泛,Prophet模型是较新的时间序列模型,赵大仁[7]运用Prophet和ARIMA模型预测预测四川省COVID-19累计确诊病例,结果显示模型拟合和预测上Prophet模型均优于ARIMA模型。本研究选择SARIMA模型、Holt-Winters模型和Prophet模型,利用乌鲁木齐市2010年1月—2021年12月其他感染性腹泻病月发病率建立时间序列模型,通过比较上述三种模型对其他感染性腹泻病发病趋势的预测效能,选择最优模型用于乌鲁木齐市其他感染性腹泻病的预测,掌握乌鲁木齐市其他感染性腹泻病的发病趋势,合理分配卫生资源,为乌鲁木齐市其他感染性腹泻病的防控提供理论参考。
1、资料与方法
1.1资料来源
本研究数据资料来源于国家《疾病监测信息报告管理系统》,按发病日期和现住址收集2010年1月—2022年6月乌鲁木齐市其他感染性腹泻病的个案资料,乌鲁木齐市人口学资料来源于疾病预防控制综合管理系统。2010年1月—2021年12月的其他感染性腹泻病发病率数据用于建立模型,2022年1—6月的其他感染性腹泻病发病率数据用于验证模型的预测效果。
1.2模型简介
1.2.1 SARIMA模型
SARIMA模型的完整表达式为SARIMA(p,d,q)(P,D,Q)s,p、d和q分别代表自回归阶数、非季节差分阶数和移动平均项数,P、D和Q代表季节性自回归阶数、季节差分阶数和移动平均阶数,s指季节周期[8]。建模过程如下①序列前期处理:将2010年1月—2021年12月其他感染性腹泻病发病率数据按月份导入,定义时间序列(按月份)。利用RStudio软件“decompose”函数绘制时间序列成分分解图,观察时间序列的趋势性、季节性和随机性。以单位根(augmented Dickey-Fuller, ADF)检验判断序列的平稳性,对不平稳序列差分处理使其平稳化。②模型选择:利用RStudio软件“forecast”包中auto.arima函数自动选择最优模型,此过程简洁快速,省去繁杂的模型参数选择过程,并且减少人为主观因素带来的偏倚。后对模型拟合残差进行Ljung-Box检验,判断残差是否为白噪声。③模型评价:以RMSE、MAE、MAPE、R2指标来评价模型的拟合效果。④模型的预测:利用最优模型预测2022年1—6月乌鲁木齐市其他感染性腹泻病发病率。
1.2.2 Holt-Winters模型
Holt-Winters模型是一种指数平滑模型,该模型可通过分析序列的季节性和倾向性并进行指数平滑,确定最优方程后对原始时间序列进行预测[9]。根据计算方法的不同,Holt-Winters模型又可分为加法模型和乘法模型[10],本研究选取Holt-Winters加法模型,该模型共3个参数,α表示水平项、β表示趋势项、γ表示季节项,利用RStudio软件Holt-Winters函数建立Holt-Winters模型。以RMSE、MAE、MAPE、R2指标来评价模型的拟合效果。
1.2.3 Prophet模型
Prophet模型是目前比较新的一种时间序列模型,相比于传统预测模型,Prophet模型加入了假期项,并且对于有异常值、缺失值的时间序列Prophet模型预测效果更好[11]。该模型由趋势项(trend)、季节项(season)、假期项(holiday)等组成,属于加法模型[12]。模型结构如下:
γ(t)=g(t)+s(t)+h(t)+ε(t)
其中,g(t)项为趋势项,表示非周期性变化;s(t)为季节项,表示周期及季节性变化;h(t)为假日项,表示不规则影响;ε(t)为误差项,表示未预测到的趋势。利用RStudio软件“prophet”包建立Prophet模型。以RMSE、MAE、MAPE、R2指标来评价模型的拟合效果。
1.3季节指数
季节指数(seasonal index, SI)是指用各年同月发病的平均数与研究年份全部月份平均数的比值来反映传染病的流行情况[13],计算公式:
C=A/B
其中,C为季节指数,A为各年份同月观测值的平均数,B为各年份所有月份观测值的平均值。C≥1表示流行季节;C<1表示非流行季节。
1.4统计学分析
运用Excel 2021软件建立数据库,利用RStudio软件中“forecast”、“prophet”、“zoo”等包建立模型,以RMSE、MAE、MAPE、R2指标来评价模型的拟合效果。以P<0.05为差异有统计学意义,检验水准α=0.05。
2、结 果
2.1季节效应
对乌鲁木齐市2010年1月—2021年12月的其他感染性腹泻病月发病率绘制时间序列图和分解图,见图1、2,分析趋势性和季节性。图2显示,乌鲁木齐市其他感染性腹泻病的发病率呈现一定长期趋势和明显的季节性,因此将SI引入模型,探索其季节性。季节指数显示,乌鲁木齐市其他感染性腹泻病发病率存在明显的季节效应,发病主要集中在5~10月,见表1。
图1乌鲁木齐市2010年1月—2021年12月其他感染性 腹泻病的时间序列图
图2乌鲁木齐市2010年1月—2021年12月其他感染性腹泻病的时间分解图
表1季节指数
2.2模型拟合情况
2.2.1 SARIMA模型拟合结果
对原始时间时间序列进行单位根检验,单位根统计量ADF=-5.641,P<0.05,认为原始时间序列为近似平稳的时间序列,图1、图2显示原始序列存在明显的季节性,对序列进行1阶季节性差分处理并进行单位根检验,单位根统计量ADF=-18.109,P<0.05,并进行Ljung-Box检验,结果显示P>0.05,说明经过差分处理的序列是近似平稳的非白噪声时间序列,可用于建立模型。
根据差分情况,D取1,利用R语言auto.arima函数,参数为“D=1,seasonal=T,trace=T,lambda=auto”,RStudio软件自动选择最优模型为SARIMA(0,0,3)(0,1,1)12。模型拟合残差的Ljung-Box检验结果显示P>0.05,说明残差为白噪声序列,信息提取完整,模型可用于预测。SARIMA(0,0,3)(0,1,1)12模型拟合指标RMSE为2.54、MAE为1.56、MAPE为0.28、R2为0.71。
2.2.2 Holt-Winters模型拟合结果
利用R语言Holt-Winters函数,参数为“seasonal=multiplicative”,以2010年1月—2021年12月数据建立Holt-Winters模型,Holt-Winters模型拟合指标RMSE为3.32、MAE为2.06、MAPE为0.33、R2为0.54。
2.2.3 Prophet模型拟合结果
利用R语言prophet函数对2010年1月—2021年12月数据拟合Prophet模型,参数选为“weekly.seasonality=TRUE,daily.seasonality=TRUE”,拟合结果显示,Prophet模型拟合指标RMSE为3.37、MAE为2.15、MAPE为0.44、R2为0.48。
2.3模型拟合效果对比
分别采用RMSE、MAE、MAPE、R2来评价模型的拟合效果。三种模型中SARIMA(0,0,3)(0,1,1)12模型的拟合效果优于另外两种模型,因此对于该时间序列,最终选择SARIMA(0,0,3)(0,1,1)12模型为最优模型,见表2。
表2不同模型的拟合效果评价
2.4模型预测
应用SARIMA(0,0,3)(0,1,1)12模型预测乌鲁木齐市2022年1月—6月的其他感染性腹泻病月发病率,见图3。由图3可知,SARIMA(0,0,3)(0,1,1)12模型拟合和预测效果较好,与乌鲁木齐市其他感染性腹泻病实际发病率较接近。SARIMA(0,0,3)(0,1,1)12模型预测RMSE为4.26、MAE为3.64、MAPE为0.46。
图3 SARIMA(0,0,3)(0,1,1)12模型拟合及预测
3、讨 论
其他感染性腹泻病发病率较高,尤其影响青少年健康的一种传染病[14],其流行面较广,对人群生活影响较大。因此,准确预测其他感染性腹泻病的发病情况,开展监测预警,对其他感染性腹泻病的防控具有重要意义。
现如今,有很多数学模型可用于对传染病的预测,常用的时间序列预测模型有ARIMA模型、Holt-Winters模型、长短期记忆模型、Prophet模型等[15,16,17]。本文应用乌鲁木齐市2010年1月—2021年12月其他感染性腹泻病的月发病率构建时间序列,对该序列分别拟合SARIMA(0,0,3)(0,1,1)12模型、Holt-Winters模型和Prophet模型。与传统的时间序列模型相比,Prophet模型引入了假期项,较好的考虑了节假日对传染病的影响[16],对于存在离群值或异常值的序列,其相比传统模型,有更好的拟合效果。对Holt-Winters模型来说,近期数据对其影响较大,因此该模型适用于分析随时间变化不大的序列,而乌鲁木齐市其他感染性腹泻病在2020年和2021年存在较大波动,这也可能是Holt-Winters模型表现较差的原因。SARIMA模型是传染病预测中最常用的方法之一,在传染病预测中表现优异。一些研究也表明混合模型在建模和预测方面效果更好[18,19]。
季节指数显示,乌鲁木齐市其他感染性腹泻病存在明显的季节效应,5~10月为流行季节,这可能由于该季节乌鲁木齐市天气较热,适合其他感染性腹泻病的各类传染源的滋生,易发生其他感染性腹泻病的传播。从模型拟合结果来看,三种模型均能完整的提取时间序列,完成拟合,模型拟合效果评价指标显示,SARIMA(0,0,3)(0,1,1)12模型拟合效果优于Holt-Winters和Prophet模型,因此SARIMA(0,0,3)(0,1,1)12模型能较好的捕捉乌鲁木齐市其他感染性腹泻病的发病趋势,可用于乌鲁木齐市其他感染性腹泻病的预测,可作为预警系统用于疫情监测,为科学防控提供依据。
本文的局限性在于未考虑其他因素对模型的影响。有研究指出将气象因素引入随机森林模型,模型预测精度显著提高[20]。王海涛等[21]研究显示气温对其他感染性腹泻病有滞后效应。刘世科等[22]发现在低温条件下其他感染性腹泻病的发病风险明显增加。薛宝德等[23]的研究表明气象因素与兰州市0~5岁儿童其他感染性腹泻病的发病有关。本文希望后续将气象因素引入模型,充分考虑多种因素的影响,以提升模型的预测性能。
参考文献:
[1]中华人民共和国卫生部.WS 271—2007感染性腹泻诊断标准[S].北京:人民卫生出版社,2007.
[4]贺兆锴,汪静,孙昊,等.不同病原体导致感染性腹泻的症状特征与差异研究[J].中华流行病学杂志,2020,41(8):1328-1334.
[5]阿不都热依木·阿不都克力木,陈薇,高枫,等.乌鲁木齐市2012年—2017年其他感染性腹泻流行特征分析[J].医学信息,2018,31(18):104-105,108.
[6]阳明芬,贺湘焱,郜振国,等.2014—2018年新疆乌鲁木齐市其他感染性腹泻流行特征及ARIMA模型预测[J].中华实验和临床病毒学杂志,2023,37(1):71-77.
[7]赵大仁.基于Prophet与ARIMA模型的四川省COVID-19累计确诊病例预测研究[J].预防医学情报杂志,2023,39(6):621-627.
[9]荀梦君,李进岚,黄爱菊,等.ARIMA模型和Holt-Winters指数平滑法在贵州省肺结核发病预测中的应用[J].中国预防医学杂志,2023,24(7):678-682
[10]张鲁玉,孙亮,马兰,等.SARIMA模型和Holt-Winters模型在我国丙肝月报告发病人数预测中的应用比较[J].现代预防医学,2020,47(21):3855-3858,3951.
[11]李顺勇,李可心.ARIMA和Prophet模型在艾滋病发病预测中的应用[J].河南科学,2020,38(9):1387-1393.
[12]杨振,聂艳武,孙亚红,等.基于Prophet等时间序列季节模型的肺结核发病预测及对比分析[J].现代预防医学,2021,48(21):3841-3846,3883.
[13]张晶晶,刘永鹏,田庆,等.2005—2020年山东省手足口病发病的季节性特征分析[J].现代预防医学,2021,48(22):4054-4058.
[14]李欣,靳金,史雪宁,等.2010—2017年全国其他感染性腹泻空间聚集情况及预测[J].中华疾病控制杂志,2022,26(4):376-379,462.
[18]赖晓蓥,钱俊.ARIMA-LSTM-XGBoost加权组合模型在肺结核发病趋势预测的研究[J].现代预防医学,2021,48(1):5-9.
基金资助:科技创新团队(天山团队创新)项目——生物安全战略防御一体化建设创新团队(2022TSYCTD0015);乌鲁木齐市疾病预防控制中心科研基金项目(SJK2021007);
文章来源:祖力皮卡尔·吐迪,杨振,卢耀勤等.SARIMA等模型在乌鲁木齐市其他感染性腹泻病发病预测中的应用[J].医学动物防制,2024,40(05):435-439.
分享:
乙型肝炎是由乙型肝炎病毒(hepatitisBvirus,HBV)引起的一种严重的肝脏感染[1]。HBV感染有可能发展为慢性状态,慢性乙型肝炎可能增加肝硬化、肝衰竭或肝癌的风险[2⁃3]。虽然随着疫苗和抗病毒疗法的发展,HBV流行得到一定程度的控制,但HBV感染在中国仍是一项重大公共卫生问题[4⁃5]。
2025-09-03资料统计显示[2],全世界范围内儿童季节性流感患病率已经达到20%~30%,流感患儿群体中30%存在不同程度并发症,主要是儿童群体年龄比较小,身体器官还处于发育过程中,免疫力低下,另外,老年群体随着年龄增加,身体器官功能下降,免疫力比较差,也更加容易患流感,如果不及时采取治疗措施,甚至可能危及患者生命安全,因此,流感早期诊断、治疗十分重要。
2025-09-01侵袭性真菌感染(Invasivefungiinfections,IF-Is)是由条件致病真菌侵入皮下组织、黏膜、内脏器官或血流引起的严重感染性疾病。这些真菌在人体免疫功能低下时更容易引发感染,如免疫抑制治疗、器官移植、血液病、恶性肿瘤患者。同时,随着人体对抗真菌药物耐药性的增加,使IFIs的治疗变得更加复杂和困难。
2025-08-18糖尿病足溃疡(DiabeticFootUlcer,DFU)是糖尿病引起的常见并发症,患者临床表现为下肢缺血和神经性病变,该病具有发病率、复发率、致残率、致死率高以及治疗费用高的特点,给患者和家属造成极大的生理和心理伤害。炎症反应是导致糖尿病足溃疡患者创面愈合缓慢的重要原因之一,其主要通过炎性因子的相互作用以及活性氧产生影响。
2025-07-21临床研究结果显示[2],丙肝患者早期症状不明显,起病较隐匿,进而导致疾病漏诊率和误诊率高,影响疾病治疗。目前,丙肝病毒感染诊断的主要方法为丙肝病毒RNA、丙肝抗体检测。其中,丙肝抗体诊断简单快速,但早期诊断效果较差,容易受抗体窗口期影响,对后续治疗的指导价值不佳[3]。
2025-07-18研究显示,感染性休克发生率呈逐年上升趋势,严重威胁患者的生命安全[1]。感染性休克可诱发败血症或脓毒症,使患者病死率明显增加[2]。抗感染和液体复苏可减轻感染性休克患者病灶组织的炎症性反应程度,能够快速改善组织灌注水平,但患者病死率仍较高[3]。
2025-07-15人乳头状瘤病毒(Humanpapillomavirus,HPV)被认为是导致宫颈癌以及宫颈癌前病变的关键性因素之一,可以通过特定的感染途径传播,对女性健康构成了严重的威胁。HPV属于乳多空病毒科中的乳头瘤空泡病毒A属,具有小型环状结构的双链DNA,其基因型别繁多,迄今为止已经识别和分类的HPV基因亚型超过了200种。
2025-06-07慢性肺曲霉菌病(chronicpulmonaryaspergillosis,CPA)是由曲霉菌属真菌感染引起的慢性、进行性肺部疾病,严重影响人类健康[1-2]。CPA通常在原有肺部基础疾病的基础上发生,肺结核是导致CPA发生的最常见的基础疾病[3-4]。CPA与肺结核有相似的临床特征,可单独发生也可伴发或继发于肺结核[5-7]。中国作为一个发展中国家,有较大的肺结核人群。
2025-05-15肺部感染是由真菌、微生物或病毒等侵袭肺实质或(和)肺间质所致的常见感染性疾病,多数通过呼吸道广泛传播,尤其是抵抗免疫能力薄弱、高龄老人、低龄幼儿等易感人群,吸入含有病原体的空气飞沫后,易伤及肺部防御能力,进一步增大肺部感染发生风险,不仅会导致脓性黏稠痰液增多,增加咳出难度,促使病情持续恶化,而且还可出现体温升高、胸痛、呼吸急促,削弱生存获益。
2025-05-04热性惊厥是儿童时期特有的伴有发热的惊厥发作,多发生于3个月到5岁儿童,需除外颅内感染及无热性惊厥史.发病的主要诱因则是多种感染性疾病所引起的发热.婴幼儿大脑处于发育中,神经系统发育不完善,各种原因的高热,引起神经元异常放电,从而引起热性惊厥。.神经营养素G3(neurotroGphinG3,NTG3)属于神经营养因子的一种,可使受损神经元再生及发育,从而提升神经细胞的活性。
2025-04-26人气:12792
人气:11925
人气:11179
人气:10814
人气:10476
我要评论
期刊名称:医学信息学杂志
期刊人气:7027
主管单位:中华人民共和国国家卫生和计划生育委员会
主办单位:中国医学科学院
出版地方:北京
专业分类:医学
国际刊号:1673-6036
国内刊号:11-5447/R
邮发代号:2-664
创刊时间:1979年
发行周期:月刊
期刊开本:大16开
见刊时间:1年以上
影响因子:0.590
影响因子:0.640
影响因子:0.297
影响因子:0.000
影响因子:0.690
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!