摘要:目的探讨季节性时间序列模型(autoregressiveintegratedmovingaverage,ARIMA)在新疆肺结核发病预测中的应用,并验证模型的可行性和适用性。方法采用季节性ARIMA(p,d,q)(P,D,Q)s拟合2005年1月—2019年8月新疆地区肺结核月发病人数,建立多个季节时间序列模型并进行比较,选出最优模型对2019年9—12月肺结核发病人数进行预测。结果2005年1月—2019年8月新疆地区肺结核累积发病人数为627869例,年平均发病人数为3567例。新疆地区肺结核月发病数具有季节性,1—5月平均发病数高于平均水平,6—12月平均发病数低于平均水平,发病高峰为1月和3月,发病低谷为9月。通过赤池信息量(AkaikeInformationCriterion,AIC)和贝叶斯信息量(BayesianInformationCriterion,BIC)最小原则得出,ARIMA(1,1,1)(0,1,2)12是最优模型,其残差序列为白噪声,参数的回归系数均具有统计学意义,拟合的平均绝对百分比误差MAPE为8.723%。预测的MAPE为18.674%,真实值均处于预测值的95%置信区间内。结论ARIMA(1,1,1)(0,1,2)12模型能够较好地拟合新疆肺结核发病数据,并进行短期预测,对新疆卫生防控措施的制定具有一定指导意义。
结核病是由结核分枝杆菌所引起的慢性传染病,全身的器官都可发生,但以肺结核最为常见,约占结核病人的80%。肺结核是一种感染性较强的疾病,一旦出现传染源,若不加以控制干预,极易暴发流行[1,2]。因此,肺结核具有较高的防治需求,各地区需加强对其的流行病学分析[3]。近年来,我国加大了对肺结核防控的力度,伴随着医疗卫生事业的发展和医疗条件的改善,结核疫情得到了有效的控制。但统计数据表明,个别地区肺结核报告发病率仍呈现缓慢上升趋势。2019年WHO结核病报告显示,结核病是导致死亡的十大病因之一,我国肺结核报告发病数较多,是全球肺结核排行第二的国家,耐药肺结核新发病例占全球的14%[4]。新疆是一个多民族居住的地区,地处我国的西部,受到气候条件、生活习惯、经济发展水平、医疗卫生条件等方面的限制,结核病的高发对新疆人民的生命健康安全造成严重的危害。数据显示,2008—2018年新疆地区肺结核报告发病率总体呈上升趋势(202.93/10万~304.94/10万),远远高出全国平均发病水平(61/10万),新疆地区肺结核的预防控制形势严峻。本研究通过对新疆地区2005—2019年肺结核的流行病学特征及疫情变化情况进行分析,构建肺结核季节性ARIMA模型,并对2019年9—12月发病人数进行预测,以期为该地区肺结核的预防与治疗提供理论依据。
1、数据与方法
1.1 数据来源
本研究基于2005—2019年新疆肺结核报告月发病例数。其中2005—2017年数据来源于公共卫生科学数据中心(http://www.phsciencedata.cn/Share/),2018—2019年数据来源于新疆维吾尔自治区卫生健康委员会法定传染病开放数据。
1.2 模型简介
ARIMA模型是时间序列分析中重要的组成部分,分析过程简便,是其他预测方法不可替代的[5]。基于R语言的时间序列常用的分析步骤为:(1)将一组同时间相关的数据转换为时间序列,一般要求数据量50个以上较好[6]。(2)对时间序列作平稳性检验和白噪声检验[7]。平稳性检验通常绘制时序图或用单位根检验,非平稳时间序列通过差分使序列平稳化。用Ljung-Box方法进行白噪声检验,显著性水平α=0.05。(3)根据数据检验结果选择合适的时间序列建模方法,对模型定阶,需要选择合适的阶数。(4)选取常用的统计指标对模型精度进行检验并选择最优模型,通常比较模型的赤池信息量(AkaikeInformationCriterion,AIC)和贝叶斯信息量(BayesianInformationCriterion,BIC)水平,根据最小信息量准则来判断。(5)时间序列趋势的预测,模型的拟合和预测效果通过平均绝对百分比误差来判断。
1.3 季节指数
季节指数用来验证序列是否具有季节性,能判断出疾病的好发月份[8]。计算公式为:Sj=x¯jx¯,公式中x¯为肺结核的月平均发病数,x¯j为第j个月肺结核的平均发病数,Sj表示第j个月的季节指数。若Sj=1,表明该月无季节效应,若Sj>1,表明当月的平均发病数高于平均水平,若Sj<1,当月的平均发病数低于平均水平。
1.4 统计学分析
数据由2位人员使用Excel2007对数据进行录入、核查以及处理,确保结果的准确性。使用R-4.0.2进行时间序列建模。
2、结果
2.1 新疆地区肺结核发病情况
2005年1月—2019年8月新疆地区肺结核累积发病人数为627869例,年均发病人数为3567例。由时序图1可知,肺结核发病规律呈现明显的季节特征,并且于2010—2019年呈现缓慢增长趋势,值得一提的是2017、2018年平均发病人数分别高达5007、4535例。
2.2 基于新疆肺结核月发病数据建立ARIMA模型
2.2.1 平稳性和季节性分析
基于KPSS检验的ndiffs()函数可判断出,需要对时间序列进行一阶差分。对数据做1~12阶白噪声检验,结果均显示P<0.05,表明原始序列为非白噪声,具有研究意义。图2中observed、trend、seasonal、random部分分别代表时序图、季节效应图、趋势图和随机波动项。趋势图表明近年肺结核发病数有所下降,但仍处于较高水平。通过季节效应图得出新疆肺结核具有季节性趋势,提示需做季节差分来消除数据的季节性影响。因此对原始数据进行一阶差分和一阶季节差分,处理后数据经单位根检验有统计学意义(t=-6.667,P<0.01),认为数据平稳。通过季节指数对季节性进行定量分析,具体结果见表1,季节指数图见图3。结果显示新疆肺结核发病数季节效应明显,以一年为周期出现1月和3月两个高峰,9月为一个低谷,并且1—5月季节指数大于1,其余月份季节指数小于1。表明1—5月的平均发病数高于平均水平,6—12月的平均发病数低于平均水平,呈现出季节效应。
2.2.2 ARIMA乘积季节模型识别
因原始数据进行一阶差分和一阶季节差分处理之后达到平稳状态,所以模型ARIMA(p,d,q)(P,D,Q)s中d=1,D=1。根据平稳时间序列绘制出自相关图和偏自相关图。
如图4所示,自相关图和偏自相关图均是二阶截尾。考虑到模型阶数过高将造成过拟合,因此参数取值范围为0~2,对参数从低阶到高阶进行尝试,筛选出通过参数检验的模型,并结合实际情况,选取AIC=2503为临界值,排除AIC>2503的模型,最终列举11个模型的AIC、BIC值(表2)。采用最小信息量准则对上述11个模型进行判断,具体为AIC、BIC的值越小模型的拟合优度越高来建立最优模型。确定了最优模型为ARIMA(1,1,1)(0,1,2)12,其AIC=2499.033,BIC=2514.502。
2.2.3 模型参数估计与检验
采用最大似然估计法来估计参数,结果表明参数具有统计学意义。证明ARIMA(1,1,1)(0,1,2)12可以用来预测新疆肺结核的发病率(详见表3)。利用最优模型ARIMA(1,1,1)(0,1,2)12,得到实际值和预测值之差即残差,对模型残差进行白噪声检验,模型的LB检验统计量显示P=0.264(P>0.05),可认为残差序列为白噪声,模型提取较完整,此模型来预测新疆肺结核的发病人数是合理的。对残差进行自相关和偏自相关分析显示,自相关系数都落在区间内,因此不能认为残差序列各数值间具有相关性(图4),模型拟合较好。
2.2.4 模型预测
采用ARIMA(1,1,1)(0,1,2)12模型拟合新疆2005年1月—2019年8月期间肺结核发病数(图5)。模型拟合的精度通过平均百分比误差来评估。根据计算公式得出MAPE=8.723%,表明模型拟合效果较好。根据最优模型预测2019年9—12月的肺结核报告发病数并给出95%CI(表4)。由表4可以看出,2019年9—12月新疆地区肺结核月发病人数真实值与预测值稍有不同,但都落在95%置信区间中,模型预测的MAPE=18.674%,表明模型预测尚可。查阅中华人民共和国交通运输部得知,2019年12月份公路旅客运输量为去年同期的90.4%,引起真实值略微降低,不符合季节指数变化规律,且真实值远低于12月平均发病人数(2961),这可能是引起12月份相对误差较大的原因。
3、讨论
肺结核作为一种慢性消耗性疾病,长期危害患者健康,且救治延误预后差,是重大的公共卫生问题。虽然我国加大了对公共卫生的关注与资金的投入,使得肺结核疫情得到较明显的改善[9],但目前仍有较多的人感染结核分枝杆菌,同时新疆地区肺结核的发病率长期位于全国前列。相关研究显示,与全国对比,2004—2019年新疆肺结核的发病率和死亡率总体呈上升趋势,提示新疆需加强结核病的防治措施[10]。肺结核发病人数变化呈现季节性及趋势性,同时,季节性ARIMA模型能较好地拟合具有趋势性和季节性的时间序列,因此通过构建并运用季节性ARIMA模型将很好地拟合出新疆地区肺结核发病人数的变化趋势。
本研究发现新疆地区肺结核月发病数随时间的推移而变化,根据季节性分解图可确定新疆肺结核具有季节性,同时季节指数表明1—5月的平均发病数高于平均水平,6—12月的平均发病数低于平均水平,这与王薇[11]研究结果一致。其中,1月份报告发病人数通常最多,在3月和10—12月也容易出现小幅上升趋势。这是因为,人口流动易增加肺结核患病风险[12],而新疆地区的流动人口较多,尤其是1月份至春节期间,流动人口返乡,为新疆冬季最寒冷时节,更容易造成肺结核发病人数增加。通过自相关图和偏自相关图确定相关参数,并综合比较模型AIC和BIC指数,选择最优模型,进行模型的参数检验,最终确定模型为ARIMA(1,1,1)(0,1,2)12,该模型较好地拟合了2005年1月—2019年8月新疆地区肺结核的流行趋势(MAPE=8.723%),并预测2019年9—12月新疆地区肺结核月发病人数,得出预测的MAPE=18.674%,表明预测结果尚可。
时间序列在短期预测精度较高,但长期预测精度会大大减少[13]。本研究的预测结果与近年来数据波动有较大关联,导致预测结果出现偏差。2020年,受到新冠疫情影响,肺结核检测工作未能及时有序开展,导致报告发病数减少,以往的模型用于预测2020年数据将会产生较大误差(实际值偏小)。将2020年数据纳入模型,会预测得到大幅减少的发病数,这同实际情况是不相符的。因为检测工作制约得到减少的发病数并不能作为新疆结核疫情得到了有效控制的佐证,所以应警惕潜在未检测出的结核病人,警惕延迟的肺结核峰值。因此,本研究并未将2020年1月以来的发病数纳入单纯的时间序列模型,这部分数据挖掘应综合考虑多方面影响因素。同时已有证据表明,COVID-19与肺结核病之间在临床、流行病学和防控等方面必然会相互关联、相互影响[14],疫情期间,肺结核相关防控措施被中断,患者得不到及时诊断与治疗,故在疫情过后,防疫工作人员应加大排查力度,及时采取预防及治疗措施,防止肺结核扩散。
参考文献:
[1]凯德丽艳阿布都外力,努尔买买提·吐鲁甫,王希江,等.2011-2018年新疆皮山县肺结核病流行病学特征分析[J].疾病预防控制通报,2020,35(5).41-44,52.
[2]张晶,刘馨慧,张紫阳,等.2005-2017年新疆14地州肺结核时空分布探讨[J].数学的实践与认识,2020,50(8):132-140.
[3]曾继清.肺结核的流行病学特征及其控制对策分析[J].基层医学论坛,2019,23(35):5149-5150.
[5]刘希波.甘肃省主要法定报告乙丙类传染病预测研究[D].兰州:甘肃中医药大学,2020.
[6]宋媛媛,王雷,熊甜等.ARIMA模型与GM(1,1)模型在痢疾发病数预测中的比较研究[J].实用预防医学,2019,26(7):888-892.
[7]樊静洁,刘雪芳,刘世新,等.基于R语言的ARIMA模型对医院早产趋势的预测分析[J].实用预防医学,2020,27(4).429-432
[3]张伟文,贺湘焱,古丽娜扎尔-艾克拜尔,等.季节时间序列分析在新疆地区涂阳结核疫情预测预警中的应用[J].实用预防医学,2019,26(1):26-29.
[9]陈穗穗,吴玲倩,赵煜.基于曲线聚类的肺结核流行特征分析[J].江汉大学学报(自然科学版),2019,47(6):541-548.
[10]张燕,尹哲,贺湘焱,等.数据挖掘在新疆肺结核区域发病风险建模与预测中的应用[J].现代预防医学,2020,47(4):583-587,611.
[11]王薇.新疆维吾尔自治区2004-2014年间肺结核病流行状况及趋势分析[D].兰州:兰州大学,2016.
[12]苏倩,张婷.重庆市流动人口肺结核患者服药依从性影响因素调查[J].中国热带医学,2020,20(4);347-350.
[13]游楠楠,刘巧,李忠奇,等.基于ARIMA模型的江苏省不同地区肺结核发病趋势的预测[J].南京医科大学学报(自然科学版),2020,40(6).909-914,919.
[14]沈盘,沙巍,刘剑君.新型冠状病毒肺炎疫情对结核病防控的影响及对策[J].中国防旁杂志,2020,42(6).:544-548.
文章来源:聂艳武,郑彦玲,孙亚红,杨磊,张利萍.基于季节性ARIMA模型的新疆肺结核发病预测分析[J].实用预防医学,2021,28(11):1324-1328.
分享:
全国第5次结核病流行病学抽样调查结果显示,我国结核病耐药率高达42.1%。肺结核耐药会增加患者痊愈的难度和治疗成本。影响肺结核耐药的危险因素很多,不同地区和人群结核病耐药的危险因素存在较大差异。涂阳肺结核患者发生耐药的危险因素,为制定肺结核防治策略提供理论依据。
2024-04-22结核病是由结核分枝杆菌(Mycobacterium tuberculosis,MTB)感染所引起的一种慢性呼吸道传染病,以肺结核最常见。免疫功能低下与营养不良是导致结核病发生的五大危险因素之一。据世界卫生组织(WHO)估计,2021年我国可归因于营养不良的结核病发病例数仍居第三位,仅次于吸烟和酗酒。
2024-04-18肺肉芽肿性疾病是一组包括多种不同病因的异质性疾病,组织形态以肉芽肿病变为主或含有肉芽肿病变,肉芽肿疾病根据其最终诊断不同,临床治疗及预后也有较大差别。由于临床症状及影像特点的非特异性表现及病理组织取材的限制,肺肉芽肿性炎诊断困难,给当前临床工作开展带来了困难,延误治疗和过度诊治时有发生。
2024-04-16肺结核是一种由结核分枝杆菌复合群(Mycobacterium tuberculosis complex, MTC)感染引起的呼吸系统传染病,2022年全球约750万人被诊断为肺结核,我国结核病发病人数居世界第3位。早期诊断肺结核对消除传染源、控制流行有重要意义。
2024-04-13结核病(Tuberculosis, TB)是全球最具破坏性的传染病之一,由结核分枝杆菌(Mycobacterium tuberculosis,Mtb)感染引起,可定居于全身多个器官。据WHO统计显示,2021年全球约有1 060万新发结核分枝杆菌感染病例,另外约有160万人死于结核病。虽然结核病在中国的流行趋势有所下降。
2024-04-12结核病(Tuberculosis, TB)是全球最具破坏性的传染病之一,由结核分枝杆菌(Mycobacterium tuberculosis,Mtb)感染引起,可定居于全身多个器官。据WHO统计显示,2021年全球约有1 060万新发结核分枝杆菌感染病例,另外约有160万人死于结核病。虽然结核病在中国的流行趋势有所下降,但由于结核病发病机制复杂,结核病人的早期发现率低以及耐药结核病的诊治等问题。
2024-04-12肺结核在临床中较为常见的一种类型为空洞型肺结核,传统的药物治疗耗时长,如出现药物剂量过大,可能影响患者的肝肾功能和耐药性,不利于患者的疾病治疗[1,2,3]。目前,微创外科的发展已成为一种优势,在电视胸腔镜手术中占有较高的地位。约80%的肺叶切除术是电视辅助肺叶切除,它不仅可以降低围手术期患者的死亡率,而且具有创伤小、恢复快的优良特点,从而使全胸腔镜肺疾病治疗的地位得到认可[4,5,6]。
2024-03-19结核病是严重危害公众健康的全球性公共卫生问题,中国是全球30个结核病高负担国家之一,新发患者数位居全球第2位。近年来,人群结核病发病和患病高峰向老年人群偏移,老年人口化加剧,老年结核病已经引起国内外学者的关注。越南和非洲调查发现结核病患病率均表现为老年人群更高。
2024-03-18结核病(tuberculosis,TB)是由结核分枝杆菌(Mycobacterium tuberculosis,MTB)感染引起的一种严重的慢性传染性疾病。CD4+T细胞是抗MTB感染的主要免疫细胞,其有效的抗MTB作用是机体清除MTB的重要保障[1]。T细胞活化需要2种细胞信号参与,即主要组织相容性复合体(major histocompatibility complex,MHC)提供的第一信号及正性和负性共刺激分子提供的第二信号。
2024-03-15目前,我国约有1.4亿糖尿病患者,预计至2030年,我国糖尿病患者将增长至总人口的7.2%。糖尿病作为肺结核的主要危险因素之一,其并发肺结核的患病率是一般人群的3~4倍。随着我国经济发展和人口老龄化,老年肺结核合并糖尿病患者呈逐年上升趋势,引起临床广泛关注。
2024-02-22人气:14034
人气:13220
人气:13022
人气:12791
人气:11611
我要评论
期刊名称:中华结核和呼吸杂志
期刊人气:3784
主管单位:中国科学技术协会
主办单位:中华医学会
出版地方:北京
专业分类:医学
国际刊号:1001-0939
国内刊号:11-2147/R
邮发代号:2-70
创刊时间:1953年
发行周期:月刊
期刊开本:大16开
见刊时间:一年半以上
影响因子:0.996
影响因子:0.767
影响因子:0.964
影响因子:0.459
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!