91学术服务平台

您好,欢迎来到91学术官网!站长邮箱:91xszz@sina.com

发布论文

论文咨询

基于ARIMA与NNAR模型的甘肃省胰腺癌发病趋势预测

  2024-05-10    93  上传者:管理员

摘要:目的:分析2013-2021年甘肃省胰腺癌发病趋势,并对2022-2026年胰腺癌发病趋势进行预测。方法:收集2013-2021年甘肃省胰腺癌发病数据,通过计算年度变化百分比(annual percentage change, APC)和平均年度变化百分比(average annual percentage change, AAPC)分析其变化趋势;构建自回归移动平均(autoregressive integrated moving average, ARIMA)模型和神经网络自回归(neural network autoregression, NNAR)模型,比较两种模型预测精度并预测2022-2026年胰腺癌发病趋势。结果:选择精度更佳的ARIMA模型预测得到2022-2026年甘肃省胰腺癌发病率分别为5.58/10万、6.01/10万、6.44/10万、6.88/10万、7.31/10万。甘肃省胰腺癌发病率在2022-2026年仍保持上升趋势。结论:2022-2026年甘肃省胰腺癌发病率呈现上升趋势,ARIMA模型预测发病趋势具有良好的精度,可以为进一步疾病防控工作提供重要参考依据。

  • 关键词:
  • ARIMA模型
  • NNAR模型
  • 发病趋势
  • 胰腺癌
  • 预测
  • 加入收藏

在过去的三十年中,全球每年诊断出的胰腺癌患者数量翻了一番,从1990年 的195 000例增加到2022年的510 992例[1]。胰腺癌在大多数情况下诊断时已为晚期。并且对大多数化疗药物的反应很差。尽管总体5年生存率从1990年的<5%提高到2019年的9%[2,3],但胰腺癌的生存率仍然很低,死亡人数几乎与病例一样多[4]。在全球范围内,2020年胰腺癌的全球年龄标化发病率为4.9/10万,排在第14位。2020年估计有466 003人死于胰腺癌,在癌症中排名第7位[4]。根据2022年中国国家癌症中心最新数据,中国胰腺癌的标化发病率为4.44/10万,标化死亡率为3.88/10万[5]。胰腺癌是一种风险随年龄增长而增加的疾病,随着人口年龄结构的变化以及诊断方法的改进,胰腺癌的防控工作将面临更大的挑战。因此了解未来胰腺癌发病趋势,对甘肃省制定防控政策和调整医疗资源配置等方面具有重要指导意义。本文采用ARIMA模型与NNAR模型分别对2013-2021年甘肃省胰腺癌发病率进行拟合,择优对2022-2026年甘肃省胰腺癌发病趋势进行预测,为甘肃省胰腺癌的防控工作提供参考依据。


1、资料与方法


1.1 数据来源

2013-2021年甘肃省胰腺癌病例人数来源于甘肃省卫生健康委员会全民健康大数据平台,平台覆盖甘肃省151家医疗卫生机构的医疗数据。提取库中国际疾病分类(ICD-10)编码为C25的胰腺癌数据并对缺失值、重复值、异常值和数据类型有误的数据进行数据清洗后纳入研究。

1.2 研究方法

1.2.1 甘肃省胰腺癌发病趋势分析

使用Excel 2019建立2013-2021年甘肃省胰腺癌发病率数据库,使用2010年中国标准人口构成对发病率进行年龄标准化。使用Joinpoint 4.9.1.0软件分析变化趋势,分别计算APC和AAPC。

1.2.2 ARIMA、NNAR模型的建立与比较

2013-2019年甘肃省胰腺癌发病数据作为训练集,采用R4.1.0软件构建ARIMA模型和NNAR模型,2020-2021年发病数据作为测试集进行模型的比较评价。

ARIMA(p, d,q)模型可用于根据变量本身的过去值预测未来值。p表示当前值和历史值之间关系的自回归项,d表示转换为平稳序列进行的差分变换次数,参数q表示用于消除随机波动的移动平均项。赤池信息准则(Akaike information criterion, AIC)与贝叶斯准则(Bayes information criterion, BIC)用来评价时间序列分析的可靠性,AIC和BIC值越低,意味着模型越有可能被认为是真实模型[6]。若模型残差序列通过Box-Ljung检验,提示残差序列为无法捕捉的白噪声数据,拟合度较好。R语言“forecast”“tseries”包中auto.arim函数可以自动构建最优ARIMA模型。

NNAR模型可以被视为描述复杂非线性关系和函数形式的神经元或节点网络。不包含隐藏层的网络生成的模型相当于一个简单的线性回归,在包含具有“隐藏神经元”的中间层时模型变为非线性。NNAR模型可以用NNAR(p, k)表示。p为滞后输入数,k表示隐藏层中节点/神经元的数量。使用R语言“forecast”预测包中的nnetar函数自动将模型拟合到时间序列数据上。

1.3 模型比较

用于比较预测模型性能的主要指标是平均绝对百分比误差(mean absolute percentage error, MAPE)、平均绝对误差(mean absolute error, MAE)和均方根误差(root mean squared error, RMSE)。用于计算每个指标的公式如下所示。其中n表示观测值的数量,yi表示实际值,表示预测值。最后使用精度最佳模型预测2022-2026年甘肃省胰腺癌发病趋势变化。


2、结果


2.1 胰腺癌年龄别发病人数

2013-2021年甘肃省胰腺癌年龄别发病例数随着年龄的增加而增加,主要集中在60~74岁之间的人群,且逐年呈上升趋势。按性别分类,男性和女性之间的发病趋势相似。2021年新发男性病例数在65~69岁之间达到峰值,而女性则在75~79岁之间达到峰值(图1-2)。

图1 2013-2021甘肃省胰腺癌年龄别发病数   

图2 2021年甘肃省按性别划分的胰腺癌年龄别发病例数   

2.2 甘肃省胰腺癌发病率变化趋势

2013年甘肃省人群胰腺癌发病人数为519例,发病率为1.68/10万。2021年甘肃省人群胰腺癌发病人数为1 618例,发病率为5.14/10万(表1)。2013-2021年甘肃省胰腺癌发病人数整体呈波动上升趋势,其中增长速度最快的为2013-2015年,APC为31.21%(图3),AAPC为15.2%。

2.3 胰腺癌发病预测模型构建与评估

在R语言中使用Hyndman编写的“auto.arima”函数得到最优模型为ARIMA(0,1,0)(AIC=1.48,BIC=1.06)(图4)。对残差序列进行白噪声检验,延迟6阶χ2值为6.452 4(P=0.374 5),模型通过检验。ARIMA模型在训练集上的MAPE、MAE、RMSE分别为4.966%、0.151、0.182,在测试集上分别为8.522%、0.419和0.434;使用“nnetar”函数得到的NNAR(1,1)(图5)的MAPE、MAE和RMSE分别为3.333%、0.112、0.137,在测试集上分别为21.108%、1.038和1.083。在训练集上,NNAR模型优于ARIMA模型,但在测试集上NNAR模型预测精度欠佳(表2)。

表1 2013-2021年甘肃省胰腺癌发病率变化情况

图3 2013-2021年甘肃省胰腺癌发病趋势   

图4 ARIMA(0,1,0)胰腺癌发病预测模型  

图5 NNAR(1,1)胰腺癌发病率预测模型   

表2 基于ARIMA和NNAR的甘肃省胰腺癌发病率预测模型预测效果比较

2.4 甘肃省胰腺癌发病率预测

结合训练集与测试集各项指标可知,NNAR模型在预测胰腺癌发病率时,稳健性较差,故使用较优的ARIMA模型预测得到2022-2026年甘肃省胰腺癌发病率分别 为5.58/10万、6.01/10万、6.44/10万、6.88/10万、7.31/10万。甘肃省胰腺癌发病率在2022-2026年仍保持上升趋势(表3)。

表3 基于ARIMA模型的2022-2026年甘肃省胰腺癌发病率预测(1/105)


3、讨论


2013-2021年甘肃省胰腺癌标化发病率从1.68/10万上升至5.14/10万,并且大多数患者发病年龄集中在70岁左右,这可能与吸烟人数不断上升和西北人群的饮食习惯密切相关。相比于发达地区居民健康意识普遍较高、日常体检频率和癌症筛查技术普及性高,甘肃省胰腺癌发病率相对较低[7]。但随着人口老龄化加快和先进医疗诊断设备的应用及城市化水平的快速提高,未来胰腺癌发病趋势将继续上升。

本文通过建立ARIMA模型与NNAR模型,分析2013-2021年甘肃省胰腺癌发病率,预测得到2022-2026年甘肃省胰腺癌发病趋势将继续上升,这与中国胰腺癌的发病趋势保持一致[8]。

ARIMA模型最早由BOX和JENKINS提出[9]。ARIMA通过分析随时间形成的随机数据序列来计算短期预测。广泛应用于经济学、人口学,医学研究等领域[10,11]。ARIMA模型对时间序列数据波动小的预测效果较好[12]。不平稳的时间序列必须在差分后才能进行预测,但每次差分运算都会导致信息丢失,故在波动较大的数据序列上精度欠佳[13,14]。

NNAR模型是一种用于时间序列分析的机器学习方法,提供了一种可以逼近非线性不平稳时间序列的有效方法,可以用于波动性较大的数据队列[15]。NNAR模型在丙型肝炎、流行性出血热、猩红热和新冠肺炎的时间序列数据分析中具有较高的精度和较强的适用性[16,17]。但由于NNAR模型是“黑盒”模型,其可解释性较差,并且建立NNAR模型需要更大的数据量,NNAR模型的应用还需要进一步的研究[18]。

综上所述,ARIMA模型和NNAR模型的预测结果与实际结果基本一致,其中ARIMA模型的预测精度更高。然而,胰腺癌的发病因素多种多样,本研究仅从时间序列角度分析其发病趋势,下一步将结合其他因素作进一步分析。此外,ARIMA模型还可以与其他模型相结合,形成强大的混合时间序列预测方法,例如MNGM-ARIMA,ARIMA-ERNN预测模型等[19,20]。

胰腺癌作为一种与遗传改变相关并与已知风险因素相关的多因素疾病。营养和生活方式作为致病因素和预防因素都与胰腺癌有关。27%的病例可以通过健康的生活方式得到预防。大约30%的胰腺癌可以通过控制吸烟来预防[21]。且戒烟仅五年后,风险就降低到不吸烟者的水平。饮食方面,食用水果(尤其是柑橘)和蔬菜等低卡路里的食物将有助于避免肥胖,并可能降低患胰腺癌的风险[22]。全谷物的摄入已被证明可以降低胰腺癌的风险[23]。高摄入维生素B6和高浓度的血液磷酸吡哆醛水平可能对胰腺癌的发展具有保护作用[24]。烹饪方法也会影响食物的致癌潜力,应避免食用红肉,尤其是在高温烹饪时,尽可能用家禽或鱼代替。同时,限制酒精的摄入,饮酒会导致慢性胰腺炎和肝硬化增加胰腺癌的患病风险[25]。此外,缺乏有效的诊断和筛查方法是导致胰腺癌预后不良的重要因素,因此发展胰腺癌早筛技术和先进诊断设备尤为重要。同时对高危人群进行长期监测和干预,这些都是将来有效防控胰腺癌的重要手段。


参考文献:

[7]王亮亮,丁高恒,陈莉莉,等.2009-2015年甘肃省肿瘤登记地区胰腺癌流行特征及变化趋势分析[J].实用肿瘤学杂志,2021,35(03):200-206.

[8]张敏,段朝晖,徐杰茹,等.基于GBD数据分析与预测2000-2030年中国胰腺癌发病与死亡趋势[J].中国肿瘤,2022,31(11):862-868.

[12]苏海霞,杨丹凌,文立,等.基于ARIMA与NNAR模型的中国肺癌预测模型构建研究[J].广西医科大学学报,2023,40(01):147-153.

[13]赵创艺,袁空军,杨媛,等.基于ARIMA与NNAR模型的中国慢性阻塞性肺疾病疾病负担预测研究[J].中国全科医学,2022,25(16):1942-1949.

[15]张欣,刘振球,袁黄波,等.神经网络自回归模型在丙肝发病趋势和预测研究中的应用[J].中国卫生统计,2020,37(04):524-526.

[16]马倩倩,何贤英,崔芳芳,等.基于ARIMA与NNAR模型的中国食管癌疾病负担预测[J].中华疾病控制杂志,2021,25(09):1048-1053.


基金资助:甘肃省教育厅项目(编号:2021jyjbgs-02);甘肃省发改委项目(编号:2020-2022); 甘肃省科技重大专项(编号:20ZD7FA003);甘肃省军民融合发展专项(编号:2020-128);


文章来源:马晨哲,王霄,杨波,等.基于ARIMA与NNAR模型的甘肃省胰腺癌发病趋势预测[J].现代肿瘤医学,2024,32(11):2080-2084.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

中华胰腺病杂志

期刊名称:中华胰腺病杂志

期刊人气:2255

期刊详情

主管单位:中国科学技术协会

主办单位:中华医学会

出版地方:上海

专业分类:医学

国际刊号:1674-1935

国内刊号:11-5667/R

邮发代号:4-689

创刊时间:2001年

发行周期:双月刊

期刊开本:大16开

见刊时间:1年以上

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定