摘要:本文尝试以大数据分析数据挖掘方法对1945—2015年广东省台风登陆的数据,台风登陆时间等相关数据进行评估处理,经过对比分析,对最终结果进行预测,希望在防风减灾实际应用中发挥更大的参考价值。
加入收藏
台风灾害是广东省最主要的自然灾害之一,其引发的风暴潮及洪涝和山体滑波等灾害对社会基础设施和生命财产造成巨大的损害。台风灾害评估是防灾减灾的关键,但由于台风的复杂性,其经济损失预测一直是一个难题。我国学者在致灾因子和灾情结合评估研究采用数理统计方法[1-2]和模糊数学方法[3]。台风是一个涉及大量资料运算的自然界现象,因此,引入大数据分析技术有助于掌握台风的动态。本文尝试以大数据分析数据挖掘方法,利用多维度多角度的数据寻找关联性,从看似琐碎不相关的数据集合中挖掘对模型优化有用的因子,并使用机器学习中具有自我反馈学习的预测模型对最终结果进行预测。最后,基于这个预测模型再运用气象灾害风险管理的方法做出台风经济风险的统计和预测。
本文对台风的经济风险解读基于灾害学领域的观点,即自然灾害事件(包括量级、时间、场地等要素)发生的可能性以及由其造成后果的严重程度。对台风灾害有可能带来的经济损失以及此损失的可能性做出估计。
1、背景及相关技术介绍
1.1 背景
1945—2015年期间,共计216个台风直接登录广东省,其中低压强登陆有27个,热带风暴级别和以上级别的共计189个,省内各沿海城市登陆数据如图1所示。由图1可知,广东省湛江市是历年台风登陆数目最多的城市,也是受台风灾害冲击最为惨烈的城市,而且其他数据表明到目前为止登陆广东省的最强台风Rammasun(17+级,62m/s,910hPa)也正是登陆自湛江市徐闻县龙塘镇,可见湛江市在防灾减灾形势十分严峻。
1.2 相关技术
1.2.1 BP神经网络的原理
BP(BackPropagation)神经网络模型是一种按误差逆传播算法训练的多层前馈网络[4],通过最速下降法,反向传播来不断调整网络的权值和阈值使得网络的总误差最小[5]。模型拓扑结构有输入层、隐藏层和输出层组成。第j个神经元的净输入值Sj见式(1)。模型运算结构如图2所示。图2中,f(x)—传递函数;yi—第j个神经元的输出。当正向传播完成后需要反向传播,即通过累计误差去调整网络中的权值wji,使总误差减少。关于BP神经网络更详细的算法可参考文献[6]。
1.2.2 LS-SVM的原理
LS-SVM是建立在在SVM基础上的改进,LSSVM从机器学习损失函数上做出改进,在优化问题中优化目标的损失函数为误差的平方,同时LS-SVM约束条件将SVM中采用的不等式变为等式[7]。并且LS-SVM引用了核函数,最后只需通过对线性方程组的求解实现二次规划问题的化简,通过降低求解难度的方式,大大提高运算速度并且能够保证最后结果有较高的精度[8],更详细的算法过程可参考文献[9],最后可得到非线性方程。
2、大数据分析技术与预测
2.1 大数据转换过程
大数据的数据转换过程可分为各类型不同数据的前提收集、中期对各类型数据的压缩和分析及最后结果的输出,如图3所示。由于大数据对一些图像、音像等多样化数据的量化提取技术尚未成熟和广泛运用,本文对图3中的信息类型仅局限于数字文本资料,转换过程基本一致,但最后输出本文的数据只有直接经济损失这一个选项。
2.2 数据降维
大数据在数据维度上具有广泛性,尽管前期对数据选取已经作了筛选,但大量基于时间序列的数据在各维度上仍然可能存在较严重的线性相关性。大数据中,最常用的数据降维方式是通过压缩数据的线性关系已达到高维度数据最终向低维度映射的目的,减少计算资源的耗费与提高运算速度[10]。由于大数据的数据多元,因此,维度可以无限大,本文只选取了部分相关的数据维度作出筛选分析,见表1。
表1广东省台风数据因子选取
数据在以上维度的数值,经标准化处理后利用机器学习中的降维方法,主成分分析法对多维度数据进行降维,主成分分析的降维方法在对数据特征压缩原理上是基于一个协方差矩阵进行的,因此可以大大减少因子间的线性相关性。大数据的维度在量纲上存在差异,在降维前应进行标准化处理和中心化处理,数据降维后可发现前6个主成分的贡献率在90%以上,因此选取这6个主成分作为后期预测模型的因子输入,降维结果的时间序列分布如图4所示。
图4降维结果时间序列分布
2.3 直接经济预测
台风灾害造成的直接经济损失受大数据多维度的数据影响,但由于某些影响因素具有很强的随机性,因此预测难度非常大,如果沿用一般的多元线性回归方法有可能会导致精度非常低。本文在对台风于广东省的直接经济损失预测将结合大数据中的反馈学习和模型自我调节优化的特点和要求,将运用机器学习中的两种算法,BP神经网络和LS-SVM(最小二乘支持向量机)对数据进行预测,并从精度和效率上评价这两种算法在大数据预测中的效果。针对数据中每10次台风数据给出两个预测值,即以前10次台风数据作为训练集以预测下两次的经济损失。原始数据是已经进行降维后得到的6个主成分。
2.3.1 利用BP神经网络预测
由降维后的6个主成分作为BP神经网络的输入层,每次台风的直接经济损失数据作为BP神经网络的输出层,通过样本数据对网络进行训练,最后得到直接经济损失的预测值,Matlab中就有相应的神经网络工具箱可以进行对数据的训练和仿真。本文采取预测点的前10组样本数据作为训练集来对往后2次台风的直接经济损失进行预测,以此类推,通过训练样本的每两组地向后移动,形成适用于后两次数据点预测的神经网络,即最新权值,完成后样本数据集两次台风直接经济损失预测。由于数据库准备前期已经对数据进行了归一化处理,不需要再对数据进行归一化处理去除量纲。利用广东省1985—2015年台风登陆的数据样本,每10组作为训练集,预测往后2次的经济损失,样本窗口每两次向后推移,预测点也将同时向后推移,直到得到往后所有点的预测结果。将预测所得结果与相应台风序号的实际数据做比较,如图5所示。
5利用BP神经网络法预测结果
图5利用BP神经网络法预测结果
2.3.2 利用LS-SVM预测
利用LS-SVM进行预测时,将由降维后的6个主成分作为影响因子的输入,每次台风的直接经济损失数据作为输出。运用Matlab中的LS-SVM工具箱对样本数据进行训练和最后结果预测。本文将选定高斯径向基函数作为LS-SVM的核函数,因为它的应用范围最为广泛并直接反映了两个数据的距离。另外在选定核函数之后,LS-SVM模型还需对超参数γ(对应惩罚因子C,决定训练误差)和核参数σ^2(决定样本的分布和范围,与方差成反比),以上两个参数的选取须在合理的范围内选取,γ太高容易造成过度拟合[11],在工具中有一个函数Gridsearch可以在一定的范围内进行参数寻优,以找到较为适合的参数值。同理,对数据中每10组作为训练集,得到最新的训练网络,以此预测往后2次的经济损失,然后按照预测点的推移,训练样本随之转移,最后完成全部经济损失值的预测结果并与实际值进行对比,结果如图6所示。
图6利用LS-SVM法预测结果
2.3.3 两种预测方法结果对比分析
(1)运算速度:从算法原理出发,由于人工神经网络因本身传递函数具有非线性映射以及算法收敛比较慢的特征,而LS-SVM则在算法中直接采用核函数代替高维特征空间中的内积计算问题并通过对线性方程组的求解实现二次规划问题的化简,这样能够显著提高模型的训练速度,在对台风灾害直接经济损失的预测实验中,实际情况明显低说明两种算法在运算速度上的优劣,因为本实验中BP神经网络在前后推移中一共用了大约15s,而LS-SVM则只用了1s左右,并且两个算法在编程上的结构也是类似的,都用到了for循环来进行训练集的推移。
(2)精度分析:在精度对比时,本文将引入绝对百分比误差(AbsolutePercentageError)概念,即表2中的APE,对两种算法的预测精度进行量化,最后结果见表2。
表2结果对比
由表2可得,BP神经网络绝对误差小于50%的数目为19个,而LS-SVM算法预测得到的结果中绝对误差低于50%的数目为25个,要高于BP神经网络法预测得到的结果。因此,在精度上也可以认为LS-SVM广东省台风灾害的直接经济损失预测上在大多数点的准确率要高于BP神经网络,尽管一些点上LS-SVM法的预测值误差会高于BP神经网络法的预测值误差,并且有个别点也会出现误差爆炸的情况,当出现误差爆炸时,可以认为模型预测已经没有意义,但到底是什么原因导致模型预测出现误差爆炸的情况是今后需要发展和模型改进的方向之一。
因此,在台风灾害直接经济损失预测中,从预测值准确率上LS-SVM的预测精度会稍高于BP神经网络法,但从运算速度上,LS-SVM模型通过核函数在非线性函数与线性函数的巧妙转化,使得LS-SVM法在运算速度上要大大高语BP神经网络法,LS-SVM更适合语解决大规模数据计算问题,在台风大数据分析中,数据规模非常庞大。经比较,相比BP神经网络法,选用LS-SVM法进行数据预测会更有效率,并且更节省计算机运算占用的内存,减少不必要资源浪费。
3、结语
本文对台风灾害的经济风险的大数据分析过程作了介绍,包括前期的数据抓取、转换和清洗、多维度数据的压缩降维和利用预测模型对数据进行预测,分析和反馈学习,不断提高数据预测的计算精度。并且就台风经济损失数据,利用机器学习中的两种用于回归预测的常用算法作出模拟作为一次实验,最后从运算速度和精度上对两种模型于台风大数据中的应用作出分析与评价。基于台风灾害直接经济损失的预测对BP网络和LS-SVM比较分析得出在大数据预测过程中LSSVM更为适合。但预测结果仅仅局限于某个预测值,而不是预测值的置信区间,这是今后研究和改进的方向之一,在实际应用中往往后者会具有更大的参考价值。
参考文献:
[1]卢文芳.上海地区热带气旋灾情的评估和灾年预测[J].自然灾害学报,1995,4(03):40-45.
[2]钱燕珍,杨元琴.热带气旋灾害指数的估算与应用方法[J].气象,2001,27(01):14-18+24.
[3]梁必骐,樊琦.热带气旋灾害的模糊数学评价[J].热带气象学报,1999,15(04):305-311.
[4]于涛.BP网络自适应学习率算法分析[D].大连理工大学,2011.
[5]辛海涛,杨殿军,康靖.BP神经元网络算法在高新技术产品评价中的应用[J].商业经济,2010,21(24):26-28.
[6](美)MartinHagan等著,戴葵,等译.神经网络设计[M].北京:机械工业出版社,2002.
[7]王朋.提高LS-SVM建模性能的学习算法及其应用研究[D].北京工业大学,2012.
[8]张浩然,汪晓东.回归最小二乘支持向量机和在线式学习算法[J].计算机学报,2006,29(03):400-406.
[9]陈倩,徐宏锐.考虑相关因素的最小二乘支持向量机风速预测方法栗然[J].电力系统保护与控制,2010,38(21):146-151.
[10]郝晓军,闫京海,樊友谊.大数据分析过程中的降维方法[J].航天电子对抗,2014(04):58-60.
[11]邓乃扬,田英杰.数据挖掘中的新方法:支持向量机[M].北京:科学出版社,2004.
伍俊杰,黄浩,潘晨. 基于大数据分析的台风灾害经济风险评估[J]. 水利规划与设计,2019(03):86-89.
分享:
目前,民航气象人员判断天气演变趋势使用的气象系统为气象MICAPS系统[1,2,3],该系统存在如下缺陷:资料更新时间间隔过长,MICAPS资料3h更新一次,而民航气象人员需要未来0.5~2h区间的资料。中国气象科研工作者结合信息地理系统[4,5,6]和计算机技术优势,设计和开发了许多实用的气象数据显示系统。
2022-04-26黑龙江省土地肥沃,是我国农业大省,春季降水对农业生产有很大影响,如春季降水过多会出现春涝的现象。尤其是每年4月,气温逐渐回升,雨雪相态转换,湿雪较多,伴有大风等天气影响极大。影响黑龙江省春季较大降水的高空影响系统有低涡降水、低槽降水;影响黑龙江省春季较大降水的地面影响系统有蒙古气旋、东北气旋、江淮气旋、冷锋和华北气旋。
2020-11-27近年来,随着我国工业生产和经济建设的高速发展,汽车数量的迅速增加,煤炭和石油等燃料消耗量的剧增,导致了空气污染的不断加剧,尤其是雾霾天气的频繁发生,给社会经济建设和人体健康造成了极大危害。空气污染引发的人体健康问题如呼吸系统疾病、心脑血管疾病等引起了社会各界的普遍关注。
2020-11-27中国东北三省及内蒙古地区是典型的寒冷地区,冬季降雪量大,出行特性与其他季节明显不同,私人小汽车、出租车、公交车、轨道交通成为居民出行的主要方式,而步行、自行车交通则大量减少。寒区城市居民在冰雪期期间(一般为每年的11月份到次年的3月份)的出行会受到低温寒冷、路面湿滑、雾雪能见度降低等困扰,出行不便,对生活产生较大的影响,因此采用合适的出行方式应该被交通管理者重视。
2020-11-26IPCC第五次报告指出,全球气候变暖已经成为一种趋势[1],全球气候变化会影响区域降水在时空上重新分配[2,3],促使水循环加速[4],导致极端降水事件频发,造成了众多的自然灾害,对水资源安全、人类的生产生活和社会稳定等产生了严重的影响,引起了国内外众多学者广泛关注[5,6,7,8]。
2020-11-25基于天气数据进行空气质量预测,首先收集成都市A区2018年4月1日到2018年6月3日64天24个天气属性,然后对天气属性进行筛选、数据处理;接着,建立KNN分类模型,利用k折交叉验证和多数表决原则对64个样本进行分类;最后在传统KNN分类模型的基础上,使用反距离加权建模,结果表明模型有较好的泛化能力和预测效果。
2020-11-18地震地下流体前兆是指与地震孕肓、发生或构造活动有直接联系的,赋存于地壳岩体空隙中的水、气、油等物质。目前大陆地下流体前兆和物理力学机制,主要是基于强震孕肓的动力学原理,即在区域应力作用下,地壳介质受到力的作用而发生变形破坏时,赋存于介质中的流体在动力作用、热力作用和化学作用下灵敏响应介质的动态变化。
2020-10-272017年2月15-16日,伊春地区出现了一次较强的降雪过程,主要降雪时段为15日夜间至16日白天,伊春北部地区降雪量大于南部,其中嘉荫站降雪量最大,达7.9毫米。降雪对交通、公众出行带来不利影响。由于冷空气势力较强,此次降雪的同时伴随5-6级偏北大风,雪后还带来了10度以上的强降温。
2020-10-27智能网格预报产品能很好地预报出气温的降温趋势,尤其是04-07的强降温,13个站02:00和05:00的预报和实况都十分接近,对预报员及决策气象服务起到了很好的指导作用;不同地势对霜灾的影响程度往往也不同,辐射降温后形成的冷空气向低洼处流动,导致地势偏低处冷空气堆积,霜冻也就越严重。
2020-10-23通过对宁波栎社机场观测站1991—2015年降水资料的分析,统计分析极端降水指数,包括极端降水阈值、年极端降水量、年极端降水强度、大雨日数以及暴雨日数,可得到以下结论:25年来,宁波栎社机场的年极端降水量、极端降水频率、极端降水强度、大雨、暴雨事件发生次数均表现出略微增加趋势。
2020-10-23我要评论
期刊名称:气象科学
期刊人气:1603
主管单位:江苏省气象局
主办单位:江苏省气象学会
出版地方:江苏
专业分类:科学
国际刊号:1009-0827
国内刊号:32-1243/P
创刊时间:1980年
发行周期:双月刊
期刊开本:16开
见刊时间:1年以上
影响因子:0.253
影响因子:0.682
影响因子:0.160
影响因子:0.421
影响因子:0.081
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!