
摘要:为了解决重庆市气象局面临的信息系统集约程度不高,大数据计算能力不足等问题,文中基于分布式数据存储和计算框架,提出了重庆气象数据网的五层体系架构,并对系统功能结构、系统流程、数据流程、数据库模型、物理网络架构等进行了详细的设计,同时提出了该课题融入重庆市智慧城市体系的方案。最后根据提出的设计方法进行了实现和测试,经测试表明,文中提出的设计方法优化了气象业务信息流,显著提高了气象大数据的计算能力和在线服务能力,为生态文明建设、气象防灾减灾提供了有力的数据支撑。
“十一五”至“十二五”期间,重庆市气象局完成了省级集约化的统一气象数据环境构建,并通过统一接口提供气象数据服务,初步实现对省级核心业务系统的数据支撑。但随着气象数据观测频次不断增高,在气象大数据快速发展的环境下,现有数据环境难以适应气象业务的需求发展,存在信息系统集约程度不高,数据集约程度不够,对外气象数据供给水平不足等问题。
为解决以上问题,本文利用分布式架构、云计算、大数据等新兴技术,进行重庆气象数据网的设计,提高气象信息化基础业务能力和构建智慧气象的发展要求,推进气象大数据的创新应用[1]。实现气象大数据平台对气象数据、行业数据、互联网数据、物联网数据等资源进行快速汇聚和综合展示,生成丰富的统计类产品,为各类用户提供统一的数据查询和服务环境,推进重庆气象数据资源向部门内外有序开放。
1、关键技术研究
1.1Cassandra技术研究
Cassandra是基于一致性哈希的完全点对点环形结构,数据均匀分布在集群的所有节点之中[2,3]。每一个节点通过点对点的Gossip(一种去中心化的通信协议,在分布式系统中广泛应用)通信协议来频繁和集群中的其他节点交换状态信息,如图1所示。
图1Cassandra的环形结构
这样的环形结构可以灵活添加节点来完成系统的扩充且无需大规模转移数据,同时彻底避免系统因单点故障导致的不稳定性。Cassandra的这些优点,恰好可以解决气象大数据在关系型数据库中面临的扩展困难、可用性低、检索效率低等问题[4,5]。
1.2Spark技术研究
Spark是用于大数据处理的统一分析框架,用于实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型[6]。Spark的一个主要特点是能够在内存中进行计算。Spark使用最先进的DAG调度程序,查询优化程序和物理执行引擎,实现批量和流式数据的高性能计算。Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用。而且Spark支持Python和Scala的shell交互,可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法[7]。
2、气象数据网设计
2.1总体架构设计
重庆气象数据网总体结构为“五横四纵”。“五横”为基础设施层、信息资源层、应用支撑层、应用层和用户层,“四纵”为政策法规体系、标准规范体系、运行维护体系、安全保障体系。总体结构如图2所示。
图2重庆气象数据网整体架构
①基础设施层:
基础设施层是支撑各类应用系统稳定运行的技术集成环境,包括网络与基础硬件。本系统的网络环境主要依托重庆气象局已建业务网、互联网。基础硬件及设施包括服务器、网络设备、存储设备、安全设备、专业设备、机房设备等[8]。
②信息资源层:
以重庆市气象局气象业务数据库为基础,吸收各政府部门、行业部门数据,构建信息资源中心,为系统运行提供综合数据服务。本系统建设业务数据库、算法数据库、共享与基础数据库、元数据库。
③应用支撑层:
将应用支撑层中支撑业务应用系统的通用功能分离出来,形成应用支撑的基础功能,数据库和文件系统采用分布式存储环境。
④应用层:
主要包括基于分布式计算框架的气象数据计算平台、气象大数据综合展示平台和公众气象数据服务平台3个应用系统。
⑤用户层:
本系统包括气象局业务用户,政府、行业部门用户,社会公众用户和系统管理员。
⑥“四纵”体系:
主要包括政策法规体系、标准规范体系、运行维护体系、安全保障体系。参照并遵循政策法规、重庆气象局的“标准规范体系”和“网络与信息安全体系”进行统一安全管理、统一制度规范、一体化安全防护、统一运维保障体系的闭环安全管理机制和服务。
2.2应用功能结构设计
本课题以分布式的软硬件环境为依托,主要功能结构为基于分布式计算框架的气象数据计算平台、气象大数据综合展示平台、公众气象数据服务平台3个系统,并根据系统服务对象、服务需求分别部署在业务网与互联网,面向气象业务部门和社会提供服务等标准进行功能结构设计。本课题的应用功能结构如表1所示。
表1重庆气象数据网应用功能结构
2.3系统流程设计
本课题主要是基于已有的气象数据资源,面向基于分布式计算框架的气象数据计算平台、气象大数据综合展示平台、公众气象数据服务平台开展架构和流程设计。系统依赖于已有的气象数据资源,实现数据获取和产品写入,原有的数据共享服务以及数据加工处理等业务系统都将与本次新建系统关联应用,实现资源集约化利用、业务高效化开展。系统流程如图3所示。
图3重庆气象数据网系统流程图
2.4气象数据流程设计
本课题所用数据来源包括重庆市辖区气象观测站、中国气象局、重庆市气象局和重庆市其他政府部门,数据汇聚到业务网内的存储系统,算法来源于中国气象局、重庆气象局、行业用户和科研院所,算法汇聚到应用系统中的基于分布式计算框架的气象数据计算平台。分布式MySQL数据库存储结构化的气象数据,分布式Cassandra数据库存储非结构化数据,文件数据存储在文件系统当中,整个存储系统支撑应用系统读写数据,并对公众气象数据服务平台提供数据推送服务[9,10]。系统的气象数据流程设计如图4所示。
2.5气象数据库设计
本课题数据库主要包括业务数据库、气象大数据产品数据库、算法数据库、共享与基础数据库、元数据库等5类数据库,其逻辑结构如图5所示。
①业务数据库:
用于存储、管理业务数据,并提供数据服务。分别在业务网为产品生成提供服务,对外提供气象数据服务。
②气象大数据产品数据库:
用于存储和管理经过处理的气象大数据产品数据,主要包括行业数据、气象观测数据、社会公共数据、灾情灾害数据、政务公共数据以及其它专业产品库。
图4重庆气象数据网气象数据流程图
图5气象数据库逻辑结构图
③算法数据库:
用于存储本课题研发的算法,以及重庆气象局、中国气象局及相关气象部门研发的专业算法,通过不断的积累形成丰富的算法资源库,支撑重庆气象局的专业应用。
④共享与基础数据库:
主要包括共享数据库、基础地理信息库及运行信息库,用于支撑重庆气象的多类分析应用。
⑤元数据库:
对多源异构的气象数据进行全生命周期追溯。根据数据结构与数据特点,对空间数据元数据和业务数据元数据采用不同的标准,分别进行管理和分析。
2.6物理网络架构设计
本课题新建系统利旧重庆市气象局现有数据中心和资源池的相关设备进行部署,包括IT基础资源池和气象大数据分布式数据库Cassandra以及MySQL分布式关系数据库。服务器、存储设备等主要设备,网络、安全等相关配套设备、物理环境架构设计如图6所示。
图6物理网络架构图
其中面向基于分布式计算框架的气象数据计算平台、气象大数据综合展示平台部署在现有资源池中,运行在重庆市气象局业务内网中;公众气象数据服务平台部署在网络DMZ区,通过互联网对社会公众提供气象数据服务。
2.7融入重庆市智慧城市体系设计
本课题需新建接口,将重庆市气象局相关数据经过归集后与重庆市智慧城市市级政务数据资源共享系统对接,通过智慧城市打通本系统与其他相关系统平台的数据通路,实现数据的互联互通。本课题融入重庆市智慧城市体系的示意图如图7所示。
图7融入重庆市智慧城市体系示意图
本课题建成并融入智慧城市体系后,重庆气象局将通过重庆市政务网信息资源共享平台向其他部门提供多种气象数据;同时根据重庆气象各单位需求,完成多部门数据的收集和整理,充分发挥气象数据价值和效益,助力智慧城市加快推进。
3、系统实现与测试
基于上述设计理念,本课题进行了基于分布式架构的气象数据网的实现,系统采用16台服务器组成Cassandra分布式数据库集群,8台服务器组成Mysql分布式数据库集群,8台服务器组成Spark大数据计算集群,4台服务器组成网站负载均衡集群。服务器均通过虚拟资源池创建,配置为2路16核CPU,16G内存,存储通过浪潮存储挂载。系统基于JAVA8.0进行开发,运行在Centos7.4系统上,使用Vue.js进行查询结果的展示,AJAX进行气象数据的交互。实现完成的重庆气象数据网首页如图8所示。
图8重庆气象数据网运行图
3.1气象数据查询测试
气象数据服务中最常用的用例为气象观测数据的查询,本系统将气象数据分类为地面、高空、卫星探测、雷达等种类,用户可通过观测站点、观测时间、观测区域、时间序列等条件进行气象数据的查询。查询结果通过列表,图形,GIS叠加等形式进行展示,用户可以通过表格、XML文件、数据接口等方式进行保存。气象数据查询的测试结果如图9所示。
图9气象数据查询结果图
3.2气象大数据计算测试
本课题建立了基于分布式计算框架的气象数据计算平台,该平台汇聚了大量的典型气象算法,包括地面资料日值统计、地面资料月值统计、地面资料年值统计、连阴雨天气、连晴高温统计、累积降雨量算法等,可以利用基于分布式计算框架的气象数据计算平台进行大量气象产品的定时生成。利用气象大数据算法,生成降水量产品的测试结果如图10所示。
图10降水量产品生成图
重庆气象数据网使用分布式数据库和大数据计算框架进行了降水量产品的生成,加快了数据读取的速度,并通过分布式计算显著提高了气象数据计算和图形产品绘制的效率,与现有传统计算环境相比,优势明显,测试数据如表2所示。
表2实况降水产品生成耗时比较
4、结束语
本文基于分布式数据库和分布式大数据计算框架,提出了重庆气象数据网的总体架构设计、应用功能结构设计、系统流程设计、数据流程设计、数据库设计、物理网络架构设计,同时提出了本课融入重庆市智慧城市体系的方案,并基于提出的设计方案进行了实现和测试。经测试表明,本文提出的设计方案优化了气象业务信息流和服务信息流,显著提高了气象大数据的计算能力和在线服务能力,为生态文明建设、气象防灾减灾提供了有力的数据支撑。
参考文献:
[1]陈晴,杨明,肖云.云数据存储技术在气象数据存储中的应用[J].计算机应用与软件,2018,8:124-127.
[2]唐李洋,倪志伟,李应.基于Cassandra的可扩展分布式反向索引的构建[J].计算机科学,2011,6:187-190.
[3]秦苻珂.Cassandra应用研究[J].电脑知识与技术:学术版,2016(3):14-16.
[4]王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.
[5]王志辉.分布式数据库技术在大数据中的应用[J].信息系统工程,2019(12):21-22.
[6]李莉,王小刚.基于Spark的并行K-means气象数据挖掘研究[J].信息技术,2017,41(9):26-30.
[7]宋泊东,张立臣,江其洲.基于Spark的分布式大数据分析算法研究[J].计算机应用与软件,2019,1:39-44.
[8]张洁,薛胜军.云计算环境下气象大数据服务的应用[J].安徽农业科学,2016(5):298-301.
[9]张引红.分布式数据库查询处理和优化算法[J].微型电脑应用,2018,34(9):116-117,122.
[10]王建荣,季刚.海量自动气象站分钟数据存储检索系统设计[J].计算机与现代化,2017(9):40-44.
杨永毅.基于分布式架构的气象数据网设计[J].信息技术,2020,44(10):67-71+76.
基金:重庆市政务信息化项目(20C00182);重庆市气象局智慧气象技术创新团队项目(ZHCXTD-202018).
分享:
由于潮汐的海洋观测易受仪器、天气、地形和经济的制约,难以得到长期的大面站观测资料,而通过星载雷达高度计可以对海平面高度、有效波高和后向散射进行全天候检测,故自1970年代海洋卫星测高技术兴起,潮汐的研究就开始趋于依赖高度计测高技术。特别是1992年发射升空的TOPEX/Poseidon(以下简称T/P)及其后续卫星,数据质量有明显提高,为物理海洋学研究提供了重要资料,在潮汐的研究方面取得了丰硕成果。
2020-12-04雅鲁藏布江流域(图1)位于青藏高原东南部,流域面积约24×104km2,其海拔为世界之最,平均海拔大于4100m。雅鲁藏布江流域水资源丰富,是我国藏区及下游国家淡水的主要来源之一[1],但流域内降水时空差异性较大,水资源利用率极低,不能满足藏区社会发展需求。揭示雅鲁藏布江流域降水时空变化规律,是了解高原地区特有的水文模拟预报、水循环过程等问题的重要基础[2]。
2020-11-13贵州省地处云贵高原东部,整体上呈西高东低的趋势,从中部向东、南、北三个方向倾斜,是典型的亚热带季风性湿润气候,降水丰富且主要集中于夏季,强度不一。因此,发生极端降水事件的概率较高,造成的灾害性也更大,故研究该地区极端降水事件对贵州省防灾减灾具有重要意义。
2020-11-13本文利用分布式架构、云计算、大数据等新兴技术,进行重庆气象数据网的设计,提高气象信息化基础业务能力和构建智慧气象的发展要求,推进气象大数据的创新应用[1]。实现气象大数据平台对气象数据、行业数据、互联网数据、物联网数据等资源进行快速汇聚和综合展示,生成丰富的统计类产品。
2020-10-24地面气象观测业务工作自动化改革试运行以来,按《广西国家级地面气象观测站自动气象站维护规定》自动气象站维护分为特殊天气过程巡视维护和定期维护,定期维护的时间为每周固定一日、每月下旬固定一日、每年12月下旬固定一日,取消日巡视。值班员进站维护仪器的次数大大减少,每月只进站维护几次,为能及时发现站内的问题,减少业务事故的发生。
2020-10-21在我国社会经济和科技力量持续发展的当下,气象服务信息技术也在蓬勃发展中,气象服务已经成为社会生产规划和人们生活中不可缺少的一部分。获取的气象信息虽然不能达到百分之百精准,但也可以较为准确地对气象条件进行预测。当前气象工作者较为关注的问题是如何在保证气象信息准确性的同时,使气象信息能够快速有效地传播,为人们的生产和生活出行带来预警。
2020-10-20“五位一体”总体布局对有中国特色的社会主义文明体系提出了新的建设战略和布局要求。气象文化,反映着人与自然的关系,是中华文化的重要组成部分,也是气象现代化的重要支撑,在生态文明建设中处于前沿哨口的突出战略地位。气象文化建设如何与生态文明建设进行深度融合,如何在建设美丽中国部署中发挥时代性作用,应当成为当前的重要课题。
2020-10-19我国是受台风影响最严重的国家之一,平均每年约有7个台风,登陆地点主要集中在华南及华东南部沿海地区。据辽宁省气象台统计,平均每1.4年就有1次北上台风直接影响辽宁。据葫芦岛市气象台统计,有气象记录以来,直接影响辽西葫芦岛的台风有7次。台风的影响不仅限于大风,更重要的是其所带来的强降水。
2020-09-22葫芦岛市地处辽宁省西部沿海,属大陆性季风气候,灾害性天气有暴雨、大风、冰雹、大雾等,其中暴雨是主要的气象灾害之一。为此类型天气过程的预报积累经验以及农业生产提出指导意见,应用地面观测资料、NCEP再分析资料等,对本次暴雨过程的天气尺度形势演变,影响系统,动力、水汽以及能量条件进行分析。
2020-09-22本文中基于西宁曹家堡机场的激光测风雷达资料研究了2017-11-30T19:00~2017-12-01T06:00的低空急流垂直结构和发展演变特征,通过激光雷达数据反演了温度平流和湍流耗散率并分析了它们的特征。本文中的研究旨在利用高分辨率激光测风雷达揭示低空急流的结构和变化,为飞机飞行安全保障和低空急流的研究提供重要基础。
2020-09-15人气:6245
人气:4558
人气:3282
人气:3159
人气:3045
我要评论
期刊名称:气象科技
期刊人气:636
主管单位:中国气象局
主办单位:中国气象科学研究院,北京市气象局,中国气象局大气探测技术中心
出版地方:北京
专业分类:科学
国际刊号:1671-6345
国内刊号:11-2374/P
创刊时间:1973年
发行周期:双月刊
期刊开本:16开
见刊时间:10-12个月
影响因子:0.253
影响因子:0.682
影响因子:0.160
影响因子:0.421
影响因子:0.081
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!