91学术服务平台

您好,欢迎来到91学术官网!站长邮箱:91xszz@sina.com

发布论文

论文咨询

关于国家天文科学数据中心发展思路的探讨

  2020-07-13    182  上传者:管理员

摘要:随着现代科学技术的进步,天文学研究已经进入到了数据密集型和数据驱动的时代。面对海量天文数据对资源收集与保存、资源汇交、挖掘应用、开放共享等方面的需求和挑战,国家天文科学数据中心正在借助最新科技成果努力使互联网时代数据驱动的科学研究过程变得更加便捷。文章介绍了天文学界在天文科学数据资源的管理、国际交换和开放共享方面的做法,概述了国家天文科学数据中心的总体发展思路,介绍了为应对数据密集型和数据驱动型天文学研究而发展起来的虚拟天文台技术和天文信息学学科方向。为加强天文科学数据资源的汇聚整合和管理分析,国家天文科学数据中心根据领域特点建立了天文科学数据资源体系,规范了天文数据资源的收集、保存和汇交;对天文数据进行挖掘,形成可发现、可访问、可复用的科学数据产品,并将其应用在不同用户群;以开放为常态的原则提供检索、在线分析挖掘、应用接口等规范化服务,遵照天文领域国际标准实现数据共享和互操作,提供在线、离线及混合模式的开放共享服务;构建针对领域特色的逻辑统一、物理分散的分布式资源平台,对软硬件资源合理布局;阐述了中心在国内外态势监测、国际合作交流和科学传播方面的做法。文章通过上述几个方面,将国家天文数据中心的发展思路与天文科学数据的全生命周期特点相结合,展望中心的广阔前景。

  • 关键词:
  • 发展思路
  • 国家天文科学数据中心
  • 天文信息学
  • 天文观测
  • 开放获取
  • 数据共享
  • 科学数据
  • 科学数据管理
  • 虚拟天文台
  • 加入收藏

1、引言


天文学是六大自然科学之一,是一门古老而常新的学科。这门基于观测的自然科学随着科技的进步,目前已迈进大数据时代,成为一门数据密集型和数据驱动的科学[1]。天文学在数据资源的开放共享方面一直发挥着世界引领作用。郭守敬望远镜(LA‐MOST)[2]、中国天眼(FAST)[3]等国家重大科技基础设施的建成和投入科学运行,我国天文学研究逐步跻身世界先进国家行列。同时,随着这些天文学领域国家重大科技基础设施和一批重点科技计划的实施,国产天文数据量急剧增长,并以大约每两年翻一番的速度递增。国家天文科学数据中心(以下简称中心)是由科技部、财政部认定的国家科技资源共享服务平台,属于基础支撑与条件保障类国家科技创新基地,是大数据时代国家科技创新培育的重要保障。中心将负责汇交管理、整编、集成天文学科领域的科学数据和期刊论文关联数据,制定相关标准规范,建设天文数据资源体系,优化完善天文数据开放共享服务平台,提供多元数据服务,建立数据挖掘分析与学科应用平台,促进天文学科领域科学数据的深度应用,开展科学传播和国际合作交流。


2、天文学的数据资源开放共享传统


天文学界在天文科学数据资源的管理、国际交换和开放共享方面一直发挥着世界引领作用。法国斯特拉斯堡天文数据中心(1)1、美国国家航天局、加拿大天文数据中心(2)2、国际虚拟天文台联盟(3)3、欧洲空间局等都是天文学领域资源共享的成功范例,得到世界各国以及联合国的充分肯定[4]。

法国斯特拉斯堡天文数据中心[5]属于法国斯特拉斯堡天文台,是天文数据库领域的先驱。CDS擅长数据服务,其数据资源的核心是收集整理的2万余个大大小小的星表。这些星表主要来自于各国天文观测项目以及科学家的论文数据,其中UCAC、GAIA等科学项目产生的超大规模数据最为知名。CDS目前主要提供Simbad[6]、VizieR[7]、Aladin[8]等数据服务和软件,其在数据服务上的贡献得到了天文学界的广泛认可。

美国NASA的数据管理方式与CDS不同,它按照各个研究领域以及科学项目来组织,提供一种百科全书式的数据服务,形成了一个专业、齐全但形式多样的数据中心体系[9]。例如美国红外处理分析中心(IPAC)、高能天体物理科学数据库研究中心(HEASARC)、STScI多任务数据库(MAST)、行星数据系统(PDS)等。这些数据中心针对其关联的天文领域产生的观测数据,提供了数据检索、下载、作业批处理等服务。

加拿大天文数据中心依托于加拿大赫兹伯格天体物理研究所。CADC提供了加法夏望远镜(CFHT)等“国产”观测数据释放服务,并收集了哈勃空间望远镜、Gemini、JCMT、MOST等设备的数据集。近年来,随着大数据及云技术的发展,CADC打造了加拿大天文学高级研究网络(4)4云服务系统,提供了包括数据存储、数据共享、数据在线处理(虚拟机)等功能的一站式服务平台。

为了应对数据密集型时代天文学研究的新挑战,天文学界提出了虚拟天文台和天文信息学的设想[10]。虚拟天文台通过制订一套完整的标准并在全球天文数据中心中的实施来将全球的天文数据库连接起来形成一个多波段的数字星空,一个全球性的天文数据网格,让科学家和普通用户能够基于数据发现、高效数据访问和互操作,以各种创新的方式进行检索、展现和分析。天文信息学则在虚拟天文台实现了对全球天文信息资源的发现、访问和互操作基础上,把计算和分析的科学工具应用到天文学领域,从海量的数据中甄别出新的模式和新的发现。

以国家天文台为首的中国天文学界在2002年提出了中国虚拟天文台(China-VO)的设想[11]。2002年China-VO成为IVOA成员。China-VO的重点研发领域包括以下几个方面:中国虚拟天文台系统平台的开发、国内外天文研究资源的统一访问、支持VO的项目与观测设施、基于VO的天文研究示范、基于VO的天文科普教育。China-VO自提出就将其定位为一个应用型研究计划,目标是成为天文学和信息技术之间的桥梁和纽带,是天文信息学的推动者。

我国天文科学数据的规范化管理和开放共享工作开始于世界数据中心(简称WDC)天文学科中心。WDC天文数据中心从20世纪八十年代开始进行全国性的天文数据服务工作,是中国天文数据中心的前身。经过30多年的持续发展,在中华人民共和国科学技术部(以下简称“科技部”)、中国科学院、国家自然科学基金委员会等多方的资助指导下,通过中科院天文口各台站的共同努力,中国天文数据中心现已拥有较为完善的资源体系、较先进的技术平台、相对规范的服务流程,为国内乃至国际的天文学和相关学科研究提供数据和技术支持。中心的核心数据集涵盖了光学波段、射电波段、太阳物理、行星科学等多波段、多门类数据,以及数字化的历史观测数据,已经在国内天文学界逐步形成了汇聚效应。中心依托国家天文台的虚拟天文台团队运行管理,于2018年通过CoreTrustSeal国际认证(1)5,是亚洲首个通过该认证的数据中心,并于2019年6月成为我国首批国家科学数据中心。


3、国家天文科学数据中心总体发展思路


中心将履行国家科学数据中心、中国科学院科学数据中心体系学科中心的相关职责。中心的总体发展目标是在中国天文数据中心30多年良好工作基础上,以建设运行“国家天文科学数据中心”为契机,经过五到十年的努力,把中心打造成为优秀的国家科学数据中心和国际知名的天文科学数据中心,在促进天文科学数据的深度应用和天文学研究创新方面发挥重要的积极作用。

中心将基于先进而成熟的云计算、大数据和虚拟天文台技术体系来设计,主要包括资源连接层、数据融合层、分析挖掘层和共享应用层。资源连接层通过高速互联网络实现跨地域的存储、计算资源的连接,借助云计算和虚拟化技术实现资源的池化。数据融合层将在基础设施资源池化的基础上进一步借助虚拟天文台、大数据和云计算技术实现天文数据资源的统一管理,实现计算服务与数据使用的互联互通。分析挖掘层是在数据融合的基础上,对天文领域的数据计算需求提供支持。共享应用对天文领域的共性应用提供在线服务,同时为用户提供多种不同的平台接入服务,同时支持传统用户、程序用户和各类客户端。下面从7个方面简要介绍中心的各项业务和服务。

图1国家天文科学数据中心总体技术架构

3.1数据资源的收集、保存与汇交

中心的数据资源体系架构以观测波段为主线,以装置和计划、子学科、数据产生方式、生产年代、用户对象为副线,是一个多维度的数据资源体系。

天文科学数据资源可以按照资源类型、观测波段和数据级别分类。资源类型包括观测数据、数值模拟数据、时频数据、数据库、观测日志、观测计划、论文数据、科普数据及历史天文数据;观测波段包括射电、毫米、红外、光学、紫外、极紫外、X射线和伽马射线;数据级别包括:原始数据、中间数据、产品数据和衍生数据等。

根据国家《科学数据管理办法》、《中国科学院科学数据管理与开放共享办法(试行)》等的规定和要求,政府预算资金资助的各级天文科技计划所形成的科学数据应汇交到本科学数据中心。中心将这些天文数据资源纳入国家平台门户系统“中国科技资源共享网”并公布科技资源目录及相关服务信息。

国家天文科学数据中心将以天文观测数据资源为基础,基于先进而成熟的云计算、大数据和虚拟天文台技术,以国内核心天文观测设备的时间申请、审批,数据汇交、共享、使用,课题设计、开展为主要线索,融合天文观测和科研活动所需的科学数据、科技文献、高性能计算、软件和实用工具等资源,打造一个物理上分散、逻辑上统一的覆盖天文科学数据全生命周期的管理与开放共享平台[12]。

图2天文观测数据生命周期示意图

3.2数据资源挖掘与应用

天文数据资源经过挖掘,可以形成可发现、可访问、可复用的科学数据产品,从而提升资源的使用效率和科技创新支撑能力。

天文数据来源于不同的观测装置,结合天文学家的实际需求,将多来源数据进行融合、分析和挖掘,可以打造出多样化的增值数据集,如多波段光变曲线数据集、光学星等数据集、GEO目标光度数据集、天文底片星表、多信使天文事件数据集、高能天体及多波段参考数据集、空间碎片特性数据标准数据集等[13]。

近年来机器学习、人工智能领域发展迅速,天文领域逐渐出现了大量基于机器学习、人工智能的天文学研究[14],从而衍生出来对已标记天文数据集的大量需求。通过对天文数据资源的筛选加工,可以形成天文领域典型机器学习(监督学习)任务的标准数据集,在规范和促进机器学习算法研究的同时,推进相关算法在天文数据分析挖掘中的应用。

在上述基础上,中心将数据产品二次加工后进行数据可视化,基于国内巡天观测数据,在技术上实现巡天数据分层可视化,将多种资源汇聚集成,并在此基础之上打造一个立体、直观的可视化数据访问门户系统,为天文学家提供更加便利的数据特征寻找方法。

天文数据的用户主要包括天文学家、高校教师、中小学科普教师、高校学生、中小学学生、天文爱好者、相关领域研究人员等。天文数据资源的挖掘与应用需要针对不同的使用者,根据用户使用深度,划分不同层级,如科研应用级、跨学科应用级和教育公众应用级,在不同层级上展示不同专业层级的内容,使不同职业、不同教育程度、不同数据需求的人员均可以获取到可用的天文数据。

3.3数据的开放共享与服务

天文数据的开放共享与服务以“开放为常态、不开放为例外”的原则向用户提供服务,包括服务规范化、数据检索服务、数据在线分析挖掘服务、应用程序接口等方面。同时,面向科技创新提供深度的科学数据定制服务。服务模式包括在线、离线、混合模式等类型。

服务规范化包括数据服务标准贯彻和数据发现。数据服务标准的目标是实现更方便的数据共享与互操作。遵照国际虚拟天文台联盟的标准,包括应用层、数据访问层、数据模型、网络服务、注册及发现、语义等,使用这些标准协议可以更为方便地获得国际上各大天文数据中心的数据,也可以更好地将国产数据推向国际。数据发现基于虚拟天文台注册体系,并结合望远镜观测覆盖图等信息打造一整套便捷的数据。发现服务。注册服务不仅是对用户提供资源检索界面,更重要的是方便程序和客户端的自动访问。遵循虚拟天文台数据访问协议的程序或者服务都可以通过访问注册服务获取资源的元信息,构建数据访问接口。

数据检索服务包括多星表及图像数据联合检索和中文天体坐标搜索系统。多星表及图像数据联合检索将能够在指定区域内提取星表、图像、光变曲线、光谱等数据,并展示给用户,改变传统的仅能针对一个或多个同类型的数据表进行检索的服务模式,使用户能够一键取得其所需的观测数据,简化数据搜寻的过程。中文天体坐标搜索系统充分利用了中国天文学会天文学名词审定委员会审定的英汉天文学名词数据库,改变过去只能使用英文进行检索的模式。

在线数据挖掘分析服务包括协同科研平台、在线分析处理、可视化和机器学习数据挖掘环境。协同科研平台基于云平台、虚拟化和容器技术支持多用户异地访问平台协同开展数据分析。构建天文数据处理软件与应用的容器镜像仓库,提供基于容器的高可用编排部署框架,打造天文数据领域的特色容器服务。在线分析处理拟集成目前科研人员常用的天文数据分析软件和数值模拟计算软件等,基于容器镜像仓库构建。应用可视化技术展示数据,支持用户开展探索性数据分析,提供数理统计工具,便于科研人员发现数据中的规律。机器学习数据挖掘提供在线机器学习环境,包括模型训练和模型应用。

应用程序接口关注数据的可获取性和数据操作的便捷性,是天文数据开放共享和服务的核心之一。程序访问接口将尽量采用已有规范,兼容已有的天文软件工具,致力于实现数据存取、查询、处理的一体化在线服务,提高服务的易用性、便捷性。采用平台化的开发模式,通过开放虚拟天文台第三方开发接口,吸引更多感兴趣的开发者基于平台资源研发实用的工具,将平台积累的数据、存储、计算资源转换为高效便捷服务,实现资源与技术向服务的快速转换。

在深度的科学数据定制服务方面,国家天文科学数据中心拟对重大天文科技基础设施,如郭守敬望远镜(LAMOST,大天区面积多目标光纤光谱天文望远镜)、500米口径球面射电望远镜、天马望远镜、13.7米毫米波望远镜、紫金山Hα太阳精细结构望远镜、近地天体望远镜等提供定制化服务,打造时频科学数据服务平台、通用可配置的暂现源证认平台、引力波事件电磁对应体候选体筛选及证认服务系统、面向爱因斯坦探针(EP)卫星数据的X射线源识别及暂现源证认服务系统等。

3.4共性技术研发与资源研制

中心将针对天文领域特点构建分布式资源管理平台,开展大规模数据存储技术、大数据与计算的融合技术、数据归档技术和数值模拟计算关键技术等方面的研究,研发数据处理软件与工具,搭建在线科研平台,开发平台统计与日志管理系统及可视化功能。

分布式资源管理平台旨在不同地区建立区域资源中心,对资源布局进行合理设计,解决天文观测设备地理位置分散、单个设备数据产量巨大等问题导致的海量数据集中存储和管理困难的问题,满足天文领域数据资源的存储、计算、挖掘及共享服务等基本需求,构成一个逻辑上统一物理上分布的科技资源共享服务平台[15]。区域资源中心作为资源管理体系的基础单元,包括计算资源、存储资源、网络资源和数据资源等。分布式资源管理平台将以区域资源中心为基础单元,部署区域节点。采用云计算技术整合总中心及各区域中心的信息化基础设施,屏蔽底层资源的差异性,为不同的使用环境、不同需求的用户提供定制化的资源服务,满足多样化需求。

随着FAST、Mephisto等天文科学装置的建设和运行,国内天文数据的规模将进入月增PB数据的时代,大规模高效数据存储系统成为迫切需求。需要针对不同的数据存储和使用需求,提供高效的大数据存储系统,并与云计算环境相结合,构建大规模的云应用环境,将数据与计算融合,提供在线数据分析处理环境。

3.5国内外态势监测

数据是信息时代开发利用潜力最大的战略性、基础性科技资源,已经受到世界各国的高度重视。数据应用和分析能力已成为国家的核心竞争力之一。随着大数据时代的到来,数据和云计算技术将会引领又一次的技术变革,也将是数据中心建设的核心。我国

图3分布式资源管理平台框架图

系统地监测国内外在数据与云计算方面的相关动态,对于数据中心的建设、能力提升、国际合作等多方面都有着非常重要的作用。中心将对国内外技术动态开展系统的监测。监测内容主要包括数据存储、共享、计算、挖掘、管理、政策、安全等领域的研究进展和动向,重点关注天文数据的产生源、科学数据的管理保存、大数据的相关技术动态等方面。

3.6国际交流与合作

天文学不但是数据开放共享的典范,同时也是国际合作交流的典范。在互联网飞速发展,全球一体化的今天,天文科学研究领域的国际化交流也在不断拓展和深化。在天文数据领域,从数据的获取产生,到存储加工,再到为天文学家进行科研所用,每一环节已建立了如LAMOST、FAST、GWAC、天籁、明安图太阳射电日像仪、悟空、慧眼等天文观测装置,在源源不断地产生科学数据。

都离不开各国科学家和技术人员的交流与协作。成立于2002年的国际虚拟天文台联盟目前已有21个国家项目和国际项目成员。中国虚拟天文台是国际虚拟天文台联盟一员,多年来积极推进国内外天文数据的合作交流,如促成LAMOST、BATC、BASS数据被CDSVizieR系统收录、倡导数据驱动的天文科普教育[16]理念并成立国际天文学联合会数据驱动的天文科普教育工作组等。

为了能更好更清晰地对宇宙天体进行观测,获取更多更有价值的天文数据,科学家们尝试建设更加庞大的天文望远镜或启动更大规模的天文观测项目,而这类天文项目往往耗资巨大,无法由单一国家独立建成,需要多国的通力协作,例如SKA、TMT等。未来天文数据领域的国际交流与合作会更加频繁紧密,这是必然趋势。中心将发扬已有良好传统,深入了解并学习国际先进的技术经验,紧跟国际潮流,积极参与国际组织的交流合作与国际标准的制定。

3.7科学传播与成果宣传推广

根据天文数据的特性及数据处理、产品开发过程中的特点,天文数据产品在应用层面针对不同的目标

在宣传推广方面,中心将通过日常新闻的推送为中心品牌保持稳定的曝光,通过恰当的表达和持续的内容产出使得中心及相关数据产品的曝光度及行业的关注度不断提高;在维护已有的媒体资源基础上积极拓展新的媒介资源,积极与已建立的媒体或推广平台保持沟通和交流,及时把握媒体关注的兴趣点,以便在后续事件输出时选择合适的途径和资源来支撑中心的发声和观点。在媒体类型的选择上,选择与科学传播、公众科普等相关权重高的媒体资源,线上线下全面覆盖。在项目完成后对传播效果进行评估,对项项目目运运营营及及时时进进行行复复盘盘和和总总结结,,调调整整策策略略和和宣宣传传方向。


4、总结与展望


天文学的大数据时代已经来临,结合云计算、大数据和人工智能这些最新科技成果的全新科研模式正在浮现。

国家天文科学数据中心遵循合理布局、整合共享、分级分类、动态调整的基本原则,加强能力建设,促进天文领域科技资源的开放共享。中心围绕国家战略需求持续开展重要天文科技资源的收集、整理、保存工作,承接科技计划项目实施所形成的科技资源的汇交、整理和保存任务,为天文科学数据的汇交、国内外天文领域科学数据的汇聚、期刊论文关联数据的汇交等提供规范、技术和资源服务。

中心以国内核心天文观测设备的时间申请、审批,数据汇交、共享、使用,课题设计、开展为主要线索,融合天文观测和科研活动所需的科学数据、科技文献、高性能计算、软件和实用工具等资源,形成的一个物理上分散、逻辑上统一的网络化科学研究平台;以数据资源为基础,基于先进而成熟的云计算、大数据和虚拟天文台技术,打造一个天文科学数据全生命周期管理与开放共享平台,开展天文科技资源管理与群体可分为三类,即:天文科研、相关行业、公众和教育。面向天文科研的数据产品指与科学家合作共同生产的数据库、数据的开放共享服务等,主要用于天文学研究使用。跨行业应用的重要方向是为机器学习、数据挖掘的人才培养和相关业务提供标准数据集。面向公众和教育应用也是天文大数据的重要应用场景之一。通过数据驱动的天文科普教育开展,可积极发挥科学数据在科普教育中的价值。

共享服务应用技术研究,并在此基础上开展天文科技资源的社会共享,面向各类科技创新活动提供公共服务,开展科学传播工作,根据创新需求整合资源开展定制服务。

中心以优秀的国际天文数据中心为榜样,让国家天文科学数据中心全面肩负起一个一级学科领域国家科学数据中心的职责,提升天文领域利于科学数据开展知识发现的能力和水平,强化自身开展增值服务的能力,加强人才队伍建设及国内外交流合作,成为引领天文学进入第四范式(数据密集型的科学发现)新时代的重要资源平台和技术力量。


参考文献:

[1]崔辰州,薛艳杰,李建,等.虚拟天文台——天文学研究的科研信息化环境[J].中国科学院院刊,2013,28(4):511-518.

[10]MatthewJ.Graham,MichaelJ.Fitzpatrick,ThomasA.McGlynn著,崔辰州等译,虚拟天文台:天文学研究的工具与技术[M].中国科学技术出版社,2010.

[12]肖健,于策,崔辰州,李长华,何勃亮,樊东卫,刘梁,陈肖,张海龙,王传军.天文科技领域云:大数据时代的天文教育和科研信息化平台[J].实验技术与管理,2017,34(10),141-146.

[15]肖健,李长华,樊东卫,etal.基于云环境的天文大数据开放实验平台[J].实验技术与管理,2016(12):158-162.XiaoJ,LiCH,FanDW,


米琳莹,崔辰州,樊东卫,郝晋新,薛艳杰,李长华,李珊珊,何勃亮,陶一寒,韩军,许允飞,杨涵溪,杨丝丝,和兰,马捷,刘梁,陈肖,谌俊毅,张海龙,刘峰,肖健,于策,袁海波.国家天文科学数据中心发展思路浅析[J].农业大数据学报,2019,1(04):37-45.

基金:面向南极天文观测的高效可靠专用存储系统研究(11573019);基于深度学习等机器学习算法的星系光谱自动分类方法研究(11803055);面向FAST的海量数据处理关键技术研究(U1531246);FAST高性能Pipeline关键技术研究(U1731125);面向时域天文学的虚拟天文台核心能力建设与科学应用(U1731243);中国科学院“十三五”信息化建设专项(XXH13503-03-107).

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

天文研究与技术

期刊名称:天文研究与技术

期刊人气:1572

期刊详情

主管单位:中国科学院

主办单位:中国科学院国家天文台

出版地方:云南

专业分类:科学

国际刊号:1672-7673

国内刊号:53-1189/P

创刊时间:1977年

发行周期:季刊

期刊开本:16开

见刊时间:1年以上

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定