摘要:随着大数据时代的到来,面对海量信息和数据,如何快速便捷地获取有用的数据资源,高效地发掘其中蕴含的数据价值,是眼下亟须解决的共同难题。数据共享与交换技术的出现,从技术手段上给出了数据获取的解决方案和方法论,但同时也催生出了许多其他问题。本文利用大数据体系下发展出的云服务技术,对传统信息化手段的数据共享交换技术架构进行优化设计,构建出一套新型的综合性数据共享交换集成应用方案,以期解决在复杂网络环境下开展多系统异构数据共享交换任务过程中所出现的诸多技术问题。
加入收藏
随着人类社会迈入信息化时代,信息化服务领域各项技术不断进步和发展,社会的各行各业都开始大力推动信息化建设,在此期间数以亿计的各类信息系统在此时代背景下被开发建设出来,这些信息系统在运行过程中产生了海量的过程数据和结果数据,人类正式迈入大数据时代。海量数据信息的获取和使用,成为大数据时代背景下最热门的话题和研究方向,已建成的各信息系统之间也逐渐暴露出协作困难、相互孤立、各自为政的问题,各系统间的数据资源得不到有效的共享,进而无法实现信息和业务协同,形成了一个个“孤岛”。为解决“条块分割,烟囱林立,各自为政,数据孤岛”的问题和现象,就必须要在系统架构层面打破各技术壁垒,正因此数据共享交换技术被提出并建立了起来。
数据的共享交换这一概念在20世纪90年代初期美国克林顿政府的“政府重塑”计划中被首次提出,在《改革政府:企业家精神如何改革着公共部门》一书中对该计划有十分详细的描述。根据该计划方案设想,美国各级公共部门将运用成熟的企业管理经验来提高公共行政和公共服务效益,其目的在于通过行政改革,革除体制和机制弊端,使美国政府摆脱庞大的联邦赤字、程序冗杂、机构臃肿等沉重的枷锁,以顺应时代变迁、提高公共政策和公共管理的质量[1]。为实现这一目的,各级公共部门参考企业管理经验建立有效的“信息互联”和“协同工作”机制,因此数据资源的共享与交换成为了实现此机制最为有效的技术手段。
自“政府重塑”运动被提出后,随着大数据等信息技术的不断发展,数据资源共享交换技术在政府服务领域得到了长足的推广和应用。美国学者道格拉斯·霍姆斯在其2007年出版的《e Gov:E-business strategies for government》一书中,从社会服务、教育资源、大众生活等多个层面阐述了综合电子政务应用的优势[2];与此同时,联合国电子政务调查报告《The UN E-Government Survey 2008:From E-Government to Connected Government》中,对世界各国都将电子政务模式从单一的电子政务转向一体化的公众服务模式的现象达成共识[3]。此外,日本、俄罗斯等国家都高度重视大数据技术在推动数据共享、协同办公等应用领域研究。这表明“一体化”、“共享第一”等理念已经成为各国政府信息化建设的原则[4]。
我国的在政府服务信息化建设方面起步稍晚,但在建设过程中同样出现了“条块分割,烟囱林立,各自为政,数据孤岛”的现象。在2014年就有学者在文章中明确指出:“数据孤岛”效应造成政府各部门的数据资源不能被及时充分地调用,导致政府部门办事效率降低,并引起信息设施的重复建设问题,该文也同时提到大数据技术的发展能极大地改善这一现象[5]。近年来,国家各部委开始大力推进政务信息资源的整合共享工作,2012年海关总署启动“金关工程”二期建设大数据平台建设项目,至2018年2月项目竣工验收,“金关工程”二期在项目初期就将“一体化”、“共享第一”等先进的政务管理理念纳入到建设规划中来,利用大数据技术打通了各业务板块的底层数据通道,为“全流程一体化办公”新型政务模式提供了实践基础。2017年国家数据共享交换平台正式投入运行,该平台的建成不仅从技术和管理层面打通了国家各部委各部门之间数据共享的渠道,还为政府各机关单位建设业务领域内数据共享交换平台提供了经验基础。2020年新冠疫情暴发以来,国务院,国家卫健委,交通运输部等有关单位出台了一系列防疫政策,例如依托各地健康码、行程码的“一码通行”政策,铁路、民航、水运等密接人员行程跟踪,核酸检测结果全国联网互认等,国家数据共享交换平台在其中发挥了积极和重要作用,政务服务一体化成果显著。
1、传统数据共享交换方式
在大数据技术出现之前,传统的数据共享交换方式基本上可以分为人工手段和传统信息化手段两种。
1.1人工手段的数据共享交换方式
该方式是以各类物理存储介质(如光盘、软盘、硬盘等)通过人工方式实现数据的共享和交换。其优点主要有数据流转环节少,渠道保密性高,传输的数据质量高,传递通路建立简单等。当然其缺点也非常明显,首先,使用人工手段的传递成本太高,不适合建立长期的数据共享交换任务;其次,物理存储介质的容量有限,在如下信息爆炸的时代背景下,已经难以胜任数据传递任务;最后,该方式的信息传递时间周期太长,无法做到数据的实时传输。
1.2传统信息化手段的数据共享交换方式
在大数据技术出现之前,如金融业、运输业等需求较为迫切的行业,已经在研究开展使用信息化手段实现数据的实时共享和业务工作的协同。当时采用的传统信息化手段被称为“电子数据交换”技术(Electronic Data Interchange,EDI)。国际标准化组织电工委员会在ISO/IEC14662《信息技术——开放式EDI参考模型》国际标准中对EDI的定义是:“电子数据交换:在两个或两个以上的组织的信息系统之间,为实现业务目的而进行的预定义和结构化的数据的自动交换”[6]。它具备以下四个特点:(1)EDI为组织之间传输电子化文件数据;(2)传输的文件数据是采用共同的标准并且具有固定的格式;(3)通过数据通信网络(一般是专有网络)来传输;(4)数据是从一个信息系统到另一个信息系统自动传输不需要人工介入操作。EDI技术的出现从根本上解决了当时信息系统之间数据共享和交换的需求,其优点有数据传输效率高,渠道维护成本低,数据传递实时性强等[7]。当然受技术制约,它也有一定的局限性,一方面它只能对统一格式的数据进行传递,如果有其他格式的数据需要交换,则需要购买或开发转换软件,增加了使用成本;另一方面,它的技术架构决定了它只适合在当时大型机的信息环境下使用,随着经济的分布式技术逐渐替代昂贵的大型机,EDI技术也逐渐失去了生存环境。虽然后续随着XML技术的兴起,一定程度解决了数据标准化的问题,但缺乏个性化的数据处理手段和无法很好地适配分布式计算技术等缺点,还是严重制约了EDI技术的推广,因此该技术在当时仅在银行、保险等金融行业内有比较深入的应用。
2、大数据体系下的数据共享交换方式
随着分布式存储和计算技术的兴起,信息系统的建设和运行成本得到显著降低,越来越多的行业都开始尝试将其业务信息化和电子化,各式各样功能的中小型信息系统被开发和建设出来。与此同时,伴随着网络通信技术的不断升级,依托互联网实现大规模远距离数据通信成为可能,信息系统的使用渠道也从PC端过渡到移动端[8]。在两者的相互影响下,各信息系统所产生的数据资源呈现指数型增长,人类正式进入大数据时代。在时代背景下,人们的生活越来越离不开信息系统,对“一体化”服务和“任务协同”的需求也愈发迫切,因此一系列新型的大数据体系下的数据共享交换方式被开发出来[9]。
2.1基于数据仓库技术的数据共享交换
在各类信息系统和多种数据资源爆炸式增长的背景下,如何实现异构数据的交换和使用,开展数据治理工作提高数据质量,是大数据体系下开展数据资源共享交换工作时需解决的首要问题。数据仓库的概念和技术架构最早是由比尔·恩门于1990年提出,其主要功能是将各信息系统中累积的大量数据资源,通过设定的逻辑结构进行归一化处理,对元数据开展数据清洗和整合,统一数据资源的格式,便于后续开展数据分析和挖掘工作,并进而产生决策支持,帮助决策者能快速有效的从海量数据资源中,分析出有价值的信息,帮助构建商业智能BI[10]。
因此数据仓库技术可以很好地对数据资源进行优化和治理,在遵循数据逻辑和规则的前提下将元数据进行清洗和整合,解决异构数据因格式不统一而导致的传输困难,同时配合传统的EDI技术,实现基于数据仓库技术的数据共享交换[11]。具体技术实现流程如下:首先各信息系统将元数据从其数据库中通过EDI方式传输到数据仓库的元数据层(Operation Data Store,ODS)内,元数据层不对收集的数据进行处理,只做存储使用,以确保元数据的完整性;元数据层中的数据根据先前设定好的规则放入数据明细层(Data Warehouse Detail,DWD),在明细层的数据会根据业务逻辑被清洗和转换,数据转换都包括,删除没有意义的数据段,转换到统一的数据名称和定义,计算统计和衍生数据,给缺值数据赋缺省值等,实现数据格式的统一;经过明细层清洗的数据会被送入数据汇总层(Data Warehouse Summary,DWS),汇总层主要进行数据汇总工作,将数据资源按照不同类别或分析维度进行整合和汇总,目前先进的数据仓库会将DWS层的功能整合进DWD层,以缩短数据处理环节,提高工作效率;最后整理汇总好的数据会被送至数据仓库的数据应用层(Application Data Store,ADS),该层输出的数据被送到应用模块中用于数据分析和报表展示。不同的数据资源用户可以根据自身需求,使用EDI技术将数据仓库中DWD层、DWS层、ADS层的数据抽取出来,进行数据资源的共享和交换[12]。
图1基于数据仓库技术的数据共享交换流程
基于数据仓库技术的数据共享交换具备以下优点:
1)很好地解决了异构数据共享交换问题,突破了传统EDI技术在数据转换上的技术局限性;
2)数据资源的获取方式可以按需求获取多种维度、颗粒度和展现形式的数据资源,提高了数据价值;
3)数据仓库在处理数据过程中对元数据已经进行了数据治理工作,保证了数据质量。
同时也有其技术的局限性:
1)EDI技术直接从数据仓库的DWD层、DWS层、ADS层的数据抽取,对数据仓库的并行处理能力要求较高,如果数据交换量或频率超过系统处理能力上限,有可能导致整个系统出现宕机停运风险;
2)数据仓库对元数据进行处理和转换需要花费一定时间(具体时间受到数据量大小、逻辑复杂程度、数据仓库设备性能综合影响),对于数据传输的高实时性需求无法有效满足。
为解决数据仓库技术的局限性,计算机科学家通过调整和改良EDI技术来满足大数据体系下的数据共享交换需求,改良后的技术被称为前置交换技术。
2.2基于前置交换技术的数据共享交换
EDI技术在设计之初并没有考虑到在互联网环境下运行,因此其在数据安全方面的功能设计存在技术缺陷,直接使用EDI技术在互联网上进行数据的共享和交换存在安全风险。此外,随着计算机技术的发展,互联网环境也呈现出多元发展趋势,EDI技术并不能很好地在不同的网络环境下开展数据共享交换服务,因此一种基于前置机设备的前置交换技术被提出并应用。
一套成熟的前置数据交换系统是由数据交换管理中心、前置交换机和安全隔离网闸等软硬件设备构成,其主要目的是满足异构网络环境下的数据交换需求,保证共享交换过程中的数据安全,同时解决数据实时共享交换过程中的数据并发响应所造成的系统负载问题。在数据传输方式上,根据系统特点前置交换系统在进行数据交换过程中采用一种“数据摆渡”的方式实现数据资源的安全传输。大致流程可分为5个步骤(以数据资源从数据交换管理中心数据库传输到目标信息系统数据库为例):(1)数据资源从数据交换管理中心数据库中通过安全隔离网闸A传输至数据交换管理中心侧前置交换机中;(2)关闭安全隔离网闸A;(3)数据资源从数据交换管理中心侧前置交换机通过安全隔离网闸B传输至目标信息系统侧前置交换机;(4)关闭安全隔离网闸B;(5)数据资源从目标信息系统侧前置交换机传输至目标信息系统数据库中。若是从目标信息系统数据库传输数据资源至数据交换管理中心数据库,则上述步骤反向操作即可[13],具体如图2所示。
图2基于前置交换技术的数据共享交换流程
基于前置交换技术的数据共享交换具备以下优点:
1)通过“数据摆渡”的方式很好地解决了共享交换过程中的数据安全问题;
2)前置交换机主要负责数据的传输工作,有效避免了系统数据库之间的直连,从技术上减轻了信息系统数据库并行处理负载,保证了数据共享交换的稳定性;
3)通过使用安全隔离网闸将不同的网络环境分割开来,满足了异构网络环境下的数据交换需求;
4)前置数据交换系统通过技术手段实现了信息系统数据库之间链接,数据资源通过该方式可实现高实时毫秒级传输,为“一体化”服务和“任务协同”的实现创造可能。
同时该技术也有需要完善的地方:
1)该技术只是在数据传输上优化替代了传统的EDI技术,并没有从根本上解决异构数据共享交换问题;
2)前置交换机和安全隔离网闸的搭设和部署,增加了数据交换过程中的传输节点,增加了系统复杂度,提高了运行维护成本。
综上所述,基于前置交换技术的数据共享交换从技术层面解决了异构网络环境下多信息系统之间数据资源传输实时性和安全性的问题,为“一体化”服务和“任务协同”是实现创造可能,但同时仍然存在异构数据共享交换问题,因此亟须一种综合性的数据共享交换技术,可以同时满足目前大数据体系下的数据资源共享交换需求。
3、基于云服务技术的数据共享交换集成应用
一般而言,传统信息技术的发展和融合需要经历一段漫长的过程,其中不仅仅是软件层面的技术融合,还包含硬件设备之间技术架构的适配,但是大数据时代的背景下所诞生的云服务技术完美解决了信息技术融合的问题。云服务技术(Cloud Serving)指通过网络以按需、易扩展的方式获得所需服务。具体来说它是分布式计算、并行计算、网络存储、虚拟化、负载均衡、内容分发网络等多种传统计算机和网络技术发展融合的产物,它的出现使得一切传统的信息化服务都可以按照需求在网络环境下进行流通和分配。
通过构建云服务平台,将数据仓库和前置交换系统纳入其统一管理,建立综合性数据共享交换服务平台。该平台系统在数据传递端使用前置交换技术解决异构网络环境下多信息系统间数据资源传输实时性和安全性的问题,在数据治理端使用数据仓库解决异构数据的数据治理和共享交换问题,数据交换管理中心主要负责对数据交换和治理工作进行管控,提供交换接口和策略。具体功能架构如图3所示。
目前在该技术的支撑下,多个国家部委和组织机构开展该领域数据共享交换平台建设,笔者曾有幸作为建设实施方参与中国民用航空局于2017年投资建设的民航政务信息系统整合共享项目,该项目利用上述技术,建成民航电子政务云服务平台,依托平台构建民航政务信息系统整合共享项目数据共享交换平台,2019年底数据共享交换设施建成后实现了民航各类政务数据的“落地交换”和“不落地交换”,在配合国家政务服务“一体化”政策要求,开展“智慧民航”能力建设,健全国家疫情联防联控机制等重点政务服务工作中发挥了巨大作用[14]。
图3基于云服务技术的数据共享交换集成应用流程
4、结语
在大数据时代背景下,随着科学技术的不断更新迭代,数据的共享和交换服务已经在政府和商业领域得到了重视和发展,实现了用数据提升决策水平科学化、推动社会和企业治理创新升级、进一步优化民生服务和企业活力,不断产生新的经济和社会价值,应用成效显著。事实上数据的共享交换技术在“一体化作战”、协同作战、战地指挥等军事领域也有十分广泛的应用前景,为推动新时代强军建设,实现国防和军事现代化有着积极的作用。
参考文献:
[1]戴维奧斯本,特德盖布勒,鲍娴萍.改革政府:企业家精神如何改革着公共部门[J].中国共青团, 2015(01):27.
[4]徐超从信息孤岛到信息共享[D].江西财经大学, 2015.
[5]王胜银通用数据交换技术的研究与应用[D]西南交通大学, 2004.
[6]刘健.电子数据交换的研究与实现[D]西北工业大学, 2001.
[7]冯明,陈倩浅谈信息共享交换平台的构建[J]智能计算机与应用, 2020, 10(04):269-270.
[8]邱长华,杨静通,史东岩,薛开基于STEP的船舶产品数据交换技术[J]船舶工程, 2006(02):59-62.
[9]任伏虎异构数据交换与共享管理技术的发展[J]地理信息世界, 2005(01):2-6.
[10]艾朋地理空间数据共享交换平台建设及应用分析[J]工程建设与设计, 2021(12)-103-106.
[11]魏房忠,李萍,朱春琴,孙毅.省级政务数据共享交换平台体系和信息资源库建设实践[J]信息系统工程, 2021(07):82-85.
[12]罗巍,刘功总基于大数据的数据仓库研究现状[J]中国新技术新产品, 2020(17):38-39.
[13]易曙贤,余应刚,李勇基于前置机的空间数据共字交换技术研究及应用[J].测绘与空间地理信息, 2013,36(08):34-36.
[14]李宪武,张恪易,邢伟民航数据共享交换平台:为战“疫插上信息化翅膀[J].空运商务, 2021<10);11-14.
文章来源:张恪易.基于云服务技术的数据共享交换集成应用探究[J].网络安全技术与应用,2023,(09):67-69.
分享:
软件系统和应用程序中经常面临特征数据缺失的情况,如物联网数据、医疗数据、材料数据等,数据缺失可能导致学习算法或程序性能下降甚至不可用。导致数据缺失的原因较多,如调研项目无回应、意外丢失或传输错误等。为了解决数据缺失问题,研究人员提出了一些有效的填补方法,按照采用技术的不同,可以分为基于统计学的方法和基于学习的方法。
2024-12-05智慧社区监控系统的研究和应用是当今社区管理领域的热点话题之一。随着城市化进程的不断推进和社会治理水平的提高,社区管理面临着日益复杂和多样化的安全挑战。在传统社区管理模式下,对于社区内安全事件的监测和管理往往依赖人工力量,存在着监控盲区、反应滞后、管理成本高等问题,限制了社区管理效率和安全防范水平的提升。
2024-12-04电力物联网作为物联网的一个重要应用领域,以其智能电网为基础,通过物联网、大数据、云计算等先进技术手段,实现了对电网所有数据的全面感知、收集、存储、计算与交换。这一领域的快速发展不仅极大地提升了电网的运行效率和智能化水平,同时也带来了前所未有的数据隐私保护挑战。
2024-12-03“异化”一词源于希腊语中“他者化”一词,指的是主体发展到了一定阶段,分裂出自己的对立面,变为了外在的异己的力量。对于人类社会而言,即表示人类创造出的产物与人类本体分离,并成为一种外在的负面异己力量与人类本体相对立,乃至最终凌驾于人类本体之上,使人类的本体性逐渐丧失。
2024-11-05城市品牌是当前城市研究中的热点概念。根据杜青龙的观点,城市品牌即城市可以在营销历史、生活方式和文化等资源的过程中,获取资本积累的机会、声望。城市品牌既是城市自然地理、历史人文、经济政治等的精准提炼与符号化表达,也是城市形象构建的核心资源。因此,加强城市品牌营销,已成为当前城市发展的重点。
2024-11-05电网覆盖范围的扩大,加之智能电网数据采集频率的提升,使得电网多级数据量呈现指数级暴涨,从最初的每秒钟几十兆字节增加至每秒钟几万兆字节,对智能电网的数据处理性能提出了更高的要求。受采集设备缺陷、采集环境等因素的影响,电网多级数据中包含大量的冗余数据,浪费了存储空间,降低了数据查询效果。
2024-09-20随着我国电网规模的日益扩大,能源建设的投入也在持续增加。其中,电力改造工程中的造价数据是决定工程整体管理水平的重要环节,准确、合理的数据分析有助于提升项目管理的水平并高效推进项目的整体进展。同时,在施工过程中由于受复杂的环境因素影响,各分段的子项目技术标准也会存在差异,因此所涉及到的数据具有多维性及海量性的特点。
2024-09-19随着科学技术的不断发展和进步,数字化技术已经广泛应用于各个领域。在建筑行业中,BIM技术已经成为数字化转型的核心技术。数字化工厂设计系统是以BIM技术为基础,实现了从建筑设计到设备安装、调试、运行的整个过程的数字化设计与协调。本文研究了基于BIM技术的数字化工厂设计系统的构建及应用,以期提高工厂设计的质量和效率。
2024-08-26随着我国工业化、城市化迅速发展,导致流动人口规模逐渐扩大。大规模的人口流动承载着技术、信息和资本在不同地区内流动,不仅形成新的人口空间分布格局,还影响城市的产业布局、经济发展以及自然环境。人口的分布是我国经济发展的重要因素之一,分布合理与否会直接影响经济的协调发展。
2024-04-17大数据时代为各类治理提供了前所未有的决策方式,数据是当今“世界上最有价值的资源”,“数据决策”成为现代化治理体系和治理能力的基本条件。与传统的小数据时代相比,数据有了大小之分,大数据具有数量大、种类多、流动快、反映真、算法复杂等特性;小数据是大数据的一个部分,体积小、易理解、算法简单,且“主要来源是抽样调查、深访、行政记录和实验设计等传统统计方法”。
2023-12-04我要评论
期刊名称:网络安全技术与应用
期刊人气:2248
主管单位:中华人民共和国教育部
主办单位:北京大学出版社
出版地方:北京
专业分类:科技
国际刊号:1009-6833
国内刊号:11-4522/TP
邮发代号:2-741
创刊时间:2001年
发行周期:月刊
期刊开本:大16开
见刊时间:1-3个月
影响因子:1.646
影响因子:0.693
影响因子:0.706
影响因子:1.052
影响因子:0.194
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!