2021-05-14 77 上传者:管理员
摘要:数据共享中心是系统间实现数据共享和交换的核心平台。为了提高数据共享中心的效能和稳定性,针对数据共享中心目前的现状与不足,提出以数据交换层、共享数据库、共享数据仓库为模块的数据共享中心架构。分别从任务周期管理、数据质量监控、数据规范建设、数据源头管理、增量同步交换、数据资源目录等六个角度来提升数据交换管理的水平和质量。通过建设一个稳定、高效的数据共享中心,高校内的数据价值将能得到充分的发挥。
近年来,随着校园信息化的逐步深入,数据在高校中的作用越来越明显。更多全校性数据以基础性查询服务的形式提供出来,在很大程度上提升了高校教学、科研和行政效率。同时,基于海量数据的智慧型应用也在不断推广实践到校园治理中。如何管理和利用好校园数据已经成为高校信息化建设中无法忽视的重要课题。
在早期数字化发展过程中,各部门大多建立了自己的应用系统,如教务系统、财务系统、人事系统等。这些应用系统很好地满足了当时职能部门对业务开展的迫切需求。但是由于早期缺乏对学校信息化的顶层规划和整体设计,各应用系统独立的垂直型“烟囱式”框架导致了数据只能在系统内流转而无法实现系统间的常态化互通与共享[1]。而信息化不断发展,系统间业务的相互依赖性不断增强,数据交互的场景与需求也越来越多。
以此为背景,数据共享中心[2]作为媒介平台,其在高校信息化中的作用被凸显出来。数据共享中心以实现高效、稳定和可靠的数据交换与共享为核心,一方面保证了数据在各业务系统间常态化流转与查询,解决高校内“信息孤岛”[3]问题,另一方面也为智慧型数据应用提供了支撑作用。
1、数据共享中心现状与不足
在数据共享中心出现前,系统间发生业务交互时,数据只能通过点对点方式来进行通信。这种交互方式在业务系统数量不断增加后,会造成各系统间的耦合度逐渐变大,同时也给开发和运维带来很大负担。
通过引入数据共享中心作为第三方平台,所有的业务数据全部基于明确的数据标准和接口规范在该平台中进行采集和推送。如图1所示,该模式有效地降低了异构业务系统间数据交互的复杂度。此外,数据共享中心可以通过统一的安全管理策略来避免因各系统间松散且无标准的点对点交互所产生的数据安全隐患问题。
以此为背景,数据共享中心在高校范围内被广泛应用。然而,该平台在应用过程中依然暴露出一些问题。
⑴ 数据交换任务不稳定。采集和推送任务因为资源不足或数据异常发生中断,出现数据缺失或不同步问题。
⑵ 数据质量问题不达标。数据源头常出现不满足规范的问题数据,造成数据质量的低下从而严重限制了平台对外进行数据服务的水平。
⑶ 数据标准执行不规范。问题主要包括两方面:(1)数据标准制定后未被严格执行;(2)数据标准变更后在业务系统和数据共享中心间未及时同步。
⑷ 数据源头管理不到位。单源头数据选取不合理造成共享库数据不权威、多源头数据采集混乱造成共享库数据发生震荡等现象的根本原因都是由该问题造成。
⑸ 数据同步方式单一化。目前,数据同步任务以全量同步来为主。该交换方式实现简单,但任务耗时过长且占用大量平台和网络资源。
⑹ 数据资源目录缺失化。数据资源目录的缺失造成了平台内资源管理松散,同时也使得平台对外暴露资源的能力不足。
2、数据共享中心架构
本章首先阐述了数据共享中心在高校信息化建设框架中的位置与角色,然后对该平台内的数据交换层、共享数据库和数据仓库[4]等模块进行自下而上的介绍。
2.1 高校信息化建设框架
图2展示了业务系统、数据共享中心、数据应用在高校信息化架构中的相对位置。从中可以发现,数据共享中心在全校性数据流转和服务中起核心作用。
向下,数据共享中心承接了与各业务系统数据对接的功能。业务系统即高校各职能部门自建的应用系统,包括教务系统、财务系统、科研系统、人事系统、设备系统、校园卡系统、网络系统等。业务系统是数据共享中心的数据来源,同样也是其数据交换的主要服务对象。数据共享中心对各系统内数据进行采集,并将其经过标准化处理后向上推送。
向上,数据共享中心为数据应用提供支撑作用。数据应用主要包括数据基础服务和数据分析挖掘两大类。数据基础服务,依赖于平台内标准化数据,向全校师生提供综合服务,包括统一身份认证[5]、个人数字档案[6]、信息综合查询、业务协同办公等;数据分析挖掘应用如校情分析决策、群体行为分析、流量分析预测、师生个性化服务等,则基于平台内海量相关性数据进行数据挖掘。数据应用依赖的关联性数据往往来源于多个维度、多个领域。传统单一业务系统中的数据无法支持该类应用。而数据共享中心通过对多业务系统数据的采集和聚合可以很好地解决数据应用对多维度、多领域的数据需求。
2.2 数据共享中心建设方案
数据共享中心由数据交换层、共享数据库和共享数据仓库等三大模块组成,如图3所示。
数据交换层该模块作为共享数据库与业务系统间数据双向互通的桥梁,在数据流方向上主要分为数据上行流程与数据下行流程。
数据上行流程指源数据从业务系统中通过数据抽取[7]、数据清洗[8]、数据转换、数据入库等流程最后存储至共享数据库的过程。数据抽取是指数据通过定时请求同步或变更消息监听等方式被采集至数据中间库的过程。定时请求同步可通过基于XML和Web-service[9]技术来实现对数据的周期性采集。变更消息监听则利用了消息队列服务对数据变更消息进行实时监听并写入数据中间库。
数据中间库的存在使得数据抽取过程与数据清洗和转换完全解耦,降低ETL过程复杂性。数据清洗将数据中间库中数据先后通过空值校验、正确性和重复性验证、格式匹配等规则进行过滤。数据转换根据数据标准(包括国标、行标和校标)将来源于不同系统、基于不同标准的数据进行转换。在完成数据清洗和转换后,数据最终加载到共享数据库中。
数据下行流程指数据从共享数据库下发至业务系统的过程。一般地,数据可通过数据访问接口或订阅消息推送等方式进行下发。数据访问接口由业务系统主动发起远程过程调用。该方式实现简单,但当共享库中数据发生变更时,业务系统无法及时感知而造成数据时效性低下。而订阅消息推送利用消息中间件服务将数据变更消息推送至业务系统。该方式可使得数据同步时效性更强,但相应的复杂度也更高。
此外,数据交换层还包括了平台系统管理与数据交换管理。平台系统管理从系统运维管理、平台安全管理、角色权限管理、消息队列管理等方面提升系统平台的安全性与稳定性。
数据交换管理包括数据标准管理、数据源头管理、数据质量监控、作业状态监控、作业调度管理、数据资源目录、数据访问管理、接口状态监控等,致力于提高数据交换任务的稳定,保障数据采集质量,提升数据服务水平。
共享数据库该模块面向事务设计,以操作性数据库为基础,承载来自各业务系统的核心数据,遵循统一的数据标准,结合元数据管理手段实现数据的高效管理。该库以业务类型进行数据划分,包括教务库、财务库、科研库等。区别于数据的简单集中,该库忽略原业务系统中非必要和边缘化数据,只筛选存储了需要实现共享的核心数据,且对数据完成标准化处理。各业务系统在请求跨系统数据时均通过数据交换层中的数据访问接口或订阅消息推送进程实现对共享数据库的数据读取,因此共享数据库在数据管理上具有权威性和唯一性。
共享数据仓库该模块是面向主题设计的。区别于共享数据库,数据以主题库形式在共享数据仓库中通过数据建模完成分类聚集。同一主题内数据具有强相关性和高聚合度,着重提升平台数据分析能力。数据根据相关性被构建到同一个业务主题中,以此形成对同一对象的多维度数据描述。以“学生主题”为例的人员主题库将所有与学生学号相关联的核心数据聚合集中到同一个库中,如学生基本信息、课程信息、成绩信息、消费信息等。这样的聚合数据一方面可以快速实现学生综合信息查询,另一方面可以实现多维度的学生个体分析。共享数据仓库的建立,将有效提高全校性数据综合查询水平,并可为数据分析挖掘服务提供支撑作用。
3、数据交换管理优化
数据交换是数据共享中心中的核心功能。因此,本章提出针对数据交换层中数据交换管理的优化措施,来解决数据共享中心中存在的问题。
⑴ 加强数据交换任务生命周期管理,提升任务稳定性。通过作业调度管理加强对交换任务的调度编排管理,包括在任务优先级、任务执行周期、任务关系依赖等方面实现可配置化管理。同时实现对任务全周期的作业状态监控。对任务当前流程节点和作业状态的监控可以在异常发生时实现对问题的快速定位与管控。
⑵ 以数据质量监控为手段形成闭环的数据维护模式。依据数据质量监控手段将数据清洗和转换过程中过滤出的问题数据以线上流程的方式反馈至数据源头部门进行人工处理(修订或删除)后再提交,实现在业务系统和数据共享中心之间形成闭环且常态化的数据维护模式,有效解决数据质量问题。
⑶ 以数据规范为基础,结合技术手段加强数据标准的严格执行。通过制定和发布权威的数据标准规范,建立数据“谁生产谁负责”的原则,由业务部门负责维护和更新系统内数据编码规则以及与数据标准间的转换映射关系。结合技术手段建立全校性统一的数据规范维护更新入口,保证数据负责人对数据规范的维护和更新实现流程化、常态化、简单化。
⑷ 严格控制数据共享中心中数据源头的单一来源,以保证数据的权威性和正确性。以学校人事基本数据为例,人员基础信息普遍存在于各职能部门的系统数据之中,而将人事处数据作为该类数据的唯一权威数据来源可以有效避免同业务类型数据从不同业务系统中被采集到数据共享中心后产生潜在的歧义性。
⑸ 实现数据增量同步,提升平台内交换任务的执行效率。改造业务系统数据库,增加时间戳字段记录数据变更时间是实现增量同步的有效手段。此外利用消息中间件技术来监听数据变更情况也可以实现快速的增量同步。增量数据同步方式提升数据交换效率的同时,也对业务系统和数据共享中心间的系统协同性提出了更高要求。
⑹ 建设数据资源目录,以目录化方式管理和展现全校性数据资源。通过数据资源目录的建设可以使得松散化的数据资源具有更好的条理性和组织性,一方面有利于提升管理员对数据资源的管理能力和效率,另一方面将数据资源以目录化形式对外展现,可以进一步推广和应用全校性共享数据。
4、结束语
数据共享中心是高校信息化中的核心工程,能够起到消除高校信息化孤岛、实现系统间数据共享的重要作用,同时也有助于实现校园智慧型数据应用的快速发展。本文分析了数据共享中心的现状与不足,描述了该平台在高校信息化业务架构中的位置与角色,并从数据交换层、共享数据库、共享数据仓库等三个模块介绍了数据共享中心的建设方案。提出了数据共享中心中数据交换管理的优化措施和建设方案,旨在提升数据共享中心的稳定性、可靠性和高效性。
参考文献:
[1]刘宝妹,陈美玲,白兴瑞.智慧校园共享数据中心建设研究[J].中国教育信息化,2020.7:70-73
[2]许鑫,苏新宁,吴乃冈.高校共享数据中心平台的设计与实现[J].现代图书情报技术,2005.6:48-53
[3]李希明,土丽艳,金科.从信息孤岛的形成谈数字资源整合的作用[J].图书馆论坛,2003.6:121-122,61
[4]胡侃,夏绍玮.基于大型数据仓库的数据采掘:研究综述[J].软件学报,1998.1:3-5
[5]常潘,沈富可.基于LDAP的校园网统一身份认证的实现[J].计算机工程,2007.5:281-282,285
[6]周耀林,赵跃.基于个人云存储服务的数字存档策略研究[J].图书馆建设,2014.6:21-24,30
[7]徐俊刚,裴莹.数据ETL研究综述[J].计算机科学,2011.38(4):15-20
[8]郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002.11:2076-2082
[9]尹兆冰,王加阳.WebService及其关键技术研究综述[J].软件导刊,2010.9(2):121-123
[10]李艳春,李新,焦文彬.分布式信息系统中数据交换平台设计与实现[J].计算机工程与设计,2012.33(7):2640-2645
文章来源:钱喆敏,应鑫迪,高焕江,丁浩然.高校数据共享中心现状与分析[J].计算机时代,2021(05):130-134.
分享:
随着我国工业化、城市化迅速发展,导致流动人口规模逐渐扩大。大规模的人口流动承载着技术、信息和资本在不同地区内流动,不仅形成新的人口空间分布格局,还影响城市的产业布局、经济发展以及自然环境。人口的分布是我国经济发展的重要因素之一,分布合理与否会直接影响经济的协调发展。
2024-04-17大数据时代为各类治理提供了前所未有的决策方式,数据是当今“世界上最有价值的资源”,“数据决策”成为现代化治理体系和治理能力的基本条件。与传统的小数据时代相比,数据有了大小之分,大数据具有数量大、种类多、流动快、反映真、算法复杂等特性;小数据是大数据的一个部分,体积小、易理解、算法简单,且“主要来源是抽样调查、深访、行政记录和实验设计等传统统计方法”。
2023-12-04一卡通系统是高校信息化建设的基础工程之一[1,2]。高校一卡通以面向师生服务为根本目的,通过融合云计算、物联网、移动计算等技术,提供身份验证、消费服务、考勤签到、生活服务等功能[3,4]。目前,高校一卡通的终端机覆盖了大部分智慧校园场景,为全校师生提供校园服务[5,6]。因此,高效、高质量的终端机运维是智慧校园服务的保障。
2023-10-17随着人类社会迈入信息化时代,信息化服务领域各项技术不断进步和发展,社会的各行各业都开始大力推动信息化建设,在此期间数以亿计的各类信息系统在此时代背景下被开发建设出来,这些信息系统在运行过程中产生了海量的过程数据和结果数据,人类正式迈入大数据时代。
2023-09-15所谓的大数据指的是运用某些软件,在特定的时间范围内进行获取、管理、处理并整理成的数据集合。大数据具有数量大、结构类型复杂、产生速度快等特点,它能帮助企业进行决策,对财务管理工作高效化开展进行辅助。大数据的诞生对企业的财务管理工作来说是一个巨大的挑战,过去传统的财务管理模式此时已经不适用了,但是企业若能借助大数据技术为财务管理服务。
2023-08-30大部分数据和资料以纸质形式保存,数据分散、标准不统一、数字化滞后、管理覆盖不足、使用率低、成果转化难、综合应用服务能力低是目前存在的主要问题。因此,有必要通过GIS技术建设宁夏放射性数据库及管理系统,深入挖掘放射性资料的潜在利用价值,以适应新时期放射性调查工作转型发展需要,研究和设计开发基于GIS的放射性数据管理系统,具有重要的现实意义和应用服务价值。
2023-08-30当前,我国政府数据质量管理处于初期发展阶段。在标准层面,2022年10月12日发布了GB/T41795—2022《质量技术基础信息资源数据规范》国家标准[1],规定了数据质量管理技术集成平台的数据采集、数据清洗、数据质量评价、数据集成等方面技术规范。在执行层面,各地政府数据管理组织也相应制定了相关的业务数据质量标准,但是由于组织架构体系、系统技术体系和标准规范不统一。
2023-08-29变形监测数据一般包含真值和噪声2个部分,对变形监测数据进行去噪处理、提取变形特征、分析变形规律,是变形分析研究的重要内容。小波分析具有良好的时频特性,被广泛应用于变形分析中,特别是小波阈值去噪在非平稳变形监测数据处理中取得了较好的效果。众多学者从影响小波去噪的关键因素出发,如小波分解层数、去噪评价、阈值函数、阈值估计等对传统小波阈值去噪进行研究。
2023-08-07随着社交媒体的发展,水利网络舆情事件的发生次数呈上升趋势,监测分析难度日益加大。为解决水利网络舆情监测问题,开发建设水利舆情大数据监测分析平台十分必要。通过对基础设施、数据资源、舆情智能分析、舆情大数据可视化4个模块的构建,水利舆情大数据监测分析平台初步实现舆情大数据监测分析能力,形成较完善的水利行业舆情大数据工作机制。
2022-04-25大数据技术既是高校内部审计创新的环境约束变量,也是审计信息化进程的驱动性因素。大数据技术与高校内部审计融合发展是实现高校内部审计信息化建设战略目标的重要体现,也是提升高校内部审计质量和效率的必然要求,也是推动高校内部审计全覆盖的现实需要。大数据技术融入高校内部审计需要解决好理念、方法、途径等方面的关键问题。
2022-01-24我要评论
期刊名称:智能计算机与应用
期刊人气:1819
主管单位:中华人民共和国工业和信息化部
主办单位:哈尔滨工业大学
出版地方:黑龙江
专业分类:计算机
国际刊号:2095-2163
国内刊号:23-1573/TN
邮发代号:14-144
创刊时间:1985年
发行周期:双月刊
期刊开本:大16开
见刊时间:4-6个月
影响因子:1.079
影响因子:0.408
影响因子:0.260
影响因子:0.727
影响因子:0.489
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!