摘要:针对政府数据应用过程中常见的数据质量问题,通过对实践工作的总结,提出一种政府数据质量管理的实践体系。重点介绍政策规范和标准、数据源头管控机制、数据质量管理流程体系、数据质量实施管理体系等维度,结合质量管理对象、管理维度、质量管理规则、数据质量协同改进探讨政府数据质量管理构建有效路径,加速推进政府数据共享和实践。
加入收藏
1、引言
政府数据质量管理是指通过对政府数据的质量标准规范定义、质量稽核分析、质量反馈和改进、质量评估的实施流程,提高政府数据的准确性和完整性,确保政府决策的科学性和可靠性。
当前,我国政府数据质量管理处于初期发展阶段。在标准层面,2022年10月12日发布了GB/T41795—2022《质量技术基础信息资源数据规范》国家标准[1],规定了数据质量管理技术集成平台的数据采集、数据清洗、数据质量评价、数据集成等方面技术规范。在执行层面,各地政府数据管理组织也相应制定了相关的业务数据质量标准,但是由于组织架构体系、系统技术体系和标准规范不统一,数据内容和数据应用没有统一的规范和目标,各类数据质量情况参差不齐。在数据产生阶段,问题来源主要有系统建设规范缺乏指导、系统填报过程的人工误操作、系统开发设计约束校验不足、数据录入的漏报错报、计算逻辑设计错误、数据关联逻辑配置互斥等各类原因,导致在源头数据采集过程中的数据质量问题无法保障。在数据质量管理实践方面,围绕数据共享开放的质量管理评价体系、影响因子、评价指标、评级模型等质量管理的后评估研究内容较为集中[2,3,4,5],注重对数据质量的评价结果对数据共享开放的影响程度的分析和研究,在如何借助有效的产品工具开展数据质量检核、分析和改进的管理实施,还缺乏较为成熟可靠的实施路径,成为了当前亟待解决的问题。
通过有效的数据质量全生命周期管理,能够全面促进数据的价值释放,推动数据赋能业务应用的高效创新。政府数据是政府制定政策和决策的基础,只有数据质量得到保障,数据才能被使用、被信任,开展政府数据分析、决策指导、风险防控等多维度的数据应用,才能有效促进政府决策的科学性和准确性。同时,数据在标准规范一致、业务理解一致的情况下被使用,能够打通数据在各业务系统间的交换和共享渠道,从而提升政府部门间数据流转效能,通过数据的流通,打通业务的壁垒和系统的区隔,从而提高政府工作效率和服务效能。
2、政府数据质量管理实践体系
基于以上分析,结合多个职能部门的数据质量管理实践总结,初步构建了政府数据质量管理实践体系,该体系主要包括政策法规和标准、数据源头管控机制、数据质量管理流程体系、数据质量实施管理体系、数据质量实施流程体系、数据质量管理产品选型、数据质量管理体系优化7个组成部分,如图1所示。
2.1政策法规和标准
牵头部门需要制定数据质量管理相关办法,明确指出数据质量管理的目标、原则、要求和组织,以便指导各相关责任单位分工协作保障数据质量,并形成有效的职责管理目标,确保质量管理满足要求。同时,还应该针对多部门使用频率较高、重合度较高的核心数据,开展数据标准的制定,明确数据的格式要求、口径说明和业务含义,全面指导系统的优化升级和新建系统的规范建设,确保系统源头数据质量,并为数据质量检核和数据分析提供标准依据。
2.2数据源头管控机制
数据全生命周期涉及采集、传输、处理、加工、融合、共享、交换、服务和应用等多个阶段,能够从源头解决数据质量问题,是保障全过程数据质量的基础,也是数据质量管理工作成本和管理复杂度较低的有效途径,因此加强系统建设阶段的数据校验、核心数据业务标准化和系统开发逻辑约束等技术手段,以及数据开发规范、规范审核验证、上线变更审批、异议处置机制等管理机制的建设,是有效提供数据质量管理效能的重要手段。
2.3数据质量管理流程体系
通过对数据采集、数据传输、数据存储、数据处理、数据加工等各环节的质量管理流程建设,建立科学合理的数据全生命周期流程体系,是保证数据来源可靠、数据完整性、安全性和准确性的重要保障。
2.4数据质量实施管理体系
围绕不同的数据质量管理需求、数据管理环节、质量管理目标,制定科学严谨的实施细则,包括系统建设实施细则、数据字典管理实施细则、质量规则建设实施细则、质量稽核及分析实施细则、质量问题定位与协同实施细则、质量方案确立及改进实施细则、质量评估和监控实施细则,并对数据质量问题发现、分析、定位、协同、反馈、纠正、复核等实施过程建立跟踪、评估、处理的长效机制,确保质量管理实施落地。
2.5数据质量实施流程体系
根据数据质量管理要求,结合具体的实施细则,制定规范的流程体系,围绕系统校验、采集验证、业务规则梳理、质量规则设计、质量模板设计、质量规则部署、质量任务配置、质量稽核实施、质量分析定位、质量报告编制、质量问题协同、质量方案确立、质量改进开发、质量改进实施、质量改进评估、质量动态监测等管理流程,制定各流程节点的管理内容、管理结果以及与下一级节点的关系,通过规范有序的流程设计和配置,保障数据质量管理的闭环管理,有效提升数据质量并构建常态化跟踪监测管理。
2.6数据质量管理产品选型
根据建设阶段、数据管理要求程度、数据质量实际状况、管理成本、管理周期要求、管理重点等多种主客观因素,数据质量管理是深度和广度呈现的差异较大,在产品工具的选型过程中不应贪大贪全,需要从人力成本、便捷度、技术成本等客观因素和功能契合度、工具易用性、工具稳定性、工具安全性、工具灵活性等主观因素出发,综合考虑中短期数据管理的目标,选用适合的工具产品,全面提升数据质量管理实施的效率,降低数据质量管理的成本。
2.7数据质量管理体系优化
以数据共享和数据应用为核心出发点,针对管理阶段、管理目标、管理需求、管理重点等各阶段的管理工作规划,结合质量的完整性、准确性、有效性、一致性、唯一性和及时性等管理维度,全面理清实际的管理对象,适度灵活地优化数据质量管理体系的制度规范、流程体系、实施细则等内容,不断建立健全数据质量管理体系。
3、政府数据质量管理重点
在实际的质量全生命周期管理过程中,在数据质量管理对象及管理维度的明确、数据质量管理规则的设计、数据质量规则的动态维护及数据质量的协同和改进4个方面,都呈现出较为突出的疑难问题,只有把握好解决好这4方面重点,才能在数据质量管理实践中建有成效。
3.1数据质量管理对象及管理维度的明确
针对常见的数据管理维度中,不同的管理维度的管理成本及管理成效呈现出较为明显的差异。数据的完整性管理路径及流程,通常包含空值、NULL及空格类情况,较容易发现并且补充完整,管理成本较低;数据的规范性和有效性,针对政府数据中身份证号、地址代码、性别、年龄、统一社会信用代码等核心字段,通常也设置了标准规范,工具产品中也内置了相对应质量管理通用规则模板,使用较为便捷,业务关联性较低、影响较小;然而,针对基于业务规则定义及数据内外部一致性的质量管理,常常需要花费大量的人力成本,且此类问题通常个性化程度较高,复用价值低,但是业务影响较大,如企业名称及代码在不同系统中的一致性问题,如统计指标的内外部计算逻辑一致性问题将严重影响统计分析的准确性。因此有效识别管理对象和管理维度,才能有效解决管理成本和管理成效的矛盾。
3.2数据质量管理规则的设计
在业务理解和系统约束梳理过程中,需要系统建设方、业务主管方等多方参与,并结合系统开发规范、业务逻辑关系、业务含义定义等多方资料,明确各类问题的实际问题及质量管理的前置条件,因此质量管理前期沟通及资料输入的完备性和准确性,是决定质量管理合理的关键。实际实施过程中,常因协同不畅、数据字典过时、开发文档与实际不符、系统登录受限等诸多因素,导致质量管理前置条件和质量规则设计发生偏差,致使质量问题对象范围扩大或降低、质量规则设计不完备、质量稽核结果不实等情况发生。当由于稽核对象扩大或规则覆盖设计缺陷导致的通过率较低,常会引起相关数据主管方的不适和问责,因此,有效准确的业务梳理及规则设计,是数据质量管理工作良性循环、长效开展的关键,管理结果与管理实际的差异矛盾亟待行之有效的机制支撑。
3.3数据质量规则的动态维护
数据质量稽核的对象粒度常为字段级,一个复杂的业务系统的字段数量可达数千个,加上完整性、规范性、有效性、唯一性、一致性等管理维度,以及不同维度下稽核的多种规范要求、有效性要求下建设的明细规则,一个字段对应的各类质量规则将达到数十条及以上,系统的质量规则建设量可达数万条。而质量管理工作是一个持续开展的工作,不同阶段管理重点和管理内容都不相同,如何有效管理已经开发的规则、已匹配规则的稽核对象,在海量的规则实施工具中开展精准高效的持续运维,避免质量规则沼泽发生,对规则检索、规则运维等工具技术支撑以及规则的分类设计、渐进式建设设计等规划能力提出更大的挑战,有效减少质量规则管理及工具支撑的矛盾。
3.4数据质量的协同和改进
政府数据涉及多个职能部门,常常存在相同的业务在不同系统中的定义差异、口径差异,同一个系统前后时间阶段的业务定义变动、口径改动,相同的数据在不同分类或不同语境条件下的业务对象差异、统计口径差异,此类问题在出现一致性问题时,各业务系统基于自身业务规范要求的坚持,较难对多业务数据达成一致性确认,且历史数据与新增数据的存在业务合理性的问题,都导致无法协同形成一致的改进方案,问题客观存在、质量改进无法开展的矛盾长期存在。在实践中,数据质量的协同和改进方案常常要平衡多方诉求,新旧兼容。
4、结语
政府数据的质量管理仍然存在许多困难和挑战,在管理实施过程中,需要持续加强对各类管理场景、管理成果、管理过程的专业化能力建设,通过不断实施管理与工具支撑的相互结合,在促进工具技术创新发展的同时,提升数据质量管理的效能,进一步总结和探索,力争为各类政府数据质量管理对象提供行之有效的管理路径,加速推进政府数据的共享交换和价值释放。
参考文献:
[1]全国电子工业标准化技术委员会.质量技术基础信息资源数据规范:GB/T 41795—2022[S].北京:中国标准出版社, 2022.
[2]苏君华,赵咪咪.智慧城市视域下政府数据质量评价指标体系研究[J].情报探索, 2022(10):54-61.
[3]宋暮凡.数据开放视角下的政府开放数据质量评价研究[J].图书情报导刊, 2022(8):63-70.
[4]胡千代,王芳.政府数据质量评价指标体系构建研究[J].科技情报研究, 2021(3):17-34.
[5]侯征.我国政府开放数据质量评价模型构建研究[D].郑州:郑州航空工业管理学院, 2021.
文章来源:张珺,漆源.数据质量管理实践体系探讨[J].信息技术与标准化,2023(08):15-18.
分享:
软件系统和应用程序中经常面临特征数据缺失的情况,如物联网数据、医疗数据、材料数据等,数据缺失可能导致学习算法或程序性能下降甚至不可用。导致数据缺失的原因较多,如调研项目无回应、意外丢失或传输错误等。为了解决数据缺失问题,研究人员提出了一些有效的填补方法,按照采用技术的不同,可以分为基于统计学的方法和基于学习的方法。
2024-12-05智慧社区监控系统的研究和应用是当今社区管理领域的热点话题之一。随着城市化进程的不断推进和社会治理水平的提高,社区管理面临着日益复杂和多样化的安全挑战。在传统社区管理模式下,对于社区内安全事件的监测和管理往往依赖人工力量,存在着监控盲区、反应滞后、管理成本高等问题,限制了社区管理效率和安全防范水平的提升。
2024-12-04电力物联网作为物联网的一个重要应用领域,以其智能电网为基础,通过物联网、大数据、云计算等先进技术手段,实现了对电网所有数据的全面感知、收集、存储、计算与交换。这一领域的快速发展不仅极大地提升了电网的运行效率和智能化水平,同时也带来了前所未有的数据隐私保护挑战。
2024-12-03“异化”一词源于希腊语中“他者化”一词,指的是主体发展到了一定阶段,分裂出自己的对立面,变为了外在的异己的力量。对于人类社会而言,即表示人类创造出的产物与人类本体分离,并成为一种外在的负面异己力量与人类本体相对立,乃至最终凌驾于人类本体之上,使人类的本体性逐渐丧失。
2024-11-05城市品牌是当前城市研究中的热点概念。根据杜青龙的观点,城市品牌即城市可以在营销历史、生活方式和文化等资源的过程中,获取资本积累的机会、声望。城市品牌既是城市自然地理、历史人文、经济政治等的精准提炼与符号化表达,也是城市形象构建的核心资源。因此,加强城市品牌营销,已成为当前城市发展的重点。
2024-11-05电网覆盖范围的扩大,加之智能电网数据采集频率的提升,使得电网多级数据量呈现指数级暴涨,从最初的每秒钟几十兆字节增加至每秒钟几万兆字节,对智能电网的数据处理性能提出了更高的要求。受采集设备缺陷、采集环境等因素的影响,电网多级数据中包含大量的冗余数据,浪费了存储空间,降低了数据查询效果。
2024-09-20随着我国电网规模的日益扩大,能源建设的投入也在持续增加。其中,电力改造工程中的造价数据是决定工程整体管理水平的重要环节,准确、合理的数据分析有助于提升项目管理的水平并高效推进项目的整体进展。同时,在施工过程中由于受复杂的环境因素影响,各分段的子项目技术标准也会存在差异,因此所涉及到的数据具有多维性及海量性的特点。
2024-09-19随着科学技术的不断发展和进步,数字化技术已经广泛应用于各个领域。在建筑行业中,BIM技术已经成为数字化转型的核心技术。数字化工厂设计系统是以BIM技术为基础,实现了从建筑设计到设备安装、调试、运行的整个过程的数字化设计与协调。本文研究了基于BIM技术的数字化工厂设计系统的构建及应用,以期提高工厂设计的质量和效率。
2024-08-26随着我国工业化、城市化迅速发展,导致流动人口规模逐渐扩大。大规模的人口流动承载着技术、信息和资本在不同地区内流动,不仅形成新的人口空间分布格局,还影响城市的产业布局、经济发展以及自然环境。人口的分布是我国经济发展的重要因素之一,分布合理与否会直接影响经济的协调发展。
2024-04-17大数据时代为各类治理提供了前所未有的决策方式,数据是当今“世界上最有价值的资源”,“数据决策”成为现代化治理体系和治理能力的基本条件。与传统的小数据时代相比,数据有了大小之分,大数据具有数量大、种类多、流动快、反映真、算法复杂等特性;小数据是大数据的一个部分,体积小、易理解、算法简单,且“主要来源是抽样调查、深访、行政记录和实验设计等传统统计方法”。
2023-12-04我要评论
期刊名称:信息技术与标准化
期刊人气:2113
主管单位:中华人民共和国工业和信息化部
主办单位:中国电子技术标准化研究所
出版地方:北京
专业分类:科技
国际刊号:1671-539X
国内刊号:11-4753/TN
邮发代号:82-452
创刊时间:1959年
发行周期:月刊
期刊开本:大16开
见刊时间:4-6个月
影响因子:0.000
影响因子:0.599
影响因子:0.335
影响因子:0.419
影响因子:0.325
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!