2023-10-17
78
上传者:管理员
摘要:为了解决在运维资源有限的条件下提升高校一卡通服务质量的问题,以即时通信工具中的一卡通运维数据为研究对象,对运维数据进行ETL、特征值处理以及统计分析以实现预测性运维。基于特征工程和Python编程语言,从文本消息中采集一卡通运维数据并转换成结构数据;结合一卡通运维语料库,对结构化数据进行特征组合检索,多维度地分析一卡通终端机故障情况;最后通过数据可视化挖掘终端机故障发生的规律知识,为一卡通运维工作提出指导性的建议。
加入收藏
一卡通系统是高校信息化建设的基础工程之一[1,2]。高校一卡通以面向师生服务为根本目的,通过融合云计算、物联网、移动计算等技术,提供身份验证、消费服务、考勤签到、生活服务等功能[3,4]。目前,高校一卡通的终端机覆盖了大部分智慧校园场景,为全校师生提供校园服务[5,6]。因此,高效、高质量的终端机运维是智慧校园服务的保障。
高校一卡通的终端机具有种类多、设备数量大、安装地点分散等特征,其运维工作不但工作量大并且难以及时发现故障,需要高校投入更多的运维资源,但是高校的预算和人员编制是有限的。因此,如何在有限的运维资源条件下提高终端机的运维效率是一卡通系统运维的关键。即时通信工具作为运维团队常用的协同工具,长期的运维工作积累了大量的终端机运维数据。以这些运维数据为研究对象,利用特征工程[7,8]和Python编程语言技术[9,10],从多个维度挖掘终端机的故障发生规律,实现高校一卡通的预测性运维。
1、高校一卡通的运维现状
一卡通系统运维团队通常由用户服务和运维技术组组成。用户服务负责接收师生的一卡通报障,并将故障信息反馈给运维技术组处理。为了及时解决一卡通故障,运维团队协同工作的主要工具是QQ群组[11,12],故障处理流程如图1所示。
图1 一卡通故障处理流程
随着一卡通运维工作的持续进行,QQ群组累积大量的运维数据,为故障分析奠定了数据基础。
2、一卡通运维数据预处理
QQ消息的导出格式是文本格式,并且导出的文本包括本地QQ所有的通信信息,需要从文本数据内采集一卡通系统的运维数据。
2.1 数据采集
QQ导出的文本数据按照消息对象进行聚合,其中,消息对象对应QQ的联系人。消息对象的聚合数据以串行“=”字符为开始和结束标识。比如,“一卡通技术运维”群组的消息聚合模式如图2所示。
图2 QQ消息聚合模式
运维数据是以“消息对象:一卡通技术运维”+串行“=”字符为开始,以串行“=”字符为结束,数据采集接口逐行读取文本数据,截取开始和结束标识符之间的所有数据。
2.2 数据去噪
每一条完备的QQ消息包含消息发送时间、消息发送者、消息内容三要素,并在文本内分成独立的两部分。其中,第一部分是“消息发送时间+消息发送者”,第二部分是消息的具体内容。消息内容包括自然语言、表情包、图片,其中表情包和图片以“[表情]”“[图片]”字符表达。因此,需要将采集后的数据进行去噪处理,去除消息发送者、“[表情]”、“[图片]”、空格符、空行等数据。
2.3 数据存储
数据分为结构化数据、半结构化数据、非结构化数据[13]。运维的原始数据是非结构化的文本数据,需要转换成结构化数据为数据分析提供特征数据检索。
依据消息文本表达特征,定义消息对象类(MaintanInfo),类的属性包括消息发送时间(maintime)和消息内容(maininfo),Pymysql接口将MaintanInfo对象持久化到关系数据库的数据表(maintaninfo)内,如图3所示。
图3 运维数据结构化存储
3、一卡通运维数据分析
3.1 一卡通运维特征语料库
自然语言是信息的载体,从现代逻辑角度来说,自然语言具有以下缺陷:表达式的层次结构不清晰、个体化认知模式不明确、量词管辖的范围不太确切、句子成分语序不固定、语形和语义不对应。因此,自然语言的处理需要相应领域的语料库[14,15]。
运维数据基于自然语言,主要包含终端机、故障发生时间、故障发生地点、故障四个要素,而数据分析模型扩展到六个维度:终端机、故障发生时间、故障、故障类型、安装地点、校区。针对一卡通运维数据分析的需求,建立一卡通运维语料库,如图4所示。
图4 一卡通运维语料库
3.2 特征数据检索
基于结构化的运维数据,特征数据检索的组合条件定义为:(终端机名称,位置名称,故障)+(起始时间,结束时间),检索的结果集以四元特征组存储在数列[(终端机,故障发生时间,故障发生地点,故障)]内,如:[('一体机','2021-03-03 15:54:51','一号楼','白屏')]。结合一卡通运维语料库,结果集为终端机故障分析提供年、月、故障类型、校区等特征数据的下载路径。
3.3 特征值处理
3.3.1 时间戳处理
故障发生时间的时间戳表达式为“YYYY-MM-DD hh:mm:ss”,而故障数据分析模型的时间特征以年、月和日为维度。因此,从时间戳表达式中提取[年,月,日]三个维度的时间特征,如:“2021-03-0315:54:51”转换后的时间特征数列为[2021,3,3]。
3.3.2 特征选择
数据分析模型基于六个特征维度,需要在原始数据四个要素的基础上扩充特征类型。
一卡通运维语料库定义了六个特征信息以及特征之间的关系:终端机与安装地点、安装地点与校区、终端机与故障、故障与故障类型。结合终端机故障模型的具体用例,运维数据特征定义为八元组,features=(年,月,日,终端机,故障,故障类型,位置点,校区),特征之间关系如图5所示。
图5 特征关系图
如:检索结果集的特征数列feature=[('一体机','2021-03-03 15:54:51','一号楼','白屏')]扩充为feature=[2021,3,3,'一体机','白屏','硬件类型','一号楼','五山校区']的八元特征数列。
3.3.3 特征值编码
检索结果集的数据是定性数据,需要进行特征值转换。如:feature=[2021,3,3,'一体机','白屏','硬件类型','一号楼','五山校区']。通常,特征工程的数据处理采用独热编码将定性数据转换成定量数据[16,17]。
以“终端机年度各月故障情况”模型为例:输入数据的格式要求为矩阵['终端机','1月','2月',…,'12月']。其中,'终端机'列存储发生故障的终端机名称,'1月'-'12月'各列分别表示是否在该月发生故障。因此,'1月'-'12月'各列数据采用独热编码方式0/1,其中,1表示故障发生在该月,0表示否。如:feature=[2021,3,3,'一体机','白屏','硬件类型','一号楼','五山校区']的独热编码数列为feature=['一体机',0,0,1,0,0,0,0,0,0,0,0,0],表示一体机在3月发生的一次故障[18]。
3.4 数据分析
1)终端机年度总故障分析。
分析某一年度内各终端机发生故障的总体情况。数据分析特征为['终端机','故障','年'],转换的特征值数列为['终端机','故障'],其中,'故障'列的特征值为0/1,表达是否发生故障,以终端机名称为索引统计各终端机年度内的故障总数,统计结果为['终端机','故障数'],并以柱形图展示,如图6所示。
图6中一体机的故障发生率最高,建议运维技术组将一体机作为一卡通系统运维重点对象。
2)终端机月度故障分析。
分析某一年度内各终端机在每月发生故障的情况。数据分析特征为['终端机','故障','年','月'],转换的特征值数列为['终端机','1月','2月',…,'12月'],其中,'1月'-'12月'各列的特征值为0/1,表达是否发生故障,以终端机名称为索引统计各终端机在年度内每个月发生的故障数,分析结果为['终端机','1月','2月',…,'12月'],以线型图展示,如图7所示。
图6 终端机年度故障分析
据图7可得,不同终端设备在不同月份发生故障的频次不同。一体机在8月份发生故障的频次最高,8月正值高校的暑期,运维技术组加强假期前的巡查工作。
3)终端机某时间段各故障类型分析。
分析某一时间段内终端机各类故障的发生情况。数据分析特征为['终端机','故障类型','年','月','日'],转换特征值数列为['终端机','故障类型','故障'],其中,'故障'列的特征值为'0/1',表达是否发生该类故障,以'终端机名称+故障类型'为索引统计终端机各故障类型在某时间段内的故障数,分析结果为['终端机','故障类型','故障数'],以柱形图展示,如图8所示。
图7 终端机月度故障频次分析
图8 终端机各类型故障分析
由图8统计分析可得,一体机的“出卡故障”、“硬件故障”、“系统故障”的故障率高,补卡机除硬件、打印和网络故障还存在缺卡和色带的问题。运维技术组的巡检工作需要关注卡片、色带的损耗以及一体机的系统运行状况。
4)校区年度故障分析。
分析某一年度各校区发生故障的总占比。数据分析特征为['终端机','故障','位置点','校区','年','月'],转换特征值数列为['终端机','校区','年'],其中,'年'列的特征值为0/1,表达是否在该校区发生故障,以校区为序列统计校区在一年内故障总数,分析结果为['校区','故障数'],以饼图展示,如图9所示。
图9 2020年各校区故障发生情况统计图
由图9统计分析可得,五山校区的故障占比为64.74%,五山校区的运维资源(人力和时间)分配占比应为60%~70%。
4、结束语
长期的运维工作累积了大量的原始运维数据,并详细记录了一卡通系统的故障情况。以一卡通系统运维的QQ群组消息为基础,利用大数据分析技术多维度分析终端机故障发生情况,从而获取运维工作重点、运维资源配置等知识,为一卡通系统的预测性运维提供指导。
下一步工作,在终端机故障数据分析的基础上,增加系统服务故障的数据分析,进一步提高一卡通系统运维质量。
参考文献:
[1]徐义东,闻帅.高校校园一卡通应用的进一步探索―—智慧校园环境下—卡通向一户通的转变[J].华中师范大学学报(自然科学版),2017(S1):147-150.
[2]蒋东兴,付小龙,袁芳,等.大数据背景下的高校智慧校园建设探讨[J.华东师范大学学报(自然科学版).2015(81):129-135,141.
[3]张玮,刘振昌,曲申.通用型校园一卡通系统的设计研究[J].华中师范大学学报(自然科学版),2017(S1);21-24.
[4]肖媛娥.数字化校园中的校园—卡通建设研究[J].信息通信,2019(5):147-148.
[5]陈育青,唐文军,艾飞.高校一卡通核心计算资源管理的研究[J].电子设计程,2021,29(13):11-14,19.
[6]艾飞,时东晓,黄建波,等.基于第三级等保的高校―卡通系统安全体系研究[J].电子设计工程,2022,30(10):66-70.
[7]龚黎盱,顾坤,明心铭,等.基于校园一卡通大数据的高校学生消费行为分析[J].深圳大学学报(理工版).2020,37(S1):156-160.
[8]胡瑞,刘庆,张光捷,等.基于特征工程和机器学习的铝基高嫡合金稳定性预测[J].上海大学学报(自然科学版),2022,28(3):476-484.
[9]冯艳茹.Python语言在大数据分析中的应用[J].电脑知识与技术,2020,16(24):78-79,86.
[10]李天辉.基于python的数据分析可视化研究与实现[J].电子测试,2020(20):78-79.
[11]沈昌祥.即时通信类社交网络系统的安全研究[J].信息安全研究,2016,2(3):280-283.
[12]夏晓畅.即时通信软件在中国办公自动化进程中的应用与分析―—以QQ、微信和钉钉为例[J].领导科学论坛,2021(3):141-145,160.
基金资助:国家自然科学基金(61973126);
文章来源:陈泽生,黄建波,艾飞.高校一卡通运维数据的分析与研究[J].电子设计工程,2023,31(20):16-20.
分享:
软件系统和应用程序中经常面临特征数据缺失的情况,如物联网数据、医疗数据、材料数据等,数据缺失可能导致学习算法或程序性能下降甚至不可用。导致数据缺失的原因较多,如调研项目无回应、意外丢失或传输错误等。为了解决数据缺失问题,研究人员提出了一些有效的填补方法,按照采用技术的不同,可以分为基于统计学的方法和基于学习的方法。
2024-12-05智慧社区监控系统的研究和应用是当今社区管理领域的热点话题之一。随着城市化进程的不断推进和社会治理水平的提高,社区管理面临着日益复杂和多样化的安全挑战。在传统社区管理模式下,对于社区内安全事件的监测和管理往往依赖人工力量,存在着监控盲区、反应滞后、管理成本高等问题,限制了社区管理效率和安全防范水平的提升。
2024-12-04电力物联网作为物联网的一个重要应用领域,以其智能电网为基础,通过物联网、大数据、云计算等先进技术手段,实现了对电网所有数据的全面感知、收集、存储、计算与交换。这一领域的快速发展不仅极大地提升了电网的运行效率和智能化水平,同时也带来了前所未有的数据隐私保护挑战。
2024-12-03“异化”一词源于希腊语中“他者化”一词,指的是主体发展到了一定阶段,分裂出自己的对立面,变为了外在的异己的力量。对于人类社会而言,即表示人类创造出的产物与人类本体分离,并成为一种外在的负面异己力量与人类本体相对立,乃至最终凌驾于人类本体之上,使人类的本体性逐渐丧失。
2024-11-05城市品牌是当前城市研究中的热点概念。根据杜青龙的观点,城市品牌即城市可以在营销历史、生活方式和文化等资源的过程中,获取资本积累的机会、声望。城市品牌既是城市自然地理、历史人文、经济政治等的精准提炼与符号化表达,也是城市形象构建的核心资源。因此,加强城市品牌营销,已成为当前城市发展的重点。
2024-11-05电网覆盖范围的扩大,加之智能电网数据采集频率的提升,使得电网多级数据量呈现指数级暴涨,从最初的每秒钟几十兆字节增加至每秒钟几万兆字节,对智能电网的数据处理性能提出了更高的要求。受采集设备缺陷、采集环境等因素的影响,电网多级数据中包含大量的冗余数据,浪费了存储空间,降低了数据查询效果。
2024-09-20随着我国电网规模的日益扩大,能源建设的投入也在持续增加。其中,电力改造工程中的造价数据是决定工程整体管理水平的重要环节,准确、合理的数据分析有助于提升项目管理的水平并高效推进项目的整体进展。同时,在施工过程中由于受复杂的环境因素影响,各分段的子项目技术标准也会存在差异,因此所涉及到的数据具有多维性及海量性的特点。
2024-09-19随着科学技术的不断发展和进步,数字化技术已经广泛应用于各个领域。在建筑行业中,BIM技术已经成为数字化转型的核心技术。数字化工厂设计系统是以BIM技术为基础,实现了从建筑设计到设备安装、调试、运行的整个过程的数字化设计与协调。本文研究了基于BIM技术的数字化工厂设计系统的构建及应用,以期提高工厂设计的质量和效率。
2024-08-26随着我国工业化、城市化迅速发展,导致流动人口规模逐渐扩大。大规模的人口流动承载着技术、信息和资本在不同地区内流动,不仅形成新的人口空间分布格局,还影响城市的产业布局、经济发展以及自然环境。人口的分布是我国经济发展的重要因素之一,分布合理与否会直接影响经济的协调发展。
2024-04-17大数据时代为各类治理提供了前所未有的决策方式,数据是当今“世界上最有价值的资源”,“数据决策”成为现代化治理体系和治理能力的基本条件。与传统的小数据时代相比,数据有了大小之分,大数据具有数量大、种类多、流动快、反映真、算法复杂等特性;小数据是大数据的一个部分,体积小、易理解、算法简单,且“主要来源是抽样调查、深访、行政记录和实验设计等传统统计方法”。
2023-12-04人气:12327
人气:6484
人气:5675
人气:5396
人气:5116
我要评论
友情链接
期刊名称:大数据时代
期刊人气:1410
主管单位:贵州出版集团公司
主办单位:贵州新闻图片社
出版地方:贵州
专业分类:经济
国际刊号:2096-255X
国内刊号:52-1163/G2
邮发代号:66-91
创刊时间:2016年
发行周期:月刊
期刊开本:大16开
见刊时间:1-3个月
影响因子:2.378
影响因子:0.097
影响因子:0.790
影响因子:0.000
影响因子:0.094
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!