摘要:随着智慧校园建设的不断推进,助学金评定的信息化、数字化服务也应加快数字化转型,立足现有评价体系,细分助学金评价指标,建立数字化评价体系。采用基于自助采样的集成学习思想,通过构建多个决策树来解决助学金评定问题,并进行可视化系统搭建。预测结果表明,随机森林模型对于助学金评定具有一定的实用价值。
加入收藏
随着智慧校园建设的不断推进,高校使用信息化、数字化服务已成为重要的管理运营方式之一。助学金的发放不仅是为资助的学生提供帮助,更是学校的一项社会责任。众多高校采用“学生自愿申请—班级民主评议—教师认定审核—学院最终批准”的模式,在该模式中,会出现收集信息不全面和一些人为、主观因素干扰,导致缺乏统一的量化标准,最终使得认定工作出现一定纰漏,造成“伪贫困生”这一群体出现。
本文设计的助学金发放评价系统旨在利用学生信息、家庭信息和社会实践等信息进行助学金评定,通过数据分析全方位展示学生个人数据和学业表现,为助学金评价提供有力数据保障,最终得出一份合理的助学金分配方案[1]。
1、综合评价算法优化
1.1 综合评价算法概述
综合评价是对事物或现象从多个角度、指标出发进行全面、客观、准确的评价和比较,考虑经济、社会、环境、技术等多方面因素,对各项因素进行合理权重分配,通过指标测算和归一化处理得出最终评价结果,为使用者提供全面客观的信息支持决策。
综合评价可以被应用于各行业,如教育、金融、医疗、环保、交通等领域。对于学生综合素质评价,可以从学术成绩、综合实践能力、人际交往能力、文化素养等多个角度出发进行评价,以更为全面地反映学生的综合素质;对于企业绩效评价,可以从财务、客户、内部流程、学习与成长等多个方面进行评价,以更全面了解企业的现状和未来发展情况[2]。
综合评价不像单一指标评价那样局限于某个维度,而是倡导全面、系统地考虑问题。常见的综合评价算法有简单加权法、层次分析法、灰色关联分析法、模糊评价法等。
1.2 优化思路:随机森林算法
随机森林(Random Forest)[3]是一种集成学习方法,如图1所示,通过构建多个决策树进行分类、回归或其他任务。在随机森林中,每个决策树的结果由投票或平均值来决定。
图1 集成学习思想
随机森林的基本思想是通过自助采样(Bootstrap Sampling)生成多个不同的采样集,再为每个采样集构建一棵决策树,构建过程中,只考虑部分特征子集来增加树之间的差异性,详见图2。
图2 随机森林思想
随机森林的随机性在于“样本随机”与“特征随机”。样本随机指采用从样本数据中采取有放回(Boostrap)随机抽取N个样本(因为是有放回抽取,有些数据可能被选中多次,有些数据可能一直没有被选上),每次取出的样本不完全相同,这些样本组成了决策树的训练数据集;特征随机是指假设每个样本数据都有M个特征,从所有特征中随机地选取m个特征(m<M),选择最佳分割属性作为节点建立CART决策树,决策树成长期间m的大小始终不变,在Python中构造随机森林模型时,默认采用来确定特征个数。
随机森林模型的基本步骤如下。
遍历随机森林的大小K次:从训练集T中有放回抽样的方式,取样N次形成一个新子训练集D。
随机选择m个特征,其中m<M。使用新的训练集NEW和m个特征,学习出一个完整的决策树,得到随机森林。
首先,定义数据集,其中每个样本,每个样本的标签为Yi∈R。对于一个随机森林模型,设集成了t棵决策树,第i棵决策树的输出为fi(x),包含的数据子集为Di,每个决策树都由一个基本的分类器组成。对于随机森林分类器F(x),其预测输出为:
式中:t为决策树个数。
随机森林中,每棵决策树都是通过对数据集进行随机抽样来训练的,即每个数据点都有被抽出和未被抽出的可能性。对于一个数据集S,从中进行随机抽样而得到的子集S′,其抽样概率为p,则可得到:
式中:k为子集的大小;n为数据集的大小;为不含某一个数据点的k个子集;为包含所有的k个数据点的子集。
在每个节点上,根据某些策略选择特征,如每个节点随机选择特征集中的一个特征进行分裂。这个特征集由问题的输入特征集生成;假设特征集为F,每个节点根据其中特征集合F的子集fk来进行分裂,则某个节点的特征选择概率即可表示为:
式中:|F|为特征集合F的大小。
算法测试则选取了某高校某学院于某学年提交的849份贫困申请数据。从招生处、教务处、后勤处、学工处、院系和财务处等部门获得学生数据并保存在数据库中。再对这些数据进行预处理,对于选取最优的参数,则利用网格搜索算法实现,它是用穷举搜索的思想,通过循环遍历,对所有候选参数进行组合,尝试每个可能的优劣,将表现最好的作为最终的参数。指标体系如表1所示,最终结果为最优参数12个。
表1 指标体系
对849个样本进行随机抽样选取训练样本,训练集与测试集样本数量之比为7∶3,而后进行模型训练并保存,对测试集的预测结果准确率为83.5%,具有较好的实际应用意义。
算法准确度比较如表2所示。将随机森林算法与其他相关算法如KNN、决策树算法等进行比较,其在该数据集上具有较高的准确度。总的来说,随机森林算法适用于助学金评价过程,它具有处理大规模数据集、高维数据、缺失值和异常值的鲁棒性,降低过拟合风险,处理噪声数据表现较好,自动特征选择等优点;缺点是占用较多内存和计算资源,训练时间长,结果难以解释和理解,对噪声和异常值敏感[4]。
表2 算法准确度比较
2、助学金评价系统设计
2.1 系统设计理念和实现方法
系统基于机器学习思想,通过训练和优化得出能更准确反映变量关系的预测模型,输入学生成绩、贫困状况和家庭情况等因素,采用随机森林算法进行分类,再通过交叉验证和网格搜索等方法提高泛化性能和预测精度。具体实现包括数据收集、预处理、模型构建、训练与应用。
2.2 系统数据来源
系统数据主要来源如下:通过调用学校API接口获取学生基本信息、行为记录和消费情况等关键数据;通过学生线上表单提交的家庭情况、联系方式、社会实践经历等信息,以便更好地了解学生情况并提供更准确的关怀。且所有数据经管理员审核,可保障信息安全;同时,创建索引提高查询效率,保证系统在高并发情况下快速、准确地响应用户请求。
2.3 数据预处理
数据预处理主要包括数据清洗、数据集成、数据变换等操作。数据清洗是预处理的关键步骤,旨在确保数据质量和准确性,清洗过程中,需要处理缺失值和异常值[5]。缺失值处理包括删除和填充,常用填充方式为选择最大值、最小值、均值、中位数等统计指标;异常值处理是用期望值替换离群点或异常值;数据集成是将不同来源和格式的数据整合成整体,包括关系型数据库的数据集成和文件格式转换等方式。需要统一数据格式,将不同数据源按照数据表的方式存储,如整合学生表、教师表、助学金信息表、学生家庭信息表等存入MySQL数据库表中。
数据变换是对原始数据进行操作和处理,以获得符合特定需求的新数据,旨在改善数据质量、结构、语义。由于学校API采集的原始数据涉及学生敏感信息,系统仅取代表性数据;数据脱敏分为静态数据脱敏(SDM)与动态数据脱敏(DDM),系统采用静态数据脱敏处理,即对学生信息的姓名、联系电话等字段进行无效处理,如将“张阿三”转为“张*三”,学号作为学生唯一标识,同时为确保数据分析结果的准确性,需要对不同特征的数据进行缩放处理,使数值落在一个特定区域,便于综合分析[6]。
2.4 系统前后端功能
评价系统的前端网页有主页、登录注册、助学金评价、关于我们4个部分。主页包含系统导航栏、轮播图和助学金相关政策等部分;用户需进行注册登录后方可使用系统;系统页面介绍了系统的基本流程和开发团队;助学金评价方面主要是信息填写与提交。部分页面见图3。
系统的后台管理系统主要由HTML、B/S结构、MySQL数据库、SSM框架组成。后台管理系统分为以下3个部分:①注册登录。管理员注册,登录进入管理系统,进行信息维护与前端内容修改等系列操作。②信息管理。管理员进入系统后可对登录系统人员情况、主页内容更新等进行动态操作,对前端站点的内容进行简单的可视化编辑,不需要烦琐的代码,保证信息的时效性。③助学金管理。管理员可对申请助学金的学生信息进行修改、驳回申请、更新相关助学金公示情况等。
图3 前端网页图示
2.5 系统改进方向
针对助学金发放评价系统的优化,可以从算法和网站设计2个方面入手。
在算法方面,可使用深度学习算法或神经网络算法来提高模型的准确率和鲁棒性。这些算法可以用于分类与预测学生情况,如通过卷积神经网络(CNN)模型提取学生照片特征来帮助识别贫困生[7]。在网站设计方面,可以细化前端网页组件并使用H5新特性来优化前端效果,加强前后端数据交互的安全性;后端则可使用实时数仓来代替MySQL以加快数据的ETL,利用Lambda架构提高处理速度,并逐步引入更加完善的大数据体系。
3、结束语
本文提出了一个基于大数据分析的助学金发放评价系统,并且在该系统中使用了随机森林算法来构建和处理框架。通过实验对比,该系统在多个评价维度上效果良好,以高准确率预测和评估助学金分配方案,有助于学校更精准地发放助学金,特别关注贫困学生群体。
参考文献:
[1]孙亚男.高校学生奖助学金预测系统应用研究[D].昆明:云南财经大学,2023.
[2]任春荣.“四个评价”的概念辨析与历史任务[J].中国民族教育,2021(6):17-20.
[3]失落的版图.随机森林详解(从决策树理解随机森林)[DB/OL]
[4]胡天宇.基于Spark的随机森林算法优化与并行化研究[D].济南:齐鲁工业大学,2019.
[7]张鑫,杨万祥,李小斌,等.卷积神经网络中批量规范化层的使用对地震数据去噪的影响分析[J].地球物理学进展,2024,39(1):183-196.
文章来源:杨婕,王斐凡,师超,等.基于智慧校园大数据分析的助学金发放评价系统设计[J].科技与创新,2024,(16):56-58+61.
分享:
《建筑工程计量与计价》是建筑工程专业中的一门核心课程,涉及建筑工程量的计算、计价依据和方法、工程量清单编制及投标报价等多个方面。该课程不仅要求学生掌握扎实的理论知识,还要求学生具备实际操作能力。然而,传统的教学方式往往注重理论知识的传授,而忽视了对学生实践能力的培养。
2025-08-31目前各高校比较重视创业教育,为学生提供种类较多创业教育课程,使创业教育内容更为丰富和系统。现有创业教育课程通常是在各专业通识教育模块以必修课的形式设置,或者以专业选修的形式出现在人才培养方案之中,满足学生对创业知识、技能学习的要求。
2025-07-03基于全球商业环境格局大变化的背景,商科类涉外创新人才培养不仅要求学生掌握扎实的商业知识,熟谙商业行业基本技能,还要求学生具备开展国际业务的能力,而“应用型、地方性、开放性”是应用型本科高校的核心定位,学校理应发挥优势,在该领域积极探索,为新时代高质量教育体系的建设和形成发挥重要作用。
2025-05-07随着工业化进程加快和人类对环境的不合理利用,土壤污染问题日趋严重。面对严峻的土壤污染形势,国家相继出台《土壤污染防治行动计划》《土壤污染防治法》等政策法规,加快推进土壤污染防治工作。然而,相较于发达国家,我国在土壤污染修复领域起步较晚,因此迫切需要培养大量具备专业技能的人才。
2025-02-23在国际上,OBE理念已被广泛应用于各级各类教育,特别是在工程教育领域,许多国家都将OBE理念作为教育改革的重要方向[7-8]。在国内,随着高等教育改革的不断推进,OBE理念逐渐受到重视。目前,已有部分高校开始尝试将OBE理念应用于课程教学,并取得了一定的成效。
2025-02-112020年教育部发布《教育部办公厅关于推荐第二批新工科研究与实践项目的通知》,在以互联网、物联网为核心的新一轮科技和产业革命背景下,物联网专业成为与国家战略性新兴产业密切相关的专业[1]。而以智慧城市、智慧交通、智慧家居为主的智慧行业,是物联网方向的热点应用领域,同时对相关专业人才的需求呈现旺盛增长的态势。
2025-02-082024年9月召开的全国教育大会上,习近平总书记全面总结了新时代教育事业取得的历史性成就、发生的格局性变化,系统部署了全面推进教育强国建设的战略任务和重大举措[1]。作为教育大国,高等教育至关重要,同时伴随着新科技革命的兴起,大数据、人工智能、超级计算等新技术给传统工科带来人才培养新要求。
2025-02-08从学术研究现状来看,当前学界对电子文件归档的研究已取得了一定进展。有学者分析了组织机构视角下业务系统电子文件归档存在的主要问题,提出了应树立顶层设计、分类推进、数据资产管理、协同治理的归档理念[1]。还有学者提出了宏观集中管控与微观工具集成相结合的业务系统文件归档策略。
2025-02-08科学研究是人类对大自然规律和美的探索,论文写作与发表则是研究者对自然规律发现的总结、表述及传播。科学研究和论文写作都有很强的技巧性,科学研究、论文写作和论文发表中的细节和技巧决定了一切。科学研究方法与论文写作规范是一门训练科学研究思维和科技论文写作的课程。
2025-02-08先进设计与制造是制造业发展的重要方向,也是当前机械工程人才培养的重要内容。随着“中国制造2025”战略的实施,传统制造业向智能制造、高端装备制造转型的趋势更加迫切,对先进设计与制造人才培养提出了更高要求。作为先进设计与制造的最新发展趋势,智能制造对专业基础扎实、融合度高、创新能力强的高技能人才需求尤为显著。
2025-02-08人气:13332
人气:7387
人气:4435
人气:3954
人气:3334
我要评论
期刊名称:中国高等教育评估
期刊人气:946
主管单位:上海市教育委员会
主办单位:上海市教科院高教研究所,中国高等教育评估研究会
出版地方:上海
专业分类:教育
创刊时间:1986年
发行周期:季刊
期刊开本:16开
见刊时间:1-3个月
影响因子:1.371
影响因子:0.323
影响因子:0.307
影响因子:0.000
影响因子:1.435
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!