91学术服务平台

您好,欢迎来到91学术官网!站长邮箱:91xszz@sina.com

发布论文

论文咨询

基于智慧校园大数据分析的助学金发放评价系统设计

  2024-08-22    55  上传者:管理员

摘要:随着智慧校园建设的不断推进,助学金评定的信息化、数字化服务也应加快数字化转型,立足现有评价体系,细分助学金评价指标,建立数字化评价体系。采用基于自助采样的集成学习思想,通过构建多个决策树来解决助学金评定问题,并进行可视化系统搭建。预测结果表明,随机森林模型对于助学金评定具有一定的实用价值。

  • 关键词:
  • 助学金评定
  • 指标体系
  • 智慧校园
  • 综合评价算法
  • 随机森林模型
  • 加入收藏

随着智慧校园建设的不断推进,高校使用信息化、数字化服务已成为重要的管理运营方式之一。助学金的发放不仅是为资助的学生提供帮助,更是学校的一项社会责任。众多高校采用“学生自愿申请—班级民主评议—教师认定审核—学院最终批准”的模式,在该模式中,会出现收集信息不全面和一些人为、主观因素干扰,导致缺乏统一的量化标准,最终使得认定工作出现一定纰漏,造成“伪贫困生”这一群体出现。

本文设计的助学金发放评价系统旨在利用学生信息、家庭信息和社会实践等信息进行助学金评定,通过数据分析全方位展示学生个人数据和学业表现,为助学金评价提供有力数据保障,最终得出一份合理的助学金分配方案[1]。


1、综合评价算法优化


1.1 综合评价算法概述

综合评价是对事物或现象从多个角度、指标出发进行全面、客观、准确的评价和比较,考虑经济、社会、环境、技术等多方面因素,对各项因素进行合理权重分配,通过指标测算和归一化处理得出最终评价结果,为使用者提供全面客观的信息支持决策。

综合评价可以被应用于各行业,如教育、金融、医疗、环保、交通等领域。对于学生综合素质评价,可以从学术成绩、综合实践能力、人际交往能力、文化素养等多个角度出发进行评价,以更为全面地反映学生的综合素质;对于企业绩效评价,可以从财务、客户、内部流程、学习与成长等多个方面进行评价,以更全面了解企业的现状和未来发展情况[2]。

综合评价不像单一指标评价那样局限于某个维度,而是倡导全面、系统地考虑问题。常见的综合评价算法有简单加权法、层次分析法、灰色关联分析法、模糊评价法等。

1.2 优化思路:随机森林算法

随机森林(Random Forest)[3]是一种集成学习方法,如图1所示,通过构建多个决策树进行分类、回归或其他任务。在随机森林中,每个决策树的结果由投票或平均值来决定。

图1 集成学习思想

随机森林的基本思想是通过自助采样(Bootstrap Sampling)生成多个不同的采样集,再为每个采样集构建一棵决策树,构建过程中,只考虑部分特征子集来增加树之间的差异性,详见图2。

图2 随机森林思想

随机森林的随机性在于“样本随机”与“特征随机”。样本随机指采用从样本数据中采取有放回(Boostrap)随机抽取N个样本(因为是有放回抽取,有些数据可能被选中多次,有些数据可能一直没有被选上),每次取出的样本不完全相同,这些样本组成了决策树的训练数据集;特征随机是指假设每个样本数据都有M个特征,从所有特征中随机地选取m个特征(m<M),选择最佳分割属性作为节点建立CART决策树,决策树成长期间m的大小始终不变,在Python中构造随机森林模型时,默认采用来确定特征个数。

随机森林模型的基本步骤如下。

遍历随机森林的大小K次:从训练集T中有放回抽样的方式,取样N次形成一个新子训练集D。

随机选择m个特征,其中m<M。使用新的训练集NEW和m个特征,学习出一个完整的决策树,得到随机森林。

首先,定义数据集,其中每个样本,每个样本的标签为Yi∈R。对于一个随机森林模型,设集成了t棵决策树,第i棵决策树的输出为fi(x),包含的数据子集为Di,每个决策树都由一个基本的分类器组成。对于随机森林分类器F(x),其预测输出为:

式中:t为决策树个数。

随机森林中,每棵决策树都是通过对数据集进行随机抽样来训练的,即每个数据点都有被抽出和未被抽出的可能性。对于一个数据集S,从中进行随机抽样而得到的子集S′,其抽样概率为p,则可得到:

式中:k为子集的大小;n为数据集的大小;为不含某一个数据点的k个子集;为包含所有的k个数据点的子集。

在每个节点上,根据某些策略选择特征,如每个节点随机选择特征集中的一个特征进行分裂。这个特征集由问题的输入特征集生成;假设特征集为F,每个节点根据其中特征集合F的子集fk来进行分裂,则某个节点的特征选择概率即可表示为:

式中:|F|为特征集合F的大小。

算法测试则选取了某高校某学院于某学年提交的849份贫困申请数据。从招生处、教务处、后勤处、学工处、院系和财务处等部门获得学生数据并保存在数据库中。再对这些数据进行预处理,对于选取最优的参数,则利用网格搜索算法实现,它是用穷举搜索的思想,通过循环遍历,对所有候选参数进行组合,尝试每个可能的优劣,将表现最好的作为最终的参数。指标体系如表1所示,最终结果为最优参数12个。

表1 指标体系

对849个样本进行随机抽样选取训练样本,训练集与测试集样本数量之比为7∶3,而后进行模型训练并保存,对测试集的预测结果准确率为83.5%,具有较好的实际应用意义。

算法准确度比较如表2所示。将随机森林算法与其他相关算法如KNN、决策树算法等进行比较,其在该数据集上具有较高的准确度。总的来说,随机森林算法适用于助学金评价过程,它具有处理大规模数据集、高维数据、缺失值和异常值的鲁棒性,降低过拟合风险,处理噪声数据表现较好,自动特征选择等优点;缺点是占用较多内存和计算资源,训练时间长,结果难以解释和理解,对噪声和异常值敏感[4]。

表2 算法准确度比较


2、助学金评价系统设计


2.1 系统设计理念和实现方法

系统基于机器学习思想,通过训练和优化得出能更准确反映变量关系的预测模型,输入学生成绩、贫困状况和家庭情况等因素,采用随机森林算法进行分类,再通过交叉验证和网格搜索等方法提高泛化性能和预测精度。具体实现包括数据收集、预处理、模型构建、训练与应用。

2.2 系统数据来源

系统数据主要来源如下:通过调用学校API接口获取学生基本信息、行为记录和消费情况等关键数据;通过学生线上表单提交的家庭情况、联系方式、社会实践经历等信息,以便更好地了解学生情况并提供更准确的关怀。且所有数据经管理员审核,可保障信息安全;同时,创建索引提高查询效率,保证系统在高并发情况下快速、准确地响应用户请求。

2.3 数据预处理

数据预处理主要包括数据清洗、数据集成、数据变换等操作。数据清洗是预处理的关键步骤,旨在确保数据质量和准确性,清洗过程中,需要处理缺失值和异常值[5]。缺失值处理包括删除和填充,常用填充方式为选择最大值、最小值、均值、中位数等统计指标;异常值处理是用期望值替换离群点或异常值;数据集成是将不同来源和格式的数据整合成整体,包括关系型数据库的数据集成和文件格式转换等方式。需要统一数据格式,将不同数据源按照数据表的方式存储,如整合学生表、教师表、助学金信息表、学生家庭信息表等存入MySQL数据库表中。

数据变换是对原始数据进行操作和处理,以获得符合特定需求的新数据,旨在改善数据质量、结构、语义。由于学校API采集的原始数据涉及学生敏感信息,系统仅取代表性数据;数据脱敏分为静态数据脱敏(SDM)与动态数据脱敏(DDM),系统采用静态数据脱敏处理,即对学生信息的姓名、联系电话等字段进行无效处理,如将“张阿三”转为“张*三”,学号作为学生唯一标识,同时为确保数据分析结果的准确性,需要对不同特征的数据进行缩放处理,使数值落在一个特定区域,便于综合分析[6]。

2.4 系统前后端功能

评价系统的前端网页有主页、登录注册、助学金评价、关于我们4个部分。主页包含系统导航栏、轮播图和助学金相关政策等部分;用户需进行注册登录后方可使用系统;系统页面介绍了系统的基本流程和开发团队;助学金评价方面主要是信息填写与提交。部分页面见图3。

系统的后台管理系统主要由HTML、B/S结构、MySQL数据库、SSM框架组成。后台管理系统分为以下3个部分:①注册登录。管理员注册,登录进入管理系统,进行信息维护与前端内容修改等系列操作。②信息管理。管理员进入系统后可对登录系统人员情况、主页内容更新等进行动态操作,对前端站点的内容进行简单的可视化编辑,不需要烦琐的代码,保证信息的时效性。③助学金管理。管理员可对申请助学金的学生信息进行修改、驳回申请、更新相关助学金公示情况等。

图3 前端网页图示

2.5 系统改进方向

针对助学金发放评价系统的优化,可以从算法和网站设计2个方面入手。

在算法方面,可使用深度学习算法或神经网络算法来提高模型的准确率和鲁棒性。这些算法可以用于分类与预测学生情况,如通过卷积神经网络(CNN)模型提取学生照片特征来帮助识别贫困生[7]。在网站设计方面,可以细化前端网页组件并使用H5新特性来优化前端效果,加强前后端数据交互的安全性;后端则可使用实时数仓来代替MySQL以加快数据的ETL,利用Lambda架构提高处理速度,并逐步引入更加完善的大数据体系。


3、结束语


本文提出了一个基于大数据分析的助学金发放评价系统,并且在该系统中使用了随机森林算法来构建和处理框架。通过实验对比,该系统在多个评价维度上效果良好,以高准确率预测和评估助学金分配方案,有助于学校更精准地发放助学金,特别关注贫困学生群体。


参考文献:

[1]孙亚男.高校学生奖助学金预测系统应用研究[D].昆明:云南财经大学,2023.

[2]任春荣.“四个评价”的概念辨析与历史任务[J].中国民族教育,2021(6):17-20.

[3]失落的版图.随机森林详解(从决策树理解随机森林)[DB/OL]

[4]胡天宇.基于Spark的随机森林算法优化与并行化研究[D].济南:齐鲁工业大学,2019.

[7]张鑫,杨万祥,李小斌,等.卷积神经网络中批量规范化层的使用对地震数据去噪的影响分析[J].地球物理学进展,2024,39(1):183-196.


文章来源:杨婕,王斐凡,师超,等.基于智慧校园大数据分析的助学金发放评价系统设计[J].科技与创新,2024,(16):56-58+61.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

中国高等教育评估

期刊名称:中国高等教育评估

期刊人气:946

期刊详情

主管单位:上海市教育委员会

主办单位:上海市教科院高教研究所,中国高等教育评估研究会

出版地方:上海

专业分类:教育

创刊时间:1986年

发行周期:季刊

期刊开本:16开

见刊时间:1-3个月

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定