-
摘要:文章采用箱线图、散点图、皮尔逊相关系数、线性回归的方法和理论,对基于就餐大数据的大学生学业预警进行了研究,结果显示,早餐正常率、平均早度与不及格率呈现出相似的负相关关系;大一、大二、大三学生不及格率随着综合度的提升而下降,即早餐越规律、越早,不及格率越低。
关键词:学业预警;就餐大数据;大学生
由于高校扩招策略的实施,高校生师比悬殊,导致教辅人员不能全面跟踪、了解学生的生活,同时由于学生思维活跃,好奇心强,精力旺盛,易受到外界新奇事物的干扰,不能专心学习,每年都有相当比例的学生由于成绩差而被劝退,具体原因有沉迷游戏、自律性差等。另外,由于考试具有滞后性,考试后再进行挽救往往为时已晚。基于此,及时发现学习状态不佳的学生,是帮扶成功的前提条件。当前,怎样尽早地关注、帮扶这部分学生,已成为学校关心的重要问题。
当前,“一卡通”广泛应用于学生的校园生活,其中就餐大数据全面、准确地反映了学生的在校就餐情况。笔者认为,一个较长时段的就餐大数据可准确反映学生的生活态度、学习状态。基于早起、作息规律的学生有着积极向上、奋发进取的精神状态,反之,晚起、作息混乱的学生精神偏向萎靡的基本共识,本文以就餐大数据为基础,发现、构建相应变量、模型,预测成绩不及格率,筛选出可能的“高危”学生,以便提前采取措施予以帮扶。
一、文献综述
随着校园“一卡通”的推行和数字化校园的形成,许多教育者将目光转向校园大数据,希望通过广泛记录校园生活的校园大数据了解学生的学习状态。目前,这类研究逐渐形成了以“一卡通”数据和教务数据为主、后勤数据为辅,着重研究学生经济状况和学业状况的特点[1]。其中,屠佳琪等[2]以浙江大学为例,利用学生日常行为大数据,通过校园精准治理、科学辅助决策与智能模型服务三个场景,阐述了高校大数据服务体系在数据赋能业务中应用的有效性。吴瑞芳[3]通过分析目前智慧校园建设中大数据的应用现状和面临的挑战,提出了以数据为中心的智慧校园建设方案。孙素娜[4]探讨了大数据时代高校学生教育管理的多元路径。胡旭昊等[5]针对学生的学习、消费及身心健康等行为,在智慧校园及大数据技术的支持下,提出了学生行为分析及预警总体方案,并阐述了数据采集、行为分析、预警和可视化等相关算法及关键技术。刘占红等[6]立足大数据时代背景,阐述了做好高校学生管理工作的具体策略。周长龙[7]在大数据背景下对高校学生舆情管理工作进行讨论与分析。刘世昱等[8]针对大学生意识形态安全教育存在的问题,提出了建设兼具大数据素养和意识形态素养的思政课师资队伍、发展和完善适应大数据时代的思政课程、加强意识形态安全教育的监督管理等措施。
从现有的研究来看,基于可视化研究就餐大数据与学业成绩关系方面的研究领域尚是空白,因此本研究有一定的价值。
二、研究方法和理论
(一)箱线图(Box Plot)
箱线图用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较[9],如图1所示。
(二)散点图(Scatterplot)
散点图是指在回归分析中,数据点在坐标系平面上的分布图,可依据散点图因变量随自变量变化的大致趋势,选择合适的函数进行拟合。
通过观察散点图上数据点的分布情况,可以推断出变量间的相关性。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。数据的相关关系主要分为:正相关(两个变量值同时增长)、负相关(一个变量值增加另一个变量值下降)、不相关、强相关、弱相关等[10]。
(三)皮尔逊相关系数(Pearson Correlation Coeffi-cient)
在统计学中,皮尔逊相关系数(以下简称“相关系数”)用于度量两个变量X和Y之间线性相关的程度,其值介于-1与1之间。两个变量的相关系数定义为两个变量之间的协方差和标准差的商。

相关系数的变化范围为-1到1。相关系数绝对值越接近1,意味着X和Y之间的线性关系越强,相关系数的值为0,意味着两个变量之间没有线性关系。
(四)线性回归(Llinear Rregression)
线性回归是数理统计中用来确定两种或两种以上变量间相互依赖定量关系的一种统计分析方法,其表达形式为y=w'x+e,e为误差服从均值为0的正态分布。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
三、研究结果
某高校是一所综合性工科院校,拥有四年制的本科生1.3万余人,学校推行的“一卡通”准确记录了学生就餐的时间等信息。本研究使用近期某学年完整的就餐数据(共计230余万条)及该学年学生的成绩信息。
(一)早餐、中餐、晚餐正常率与不及格率的关系
不同年级学生的课业负担有较大区别,本研究分年级观察不及格率与早餐、中餐、晚餐正常率散点图,初步了解不及格率与早餐、中餐、晚餐正常率之间的关系。其中,早餐、中餐、晚餐正常率=该餐总次数/天数(∈[0-1]);不及格率=不及格门数/总门数(∈[0-1])。
如图2所示,大一、大二、大三学生的不及格率与早餐正常率散点分布明显呈现出“▲”形态且上部样本稀疏,下部样本稠密,总体上呈现出随着早餐正常率的提升,不及格率逐步下降的态势,而大四学生不及格率与早餐正常率散点分布中此种规律不明显。同时,四个年级学生的不及格率随中餐、晚餐正常率变化的规律不明显。基于散点图,能从总体上观察变量间变化规律,但细部比较散乱,为进一步探查不及格率与早餐、中餐、晚餐正常率之间的联系,将早餐、中餐、晚餐正常率每隔“0.25”分段,使用箱线图观察分段内不及格率的分布情况,以及比较各分段间的变化态势。
如图3所示,大一、大二、大三学生不及格率的上部异常值较高、较多,且随着早餐正常率的提升显著下降,中餐正常率也基本上呈现出这个规律;大一、大二、大三学生的不及格率随着晚餐正常率的提升变化的趋势不明显,原因在于晚餐时间比较充裕,较多的学生到校外就餐,其晚餐情况没能体现在“一卡通”数据中。大四学生的不及格率普遍较低,且随早餐、中餐、晚餐正常率的提升没有明显变化,原因在于大四学年课业负担不重,学生多在外实习,在校就餐时间不规律。概括而言,大一、大二、大三学生早餐正常率与不及格率有较强的负相关性,是一个容易观测的强相关信号,应重点参考;大四学生主要的课业已完成,同时进入本科最后阶段,预警的价值不大,故后续的研究不予关注。
不及格率—早餐、中餐、晚餐正常率分段箱线图较为直观地展现了早餐、中餐、晚餐正常率区段范围内不及格率的分布情况。由于同一正常率区段内不及格率的差异较大,不便于观测相关性,为使趋势清晰展现,可观察固定段的不及格率均值与早餐、中餐、晚餐正常率均值之间的关系,即样本以早餐(中餐、晚餐)正常率排序,从小到大每段包括固定个数样本(如100个),求取这段样本的早餐(中餐、晚餐)正常率均值及不及格率均值,并将其以散点图的形式展现。如图4所示,大一、大二、大三学生的不及格率随着早餐正常率段均值提升呈现出明显的线性下降态势,其线性相关率分别为-0.92、-0.89、-0.88;大一、大二、大三学生的不及格率随着中餐正常率段均值提升呈现出下降态势较弱,其线性相关率分别为-0.75、-0.77、-0.61;大一、大二、大三学生的不及格率随着晚餐正常率段均值提升呈现出下降态势更弱,其线性相关率分别为-0.32、-0.39、-0.38。
(二)早度与不及格率的关系
从以上分析可以看出,大一、大二、大三学生早餐正常率与不及格率有强相关关系,对于学业有强烈的预警作用,应予重点参考。但是早餐正常率只反映了早餐“吃不吃”,就餐的“早晚”没有体现。实际上就餐的“早晚”也反映了学生的学习、生活态度。俗话说“早起的鸟儿有虫吃”,下一部分研究关注学生早餐的“早晚”与不及格率之间的关系。关于早餐的“早晚”定义以下变量:早度=(10-t)/4,t为早餐刷卡时间6:00—10:00,均匀对应于1.0—0;平均早度=sum(早度之和)/有记录的天数(∈[0-1])。
首先,可以使用分段箱线图观察不及格率与平均早度的变化趋势。具体结果如图5所示,大一学生不及格率随着平均早度的提升呈明显下降态势;大二、大三学生不及格率随着平均早度的提升下降态势不是很明显。
其次,观察固定段的不及格率均值与平均早度之间的关系,求取这段样本的早度均值及不及格率均值,如图6所示(段样本数为100个)。
可见,大一、大二、大三固定段的不及格率均值与平均早度之间存在强负相关关系。
(三)综合度与不及格率的关系
根据上文所述,早餐正常率、平均早度与不及格率呈现出相似的负相关关系,而为了更加全面地反映早餐情况,将二者合成为:综合度∈[0-1]=早餐正常率×平均早度。不及格率—综合度分段箱线图如图7所示,可见,大一、大二、大三学生不及格率随着综合度的提升而下降,即早餐越规律、越早,不及格率越低。
使用段均值散点图并做线性回归,进一步了解不及格率与综合度之间的关系,样本以综合度升序排列,具体如图8所示(段样本数为100个)。
由相关系数可见,不及格率与综合度段均值之间呈现出强负相关性,且相较不及格率与早度段均值之间的相关性总体有所提升。
不及格率与综合度段均值线性回归显著性检验P值均小于0.01,方程分别为:大一学生不及格率=-0.254×综合度+0.139;大二学生不及格率=-0.218×综合度+0.087;大三学生不及格率=-0.149×综合度+0.058。
以综合度等于0.3作为作息正常的标准,同时将其作为比较标准,综合度等于0.1时不及格率上升的倍数如下:大一为0.80;大二为2.01;大三为2.24。即若综合度为0.1,将其判定为生活无规律、懒散,则大一、大二、大三学生的成绩不及格率将分别上升80%、201%、224%。实际操作中可以将0.1设为综合度的阈值,重点关注综合度小于0.1的学生。
四、讨论
本文的研究过程包括以下方面:第一,基于“一卡通”餐饮大数据,构建变量,使用散点图、箱线图等可视化手段分年级宏观观察不及格率与早餐、中餐、晚餐的关系;第二,发现能体现精神面貌的早餐正常度和早度与不及格率有强相关关系;第三,将早餐正常度与早度相乘,合成为综合度,能更全面地反映学生的精神面貌,相关系数表明不及格率与综合度的相关性更强;第四,不及格率与综合度二者的线性回归显著性强,线性回归表明综合度较低,不及格率将大幅度上升,对这部分学生应予以重点关注。
综上所述,就餐大数据能较为全面地体现学生的作息规律和精神风貌,合理地运用这部分数据,能高效地筛选出学业濒危的学生,学校可提前介入,采取挽救措施。
参考文献:
[1]吴胜男.校园大数据文献综述[J].上海管理科学,2018(1):119-125.
[2]屠佳琪,王冬梅,高焕江,等.智慧校园背景下高校大数据服务体系的研究[J].现代电子技术,2023,46(20):76-80.
[3]吴瑞芳.大数据背景下高校智慧校园建设研究与探索[J].中国信息化,2023(9):94-95.
[4]孙素娜.大数据时代高校学生教育管理的多元路径[J].中国多媒体与网络教学学报(中旬刊),2023(9):113-117.
[5]胡旭昊,韩成浩.基于校园大数据的学生行为分析及预警机制研究[J].信息记录材料,2023,24(9):65-68.
[6]刘占红,田静.基于大数据背景下高校学生管理工作分析研究[J].山西青年,2023(10):172-174.
[7]周长龙.大数据背景下高校学生管理工作的舆情研究[J].国际公关,2023(3):167-169.
[8]刘世昱,张铭宸.大数据时代大学生意识形态安全教育存在的问题及对策[J].沈阳建筑大学学报(社会科学版),2022,24(5):526-530.
[9]贾俊平.统计学[M].北京:中国人民大学出版社,2022:78-80.
[10]吴风庆.统计学[M].北京:科学出版社,2023:34-36.
| 后台-系统设置-扩展变量-手机广告位-内容正文底部 |
-
<< 上一篇
下一篇:没有了!