学生考勤画像实战:从K-Means聚类到高危群体洞察,用数据读懂学生行为
前言在校园管理中考勤是反映学生行为习惯的重要窗口。但我们常常只能看到“谁迟到了”却难以识别迟到背后的行为模式是偶尔疏忽还是长期纪律涣散不同群体的违纪特征有何差异本次实践基于学生考勤记录利用K-Means聚类算法自动划分考勤群体并对重点关注的“纪律高危型”学生进行专项画像分析。整个过程在助睿数智Uniplore平台完成实现了零代码数据加工、建模与可视化非常适合数据分析教学与企业数据加工场景。第一部分实验一 — 考勤主题扩展标签构建K-Means聚类一、实验说明1. 实验目的基于已完成的学生考勤主题标签表student_attendance_stats使用K-Means聚类算法对学生考勤行为进行自动分群。通过迟到、早退、请假、校服违规次数等核心指标识别不同类型的考勤群体生成可解释的考勤画像为校园学生管理、行为分析提供精准数据支撑。2. 实验环境实验平台助睿在线实验平台https://lab.guilian.cn/本次实验使用助睿数智Uniplore作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能。本次实验主要用到以下功能平台数据集成平台助睿ETL、人工智能平台助睿AI、助睿BI数据可视化探索平台、MySQL数据库。前置数据学生考勤主题标签表student_attendance_stats二、实验数据本次实验使用上一实验输出的学生考勤主题标签表数据包含学生基础信息与考勤次数统计结果。核心字段包括学生ID、班级ID、迟到次数、早退次数、请假次数、没穿校服次数以及年级、性别、是否住校等学生属性字段。建模思路聚焦考勤行为核心指标将变量聚焦在迟到次数、早退次数、请假次数、校服违规次数四类行为维度每个维度直接反映一类考勤特征变量间业务含义独立、相关性低可直接用于K-Means聚类建模。考勤次数均为非负整数属于连续型变量满足K-Means对数据类型的要求无需进行哑变量编码或特殊转换。学生基础离散属性性别、年级、住校状态等不参与聚类建模仅作为后续画像标签的辅助解释变量。三、实验步骤1. AI Studio聚类建模1新建工作流点击左边菜单“人工智能”进入人工智能平台AI Studio进入人工智能模块用户空间。点击“” - “新建工作流”。人工智能模块页面主要包括菜单栏、控件列表以及画布三部分。2数据导入搜索“数据库加载”控件拖拽至画布。双击“数据库加载”控件将团队私有数据库的信息填入并点击“连接”。在弹出的窗口中点击下拉框选择student_attendance_stats。只需保留student_id、class_id、late_count、early_leave_count、leave_count、uniform_violate_count其他字段跳过skip。为保留的字段选择对应的属性类型student_id和class_id设为categorical四项次数设为numeric。右键数据库加载控件点击“运行该控件”。运行成功后可右键点击“查看输出结果”。3K-Means聚类建模拖入“K-Means”组件创建数据库加载组件到“K-Means”组件的连线。双击“K-Means”组件簇数量选择固定3个其他保持不变。右键运行该控件查看输出结果可以看到每个学生分别标记了对应的簇类C1/C2/C3。4结果输出与保存拖拽“数据入库”组件到画布创建“K-Means”到“数据入库”的连线。双击“数据入库”组件选择“新建数据表”表名称修改为“student_cluster”。运行工作流各控件均运行成功则工作流运行成功。2. 分析聚类簇编号对应的考勤群体分类点击左边菜单“助睿BI”进入助睿BI平台。1连接数据源点击“数据源” - “” - “新建连接” - “MySQL”。输入数据库连接账号信息点击“测试连接”。点击新建的数据库目录可以看到本次实验所用的表。2构建数据集点击“数据集” - “” - “新建数据集”输入名称后确认。数据集创建成功后自动跳转配置页面选择数据源和对应目录将student_cluster拖拽至画布。将字段备注修改为中文学生ID、班级ID、迟到次数、早退次数、请假次数、没穿校服次数、聚类簇编号、轮廓系数。点击“保存” - “保存并发布”。3制作工作表点击“工作表” - “” - “新建分组”输入分组名称。右键点击分组 - “新建工作表”输入工作表名称。自动跳转到工作表设计页面数据集选择“聚类簇编号数据集”图表类型选择“探索器”。将“迟到次数”拖到X轴“早退次数”拖到Y轴点击图形设置颜色区域点击“”选择“聚类簇编号”。信息区域点击“”选择“学生ID”并将“学生IDstudent_id设置为”维度“。设置聚类簇编号的颜色切换对比强烈的主题。点击保存。同样的方式依次制作迟到与请假次数的聚类簇分析、迟到与没穿校服次数的聚类簇分析、早退与请假次数的聚类簇分析、早退与没穿校服次数的聚类簇分析、请假与没穿校服次数的聚类簇分析。4搭建仪表盘点击“仪表盘” - “” - “新建仪表盘”输入名称。拖拽一个文本组件到画布输入“聚类簇分析”设置字体颜色、大小、加粗、居中。关闭组件窗口后切换到“工作表”将制作的6个工作表都拖拽至画布中调整大小和布局。点击保存并发布。5聚类群体画像解读结合6组两两指标散点图的分布特征为C1、C2、C3赋予业务含义C1蓝色自律模范型数据点高度集中在低频次区间无明显离群值。这类学生出勤稳定、纪律意识强是校园考勤行为的正面典型。C2青色轻微波动型整体数据点集中在低频次区间但分布略散存在轻微的校服违规或请假行为。这类学生整体纪律可控属于需要日常提醒的群体。C3黄色纪律高危型数据点呈现明显“离群特征”存在大量高频迟到记录且伴随不同程度的早退、请假或校服违规行为。这类学生是校园管理中需要重点关注和干预的核心对象。3. 将映射结果加入学生考勤主题标签表1新增扩展字段进入上一个实验在数据集成平台中创建的ETL项目新建转换流“增加考勤主题扩展标签字段”。拖拽“执行一个SQL脚本”组件到画布输入SQLALTER TABLE student_attendance_statsADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT 聚类簇编号,ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT 考勤群体分类;2聚类簇编号数据获取创建转换流“增加考勤群体分类标签”。拖拽“表输入”组件从student_cluster表获取数据。3字段选择拖拽“字段选择”组件只保留student_id和Cluster字段。将student_id类型修改为Integer。4聚类簇编号映射拖拽“值映射”组件将C1映射为“轻微波动型”C2映射为“自律模范型”C3映射为“纪律高危型”。5更新学生考勤主题标签拖拽“更新”组件配置目标表为student_attendance_stats通过student_id匹配更新cluster和attendance_group字段。运行转换流执行成功即可。6查看结果在团队私有数据库中点击student_attendance_stats表并查询可以看到cluster和attendance_group字段已成功更新。4.实验总结本次实验基于学生考勤次数数据通过K-Means聚类算法完成学生考勤群体自动划分精准划分出自律模范型、轻微波动型、纪律高危型三类学生群体。最终将聚类标签回写至原始考勤表完成考勤主题扩展标签构建为校园学生精细化管理提供了可靠的数据支撑。第二部分实验二 — 纪律高危型学生画像可视化分析一、实验说明基于已完成K-Means聚类并标注考勤群体的学生考勤主题标签表本实验聚焦“纪律高危型”群体分析其行为特征。该群体存在高频违纪、多维度异常叠加等行为是校园考勤管理中风险最高、影响最大的群体。通过专项画像分析可为精准干预提供数据支撑。二、实验数据数据源为student_attendance_stats学生考勤主题标签表该表已包含聚类簇编号和考勤群体分类字段。三、实验步骤1. 进入助睿BI并构建数据集点击左边菜单“助睿BI”。由于上一实验已创建数据源连接可直接使用。点击“数据集” - “” - “新建数据集”将student_attendance_stats拖拽至画布保存并发布。2. 制作工作表点击“工作表” - “” - “新建分组”命名为“学生考勤主题分析”。1整体概况指标卡新建工作表“纪律高危型人数”图表类型选择“指标卡”。将“学生ID”拖拽到值聚合方式选“去重计数”。添加过滤器attendance_group包含“纪律高危型”。调整样式边距16标题字体16红色居中值字体30红色粗体居中。保存并发布。同样的方式分别制作“纪律高危型男生人数”筛选性别男、“纪律高危型女生人数”筛选性别女、“纪律高危型未知性别人数”筛选性别未知。从整体指标卡可以看到纪律高危型学生总人数为349人其中男生34人、女生18人、未知性别197人。2性别特征分析新建工作表“纪律高危型学生男女人数占比”图表类型选“饼图”。将“学生ID”拖到值去重计数“性别”拖到分类。过滤器排除“未知”且attendance_group包含“纪律高危型”。样式设置标签显示百分比内环大小50%。新建工作表“全校学生男女人数占比”同样制作饼图只需排除“未知”不加考勤群体过滤。分析结论排除未知性别数据后全校男生占比53.03%女生46.97%纪律高危型中男生占比65.38%女生34.62%。男生在高危群体中占比偏高说明男生考勤违纪真实风险更高。3年级特征分析新建工作表“纪律高危型学生年级特征分析”图表类型选“柱状图”。X轴放“年级”Y轴放“学生ID”去重计数。过滤器添加attendance_group包含“纪律高危型”。分析高三年级高危人数最多高一高二相对较少可能与升学压力、课程安排调整有关。4校区年级交叉特征分析新建工作表“纪律高危型学生校区类型与年级交叉特征分析”在年级分布柱状图基础上将“校区类型”拖拽到分组形成堆叠柱状图。分析老校区各年级高危人数均高于新校区高三老校区261人达峰值。新校区仅高一10人、高二19人高三无学生分布。5不同校区类型各年级学生人数新建工作表“不同校区类型各年级学生人数”制作堆叠柱状图不加过滤器。数据高一老校区1021人/新校区148人高二老校区1079人/新校区295人高三老校区1883人/新校区无学生。结合分析高三老校区是高危行为绝对高发区新校区整体风险可控。6班级特征分析新建工作表“纪律高危型学生班级特征分析”图表类型选“水平条图”。Y轴放“班级名称”X轴放“学生ID”去重计数。过滤器添加attendance_group包含“纪律高危型”。将学生ID按降序排序。分析高危学生高度集中在少数班级高三13班最多33人其次为高三09班、高二13班等呈现明显班级聚集性。3. 搭建综合仪表盘点击“仪表盘” - “” - “新建仪表盘”输入名称“纪律高危型学生用户画像分析”。拖拽文本组件作为标题。切换到“工作表”将以上制作的指标卡、饼图、柱状图、水平条图全部拖拽至画布调整大小和布局。将分析结论用“文本”组件呈现在仪表盘中。点击“发布”保存点击“预览”全屏查看。点击“分享”可生成链接分享给他人。访问地址http://47.109.153.89/#/share/dashboard/2059654183614812160四、纪律高危型学生画像分析总结整体概况纪律高危型学生存在高频迟到、早退、请假及校服违规行为多维度违纪叠加是校园考勤管理中最需重点关注的群体。核心特征性别特征男生为高危群体主体占比显著高于女生年级特征高度集中于高年级随年级升高明显上升校区特征高度集中在老校区新校区风险较低班级特征存在明显班级聚集性集中在少数管理薄弱班级管理建议重点关注高年级男生群体针对性开展考勤纪律教育加强老校区高年级管理优化通勤监督营造严谨学风整治高危学生集中班级加强班主任监管力度建立高危学生台账家校联动制定个性化矫正方案结语通过以上两个实验我们完成了从K-Means聚类建模到高危群体专项画像分析的完整流程。整个过程在助睿数智平台上零代码实现充分体现了数据驱动决策在校园精细化管理中的价值。希望这篇实践文章能为正在学习商业数据分析的同学们提供参考。如有问题欢迎交流讨论