用Python+机器学习复现数学建模国赛A题：从问卷数据到健康建议的完整实战

张

张建站

2026/6/1 12:36:07

10分钟阅读

用Python机器学习复现数学建模国赛A题从问卷数据到健康建议的完整实战当一份包含数百个维度的居民健康调查数据摆在面前时如何从中提取出真正影响健康的关键因素这个问题困扰着许多数据分析师和公共卫生研究者。本文将以2023年数学建模国赛A题为例带你用Python和机器学习技术从原始问卷数据出发逐步构建完整的健康分析模型最终生成个性化的健康建议。我们将使用Pandas进行数据清洗和探索性分析借助Scikit-learn实现主成分分析(PCA)和SVM分类通过TensorFlow构建神经网络模型并利用Matplotlib和Seaborn实现可视化。整个过程不仅会复现题目要求的分析步骤还会分享实际工程化过程中的技巧和避坑指南。1. 数据预处理从原始问卷到分析矩阵拿到附件A2的原始数据后第一项挑战是如何将问卷中的定性回答转化为可计算的数值特征。例如吸烟情况可能包含从不、偶尔、经常等选项我们需要将其合理量化。import pandas as pd import numpy as np # 加载数据 raw_data pd.read_excel(A2.xlsx) # 分类变量编码 smoking_mapping {从不:0, 偶尔:1, 经常:2, 已戒:1} drinking_mapping {从不:0, 偶尔:1, 经常:2} diet_quality_mapping {很差:0, 较差:1, 一般:2, 较好:3, 很好:4} raw_data[吸烟量化] raw_data[B-吸烟情况].map(smoking_mapping) raw_data[饮酒量化] raw_data[C-饮酒情况].map(drinking_mapping) raw_data[饮食质量] raw_data[D-饮食情况].map(diet_quality_mapping)处理缺失值时需要根据特征性质选择不同策略对于分类变量使用众数填充对于连续变量使用中位数填充对于缺失率超过30%的特征考虑直接删除# 处理缺失值 from sklearn.impute import SimpleImputer # 分类变量用众数填充 cat_cols [职业, 文化程度] cat_imputer SimpleImputer(strategymost_frequent) raw_data[cat_cols] cat_imputer.fit_transform(raw_data[cat_cols]) # 连续变量用中位数填充 num_cols [年龄, 运动时间] num_imputer SimpleImputer(strategymedian) raw_data[num_cols] num_imputer.fit_transform(raw_data[num_cols])2. 饮食习惯合理性评估模型构建参考附件A3的膳食指南八准则我们需要建立量化评估体系。这里采用主成分分析(PCA)来确定各准则的权重而非简单平均。from sklearn.decomposition import PCA from sklearn.preprocessing import StandardScaler # 选取与膳食指南相关的特征 diet_features [谷物摄入, 蔬菜水果, 奶制品, 豆制品, 肉类比例, 盐摄入量, 油摄入量, 糖摄入量] # 标准化数据 scaler StandardScaler() diet_scaled scaler.fit_transform(raw_data[diet_features]) # PCA分析 pca PCA(n_components3) principal_components pca.fit_transform(diet_scaled) # 计算综合得分 weights pca.explained_variance_ratio_ diet_score np.dot(principal_components, weights) raw_data[饮食合理性得分] diet_score通过分析PCA结果我们可以发现主成分解释方差主要贡献特征PC145.2%蔬菜水果、豆制品PC228.7%盐摄入量、油摄入量PC315.3%谷物摄入、肉类比例提示PCA前务必进行标准化否则高量纲特征会主导分析结果3. 生活习惯与人口统计学因素的相关性分析问题二要求分析生活习惯与年龄、性别等因素的相关性。我们使用热力图可视化相关系数矩阵比单纯看数字更直观。import seaborn as sns import matplotlib.pyplot as plt # 选择分析特征 analysis_cols [年龄, 性别, 婚姻状况, 文化程度, 职业, 吸烟量化, 饮酒量化, 运动时间, 饮食质量] # 计算相关系数 corr_matrix raw_data[analysis_cols].corr() # 绘制热力图 plt.figure(figsize(12,8)) sns.heatmap(corr_matrix, annotTrue, cmapcoolwarm, center0) plt.title(生活习惯与人口因素相关性分析) plt.show()从热力图中可以明显看出吸烟与性别(男性)呈现强正相关(0.62)饮酒与文化程度呈现中等负相关(-0.41)运动时间与年龄呈现U型关系4. 慢性病风险预测模型开发针对问题三我们构建两个互补的模型灰色关联分析用于评估各因素与慢性病的相关程度神经网络用于预测患病风险。4.1 灰色关联分析from sklearn.preprocessing import MinMaxScaler # 准备数据 factors [吸烟量化, 饮酒量化, 饮食质量, 运动时间, BMI] disease raw_data[高血压].astype(float) # 以高血压为例 # 灰色关联分析函数 def grey_relation_analysis(series, reference): scaler MinMaxScaler() scaled_data scaler.fit_transform(pd.concat([series, reference], axis1)) relation [] for i in range(len(series.columns)): delta np.abs(scaled_data[:, i] - scaled_data[:, -1]) relation_coef (np.min(delta) 0.5*np.max(delta)) / (delta 0.5*np.max(delta)) relation.append(np.mean(relation_coef)) return pd.Series(relation, indexseries.columns) # 执行分析 gra_result grey_relation_analysis(raw_data[factors], disease) print(gra_result.sort_values(ascendingFalse))分析结果显示各因素与高血压的关联度排序为BMI (0.78)吸烟量化 (0.72)运动时间 (0.65)饮酒量化 (0.61)饮食质量 (0.59)4.2 神经网络模型from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, Dropout from sklearn.model_selection import train_test_split # 准备数据 X raw_data[factors] y raw_data[高血压] X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2) # 构建模型 model Sequential([ Dense(32, activationrelu, input_shape(len(factors),)), Dropout(0.2), Dense(16, activationrelu), Dense(1, activationsigmoid) ]) model.compile(optimizeradam, lossbinary_crossentropy, metrics[accuracy]) # 训练模型 history model.fit(X_train, y_train, epochs50, batch_size32, validation_data(X_test, y_test), verbose0) # 评估结果 plt.plot(history.history[accuracy], label训练集准确率) plt.plot(history.history[val_accuracy], label验证集准确率) plt.xlabel(Epoch) plt.ylabel(Accuracy) plt.legend() plt.show()经过50轮训练模型在验证集上达到82%的准确率。通过分析错误预测案例我们发现主要误判发生在同时具有多个中度风险因素的样本上。5. 居民分类与健康建议生成最后问题四要求对居民进行分类并提出建议。我们采用两阶段分类策略先用健康状况粗分再用饮食习惯细分。from sklearn.cluster import KMeans from sklearn.metrics import silhouette_score # 准备特征 cluster_features [饮食合理性得分, 吸烟量化, 饮酒量化, 运动时间, BMI] # 确定最佳聚类数 silhouette_scores [] for k in range(2, 6): kmeans KMeans(n_clustersk, random_state42) labels kmeans.fit_predict(raw_data[cluster_features]) silhouette_scores.append(silhouette_score(raw_data[cluster_features], labels)) best_k np.argmax(silhouette_scores) 2 # 从2开始 # 最终聚类 final_kmeans KMeans(n_clustersbest_k, random_state42) raw_data[健康类别] final_kmeans.fit_predict(raw_data[cluster_features]) # 分析各类别特征 cluster_profiles raw_data.groupby(健康类别)[cluster_features].mean() print(cluster_profiles)基于聚类结果我们可以为每个群体生成针对性建议类别1高风险群体特征饮食合理性得分低(2.1/5)吸烟量化高(1.8/2)BMI偏高(26.4)建议优先戒烟控制主食和油脂摄入每周至少3次有氧运动类别2中风险群体特征饮食中等(3.4/5)少量饮酒(1.2/2)运动不足(每周1.2小时)建议增加蔬菜摄入限制饮酒量建立规律运动习惯在实际项目中我们可以将这些建议模板化结合具体数值生成更个性化的健康指导。例如对于BMI特别高的个体可以额外强调体重管理的重要性。

Veo 2 4K生成实测对比：42组参数组合+18类场景验证，谁在悄悄偷走你的画质？

更多请点击： https://kaifayun.com 第一章：Veo 2 4K视频生成能力全景概览 Veo 2 是 Google 推出的第二代原生视频生成模型，专为高质量、长时序、高保真 4K 视频合成而优化。相比初代 Veo，其在时空一致性、物理合理性、文本-视觉对…...

2026/6/1 12:33:57 阅读更多 →

Joy-Con Toolkit：终极免费工具彻底解决Switch手柄三大痛点

Joy-Con Toolkit：终极免费工具彻底解决Switch手柄三大痛点【免费下载链接】jc_toolkit Joy-Con Toolkit 项目地址: https://gitcode.com/gh_mirrors/jc/jc_toolkit 还在为Switch手柄的摇杆漂移、电池焦虑和颜色单调而烦恼吗？Joy-Con Toolkit作为…...

2026/6/1 12:33:03 阅读更多 →

告别U盘传文件！手把手教你用iSCSI在CentOS 7上搭建共享硬盘（附targetcli配置详解）

告别U盘传文件！手把手教你用iSCSI在CentOS 7上搭建共享硬盘每次看到同事拿着U盘在服务器间来回拷贝数据，我都忍不住想推荐iSCSI这个神器。想象一下，把远程服务器的硬盘直接挂载到本地，像操作本地磁盘一样读写文件，还能…...

2026/6/1 12:25:40 阅读更多 →

智能水印工具终极指南：如何批量为照片添加专业相机参数水印

智能水印工具终极指南：如何批量为照片添加专业相机参数水印【免费下载链接】semi-utils 一个批量添加相机机型和拍摄参数的工具，后续「可能」添加其他功能。项目地址: https://gitcode.com/gh_mirrors/se/semi-utils 还在为数百张照片手动添加相…...

2026/5/31 0:06:17 阅读更多 →

Go语言可扩展性设计：水平扩展

Go语言可扩展性设计：水平扩展1. 引言在互联网时代，业务的快速增长对系统的扩展性提出了极高的要求。水平扩展（Scale Out）作为分布式系统的核心设计理念，能够通过增加服务器节点来提升系统的整体处理能力。与垂直扩展&…...

2026/6/1 0:54:56 阅读更多 →

Claude Code Tool System 与 Permission 机制深度解析

代码解析 Claude Code Tool System 与 Permission 机制深度解析 0. 背景与定位 Claude Code 是一个运行在终端的 Agentic 编码工具，其核心能力来自工具系统（Tool System）——AI 通过调用工具与文件系统、Shell、网络、子 Agent 交互。而**权…...

2026/6/1 3:24:00 阅读更多 →