强化学习前置：监督学习与无监督学习

张

张建站

2026/5/8 8:07:39

10分钟阅读

一、监督学习基于带标签的训练数据集学习输入特征 X 到输出标签 Y 的映射关系通俗来说就是 “有标准答案的学习”—— 训练数据中每个样本都有明确的输入和对应的正确输出模型的目标是拟合这个映射最终对无标签的新样本做出准确预测。1.核心任务分类 vs 回归任务类型核心定义输出形式典型场景经典算法回归任务拟合数据的连续变化趋势预测连续数值连续实数房价预测、销量预测、股票价格预测、温度预测线性回归、岭回归 / Lasso、决策树回归、SVR、XGBoost 回归分类任务学习决策边界划分样本所属的离散类别离散类别标签二分类垃圾邮件识别、癌症良恶性判断多分类手写数字识别、图像分类、语音识别逻辑回归、SVM、决策树、随机森林、XGBoost、CNN/Transformer2. 损失函数损失函数是监督学习的优化核心用于量化模型预测值与真实标签之间的误差模型训练的本质就是最小化损失函数。它分为经验损失训练集上的平均误差和结构损失经验损失正则项用于抑制过拟合。回归任务主流损失函数均方误差MSE最常用的回归损失特点是对大误差异常值有强惩罚梯度随误差减小而衰减适合误差服从正态分布的场景缺点是对异常值极度敏感。平均绝对误差MAE特点是对异常值鲁棒梯度全程恒定缺点是零点处不可导收敛速度慢于 MSE。Huber 损失折中 MSE 与 MAE误差小于预设阈值时用 MSE保证梯度平滑大于阈值时用 MAE抑制异常值影响兼顾收敛性与鲁棒性。分类任务主流损失函数交叉熵损失Cross Entropy分类任务的绝对主流核心是衡量两个概率分布的差异预测与真实标签差距越大惩罚越重梯度更新效率远高于 MSE。二分类交叉熵BCE适配 sigmoid 激活输出公式为多分类交叉熵CE适配 softmax 激活输出公式为合页损失Hinge LossSVM 的核心损失公式为核心目标是最大化分类间隔强制正确分类的样本置信度满足阈值要求。3. 过拟合与泛化能力泛化能力是机器学习的终极目标指模型在未见过的新数据测试集上的稳定表现能力—— 我们需要的不是模型在训练集上 “考满分”而是在真实场景的新数据上保持高准确率。过拟合模型在训练集上损失极低、准确率极高但在测试集上表现断崖式下跌。核心原因是模型过度学习了训练集中的噪声、随机波动和样本专属特征而非数据的通用规律。欠拟合与过拟合相反模型在训练集和测试集上表现都很差核心是模型复杂度过低连数据的基础规律都没有学到。典型场景用线性模型拟合非线性分布的分类数据。核心成因针对性解决方案模型复杂度过高参数量远大于有效样本量降低模型复杂度、加入正则化L1/L2 权重衰减、Dropout 随机失活训练数据量不足、噪声过多、分布不均扩充训练数据、数据增强、清洗噪声数据、平衡样本分布训练轮次过多模型 “记住” 了训练样本早停Early Stopping验证集性能不再提升时终止训练特征维度过高冗余特征过多特征筛选、降维、交叉验证K 折交叉验证评估泛化能力二、无监督学习无监督学习不需要标记数据它通过分析数据内在的结构和模式来发现数据中的规律1. 聚类目标是将数据样本划分为多个簇Cluster使得同一簇内的样本相似度最大化不同簇之间的相似度最小化。关键区分聚类的类别是模型从数据中自主发现的而非人工预定义这是它与分类任务的本质区别。经典算法K-Means最常用基于欧式距离的聚类需预设簇数 K、DBSCAN基于密度的聚类可发现任意形状的簇自动处理噪声样本、层次聚类生成树状聚类结构无需预设簇数、高斯混合模型 GMM基于概率分布的软聚类。典型应用用户分群、异常检测、图像分割、基因序列分类、文本主题聚类。2. 降维核心目标是将高维特征数据映射到低维空间同时最大化保留数据的核心信息与内在结构解决 “维度灾难” 问题 —— 高维数据存在样本稀疏、计算量爆炸、过拟合风险陡增、无法可视化等问题。线性降维主流主成分分析 PCA最经典的降维算法通过正交变换找到数据中方差最大的一组正交主成分用最少的维度保留最多的原始信息常用于数据可视化、特征降噪、加速模型训练。线性判别分析 LDA有监督降维核心是最大化类间距离、最小化类内距离常用于分类任务的前置特征提取。非线性降维t-SNE高维数据可视化的首选擅长将高维数据映射到 2/3 维空间完美保留数据的局部邻接结构缺点是计算量大不适合大规模数据。UMAP比 t-SNE 更快同时保留数据的全局与局部结构适配大规模数据与下游任务特征提取。核 PCAKPCA通过核技巧处理非线性分布的数据适配复杂结构的降维需求。3. 其他核心无监督任务密度估计估计数据的潜在概率分布经典方法包括核密度估计 KDE、高斯混合模型 GMM核心应用是异常检测概率密度极低的样本即为异常。关联规则挖掘发现数据中特征之间的隐含关联关系经典算法包括 Apriori、FP-Growth典型应用是超市购物篮分析如 “购买啤酒的用户大概率同时购买尿布”。无监督表征学习深度学习时代的核心无监督方向通过重构输入数据学习紧致、通用的低维特征经典模型包括自编码器 AE、变分自编码器 VAE、对比学习模型SimCLR、MoCo为下游分类、检测等任务提供优质的预训练特征。

Docker——安装配置与使用

文章目录前言Docker详解Docker简介docker和传统虚拟机区别Docker架构Docker安装检查系统信息更新依赖导入 Docker 官方密钥添加 Docker 源安装 Docker启动并加入开机启动配置国内镜像加速测试启动状态Docker 镜像指令镜像搜索拉取镜像查看本地镜像删除本地镜像Docker 容器指令启…...

2026/5/8 8:06:47 阅读更多 →

博士论文10万字降AI率成本核算：4款工具单价段对比详解！

博士论文10万字降AI率成本核算：4款工具单价段对比详解！ 博士论文一般 8-15 万字，平均 10 万字。降 AI 率成本是博士同学最关心的话题之一——博士奖学金一般 3000-5000 元/月，工具费如果占月生活费一半以上压力很大。本文给 4 款…...

2026/5/8 7:55:01 阅读更多 →

构建代码知识图谱：从AST解析到可视化分析的工程实践

1. 项目概述：当代码库成为迷宫，我们需要一张地图如果你在一个中大型项目里待过一段时间，或者刚接手一个陌生的、动辄几十万行代码的遗产系统，你大概率经历过这种痛苦：想找一个特定功能的实现，却像在迷宫里…...

2026/5/8 7:48:36 阅读更多 →

UVa 173 Network Wars

题目分析本题设定在 212621262126 年，彗星 Swift‑Tuttle\texttt{Swift‑Tuttle}Swift‑Tuttle 撞击地球后，网络中的部分链接被切断，同时一些 AI\texttt{AI}AI 程序发生了变异。两个程序 Paskill\texttt{Paskill}Paskill 和 Lisper\texttt{…...

2026/5/7 22:23:35 阅读更多 →

MA-EgoQA：多智能体第一视角视频问答基准解析

1. 项目背景与核心价值在计算机视觉与自然语言处理的交叉领域，视频问答（VideoQA）一直是极具挑战性的研究方向。而当我们把视角聚焦在第一人称视频（Egocentric Video）时，问题会变得更加复杂——这类视频通常…...

2026/5/7 22:23:34 阅读更多 →

别再死记硬背DDR4时序参数了！用Python脚本自动解析JESD79-4标准文档，生成你的专属配置表

用Python解放DDR4开发：从JESD79-4标准文档自动生成配置工具当第一次打开JESD79-4标准文档时，大多数硬件工程师都会感到一阵眩晕——数百页的技术规范、错综复杂的时序参数、晦涩难懂的寄存器配置，这些内容不仅难以记忆，更在具体项…...

2026/5/7 22:23:36 阅读更多 →

Adobe扩展安装难题如何解决？ZXPInstaller让.zxp文件安装变得智能高效

Adobe扩展安装难题如何解决？ZXPInstaller让.zxp文件安装变得智能高效【免费下载链接】ZXPInstaller Open Source ZXP Installer for Adobe Extensions 项目地址: https://gitcode.com/gh_mirrors/zx/ZXPInstaller 还在为Adobe扩展安装而头疼吗？A…...

2026/5/7 22:23:28 阅读更多 →