从Ridge到Lasso：一次搞懂正则化，用真实数据集带你选对模型

张

张建站

2026/6/2 14:28:16

10分钟阅读

从Ridge到Lasso金融风控中的正则化实战指南金融风控建模师李明最近遇到一个棘手问题——他手头的贷款违约预测数据集包含200多个特征包括用户收入、消费行为、社交网络等维度部分特征间存在明显相关性。当他尝试用传统线性回归建模时模型在训练集表现优异但上线后预测效果大幅下降。这让他意识到高维数据下的过拟合问题需要更专业的解决方案。1. 正则化原理深度解析1.1 过拟合的本质与正则化逻辑当特征维度(p)接近或超过样本量(n)时最小二乘法(OLS)估计会变得极不稳定。想象用100个样本拟合150个特征就像用少量点来拟合高次多项式曲线必然产生疯狂震荡的预测结果。正则化通过在损失函数中添加惩罚项来约束参数大小# 传统OLS损失函数 def ols_loss(y_true, y_pred): return np.sum((y_true - y_pred)**2) # Ridge回归损失函数 def ridge_loss(y_true, y_pred, beta, alpha): return ols_loss(y_true, y_pred) alpha * np.sum(beta**2) # Lasso回归损失函数 def lasso_loss(y_true, y_pred, beta, alpha): return ols_loss(y_true, y_pred) alpha * np.sum(np.abs(beta))关键区别Ridge的L2惩罚使系数均匀收缩Lasso的L1惩罚则可能产生精确零值1.2 几何视角下的参数约束从优化空间看两种正则化对应不同的约束区域Ridge的L2约束形成n维球体最优解通常出现在边界与等高线相切处Lasso的L1约束形成菱形多面体更易在顶点处取得解即产生稀疏性特性Ridge回归Lasso回归惩罚项形式L2范数L1范数解的性质稠密解稀疏解特征选择能力无有计算复杂度较低较高共线性处理优秀一般2. 金融风控场景下的实战对比2.1 数据集准备与预处理我们使用Lending Club的公开贷款数据包含以下特征工程步骤删除缺失率30%的特征对类别型特征进行WOE编码数值特征标准化处理划分训练集(80%)和测试集(20%)from sklearn.preprocessing import StandardScaler from sklearn.model_selection import train_test_split # 特征标准化 scaler StandardScaler() X_scaled scaler.fit_transform(X) # 数据集划分 X_train, X_test, y_train, y_test train_test_split( X_scaled, y, test_size0.2, random_state42)2.2 交叉验证调参实战通过5折交叉验证寻找最优正则化强度αfrom sklearn.linear_model import LassoCV, RidgeCV # Lasso调参 lasso_cv LassoCV(alphasnp.logspace(-3, 1, 100), cv5) lasso_cv.fit(X_train, y_train) # Ridge调参 ridge_cv RidgeCV(alphasnp.logspace(-3, 3, 100), cv5) ridge_cv.fit(X_train, y_train) print(fLasso最优alpha: {lasso_cv.alpha_:.4f}) print(fRidge最优alpha: {ridge_cv.alpha_:.4f})2.3 模型性能多维评估我们不仅关注MSE还需考虑业务可解释性预测精度测试集MSE、AUC-ROC模型复杂度非零系数数量稳定性系数路径一致性from sklearn.metrics import mean_squared_error # 预测评估 lasso_pred lasso_cv.predict(X_test) ridge_pred ridge_cv.predict(X_test) print(fLasso MSE: {mean_squared_error(y_test, lasso_pred):.4f}) print(fRidge MSE: {mean_squared_error(y_test, ridge_pred):.4f}) # 稀疏性分析 print(fLasso非零特征数: {np.sum(lasso_cv.coef_ ! 0)}) print(fRidge非零特征数: {np.sum(ridge_cv.coef_ ! 0)})3. 决策流程图何时选择哪种方法根据上百次金融风控建模经验我总结出以下决策原则特征选择需求强烈时→ 优先Lasso当特征维度100且预计大部分无关需要生成简洁的可解释报告特征间高度相关时→ 优先Ridge如用户的多维度消费行为指标需要保留所有特征的信息计算资源受限时→ 考虑RidgeLasso的坐标下降法在大数据量时较慢实际建议先用Lasso做特征筛选再用Ridge对重要特征建模4. 高级技巧与常见陷阱4.1 弹性网络(Elastic Net)的平衡之道当面临以下情况时可尝试α介于0-1之间的弹性网络特征间既有相关性又存在大量无关特征需要平衡L1和L2正则化的优势from sklearn.linear_model import ElasticNetCV en_cv ElasticNetCV(l1_ratio[.1, .5, .7, .9, .95, .99, 1], alphasnp.logspace(-3, 3, 50), cv5) en_cv.fit(X_train, y_train)4.2 系数路径分析的实战价值通过观察系数随α变化的轨迹可以识别强相关特征组同步变化的系数稳定重要特征早期进入模型的变量噪声特征波动剧烈的系数import matplotlib.pyplot as plt alphas lasso_cv.alphas_ coefs lasso_cv.mse_path_ plt.figure(figsize(10,6)) plt.plot(-np.log10(alphas), coefs.T) plt.xlabel(-log(alpha)) plt.ylabel(系数值) plt.title(Lasso系数路径分析) plt.show()4.3 业务场景下的特殊处理在金融风控中还需注意系数符号验证确保收入与违约概率负相关等业务逻辑特征重要性排序输出前20%的关键决策变量稳定性检查通过bootstrap抽样验证系数波动范围# Bootstrap稳定性检验 n_bootstraps 100 coef_samples [] for _ in range(n_bootstraps): idx np.random.choice(range(X_train.shape[0]), sizeX_train.shape[0], replaceTrue) lasso Lasso(alphalasso_cv.alpha_) lasso.fit(X_train[idx], y_train[idx]) coef_samples.append(lasso.coef_) coef_samples np.array(coef_samples) print(f关键系数95%置信区间:\n{np.percentile(coef_samples, [2.5, 97.5], axis0)})5. 模型部署与监控要点上线后需要建立以下机制预测偏差警报当实际违约率持续偏离预测值±15%时触发特征漂移检测每月统计特征分布KL散度变化系数稳定性报告季度性重新训练并对比系数变化# 特征漂移检测示例 from scipy.stats import entropy def kl_divergence(p, q): return entropy(p, q) # 比较当月与历史特征分布 current_dist np.histogram(X_live[:, feature_idx], bins50)[0] historical_dist np.histogram(X_train[:, feature_idx], bins50)[0] print(fKL散度: {kl_divergence(current_dist, historical_dist):.4f})在最近一次信用卡欺诈检测项目中Lasso帮助我们将特征从300个精简到35个关键指标同时保持AUC在0.92以上。但有趣的是当我们对这些关键特征使用Ridge回归时模型稳定性提升了18%。这印证了组合使用不同正则化方法的价值——先用Lasso做特征筛选再用Ridge对重要特征进行精细建模。

【Sora 2虚拟活动录制终极指南】：20年AI视频架构师亲授5大避坑法则与实时渲染优化秘技

更多请点击： https://intelliparadigm.com 第一章：Sora 2虚拟活动录制的核心架构与演进脉络 Sora 2并非OpenAI发布的模型，而是某企业级虚拟活动平台自研的第二代实时音视频录制与智能编排引擎。其核心架构以“端—边—云”三级协同为设计范式…...

2026/6/2 14:26:49 阅读更多 →

AI如何像专家一样阅读科学论文：多模态与不确定性建模实践

1. 项目概述：当AI成为科学文献的“金牌审稿人” 最近在跟几位做科研的朋友聊天，大家不约而同地提到了一个痛点：读文献，尤其是读那些前沿、复杂的科学论文，太耗神了。一篇动辄十几页的论文，核心结论可能就藏…...

2026/6/2 14:25:52 阅读更多 →

3分钟快速上手：ctfileGet城通网盘直连解析工具的完整使用指南

3分钟快速上手：ctfileGet城通网盘直连解析工具的完整使用指南【免费下载链接】ctfileGet 获取城通网盘一次性直连地址项目地址: https://gitcode.com/gh_mirrors/ct/ctfileGet 你是否厌倦了城通网盘繁琐的下载流程？ctfileGet正是为你量身打造的…...

2026/6/2 14:25:47 阅读更多 →

智能水印工具终极指南：如何批量为照片添加专业相机参数水印

智能水印工具终极指南：如何批量为照片添加专业相机参数水印【免费下载链接】semi-utils 一个批量添加相机机型和拍摄参数的工具，后续「可能」添加其他功能。项目地址: https://gitcode.com/gh_mirrors/se/semi-utils 还在为数百张照片手动添加相…...

2026/6/2 10:07:16 阅读更多 →

Go语言可扩展性设计：水平扩展

Go语言可扩展性设计：水平扩展1. 引言在互联网时代，业务的快速增长对系统的扩展性提出了极高的要求。水平扩展（Scale Out）作为分布式系统的核心设计理念，能够通过增加服务器节点来提升系统的整体处理能力。与垂直扩展&…...

2026/6/2 10:07:52 阅读更多 →

Claude Code Tool System 与 Permission 机制深度解析

代码解析 Claude Code Tool System 与 Permission 机制深度解析 0. 背景与定位 Claude Code 是一个运行在终端的 Agentic 编码工具，其核心能力来自工具系统（Tool System）——AI 通过调用工具与文件系统、Shell、网络、子 Agent 交互。而**权…...

2026/6/2 10:07:56 阅读更多 →