用Python复现贾俊平《统计学》第七版核心概念：从描述统计到假设检验的代码实战

张

张建站

2026/5/27 21:49:08

10分钟阅读

用Python复现贾俊平《统计学》第七版核心概念从描述统计到假设检验的代码实战统计学作为数据分析的基石其理论概念常因抽象晦涩让初学者望而生畏。贾俊平教授的《统计学》第七版虽体系完整但单纯记忆专业术语往往事倍功半。本文将通过Python代码具象化核心统计概念从数据描述到假设检验用可运行的示例打通理论与实践的任督二脉。无论你是挣扎于统计术语的数据科学新手还是希望巩固统计直觉的开发者这种代码即解释的学习方式都将带来全新认知体验。1. 描述统计的Python实现描述统计是数据探索的第一步其核心任务是通过指标和可视化呈现数据特征。传统教材常以公式罗列为主而我们将用pandas和matplotlib让这些概念活起来。1.1 集中趋势的可视化表达以某电商平台30天日销售额数据为例我们首先加载并计算关键指标import pandas as pd import numpy as np # 模拟日销售额数据单位万元 np.random.seed(42) sales np.random.normal(loc50, scale15, size30).round(1) sales_df pd.DataFrame(sales, columns[销售额]) # 计算描述性统计量 stats sales_df.agg([mean, median, std, min, max]) print(stats)输出结果将展示均值、中位数等关键指标。但数字本身缺乏直观性我们通过组合图表增强理解import matplotlib.pyplot as plt fig, ax plt.subplots(2, 1, figsize(10, 8)) # 箱线图展示分布特征 sales_df.boxplot(axax[0], vertFalse) ax[0].set_title(销售额分布箱线图) # 直方图与密度曲线 sales_df.plot(kindhist, bins8, densityTrue, alpha0.7, axax[1]) sales_df.plot(kindkde, axax[1], linewidth2) ax[1].axvline(sales_df.mean()[0], colorr, linestyle--, label均值) ax[1].axvline(sales_df.median()[0], colorg, linestyle:, label中位数) ax[1].legend() ax[1].set_title(销售额分布直方图) plt.tight_layout() plt.show()这段代码生动展示了**均值红色虚线**对极端值的敏感性**中位数绿色点线**的稳健性标准差反映的数据离散程度1.2 数据分布的量化分析贾俊平教材中提到的偏态和峰态系数可通过scipy快速计算from scipy.stats import skew, kurtosis print(f偏态系数: {skew(sales)[0]:.3f}) print(f峰态系数: {kurtosis(sales, fisherFalse)[0]:.3f})实际分析时建议结合统计量和可视化共同判断数据特征。例如当偏态系数绝对值大于1时数据可能已严重偏离正态分布。2. 概率分布与统计推断理解概率分布是统计推断的基础。传统教学中抽象的分布曲线通过Python可以转化为可交互的探索工具。2.1 常见分布的可视化比较对比正态分布、t分布和卡方分布的形态差异from scipy.stats import norm, t, chi2 import seaborn as sns x np.linspace(-5, 5, 500) plt.figure(figsize(10, 6)) # 绘制不同自由度的分布曲线 sns.lineplot(xx, ynorm.pdf(x), label标准正态分布) sns.lineplot(xx, yt.pdf(x, df3), labelt分布(df3)) sns.lineplot(xnp.linspace(0, 5, 100), ychi2.pdf(np.linspace(0, 5, 100), df2), label卡方分布(df2)) plt.title(常见统计分布形态对比) plt.legend() plt.show()运行这段代码你将直观看到t分布相比正态分布具有更厚的尾部卡方分布的非对称特性自由度参数如何影响分布形状2.2 中心极限定理的模拟验证通过模拟实验验证中心极限定理plt.figure(figsize(10, 6)) # 原始分布指数分布 original_dist np.random.exponential(scale1, size10000) sns.histplot(original_dist, kdeTrue, statdensity, label原始分布) # 抽样分布样本均值 sample_means [np.mean(np.random.exponential(scale1, size30)) for _ in range(10000)] sns.histplot(sample_means, kdeTrue, statdensity, label样本均值分布(n30)) plt.title(中心极限定理演示) plt.legend() plt.show()这个生动的演示说明即使原始数据非正态样本均值的抽样分布仍会趋近正态分布——这正是许多统计检验的理论基础。3. 参数估计的编程实现参数估计连接了描述统计与推断统计Python可以帮我们理解置信区间等抽象概念。3.1 置信区间的模拟计算以电商用户平均停留时长为例演示如何计算和解释95%置信区间from scipy.stats import sem, t # 模拟用户停留时长数据分钟 stay_time np.random.normal(loc8, scale2, size100) # 计算95%置信区间 confidence 0.95 n len(stay_time) mean_val np.mean(stay_time) std_err sem(stay_time) # 标准误 h std_err * t.ppf((1 confidence) / 2, n - 1) # 边际误差 print(f样本均值: {mean_val:.2f}分钟) print(f95%置信区间: ({mean_val - h:.2f}, {mean_val h:.2f}))运行结果可能显示95%置信区间: (7.62, 8.38)。这意味着如果我们重复抽样100次约有95次计算得到的区间会包含真实总体均值。3.2 自助法(Bootstrap)估计当传统参数方法假设不满足时可采用计算密集型方法def bootstrap_ci(data, funcnp.mean, n_bootstrap10000, ci95): 自助法计算置信区间 boot_samples np.random.choice(data, size(n_bootstrap, len(data)), replaceTrue) boot_stats np.apply_along_axis(func, 1, boot_samples) lower np.percentile(boot_stats, (100 - ci) / 2) upper np.percentile(boot_stats, 100 - (100 - ci) / 2) return lower, upper lower, upper bootstrap_ci(stay_time) print(f自助法95%置信区间: ({lower:.2f}, {upper:.2f}))自助法不依赖分布假设特别适用于复杂统计量的区间估计。4. 假设检验的实战演练假设检验是统计推断的核心工具下面用Python实现教材中的经典案例。4.1 单样本t检验完整流程检验某生产线包装重量是否符合标准500gfrom scipy.stats import ttest_1samp # 模拟生产线数据 weights np.random.normal(loc495, scale10, size30).round(1) # 执行t检验 t_stat, p_value ttest_1samp(weights, popmean500) print(ft统计量: {t_stat:.3f}) print(fp值: {p_value:.4f}) # 结果解读 alpha 0.05 if p_value alpha: print(拒绝原假设包装重量显著不等于500g) else: print(未能拒绝原假设无证据表明包装重量不等于500g)完整的假设检验应包含检验假设的明确表述显著性水平的确定检验统计量的计算决策规则的实施4.2 方差分析(ANOVA)的实现比较三种教学方法的效果差异from scipy.stats import f_oneway # 模拟三种教学方法的学生成绩 method_A np.random.normal(loc75, scale8, size30) method_B np.random.normal(loc82, scale7, size30) method_C np.random.normal(loc78, scale9, size30) # 单因素方差分析 f_stat, p_value f_oneway(method_A, method_B, method_C) print(fF统计量: {f_stat:.3f}) print(fp值: {p_value:.4f}) # 事后检验Tukey HSD from statsmodels.stats.multicomp import pairwise_tukeyhsd tukey_results pairwise_tukeyhsd( np.concatenate([method_A, method_B, method_C]), np.repeat([A, B, C], 30), alpha0.05 ) print(tukey_results)这个例子展示了方差分析的整体检验事后多重比较的方法如何解读各组间的具体差异5. 回归析的代码实践回归分析是统计学中最强大的工具之一下面用Python实现线性回归的全流程。5.1 一元线性回归的完整实现探究学习时间与考试成绩的关系import statsmodels.api as sm # 模拟数据 np.random.seed(42) study_hours np.random.uniform(1, 10, 50) exam_scores 50 5 * study_hours np.random.normal(0, 8, 50) # 构建模型 X sm.add_constant(study_hours) # 添加截距项 model sm.OLS(exam_scores, X) results model.fit() # 输出结果 print(results.summary()) # 可视化回归线 plt.figure(figsize(10, 6)) plt.scatter(study_hours, exam_scores, label实际数据) plt.plot(study_hours, results.predict(X), colorred, label回归线) plt.xlabel(学习时间(小时)) plt.ylabel(考试成绩) plt.legend() plt.show()回归结果摘要包含的关键信息R²衡量模型解释力系数估计值及其显著性F检验的p值5.2 回归诊断的自动化实现检查回归假设是否满足from statsmodels.stats.diagnostic import het_breuschpagan from statsmodels.stats.outliers_influence import variance_inflation_factor # 异方差检验 bp_test het_breuschpagan(results.resid, X) print(f异方差检验p值: {bp_test[1]:.4f}) # 残差正态性检验 from scipy.stats import shapiro shapiro_test shapiro(results.resid) print(f残差正态性检验p值: {shapiro_test[1]:.4f}) # 多重共线性诊断适用于多元回归 # VIF 1/(1-R²)大于10表明严重共线性完整的回归分析应包括模型诊断步骤确保结论的可靠性。