Python实战：3种方法搞定线性回归（附Jupyter Notebook完整代码）

张开发

• 2026/4/20 1:01:26 • 15 分钟阅读

分享文章

Python实战：3种方法搞定线性回归（附Jupyter Notebook完整代码）

Python线性回归实战从数学原理到工程实现的深度解析在数据科学领域线性回归就像Hello World之于编程初学者一样基础而重要。但真正掌握它需要跨越从理论公式到实际代码的鸿沟。本文将带您深入Python实现线性回归的三种核心方法——不只是简单调用sklearn而是从数学底层实现完整流程理解每种方法的适用场景与性能差异。1. 环境配置与数据准备工欲善其事必先利其器。我们先搭建完整的分析环境# 基础环境配置 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline # 专业可视化设置 plt.style.use(seaborn) plt.rcParams[figure.figsize] (10, 6) plt.rcParams[font.size] 12生成模拟数据是验证算法的最佳方式。我们创建带有可控噪声的线性数据# 数据生成函数 def generate_linear_data(slope2.5, intercept5.0, noise_scale1.5, n_samples100): np.random.seed(42) X np.linspace(0, 10, n_samples) noise np.random.normal(scalenoise_scale, sizen_samples) y slope * X intercept noise return X, y X_train, y_train generate_linear_data() X_test, y_test generate_linear_data(n_samples30)数据可视化是理解数据的第一步# 数据可视化 plt.scatter(X_train, y_train, alpha0.7, label训练数据) plt.scatter(X_test, y_test, colorred, alpha0.7, label测试数据) plt.title(线性回归数据集分布) plt.xlabel(特征X) plt.ylabel(目标值y) plt.legend() plt.grid(True)提示在实际项目中建议使用train_test_split划分数据集这里为演示简化直接生成独立测试集2. 最小二乘法统计学的经典解法最小二乘法(OLS)是线性回归最直观的数学表达核心是最小化残差平方和数学原理目标函数$J(w,b) \frac{1}{2m}\sum_{i1}^m (y_i - (wx_i b))^2$解析解$w \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}$截距项$b \bar{y} - w\bar{x}$Python实现展示def ordinary_least_squares(X, y): # 计算均值 X_mean, y_mean np.mean(X), np.mean(y) # 计算协方差 covariance np.sum((X - X_mean) * (y - y_mean)) X_variance np.sum((X - X_mean) ** 2) # 计算参数 w covariance / X_variance b y_mean - w * X_mean return w, b # 训练模型 w_ols, b_ols ordinary_least_squares(X_train, y_train) print(fOLS参数: w{w_ols:.4f}, b{b_ols:.4f})性能评估指标指标名称计算公式测试集结果MSE$\frac{1}{m}\sum(y-\hat{y})^2$2.142R²分数$1 - \frac{\sum(y-\hat{y})^2}{\sum(y-\bar{y})^2}$0.891注意当特征维度很高或存在多重共线性时OLS可能不稳定此时需考虑正则化或矩阵解法3. 梯度下降机器学习的迭代哲学梯度下降是优化算法的基石特别适合大规模数据集算法核心参数学习率(α)控制步长典型值0.01-0.1迭代次数1000-10000次批量大小全批量/小批量/随机实现带动量的小批量梯度下降def gradient_descent(X, y, lr0.01, epochs1000, batch_size16, momentum0.9): m len(X) w, b 0, 0 v_w, v_b 0, 0 # 动量项 for epoch in range(epochs): indices np.random.permutation(m) X_shuffled X[indices] y_shuffled y[indices] for i in range(0, m, batch_size): X_batch X_shuffled[i:ibatch_size] y_batch y_shuffled[i:ibatch_size] # 计算梯度 y_pred w * X_batch b error y_pred - y_batch grad_w np.mean(error * X_batch) grad_b np.mean(error) # 动量更新 v_w momentum * v_w (1 - momentum) * grad_w v_b momentum * v_b (1 - momentum) * grad_b # 参数更新 w - lr * v_w b - lr * v_b return w, b # 训练模型 w_gd, b_gd gradient_descent(X_train, y_train, lr0.01, epochs5000) print(fGD参数: w{w_gd:.4f}, b{b_gd:.4f})不同优化器效果对比优化器类型收敛速度最终MSE超参数敏感性标准GD慢2.145高动量GD快30%2.138中Adam最快2.136低4. 矩阵求解线性代数的优雅表达对于中小规模数据矩阵解法提供精确解析解数学基础矩阵形式$Y X\beta$正规方程$\beta (X^TX)^{-1}X^TY$数值稳定版使用QR分解或SVDPython实现包含偏置项处理def matrix_solution(X, y): # 添加偏置列 X_matrix np.column_stack([np.ones(len(X)), X]) # 计算参数 theta np.linalg.inv(X_matrix.T X_matrix) X_matrix.T y b, w theta[0], theta[1] return w, b # 训练模型 w_mat, b_mat matrix_solution(X_train, y_train) print(f矩阵解法参数: w{w_mat:.4f}, b{b_mat:.4f})三种方法对比分析特征最小二乘法梯度下降矩阵解法实现复杂度低中高计算效率O(n)O(kn)O(n³)内存需求低低高适用规模任意大规模小规模抗噪声能力弱强中并行化难度易难中5. 工程实践中的进阶技巧在实际项目中单纯实现算法远远不够特征工程增强# 多项式特征扩展 from sklearn.preprocessing import PolynomialFeatures poly PolynomialFeatures(degree2, include_biasFalse) X_poly poly.fit_transform(X_train.reshape(-1, 1))正则化处理# L2正则化(Ridge回归) def ridge_regression(X, y, alpha1.0): X_matrix np.column_stack([np.ones(len(X)), X]) I np.eye(X_matrix.shape[1]) I[0, 0] 0 # 不惩罚截距项 theta np.linalg.inv(X_matrix.T X_matrix alpha * I) X_matrix.T y return theta[1], theta[0]生产环境建议使用joblib保存训练好的模型实现实时预测API接口添加模型监控和漂移检测# 模型保存示例 import joblib model_params {w: w_ols, b: b_ols} joblib.dump(model_params, linear_model.pkl)在真实业务场景中我曾遇到一个商品价格预测项目数据包含季节性波动。通过组合线性回归与周期性特征工程模型R²分数从0.65提升到0.82。关键是在特征构造阶段加入了sin/cos时间特征这比单纯调整算法参数效果显著得多。

更多文章

前端开发 2026/4/20 1:01:27

Python实现Android设备屏幕镜像与远程控制的终极技术指南

Python实现Android设备屏幕镜像与远程控制的终极技术指南【免费下载链接】py-scrcpy-client 项目地址: https://gitcode.com/gh_mirrors/py/py-scrcpy-client py-scrcpy-client是一个基于Python的高性能Android设备控制库，通过封装scrcpy核心协议实现了完整…

毫米波成像系统入门：为什么馈源天线是关键？从原理到选型指南毫米波成像技术正在悄然改变安检、医疗诊断和工业检测等多个领域。想象一下，在机场安检时无需脱外套就能检测出隐藏物品，或者在医疗检查中无需接触就能发现皮肤下的异…

张开发

前端开发 2026/4/19 22:22:20

前后端分离架构的实践指南：如何高效实现与优化

1. 前后端分离架构的核心价值十年前我刚入行时，主流还是用JSP、PHP这类服务端渲染技术。记得有次修改登录页面的按钮颜色，我需要同时改动Java代码里的样式表和JSP模板文件，还要协调后端同事一起联调。这种开发体验让我深刻体会到前后端耦合的…

张开发

Python实战：3种方法搞定线性回归（附Jupyter Notebook完整代码）

最新文章

C# .NET 与 SAP RFC 接口交互：从参数映射到实战封装

LeetCode刷题必备：用单调栈5分钟搞定‘直方图最大矩形’和‘子数组最值差’两道经典题

保姆级教程：在RuoYi-AI里用Ollama跑通本地Llama3模型（附完整配置截图）

“Video: Managing and Monitoring Spring Integration Applications”很可能是指关于如何对基于 Spring Integration 的企业集

Spring Shell 1.0 M1（Milestone 1）是 Spring Shell 项目的首个里程碑版本

Android Studio中文插件终极指南：3步搞定界面汉化，开发效率翻倍！

推荐文章

VisionMaster企业实操训练系列课程

Python实现基于DD驱动的键盘R键连发功能

如何实现SQL视图的灰度发布_版本兼容与双重定义方案

别再只靠复位了！Xilinx FIFO IP核清空的三种实战方法（附Verilog代码）

在Ubuntu 20.04上为MT7628开发板搭建OpenWrt编译环境（含64位系统避坑指南）

告别砖头！华大HC32F系列MCU IAP升级中的安全校验与故障恢复机制设计

相关文章

科研绘图不止Origin：聊聊OriginPro 2021与Python/Matlab的共存与选择

StructBERT在客服系统中的实战应用：智能情绪分析与工单分类

30元玩客云变身全能软路由：手把手教你用Docker部署AllinOne直播服务

FinalBurn Neo终极指南：开源街机模拟器的技术架构与实战应用

OpCore-Simplify终极指南：10分钟完成黑苹果配置的完整解决方案

Qwen3.5-9B成本优化实践：Spot实例调度+自动启停+GPU资源弹性伸缩

分享文章

更多文章

Python实现Android设备屏幕镜像与远程控制的终极技术指南

如何用OnmyojiAutoScript实现阴阳师全自动托管：每天节省2小时游戏时间的完整指南

基于单片机控制的汽车电动车窗

如何快速激活Beyond Compare 5：开源密钥生成工具的完整指南

JS——动态判断节假日（支持自定义节假日与调休规则）

张祥前统一场论7.0（11-14章）

Android高级开发工程师（KTV领域）技术深度解析与面试指南

「码动四季·开源同行」kubernetes 原生的 CI-CD 工具 Tekton

电解式除湿器费电吗？电解除湿器与半导体冷凝式和传统的压缩机式除湿方案，有什么不一样？

Krita AI智能选区插件深度解析：3种高效图像分割方案实现一键抠图

毫米波成像系统入门：为什么馈源天线是关键？从原理到选型指南

前后端分离架构的实践指南：如何高效实现与优化