Python实战：用sklearn的GaussianMixture搞定身高体重聚类（附完整代码）

张开发

• 2026/4/16 12:08:36 • 15 分钟阅读

分享文章

Python实战用sklearn的GaussianMixture搞定身高体重聚类附完整代码最近在分析一个健身俱乐部的会员数据时遇到了一个有趣的问题如何根据会员的身高体重数据自动识别出不同的体型群体传统的K-means聚类在这个场景下表现不佳因为数据分布明显不是球形的。这时高斯混合模型(GMM)进入了我的视线——它能够识别出更复杂的簇形状正好解决我的问题。1. 准备工作与环境配置在开始之前我们需要确保环境配置正确。推荐使用Python 3.8版本并安装以下必要的库pip install numpy pandas matplotlib scikit-learn对于数据科学项目我习惯使用Jupyter Notebook进行交互式开发但本文的代码在常规Python脚本中同样适用。让我们先导入所需的模块import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.mixture import GaussianMixture from sklearn.preprocessing import StandardScaler提示如果你在可视化时遇到中文显示问题可以添加以下代码plt.rcParams[font.sans-serif] [SimHei] # 用来正常显示中文标签 plt.rcParams[axes.unicode_minus] False # 用来正常显示负号2. 数据准备与探索性分析假设我们有一个包含1000名会员身高体重数据的CSV文件结构如下id,height_cm,weight_kg 1,175,68 2,168,72 3,182,85 ...让我们加载并查看数据的基本情况# 加载数据 data pd.read_csv(member_data.csv) print(data.describe()) # 可视化数据分布 plt.figure(figsize(10,6)) plt.scatter(data[height_cm], data[weight_kg], alpha0.5) plt.xlabel(身高(cm)) plt.ylabel(体重(kg)) plt.title(会员身高体重分布) plt.grid(True) plt.show()从描述性统计和散点图中我们可以初步观察到身高范围大约在150-200cm之间体重范围大约在45-100kg之间数据点分布呈现多个密集区域3. 数据预处理在应用GMM之前我们需要对数据进行适当的预处理特征选择我们只需要身高和体重两列标准化虽然GMM对特征的尺度不敏感但标准化可以加速EM算法的收敛# 提取特征 X data[[height_cm, weight_kg]].values # 标准化 scaler StandardScaler() X_scaled scaler.fit_transform(X) # 查看标准化后的数据 print(标准化后的前5个样本) print(X_scaled[:5])4. 构建GMM模型现在我们可以开始构建高斯混合模型了。关键步骤包括确定合适的簇数量(n_components)选择协方差类型(covariance_type)训练模型并评估# 初始化GMM模型 gmm GaussianMixture( n_components3, # 假设我们想分成3个体型类别 covariance_typefull, # 允许每个簇有不同的形状和方向 random_state42 ) # 训练模型 gmm.fit(X_scaled) # 预测簇标签 labels gmm.predict(X_scaled) # 查看预测结果 print(前10个样本的预测标签, labels[:10])注意在实际应用中确定最佳簇数量是一个重要问题。我们可以使用以下方法肘部法则观察BIC/AIC值的变化轮廓系数业务需求指导5. 结果可视化与分析让我们将聚类结果可视化并分析每个簇的特征# 可视化聚类结果 plt.figure(figsize(12,8)) plt.scatter(X[:,0], X[:,1], clabels, cmapviridis, alpha0.6) plt.xlabel(身高(cm)) plt.ylabel(体重(kg)) plt.title(基于GMM的身高体重聚类结果) # 绘制簇中心反标准化后 centers scaler.inverse_transform(gmm.means_) plt.scatter(centers[:,0], centers[:,1], cred, s200, alpha0.8, markerX) plt.grid(True) plt.colorbar(label簇标签) plt.show()我们可以进一步分析每个簇的统计特征# 将聚类结果添加到原始数据 data[cluster] labels # 按簇分组统计 cluster_stats data.groupby(cluster).agg({ height_cm: [mean, std, min, max], weight_kg: [mean, std, min, max], id: count }) print(cluster_stats)6. 模型评估与调优为了评估模型性能我们可以查看模型的收敛情况和信息准则print(f模型收敛于 {gmm.n_iter_} 次迭代) print(fBIC值: {gmm.bic(X_scaled):.2f}) print(fAIC值: {gmm.aic(X_scaled):.2f})为了找到最佳的簇数量我们可以尝试不同的n_componentsn_components_range range(1, 8) bic_values [] for n in n_components_range: gmm GaussianMixture(n_componentsn, covariance_typefull, random_state42) gmm.fit(X_scaled) bic_values.append(gmm.bic(X_scaled)) # 绘制BIC曲线 plt.figure(figsize(10,6)) plt.plot(n_components_range, bic_values, bo-) plt.xlabel(簇数量) plt.ylabel(BIC值) plt.title(不同簇数量对应的BIC值) plt.grid(True) plt.show()7. 高级应用概率聚类与异常检测GMM的一个强大功能是它可以提供概率输出而不仅仅是硬分类。这在某些应用场景中非常有用# 获取样本属于各簇的概率 probs gmm.predict_proba(X_scaled) print(前5个样本的簇概率分布) print(probs[:5]) # 异常检测基于低概率密度 log_probs gmm.score_samples(X_scaled) threshold np.percentile(log_probs, 5) # 取最低5%作为异常值 outliers X[log_probs threshold] # 可视化异常值 plt.figure(figsize(12,8)) plt.scatter(X[:,0], X[:,1], clabels, cmapviridis, alpha0.6) plt.scatter(outliers[:,0], outliers[:,1], cred, s100, markerx, label异常值) plt.xlabel(身高(cm)) plt.ylabel(体重(kg)) plt.title(聚类结果与异常检测) plt.legend() plt.grid(True) plt.show()8. 完整代码示例以下是本案例的完整代码方便读者直接使用# 导入必要的库 import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.mixture import GaussianMixture from sklearn.preprocessing import StandardScaler # 设置中文显示 plt.rcParams[font.sans-serif] [SimHei] plt.rcParams[axes.unicode_minus] False # 1. 加载数据 data pd.read_csv(member_data.csv) # 2. 数据预处理 X data[[height_cm, weight_kg]].values scaler StandardScaler() X_scaled scaler.fit_transform(X) # 3. 训练GMM模型 gmm GaussianMixture(n_components3, covariance_typefull, random_state42) gmm.fit(X_scaled) labels gmm.predict(X_scaled) # 4. 结果可视化 plt.figure(figsize(12,8)) plt.scatter(X[:,0], X[:,1], clabels, cmapviridis, alpha0.6) centers scaler.inverse_transform(gmm.means_) plt.scatter(centers[:,0], centers[:,1], cred, s200, alpha0.8, markerX) plt.xlabel(身高(cm)) plt.ylabel(体重(kg)) plt.title(基于GMM的身高体重聚类结果) plt.grid(True) plt.colorbar(label簇标签) plt.show() # 5. 模型评估 print(f模型收敛于 {gmm.n_iter_} 次迭代) print(fBIC值: {gmm.bic(X_scaled):.2f}) print(fAIC值: {gmm.aic(X_scaled):.2f}) # 6. 概率输出示例 probs gmm.predict_proba(X_scaled) print(样本属于各簇的概率分布示例) print(probs[:5])在实际项目中应用这个模型时我发现调整协方差类型对结果影响很大。full类型虽然灵活但可能导致过拟合而tied或diag有时能提供更稳定的结果。

Python实战：用sklearn的GaussianMixture搞定身高体重聚类（附完整代码）

最新文章

手把手教你用D触发器搭一个10进制计数器（附Multisim仿真与示波器实测）

谱域图卷积演进三部曲：从SCNN的实践突破到GCN的广泛应用

Claude 封号了？国产开源多Agent编程框架 oh-my-coder 免费替代

别再只用账号密码了！聊聊MySQL/PostgreSQL里那些更酷的登录方式（动态口令、角色权限实战）

别再死记硬背了！用‘输出短路法’和‘瞬时极性法’5分钟搞定负反馈类型判断

从零开始搞懂DDoS和CC攻击：运维人员必备的防护攻略

推荐文章

CrossMgrLapCounter：嵌入式设备接入赛事计时系统的WebSocket协议库

Java Iterator

Mac上Xcode搞C++竞赛？手把手教你添加万能头文件stdc++.h（附完整代码）

利用BurpSuite Intruder模块实现验证码失效场景下的表单暴力破解

机器学习中的常用算法（非传统算法）

深度学习检测不准确智能电表:一个案例研究 python源代码，代码按照高水平文章复现

相关文章

科研绘图不止Origin：聊聊OriginPro 2021与Python/Matlab的共存与选择

StructBERT在客服系统中的实战应用：智能情绪分析与工单分类

30元玩客云变身全能软路由：手把手教你用Docker部署AllinOne直播服务

FinalBurn Neo终极指南：开源街机模拟器的技术架构与实战应用

OpCore-Simplify终极指南：10分钟完成黑苹果配置的完整解决方案

Qwen3.5-9B成本优化实践：Spot实例调度+自动启停+GPU资源弹性伸缩

分享文章

更多文章

Kettle数据流设计进阶：如何用错误处理步骤构建容错ETL管道（附7.1版本截图）

0 基础后端小白：从 0 到 1 参与 GitHub 开源项目（超详细保姆级教程）

电源纹波测试避坑指南：为什么你的测量结果总是不准确？

现货库存DS1305EN+TR‌ 是ADI推出的一款高集成度实时时钟（RTC）芯片，具备精准计时、低功耗运行和工业级可靠性等核心优势，广泛应用于工业控制、嵌入式系统、智能仪表等领域

VDA5050通信协议技术赋能：打造智能调度新范式

轻量化部署实战：YOLOv8n-Pose跌倒检测算法在边缘设备的优化与应用

Applite终极指南：3分钟掌握macOS最优雅的Homebrew图形化管理工具

ctf.show_web6

Svante与Meadow Lake Tribal Council的合作项目向Microsoft出售62.6万吨碳移除信用额度

为什么新加的表接口无法访问

3款开源工具打造原神辅助生态：玩家必备的Windows桌面助手

揭秘MySQL索引分类驯