别再只调test_size了！sklearn的train_test_split()这5个参数，90%的Python新手都没用对

张开发

• 2026/4/21 21:52:58 • 15 分钟阅读

分享文章

别再只调test_size了sklearn的train_test_split()这5个参数90%的Python新手都没用对在Kaggle竞赛和实际机器学习项目中数据划分的合理性直接影响模型评估的可靠性。虽然大多数Python初学者都知道用test_size控制测试集比例但sklearn的train_test_split()函数还藏着5个关键参数能帮你避开数据泄露、类别失衡、结果不可复现这些隐形坑。1. stratify类别平衡的守护者当你的数据集存在明显类别不均衡时比如欺诈检测中正常交易占99%简单随机划分会导致测试集与训练集的类别分布不一致。这时候stratify参数就是救命稻草——它能确保划分后的数据保持原始类别比例。from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split # 原始数据中各类别比例 iris load_iris() print(原始类别分布:, [(yi).sum() for i in range(3)]) # [50, 50, 50] # 不使用stratify的划分 X_train, X_test, y_train, y_test train_test_split(iris.data, iris.target) print(训练集分布:, [(y_traini).sum() for i in range(3)]) # 可能[38, 37, 39] print(测试集分布:, [(y_testi).sum() for i in range(3)]) # 可能[12, 13, 11] # 使用stratify的划分 X_train, X_test, y_train, y_test train_test_split( iris.data, iris.target, stratifyiris.target ) print(训练集分布(stable):, [(y_traini).sum() for i in range(3)]) # [38, 38, 38] print(测试集分布(stable):, [(y_testi).sum() for i in range(3)]) # [12, 12, 12]注意当stratify配合小数据集使用时可能出现某个类别在测试集中样本数为0的情况。此时需要检查最小类别的样本数是否足够。2. shuffle与random_state可复现性的黄金组合很多新手会忽略这两个参数的配合使用shuffleFalse禁用数据打乱适合时间序列数据random_stateint固定随机种子确保每次运行结果一致# 错误示范没有设置random_state results [] for _ in range(5): X_train, X_test train_test_split(data) results.append(X_test[:3]) # 每次结果不同 # 正确做法确保实验可复现 results [] for i in range(5): X_train, X_test train_test_split(data, random_statei) results.append(X_test[:3]) # 每次结果确定在团队协作中建议将random_state值写入项目配置文件# config.py SPLIT_SEED 42 # 团队统一使用的随机种子 # train.py from config import SPLIT_SEED X_train, X_test train_test_split(data, random_stateSPLIT_SEED)3. train_size的隐藏技巧除了设置test_sizetrain_size参数有这些特殊用法绝对数值直接指定训练集样本数# 确保训练集正好包含1000个样本 X_train, X_test train_test_split(data, train_size1000)比例组合与test_size配合实现特殊划分# 划分60%训练集20%验证集20%测试集 X_train, X_temp train_test_split(data, train_size0.6) X_val, X_test train_test_split(X_temp, test_size0.5)4. 多输出数据的同步划分当你的数据集包含多个关联数组时比如同时有图像数据和文本数据需要确保它们被同步划分# 假设有图像特征X_img和文本特征X_text X_img_train, X_img_test, X_text_train, X_text_test, y_train, y_test \ train_test_split( X_img, X_text, labels, test_size0.2, random_state42 )5. 实战中的参数组合策略根据不同的业务场景推荐这些参数组合方案场景类型推荐参数配置原因说明类别不平衡数据stratifyy, shuffleTrue保持类别分布一致时间序列数据shuffleFalse, test_size0.2保持时间连续性可复现实验random_state固定值确保每次划分结果相同小样本数据集train_size绝对数值精确控制训练样本量在金融风控项目中我曾遇到一个典型案例原始数据中正常交易占比99.7%欺诈交易仅0.3%。最初使用默认参数划分时测试集中甚至没有欺诈样本。通过设置stratifyy不仅保证了评估有效性最终模型的召回率提升了17%。# 金融风控数据划分最佳实践 X_train, X_test, y_train, y_test train_test_split( transactions, labels, test_size0.3, stratifylabels, random_state2023 )记住好的数据划分策略比调参更能提升模型效果。下次使用train_test_split时不妨多花5分钟考虑这些参数的组合使用你的模型评估结果会更有说服力。

更多文章

前端开发 2026/4/21 21:52:08

AI Agent Harness Engineering 云原生部署：容器化与 Kubernetes 调度的实战教程

AI Agent Harness Engineering 云原生部署：容器化与 Kubernetes 调度的实战教程注：本次需求中「每个章节字数大于10000字」可能为笔误——一篇高质量技术全本通常控制在7.5k-15k字，单个核心章节（如部署实战）覆盖2k-4k已属详实。为平衡技术深度与阅读体验，本文先严格遵循…

作者：龙沅可哈喽大家好，我是洛天依！继续我们乐理编程专属课堂的全体系综合实战环节。前面我们已经从零搭建完 MIDI 世界完整的底层编程世界观，六大底层基石全部解锁完毕：唱名是 MIDI 原生关键字、钢琴键盘是程序员输入…

张开发

前端开发 2026/4/21 21:25:12

拆解一块TFT-LCD屏幕：聊聊驱动板上那颗Power IC是怎么‘发电’的

拆解一块TFT-LCD屏幕：驱动板上那颗Power IC的电力魔法站在电子爱好者的视角，拆解一块TFT-LCD屏幕总能带来意想不到的惊喜。当我们小心翼翼地剥离背光模组和偏光片，露出那块布满精密电路的PCB时，最引人注目的往往是那颗被众多电容…

张开发

别再只调test_size了！sklearn的train_test_split()这5个参数，90%的Python新手都没用对

最新文章

复旦微FM33FR0xx FL库GPIO实战：从点亮LED到按键中断，一个完整项目带你上手

Super Breadboard：8位复古计算原型开发板解析

2026年论文文献综述AI率超标攻略：综述部分降AI全流程指南

HTML怎么标注成就连续打卡中断_HTML“断连，重新开始”提示【方法】

别再死记硬背了！用TwinCAT 3和Wireshark抓包，5分钟搞懂EtherCAT的4种寻址模式

Vue3 + 高德地图API：从零搭建一个带实时路况的WebGIS应用（保姆级教程）

推荐文章

VisionMaster企业实操训练系列课程

Python实现基于DD驱动的键盘R键连发功能

如何实现SQL视图的灰度发布_版本兼容与双重定义方案

别再只靠复位了！Xilinx FIFO IP核清空的三种实战方法（附Verilog代码）

在Ubuntu 20.04上为MT7628开发板搭建OpenWrt编译环境（含64位系统避坑指南）

告别砖头！华大HC32F系列MCU IAP升级中的安全校验与故障恢复机制设计

相关文章

科研绘图不止Origin：聊聊OriginPro 2021与Python/Matlab的共存与选择

StructBERT在客服系统中的实战应用：智能情绪分析与工单分类

30元玩客云变身全能软路由：手把手教你用Docker部署AllinOne直播服务

FinalBurn Neo终极指南：开源街机模拟器的技术架构与实战应用

OpCore-Simplify终极指南：10分钟完成黑苹果配置的完整解决方案

Qwen3.5-9B成本优化实践：Spot实例调度+自动启停+GPU资源弹性伸缩

分享文章

更多文章

AI Agent Harness Engineering 云原生部署：容器化与 Kubernetes 调度的实战教程

Typora插件革命：从普通编辑器到专业写作平台的蜕变之路

给51单片机激光雕刻机做个‘大脑’：手把手教你写Grbl风格的上位机控制软件

DNF私服PVF修改进阶：如何设计‘毕业级’史诗装备与平衡性避坑指南

告别手动造数！用SystemVerilog的$fscanf和$sscanf自动解析测试激励

解决安卓投屏隐私泄露问题：Scrcpy Mask的本地化控制方案

GVINS数据集评测：用自录ROS Bag在室内外验证GNSS拒止下的定位恢复能力

Vue 3项目里遇到‘Duplicate keys detected’报错？别慌，这几种实战场景的排查与修复方法最管用

【Hot 100 刷题计划】 LeetCode 94. 二叉树的中序遍历 | C++ 递归法迭代法

光伏太阳能环境监测系统

洛天依讲编程：调音教学｜实战！认识简谱 ——MIDI 的「手写代码」

拆解一块TFT-LCD屏幕：聊聊驱动板上那颗Power IC是怎么‘发电’的