从零到一：手把手教你用Slurm在超算集群上跑通第一个PyTorch模型（含Anaconda环境配置）

张开发

• 2026/4/17 2:02:51 • 15 分钟阅读

分享文章

从零到一手把手教你用Slurm在超算集群上跑通第一个PyTorch模型含Anaconda环境配置当你第一次拿到超算账号时面对陌生的命令行界面和复杂的作业调度系统可能会感到无从下手。本文将带你一步步完成从登录超算集群到成功运行PyTorch模型的全过程即使你没有任何超算使用经验。1. 准备工作连接超算集群在开始之前你需要准备以下工具和信息已申请的超算账号通常包含用户名和密码SSH客户端推荐使用MobaXterm或Termius超算集群的登录节点地址连接步骤打开SSH客户端输入连接命令ssh usernamecluster.domain.edu.cn输入密码完成认证提示首次连接时可能会提示确认主机密钥输入yes即可。连接成功后你会看到类似这样的提示符[usernamelogin01 ~]$这表示你已经成功登录到超算集群的登录节点。2. 配置Python环境超算集群通常不预装Python环境我们需要自己安装Anaconda来管理Python环境。2.1 安装Anaconda首先检查你的存储配额/bin/myDiskQuota然后下载并安装Anacondawget https://repo.anaconda.com/archive/Anaconda3-2023.09-0-Linux-x86_64.sh bash Anaconda3-2023.09-0-Linux-x86_64.sh安装过程中需要注意选择安装路径时建议使用/home/username/anaconda3替换username为你的账号当询问是否初始化conda时选择yes安装完成后激活conda环境source ~/.bashrc验证安装conda --version2.2 创建PyTorch环境创建一个专门用于PyTorch的独立环境conda create -n pytorch_env python3.9 conda activate pytorch_env安装PyTorch以CUDA 11.8为例conda install pytorch torchvision torchaudio pytorch-cuda11.8 -c pytorch -c nvidia验证PyTorch安装python -c import torch; print(torch.__version__); print(torch.cuda.is_available())3. 准备PyTorch示例代码我们将使用经典的MNIST分类作为第一个示例。创建一个名为mnist.py的文件import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms # 定义网络结构 class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.fc1 nn.Linear(784, 128) self.fc2 nn.Linear(128, 10) def forward(self, x): x x.view(-1, 784) x torch.relu(self.fc1(x)) x self.fc2(x) return x # 训练函数 def train(): transform transforms.Compose([transforms.ToTensor()]) trainset datasets.MNIST(./data, trainTrue, downloadTrue, transformtransform) trainloader torch.utils.data.DataLoader(trainset, batch_size64, shuffleTrue) model Net() criterion nn.CrossEntropyLoss() optimizer optim.SGD(model.parameters(), lr0.01) for epoch in range(5): for data, target in trainloader: optimizer.zero_grad() output model(data) loss criterion(output, target) loss.backward() optimizer.step() print(fEpoch {epoch1}, Loss: {loss.item():.4f}) if __name__ __main__: train()4. 编写Slurm作业脚本创建一个名为job.sh的Slurm作业脚本#!/bin/bash #SBATCH --job-namemnist_pytorch #SBATCH --partitiongpu #SBATCH --nodes1 #SBATCH --ntasks-per-node1 #SBATCH --cpus-per-task4 #SBATCH --gresgpu:1 #SBATCH --time00:30:00 #SBATCH --outputmnist_%j.out # 加载必要的模块 module load cuda/11.8 # 激活conda环境 source /home/username/anaconda3/etc/profile.d/conda.sh conda activate pytorch_env # 运行Python脚本 python mnist.py关键参数说明参数说明推荐值--partition使用的计算分区gpu--nodes计算节点数量1--ntasks-per-node每个节点的任务数1--cpus-per-task每个任务的CPU核心数4--gresGPU数量1--time最大运行时间00:30:005. 提交和管理作业5.1 提交作业将mnist.py和job.sh上传到超算集群的同一目录下然后提交作业sbatch job.sh成功提交后会显示作业IDSubmitted batch job 1234565.2 监控作业状态查看作业状态squeue -u $USER输出示例JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON) 123456 gpu mnist_pt username R 0:05 1 gpu0015.3 查看作业输出作业完成后会生成输出文件mnist_123456.out数字为作业ID。查看输出cat mnist_123456.out预期输出类似Epoch 1, Loss: 0.1234 Epoch 2, Loss: 0.0987 Epoch 3, Loss: 0.0765 Epoch 4, Loss: 0.0654 Epoch 5, Loss: 0.05436. 常见问题与解决方案6.1 环境问题问题conda: command not found解决source ~/.bashrc问题No module named torch解决确保已激活正确的conda环境conda activate pytorch_env6.2 Slurm作业问题问题作业长时间处于PD(Pending)状态解决检查资源请求是否合理或尝试减少资源请求问题作业失败报错Out Of Memory解决增加内存请求或减少batch size6.3 数据传输问题上传文件到超算scp local_file usernamecluster.domain.edu.cn:remote_path从超算下载文件scp usernamecluster.domain.edu.cn:remote_file local_path7. 进阶技巧7.1 使用Jupyter Notebook在超算上运行Jupyter Notebookjupyter notebook --no-browser --port8889然后在本机建立SSH隧道ssh -N -L localhost:8888:localhost:8889 usernamecluster.domain.edu.cn7.2 使用TensorBoard在训练代码中添加TensorBoard记录from torch.utils.tensorboard import SummaryWriter writer SummaryWriter() for epoch in range(5): # ...训练代码... writer.add_scalar(Loss/train, loss.item(), epoch)在超算上启动TensorBoardtensorboard --logdirruns --port60067.3 批量提交作业创建多个作业脚本使用循环提交for i in {1..5}; do sbatch job_${i}.sh done7.4 资源使用优化监控GPU使用情况nvidia-smi优化Slurm参数组合任务类型--nodes--ntasks-per-node--cpus-per-task--gres单GPU训练114gpu:1多GPU数据并行118gpu:2多节点训练218gpu:1

从零到一：手把手教你用Slurm在超算集群上跑通第一个PyTorch模型（含Anaconda环境配置）

最新文章

如何通过NVIDIA Profile Inspector解锁显卡隐藏性能：3个简单步骤掌握高级优化技巧

Matplotlib图表想用思源黑体或霞鹜文楷？手把手教你添加自定义字体并应用到Jupyter Notebook

有什么好用的AI来辅助写代码吗

【2026内容生产力分水岭】：为什么92%的AI写作工具失败了？SITS2026揭示故事生成的3个隐藏阈值

用MATLAB复现一个会画圈的无人机：手把手实现MPC轨迹跟踪（附完整代码）

优先矩阵管理化技术中的优先矩阵计划优先矩阵实施优先矩阵验证

推荐文章

CrossMgrLapCounter：嵌入式设备接入赛事计时系统的WebSocket协议库

Java Iterator

Mac上Xcode搞C++竞赛？手把手教你添加万能头文件stdc++.h（附完整代码）

利用BurpSuite Intruder模块实现验证码失效场景下的表单暴力破解

机器学习中的常用算法（非传统算法）

深度学习检测不准确智能电表:一个案例研究 python源代码，代码按照高水平文章复现

相关文章

科研绘图不止Origin：聊聊OriginPro 2021与Python/Matlab的共存与选择

StructBERT在客服系统中的实战应用：智能情绪分析与工单分类

30元玩客云变身全能软路由：手把手教你用Docker部署AllinOne直播服务

FinalBurn Neo终极指南：开源街机模拟器的技术架构与实战应用

OpCore-Simplify终极指南：10分钟完成黑苹果配置的完整解决方案

Qwen3.5-9B成本优化实践：Spot实例调度+自动启停+GPU资源弹性伸缩

分享文章

更多文章

【从零开始学Java | 第二十七篇】HashMap、LinkedHashMap、TreeMap

AI辅助开发新范式：让Kimi和DeepSeek帮你设计与优化qclaw官网

ai辅助开发新体验：让快马ai帮你打造智能win10安装准备助手

实战指南：基于快马生成代码，快速搭建集成openclaw的文本审核微服务

终极指南：3分钟解锁全球最大同人创作平台AO3镜像站

【数学建模】2024美赛A题：资源与性别比的生态博弈——七鳃鳗模型构建与系统稳定性分析

Unity串口通信避坑指南：连接蓝牙手柄时，为什么你的SerialPort总报错？

事件相机数据处理避坑指南：Channel-by-channel、Voxel Grid和SCER方法到底怎么选？

苹果用户速自查，30秒排查手机安全风险

3个维度突破Windows 11 LTSC应用生态困局：微软商店一键安装革新方案

TS3480,G3810,G2810,TS3380,MP288,E568,MG3680,IP4800,MX328,IX6580,MG7780清零软件，5B00,P07,E08，亲测软件好用，好评。

突破设备限制：解锁Sunshine自托管游戏串流的全场景应用指南