4卡RTX 5060Ti服务器 llama.cpp 测试

张开发

• 2026/4/16 11:54:15 • 15 分钟阅读

分享文章

2026 年 04 月 03 日4卡RTX 5060Ti服务器 llama.cpp 完整部署与性能测试报告测试时间2026年04月03日系统环境Ubuntu 22.04 LTS内核版本6.8.0-106-genericGPU配置4 × NVIDIA GeForce RTX 5060Ti16GB GDDR6驱动版本550.127.11CUDA版本12.4推理框架llama.cppb8589-08f21453a测试模型Qwen3-32B-Q4_K_M.gguf4bit量化宝藏4张七彩虹5060Ti 16G风扇卡一样顺畅跑模型一、硬件与系统准备1.1 硬件检测Bashlspci | grep -i nvidia正常输出4条NVIDIA Corporation Device 2704RTX 5060Ti 专属设备ID1.2 系统基础优化Bash# 禁用开源驱动 Nouveausudo bash -c echo -e blacklist nouveau\noptions nouveau modeset0 /etc/modprobe.d/blacklist-nouveau.confsudo update-initramfs -usudo reboot# 安装推荐HWE内核sudo apt updatesudo apt install linux-generic-hwe-22.04 -ysudo reboo# 验证HWE内核uname -r显示6.8.0-107-generic二、NVIDIA 驱动 CUDA 安装2.1下载安装官方稳定驱动595适配 5060TiBashchmod x NVIDIA-Linux-x86_64-595.90.run sudo ./NVIDIA-Linux-x86_64-595.90.run --no-cc-version-check --dkms2.2 安装 CUDA 13.2与 595驱动匹配Bashsudo chmod x cuda_13.2.0_595.45.04_linux.run sudo ./cuda_13.2.0_595.45.04_linux.run# 配置环境变量echo export PATH/usr/local/cuda-13.2/bin:$PATH ~/.bashrcecho export LD_LIBRARY_PATH/usr/local/cuda-13.2/lib64:$LD_LIBRARY_PATH ~/.bashrcsource ~/.bashrc# 验证nvidia-sminvcc -V输出CUDA 13.2 正常。三、llama.cpp 编译4卡5060Ti专用3.1 安装编译依赖Bashsudo apt update sudo apt install git build-essential cmake pkg-config libopenblas-dev -y3.2准备GGUF模型测试用下载测试模型以Qwen3 32B Q4_K_M为例Bash# 进入模型目录mkdir -p models cd models# 下载Qwen3 32B Q4_K_M量化模型4-bit显存友好wget-chttps://hf-mirror.com/bartowski/Qwen_Qwen3-32B-GGUF/resolve/main/Qwen_Qwen3-32B-Q4_K_M.ggufcd ..3.3编译开启CUDA、算力sm_120Bashgit clone https://github.com/ggerganov/llama.cpp.gitcd llama.cpprm -rf build mkdir buildcmake -B build \-DGGML_CUDAON \-DGGML_CUDA_ARCHS120 \-DCMAKE_BUILD_TYPEReleasecmake --build build -j$(nproc)四、4卡GPU状态验证4.1 显卡基础检查Bashnvidia-smi显示4张 RTX 5060Ti每张16GB显存驱动590、CUDA 13.2 正常识别。4.2 llama.cpp 多卡识别Bashcd llama.cpp./build/bin/llama-cli --help | grep -E cuda|gpu输出五、单卡推理测试5.1 测试命令Bash./build/bin/llama-cli \-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \--gpu-layers 40 \--main-gpu 0 \-t 16 \-c 4096 \-p Hello[ Prompt: 22.3 t/s | Generation: 7.3 t/s ]5.2 单卡性能Prompt 速度22.3token/sGeneration 速度7.3token/s显存占用12–14GB / 16GB六、4卡并行推理测试6.1 测试命令Bash./build/bin/llama-cli \-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \-n 1024 \--gpu-layers 80 \-t 32 \-c 16384 \-p 请写一篇4卡RTX 5060Ti运行大模型的技术概述 \--batch-size 1024 \--mlock \--flash-attn on[ Prompt: 253.0 t/s | Generation: 20.3 t/s ]6.2 4卡性能结果Prompt 速度253token/sGeneration 速度30token/s七、基准性能测试llama-benchBash./build/bin/llama-bench \./build/bin/llama-bench \-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \-t 64 \-p 512,2048,8192 \-n 128,512,2048 \-ngl 99 \-b 2048 \-ub 512 \-fa 1 \-r 3 \21 | tee benchmark_results.txt八、结论与最佳实践8.1 核心结论4卡RTX 5060Ti 可稳定跑 32B级4bit模型多卡分摊显存无压力。风扇卡购买无压力单卡4000元4张卡能满足龙虾需求适合中小企业私有化部署、本地大模型推理、低延迟API服务。8.2 推荐配置量化等级Q4_K_M平衡速度与显存--gpu-layers70–90必开参数--flash-attn on --mlock上下文窗口16384 最稳| model | size |params| backend | ngl | threads | n_batch | fa | test | t/s || qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 32 | 1024 | 1 | pp512 | 888.74 ± 3.40 || qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | pp2048 | 1033.72 ± 0.32 || qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | pp8192 | 987.42 ± 0.24 || qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg128 | 20.57 ± 0.00 || qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg512 | 20.49 ± 0.01 || qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg2048 | 20.18 ± 0.00 |小企业可以搞一台4张风扇卡能支持小企业龙虾

4卡RTX 5060Ti服务器 llama.cpp 测试

最新文章

如何永久保存你的微信聊天记忆？WeChatMsg终极指南

Vivado固化程序到Flash老报错？从原理到实战，彻底搞懂‘校验失败’与‘地址不匹配’的解决方法

别再只盯着MTBF预测了！实测、截尾、加速寿命，三种测试方法到底怎么选？

期末复习别慌！用Python+Scikit-learn手把手复现数据挖掘核心算法（附代码）

GameFramework资源管理避坑指南：如何优化AB包冗余依赖？

技术分享】基于MATLAB Simulink的太阳能光伏MPPT控制蓄电池充电仿真模型及仿真说...

推荐文章

CrossMgrLapCounter：嵌入式设备接入赛事计时系统的WebSocket协议库

Java Iterator

Mac上Xcode搞C++竞赛？手把手教你添加万能头文件stdc++.h（附完整代码）

利用BurpSuite Intruder模块实现验证码失效场景下的表单暴力破解

机器学习中的常用算法（非传统算法）

深度学习检测不准确智能电表:一个案例研究 python源代码，代码按照高水平文章复现

相关文章

科研绘图不止Origin：聊聊OriginPro 2021与Python/Matlab的共存与选择

StructBERT在客服系统中的实战应用：智能情绪分析与工单分类

30元玩客云变身全能软路由：手把手教你用Docker部署AllinOne直播服务

FinalBurn Neo终极指南：开源街机模拟器的技术架构与实战应用

OpCore-Simplify终极指南：10分钟完成黑苹果配置的完整解决方案

Qwen3.5-9B成本优化实践：Spot实例调度+自动启停+GPU资源弹性伸缩

分享文章

更多文章

初始C语言

BGE-Large-Zh惊艳效果展示：紫色UI热力图+高精度匹配结果真实截图

OFA-VE系统在网络安全领域的视觉分析应用

2026-04-04：最少翻转次数得到反转二进制字符串。用go语言，给定一个正整数 n。把 n 转成二进制字符串，记为 s（要求不带前导零）。定义“反转字符串”：把 s 的所有字符顺序倒过来形成的新

实战踩坑记录：用Cesium控制无人机飞行轨迹，Entity的HPR姿态更新那些‘坑’

提升无线传输性能：手把手教你优化Si4463的Data Rate配置与SPI通信稳定性

实战：从零构建基于Live2D 4.0 SDK的博客园网页看板娘

别再手动调参数了！UE5.3 Chaos破碎：用蓝图和物理驱动实现更自然的炸裂效果

别再手动调坐标了！用Vue relation-graph v2.x轻松搞定鱼骨图式关系图谱

保姆级教程：用微空MTF-01光流搞定PX4无人机室内定点悬停（附QGC配置避坑指南）

Matlab小电流接地系统的建模与单相故障的仿真分析（仿真工 10072-Matlab小电流接...

多光谱目标检测实战：YOLO可用的可见光与红外融合数据集精讲