4卡RTX 5060Ti服务器 llama.cpp 测试

张开发
2026/4/16 11:54:15 15 分钟阅读

分享文章

4卡RTX 5060Ti服务器 llama.cpp 测试
2026 年 04 月 03 日4卡RTX 5060Ti服务器 llama.cpp 完整部署与性能测试报告测试时间2026年04月03日系统环境Ubuntu 22.04 LTS内核版本6.8.0-106-genericGPU配置4 × NVIDIA GeForce RTX 5060Ti16GB GDDR6驱动版本550.127.11CUDA版本12.4推理框架llama.cppb8589-08f21453a测试模型Qwen3-32B-Q4_K_M.gguf4bit量化宝藏4张七彩虹5060Ti 16G风扇卡一样顺畅跑模型一、硬件与系统准备1.1 硬件检测Bashlspci | grep -i nvidia正常输出4条NVIDIA Corporation Device 2704RTX 5060Ti 专属设备ID1.2 系统基础优化Bash# 禁用开源驱动 Nouveausudo bash -c echo -e blacklist nouveau\noptions nouveau modeset0 /etc/modprobe.d/blacklist-nouveau.confsudo update-initramfs -usudo reboot# 安装推荐HWE内核sudo apt updatesudo apt install linux-generic-hwe-22.04 -ysudo reboo# 验证HWE内核uname -r显示6.8.0-107-generic二、NVIDIA 驱动 CUDA 安装2.1下载安装官方稳定驱动595适配 5060TiBashchmod x NVIDIA-Linux-x86_64-595.90.run sudo ./NVIDIA-Linux-x86_64-595.90.run --no-cc-version-check --dkms2.2 安装 CUDA 13.2与 595驱动匹配Bashsudo chmod x cuda_13.2.0_595.45.04_linux.run sudo ./cuda_13.2.0_595.45.04_linux.run# 配置环境变量echo export PATH/usr/local/cuda-13.2/bin:$PATH ~/.bashrcecho export LD_LIBRARY_PATH/usr/local/cuda-13.2/lib64:$LD_LIBRARY_PATH ~/.bashrcsource ~/.bashrc# 验证nvidia-sminvcc -V输出CUDA 13.2 正常。三、llama.cpp 编译4卡5060Ti专用3.1 安装编译依赖Bashsudo apt update sudo apt install git build-essential cmake pkg-config libopenblas-dev -y3.2准备GGUF模型测试用下载测试模型以Qwen3 32B Q4_K_M为例Bash# 进入模型目录mkdir -p models cd models# 下载Qwen3 32B Q4_K_M量化模型4-bit显存友好wget-chttps://hf-mirror.com/bartowski/Qwen_Qwen3-32B-GGUF/resolve/main/Qwen_Qwen3-32B-Q4_K_M.ggufcd ..3.3编译开启CUDA、算力sm_120Bashgit clone https://github.com/ggerganov/llama.cpp.gitcd llama.cpprm -rf build mkdir buildcmake -B build \-DGGML_CUDAON \-DGGML_CUDA_ARCHS120 \-DCMAKE_BUILD_TYPEReleasecmake --build build -j$(nproc)四、4卡GPU状态验证4.1 显卡基础检查Bashnvidia-smi显示4张 RTX 5060Ti每张16GB显存驱动590、CUDA 13.2 正常识别。4.2 llama.cpp 多卡识别Bashcd llama.cpp./build/bin/llama-cli --help | grep -E cuda|gpu输出五、单卡推理测试5.1 测试命令Bash./build/bin/llama-cli \-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \--gpu-layers 40 \--main-gpu 0 \-t 16 \-c 4096 \-p Hello[ Prompt: 22.3 t/s | Generation: 7.3 t/s ]5.2 单卡性能Prompt 速度22.3token/sGeneration 速度7.3token/s显存占用12–14GB / 16GB六、4卡并行推理测试6.1 测试命令Bash./build/bin/llama-cli \-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \-n 1024 \--gpu-layers 80 \-t 32 \-c 16384 \-p 请写一篇4卡RTX 5060Ti运行大模型的技术概述 \--batch-size 1024 \--mlock \--flash-attn on[ Prompt: 253.0 t/s | Generation: 20.3 t/s ]6.2 4卡性能结果Prompt 速度253token/sGeneration 速度30token/s七、基准性能测试llama-benchBash./build/bin/llama-bench \./build/bin/llama-bench \-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \-t 64 \-p 512,2048,8192 \-n 128,512,2048 \-ngl 99 \-b 2048 \-ub 512 \-fa 1 \-r 3 \21 | tee benchmark_results.txt八、结论与最佳实践8.1 核心结论4卡RTX 5060Ti 可稳定跑 32B级4bit模型多卡分摊显存无压力。风扇卡购买 无压力单卡4000元4张卡能满足龙虾需求适合中小企业私有化部署、本地大模型推理、低延迟API服务。8.2 推荐配置量化等级Q4_K_M平衡速度与显存--gpu-layers70–90必开参数--flash-attn on --mlock上下文窗口16384 最稳| model | size |params| backend | ngl | threads | n_batch | fa | test | t/s || qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 32 | 1024 | 1 | pp512 | 888.74 ± 3.40 || qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | pp2048 | 1033.72 ± 0.32 || qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | pp8192 | 987.42 ± 0.24 || qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg128 | 20.57 ± 0.00 || qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg512 | 20.49 ± 0.01 || qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg2048 | 20.18 ± 0.00 |小企业可以搞一台4张风扇卡能支持小企业龙虾

更多文章