在 Debian 12 上安装 NVIDIA Tesla V100-32G GPU 卡的驱动程序
1. 禁用 Nouveau 开源驱动
Nouveau 是一个开源的 NVIDIA 驱动程序,可能会与官方驱动程序冲突。需要先禁用它:
sudo bash -c "echo 'blacklist nouveau' > /etc/modprobe.d/blacklist-nouveau.conf"
sudo bash -c "echo 'options nouveau modeset=0' >> /etc/modprobe.d/blacklist-nouveau.conf"
sudo update-initramfs -u
sudo reboot
重启后,通过以下命令确认 Nouveau 驱动已被禁用:
lsmod | grep nouveau
如果没有任何输出,则表示禁用成功。
2. 启用非自由(non-free)软件源
Debian 默认不包含专有软件,需要启用 non-free 仓库:
sudo nano /etc/apt/sources.list
在文件中找到以 deb 开头的行,并在末尾添加 non-free,例如:
deb http://deb.debian.org/debian bookworm main non-free
deb-src http://deb.debian.org/debian bookworm main non-free
保存文件后更新软件包列表:
sudo apt update
3. 安装必要的依赖包
在安装 NVIDIA 驱动之前,需要安装一些必要的工具和库:
sudo apt install build-essential linux-headers-$(uname -r) dkms
4. 安装 NVIDIA 驱动
使用 nvidia-detect 工具检测显卡并推荐合适的驱动版本:
sudo apt install nvidia-detect
nvidia-detect
根据提示安装推荐的驱动程序。通常情况下,命令如下:
sudo apt install nvidia-driver
5. 重启系统
安装完成后,重启系统以加载新的驱动程序:
sudo reboot
6. 验证驱动安装
重启后,运行以下命令验证 NVIDIA 驱动是否安装成功:
nvidia-smi
如果显示显卡信息、驱动版本和 GPU 使用情况,则表示驱动安装成功。
7. 安装 CUDA Toolkit
根据 NVIDIA 官方文档,Tesla V100 支持 CUDA 11.0 及以上版本。以下是安装 CUDA Toolkit 的步骤:
apt install nvidia-cuda-toolkit
sudo apt install nvidia-cuda-toolkit
7.1. 安装依赖包:
sudo apt-get install gcc g++ make
7.2. 下载并安装 CUDA Toolkit:
可以通过以下命令安装 CUDA Toolkit(以 CUDA 12.8 为例):
sudo apt install cuda-12-8
7.3. 配置环境变量:
编辑 ~/.bashrc
文件,添加以下内容:
export CUDA_HOME=/usr/local/cuda
export PATH=$PATH:$CUDA_HOME/bin
export LD_LIBRARY_PATH=/usr/local/cuda-12.3/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
保存并退出后,运行以下命令使环境变量生效:
source ~/.bashrc
7.4. 验证 CUDA 安装:
运行以下命令查看 CUDA 版本:
nvcc -V
如果显示类似以下信息,说明 CUDA 安装成功:
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2024 NVIDIA Corporation
Built on Mon_Feb__4_19:08:26_PST_2024
Cuda compilation tools, release 12.3, V12.3.108
8. 安装 cuDNN
cuDNN 是 CUDA 的深度神经网络库,适用于深度学习框架。以下是安装步骤:
8.1. 下载 cuDNN:
访问 NVIDIA 官方网站下载 cuDNN。根据 CUDA 版本选择合适的 cuDNN 版本(例如,CUDA 12.3 对应的 cuDNN 版本)。
8.2. 解压并安装:
假设下载的文件名为 cudnn-linux-x86_64-8.9.6.50_cuda12-archive.tar.xz
,执行以下命令解压并安装:
xz -d cudnn-linux-x86_64-8.9.6.50_cuda12-archive.tar.xz
tar -xvf cudnn-linux-x86_64-8.9.6.50_cuda12-archive.tar
sudo cp -p cudnn-linux-x86_64-8.9.6.50_cuda12-archive/include/cudnn*.h /usr/local/cuda/include/
sudo cp -p cudnn-linux-x86_64-8.9.6.50_cuda12-archive/lib/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn*.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
8.3. 验证 cuDNN 安装:
可以通过运行一些深度学习框架(如 TensorFlow 或 PyTorch)的测试代码来验证 cuDNN 是否可用。
9. 验证驱动安装
重启计算机后,运行以下命令查看 NVIDIA 驱动版本:
nvidia-smi
如果看到类似以下信息,说明驱动已成功安装:
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.23 Driver Version: 535.23 CUDA Version: 12.3 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2... Off | 00000000:1E.0 Off | 0 |
| N/A 35C P0 25W / 300W | 0MiB / 32768MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
完成以上步骤后,Tesla V100 SXM2 32G 显卡应该可以在 Ubuntu 22.04 系统上正常使用。如果在安装过程中遇到问题,可以参考 NVIDIA 官方文档或社区论坛获取更多帮助。