在 Debian 12 上安装 NVIDIA Tesla V100-32G GPU 卡的驱动程序

1. 禁用 Nouveau 开源驱动

Nouveau 是一个开源的 NVIDIA 驱动程序,可能会与官方驱动程序冲突。需要先禁用它:

sudo bash -c "echo 'blacklist nouveau' > /etc/modprobe.d/blacklist-nouveau.conf"

sudo bash -c "echo 'options nouveau modeset=0' >> /etc/modprobe.d/blacklist-nouveau.conf"

sudo update-initramfs -u

sudo reboot

重启后,通过以下命令确认 Nouveau 驱动已被禁用:

lsmod | grep nouveau

如果没有任何输出,则表示禁用成功。

2. 启用非自由(non-free)软件源

Debian 默认不包含专有软件,需要启用 non-free 仓库:

sudo nano /etc/apt/sources.list

在文件中找到以 deb 开头的行,并在末尾添加 non-free,例如:

deb http://deb.debian.org/debian bookworm main non-free

deb-src http://deb.debian.org/debian bookworm main non-free

保存文件后更新软件包列表:

sudo apt update

3. 安装必要的依赖包

在安装 NVIDIA 驱动之前,需要安装一些必要的工具和库:

sudo apt install build-essential linux-headers-$(uname -r) dkms

4. 安装 NVIDIA 驱动

使用 nvidia-detect 工具检测显卡并推荐合适的驱动版本:

sudo apt install nvidia-detect

nvidia-detect

根据提示安装推荐的驱动程序。通常情况下,命令如下:

sudo apt install nvidia-driver

5. 重启系统

安装完成后,重启系统以加载新的驱动程序:

sudo reboot

6. 验证驱动安装

重启后,运行以下命令验证 NVIDIA 驱动是否安装成功:

nvidia-smi

如果显示显卡信息、驱动版本和 GPU 使用情况,则表示驱动安装成功。

7. 安装 CUDA Toolkit

根据 NVIDIA 官方文档,Tesla V100 支持 CUDA 11.0 及以上版本。以下是安装 CUDA Toolkit 的步骤:

apt install nvidia-cuda-toolkit

sudo apt install nvidia-cuda-toolkit

7.1. 安装依赖包

sudo apt-get install gcc g++ make

7.2. 下载并安装 CUDA Toolkit

可以通过以下命令安装 CUDA Toolkit(以 CUDA 12.8 为例):

sudo apt install cuda-12-8

7.3. 配置环境变量

编辑 ~/.bashrc 文件,添加以下内容:

export CUDA_HOME=/usr/local/cuda

export PATH=$PATH:$CUDA_HOME/bin

export LD_LIBRARY_PATH=/usr/local/cuda-12.3/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

保存并退出后,运行以下命令使环境变量生效:

source ~/.bashrc

7.4. 验证 CUDA 安装

运行以下命令查看 CUDA 版本:

nvcc -V

如果显示类似以下信息,说明 CUDA 安装成功:

nvcc: NVIDIA (R) Cuda compiler driver

Copyright (c) 2005-2024 NVIDIA Corporation

Built on Mon_Feb__4_19:08:26_PST_2024

Cuda compilation tools, release 12.3, V12.3.108

8. 安装 cuDNN

cuDNN 是 CUDA 的深度神经网络库,适用于深度学习框架。以下是安装步骤:

8.1. 下载 cuDNN

访问 NVIDIA 官方网站下载 cuDNN。根据 CUDA 版本选择合适的 cuDNN 版本(例如,CUDA 12.3 对应的 cuDNN 版本)。

8.2. 解压并安装

假设下载的文件名为 cudnn-linux-x86_64-8.9.6.50_cuda12-archive.tar.xz,执行以下命令解压并安装:

xz -d cudnn-linux-x86_64-8.9.6.50_cuda12-archive.tar.xz

tar -xvf cudnn-linux-x86_64-8.9.6.50_cuda12-archive.tar

sudo cp -p cudnn-linux-x86_64-8.9.6.50_cuda12-archive/include/cudnn*.h /usr/local/cuda/include/

sudo cp -p cudnn-linux-x86_64-8.9.6.50_cuda12-archive/lib/libcudnn* /usr/local/cuda/lib64/

sudo chmod a+r /usr/local/cuda/include/cudnn*.h

sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

8.3. 验证 cuDNN 安装

可以通过运行一些深度学习框架(如 TensorFlow 或 PyTorch)的测试代码来验证 cuDNN 是否可用。

9. 验证驱动安装

重启计算机后,运行以下命令查看 NVIDIA 驱动版本:

nvidia-smi

如果看到类似以下信息,说明驱动已成功安装:

+-----------------------------------------------------------------------------+

| NVIDIA-SMI 535.23 Driver Version: 535.23 CUDA Version: 12.3 |

|-------------------------------+----------------------+----------------------+

| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |

| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |

|===============================+======================+======================|

| 0 Tesla V100-SXM2... Off | 00000000:1E.0 Off | 0 |

| N/A 35C P0 25W / 300W | 0MiB / 32768MiB | 0% Default |

+-------------------------------+----------------------+----------------------+

完成以上步骤后,Tesla V100 SXM2 32G 显卡应该可以在 Ubuntu 22.04 系统上正常使用。如果在安装过程中遇到问题,可以参考 NVIDIA 官方文档或社区论坛获取更多帮助。


在 Debian 12 上安装 NVIDIA Tesla V100-32G GPU 卡的驱动程序
http://localhost:8090/archives/zai-debian-12-shang-an-zhuang-nvidia-tesla-v100-32g-gpu-qia-de-qu-dong-cheng-xu
作者
Administrator
发布于
2025年04月17日
更新于
2025年05月27日
许可协议