本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 安裝 NVIDIA 公有驅動程式
<a name="public-nvidia-driver"></a>

如果 中所述 AWS Marketplace AMIs [使用包含 NVIDIA 驅動程式的 AMI](preinstalled-nvidia-driver.md)不符合您的使用案例，您可以安裝公有驅動程式並自帶授權。安裝選項包含下列項目：
+ [選項 1：僅安裝驅動程式](#public-nvidia-driver-only-install)
+ [選項 2：透過 CUDA 工具組安裝](#public-nvidia-driver-cuda-install) (建議用於 Linux 發行版本)

 
**P6-B200 和 P6-B300 執行個體類型考量事項**  
P6-B200 和 P6-B300 平台是唯一的，因為它們以 PCIe 裝置的形式向執行個體公開 Mellanox ConnectX 網路介面卡 (NICs)。這些 NICs 不會做為一般網路介面，而是做為 NVSwitch 橋接器運作，提供用於初始化和設定 NVFabric 的控制路徑，這是 GPU 互連的 NVLink 拓撲。

若要完整初始化系統，NVIDIA Fabric Manager 必須設定 `NVFabric` 並建立 NVSwitch 拓撲。如此一來，InfiniBand 核心模組就能與 Mellanox ConnectX NICs通訊。

NVIDIA Fabric Manager 已包含於 CUDA 工具組中。我們建議為此執行個體類型使用 [選項 2：透過 CUDA 工具組安裝](#public-nvidia-driver-cuda-install)。

## 選項 1：僅安裝驅動程式
<a name="public-nvidia-driver-only-install"></a>

若要安裝特定驅動程式，請登入您的執行個體，並從 [http://www.nvidia.com/Download/Find.aspx](http://www.nvidia.com/Download/Find.aspx)：// 下載執行個體類型的 64 位元 NVIDIA 公有驅動程式。對於**產品類型**、**產品系列**及**產品**，請使用下表中顯示的選項。

然後遵循 NVIDIA **驅動程式安裝指南中的本機儲存庫**安裝說明。 [https://docs.nvidia.com/datacenter/tesla/driver-installation-guide/index.html](https://docs.nvidia.com/datacenter/tesla/driver-installation-guide/index.html)

**注意**  
P6-B200 和 P6-B300 執行個體類型需要安裝和設定與 NVIDIA CUDA Toolkit 隨附的其他套件。如需進一步資訊，請參閱 [選項 2：透過 CUDA 工具組安裝](#public-nvidia-driver-cuda-install) 中適用於您的 Linux 發行版本的說明。


| 執行個體 | 產品類型 | 產品系列 | 產品 | 最低驅動程式版本 | 
| --- | --- | --- | --- | --- | 
| G3 | Tesla | M-Class | M60 | -- | 
| G4dn | Tesla | T 系列 | T4 | -- | 
| G5 | Tesla | A 系列 | A10 | 470.00 或更新版本 | 
| G5g1 | Tesla | T 系列 | T4G | 470.82.01 或更新版本 | 
| G6 | Tesla | L 系列 | L4 | 525.0 或更新版本 | 
| G6e | Tesla | L 系列 | L40S | 535.0 或更新版本 | 
| Gr6 | Tesla | L 系列 | L4 | 525.0 或更新版本 | 
| G7e | Tesla | RTX 系列 | RTX PRO 6000 Blackwell | 575.0 或更新版本 | 
| P2 | Tesla | K 系列 | K80 | -- | 
| P3 | Tesla | V 系列 | V100 | -- | 
| P4d | Tesla | A 系列 | A100 | -- | 
| P4de | Tesla | A 系列 | A100 | -- | 
| P5 | Tesla | H 系列 | H100 | 530 或更新版本 | 
| P5e | Tesla | H 系列 | H200 | 550 或更新版本 | 
| P5en | Tesla | H 系列 | H200 | 550 或更新版本 | 
| P6-B2002 | Tesla | HGX 系列 | B200 | 570 或更新版本 | 
| P6e-GB200 | Tesla | HGX 系列 | B200 | 570 或更新版本 | 
| P6-B3002 | Tesla | HGX 系列 | B300 | 580 或更新版本 | 

1 G5g 執行個體的作業系統為 Linux aarch64。

2 對於 P6-B200 和 P6-B300 執行個體類型，設定 NVIDIA Fabric Manager 有額外的安裝需求。

## 選項 2：透過 CUDA 工具組安裝
<a name="public-nvidia-driver-cuda-install"></a>

安裝說明會因作業系統而略有不同。若要使用 NVIDIA CUDA 工具組在您的執行個體上安裝公有驅動程式，請遵循適用於您的執行個體作業系統的說明。若您的執行個體作業系統未列於此，請遵循 NVIDIA 開發人員網站上的作業系統與執行個體類型架構說明。如需詳細資訊，請參閱 [CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads)。

有關執行個體類型架構或其他規格，請參閱《*Amazon EC2 執行個體類型*參考》中的[加速運算](https://docs.aws.amazon.com/ec2/latest/instancetypes/ac.html)規格。

### Amazon Linux 2023
<a name="nvidia-public-install-driver-al2023"></a>

本節說明如何在 Amazon Linux 2023 執行個體上安裝 NVIDIA CUDA 工具組。本節中的命令範例基於 `x86_64` 架構。

如需 `arm64-sbsa` 命令，請參閱 [CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=arm64-sbsa)，然後選取套用至您的發行版本的選項。完成最終選擇後，顯示對應說明。

**先決條件**  
安裝工具組與驅動程式前，執行下列命令，以確保您具備正確版本的核心標頭與開發套件。

```
[ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
```

**下載工具組與驅動程式**  
選擇適用於您執行個體的安裝類型，並遵循相關步驟。

------
#### [ AL2023 NVIDIA repository ]

Amazon Linux 2023 透過 AWS 維護的專用儲存庫提供 NVIDIA GPU 驅動程式和 CUDA 工具組套件。 AWS 符合此儲存庫的 AL2023 版本候選資格，並透過 Amazon Linux 安全中心提供安全建議。建議您對 AL2023 執行個體使用此選項，因為它可簡化安裝，並透過標準`dnf update`工作流程讓驅動程式保持最新狀態。

如需說明，請參閱《*Amazon Linux 2023 使用者指南*》中的 [NVIDIA 驅動程式](https://docs.aws.amazon.com/linux/al2023/ug/nvidia-drivers.html)。

------
#### [ RPM local installation ]

您可遵循這些說明，將 CUDA 工具組安裝程式儲存庫套件下載至您的執行個體，然後解壓縮並註冊指定套件。

若要在 NVIDIA 開發人員網站上檢視說明，請參閱 [CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Amazon-Linux&target_version=2023&target_type=rpm_local)。

```
[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm
[ec2-user ~]$ sudo rpm -i cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm
```

------
#### [ RPM network installation ]

您可遵循這些說明，在您執行個體的套件管理工具中註冊 CUDA 儲存庫。執行安裝步驟時，套件管理工具僅會下載必要的套件。

若要在 NVIDIA 開發人員網站上檢視說明，請參閱 [CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Amazon-Linux&target_version=2023&target_type=rpm_network)。

```
[ec2-user ~]$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/amzn2023/x86_64/cuda-amzn2023.repo
```

------

RPM 本機和 RPM 網路安裝的剩餘步驟相同。

1. 完成 CUDA 工具組安裝

   ```
   [ec2-user ~]$ sudo dnf clean all
   [ec2-user ~]$ sudo dnf install cuda-toolkit -y
   ```

1. 安裝驅動程式的開放式核心模組版本

   ```
   [ec2-user ~]$ sudo dnf module install nvidia-driver:open-dkms -y
   ```

1. 安裝 GPUDirect Storage 與 Fabric Manager

   ```
   [ec2-user ~]$ sudo dnf install nvidia-gds -y
   [ec2-user ~]$ sudo dnf install nvidia-fabric-manager -y
   ```

1. 啟用 Fabric Manager 與驅動程式持久性

   ```
   [ec2-user ~]$ sudo systemctl enable nvidia-fabricmanager
   [ec2-user ~]$ sudo systemctl enable nvidia-persistenced
   ```

1. (*僅限 P6-B200 和 P6-B300*) 這些執行個體類型需要安裝和設定與 NVIDIA CUDA Toolkit 隨附的其他套件。

   1. 安裝 NVIDIA Link Subnet Manager 與 `ibstat`。

      ```
      [ec2-user ~]$ sudo dnf install nvlink5
      ```

   1. 啟用在啟動時自動載入 Infiniband 模組。

      ```
      [ec2-user ~]$ echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
      ```

1. 重新啟動執行個體

   ```
   [ec2-user ~]$ sudo reboot
   ```

### Ubuntu 24.04
<a name="nvidia-public-install-driver-ubuntu2024"></a>

本節說明如何在 Ubuntu 24.04 執行個體上安裝 NVIDIA CUDA 工具組。本節中的命令範例基於 `x86_64` 架構。

如需 `arm64-sbsa` 命令，請參閱 [CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=arm64-sbsa)，然後選取套用至您的發行版本的選項。完成最終選擇後，顯示對應說明。

**先決條件**  
安裝工具組與驅動程式前，執行下列命令，以確保您具備正確版本的核心標頭與開發套件。

```
$ apt install linux-headers-$(uname -r)
```

**下載工具組與驅動程式**  
選擇適用於您執行個體的安裝類型，並遵循相關步驟。

------
#### [ Deb local installation ]

您可遵循這些說明，將 CUDA 工具組安裝程式儲存庫套件下載至您的執行個體，然後解壓縮並註冊指定套件。

若要在 NVIDIA 開發人員網站上檢視說明，請參閱 [CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=24.04&target_type=deb_local)。

```
$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-ubuntu2404.pin
$ sudo mv cuda-ubuntu2404.pin /etc/apt/preferences.d/cuda-repository-pin-600
$ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb
$ sudo dpkg -i cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb
$ sudo cp /var/cuda-repo-ubuntu2404-13-0-local/cuda-*-keyring.gpg /usr/share/keyrings/
```

------
#### [ Deb network installation ]

您可遵循這些說明，在您執行個體的套件管理工具中註冊 CUDA 儲存庫。執行安裝步驟時，套件管理工具僅會下載必要的套件。

若要在 NVIDIA 開發人員網站上檢視說明，請參閱 [CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=24.04&target_type=deb_network)。

```
$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
$ sudo dpkg -i cuda-keyring_1.1-1_all.deb
```

------

本機安裝與網路安裝的其餘步驟相同。

1. 完成 CUDA 工具組安裝

   ```
   $ sudo apt update
   $ sudo apt install cuda-toolkit -y
   ```

1. 安裝驅動程式的開放式核心模組版本

   ```
   $ sudo apt install nvidia-open -y
   ```

1. 安裝 GPUDirect Storage 與 Fabric Manager

   ```
   $ sudo apt install nvidia-gds -y
   $ sudo apt install nvidia-fabricmanager -y
   ```

1. 啟用 Fabric Manager 與驅動程式持久性

   ```
   $ sudo systemctl enable nvidia-fabricmanager
   $ sudo systemctl enable nvidia-persistenced
   ```

1. (*僅限 P6-B200 和 P6-B300*) 這些執行個體類型需要安裝和設定與 NVIDIA CUDA Toolkit 隨附的其他套件。

   1. 安裝最新的 InfiniBand 特定裝置驅動程式和診斷公用程式。

      ```
      $ sudo apt install linux-modules-extra-$(uname -r) -y
      $ sudo apt install infiniband-diags -y
      ```

   1. 安裝 NVIDIA Link Subnet Manager。

      ```
      $ sudo apt install nvlsm -y
      ```

1. 重新啟動執行個體

   ```
   sudo reboot
   ```

1. 更新路徑並新增下列環境變數。

   ```
   $ export PATH=${PATH}:/usr/local/cuda-13.0/bin
   $ export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64
   ```

### Windows 作業系統
<a name="nvidia-public-install-driver-windows"></a>

若要在 Windows 上安裝 NVIDIA 驅動程序，請依照下列步驟操作：

1. 開啟您下載驅動程式的所在資料夾，並啟動安裝檔案。依照指示安裝驅動程式，並視需要將執行個體重新開機。

1. 使用 Device Manager 停用標有警告圖示的名為 **Microsoft Basic Display Adapter** 的顯示轉接器。安裝這些 Windows 功能：**Media Foundation** 和 **Quality Windows Audio Video Experience** (高品質 Windows 音訊/視訊體驗)。
**重要**  
請勿停用名為 **Microsoft Remote Display Adapter** 的顯示轉接器。如果停用 **Microsoft Remote Display Adapter**，您的連線可能會中斷，並在重新開機後會嘗試連線至執行個體可能會失敗。

1. 檢查裝置管理員，確認 GPU 是否正常運作。

1. 若要達到 GPU 的最佳效能，請完成[在 Amazon EC2 執行個體最佳化 GPU 設定](optimize_gpu.md)中的最佳化步驟。