オプション 1: ドライバーのみのインストールオプション 2: CUDA ツールキットのインストール

NVIDIA パブリックドライバーのインストール

「NVIDIA ドライバーが付属する AMI を使用する」に記載されている AWS Marketplace AMI がユースケースに適さない場合、パブリックドライバーをインストールして独自のライセンスを使用できます。インストールオプションは以下のとおりです。

オプション 1: ドライバーのみのインストール
オプション 2: CUDA ツールキットを使用してをインストールする (Linux ディストリビューションに推奨)

P6-B200 および P6-B300 インスタンスタイプに関する考慮事項

P6-B200 および P6-B300 プラットフォームは、Mellanox ConnectX ネットワークインターフェイスカード (NIC) を PCIe デバイスとしてインスタンスに公開するという点で独特です。これらの NIC は一般的なネットワークインターフェイスとして機能しませんが、GPU 相互接続の NVLink トポロジである NVFabric を初期化および設定するための制御パスを提供する NVSwitch ブリッジとして機能します。

システムを完全に初期化するには、NVIDIA Fabric Manager が NVFabric を設定し、NVSwitch トポロジを確立する必要があります。これにより、InfiniBand カーネルモジュールは Mellanox ConnectX NIC と通信できるようになります。

NVIDIA Fabric Manager は CUDA ツールキットに含まれています。このインスタンスタイプには「オプション 2: CUDA ツールキットを使用してをインストールする」をお勧めします。

オプション 1: ドライバーのみのインストール

特定のドライバーをインストールするには、お使いのインスタンスにログオンし、使用するインスタンスタイプに適した 64 ビット NVIDIA パブリックドライバーを http://www.nvidia.com/Download/Find.aspx からダウンロードします。[製品タイプ]、[製品シリーズ]、[製品] の順にクリックし、次の表に示すオプションを使用します。

次に、「NVIDIA Driver Installation Guide」の「Local Repository Installation」の手順に沿って操作します。

注記

P6-B200 および P6-B300 インスタンスタイプの場合、NVIDIA CUDA Toolkit にバンドルされた追加のパッケージのインストールと設定が必要です。詳細については、「オプション 2: CUDA ツールキットを使用してをインストールする」のLinux ディストリビューションの手順を参照してください。

インスタンス	製品タイプ	製品シリーズ	製品	最小ドライバーバージョン
G3	Tesla	M-Class	M60	--
G4dn	Tesla	T シリーズ	T4	--
G5	Tesla	A シリーズ	A10	470.00 以降
G5g¹	Tesla	T シリーズ	T4G	470.82.01 以降
G6	Tesla	L シリーズ	L4	525.0 以降
G6e	Tesla	L シリーズ	L40S	535.0 以降
Gr6	Tesla	L シリーズ	L4	525.0 以降
G7e	Tesla	HGX シリーズ	RTX PRO 6000 Blackwell	575.0 以降
P2	Tesla	K シリーズ	K80	--
P3	Tesla	V シリーズ	V100	--
P4d	Tesla	A シリーズ	A100	--
P4de	Tesla	A シリーズ	A100	--
P5	Tesla	H シリーズ	H100	530 以降
P5e	Tesla	H シリーズ	H200	550 以降
P5en	Tesla	H シリーズ	H200	550 以降
P6-B200²	Tesla	HGX シリーズ	B200	570 以降
P6e-GB200	Tesla	HGX シリーズ	B200	570 以降
P6-B300²	Tesla	HGX シリーズ	B300	580 以降

¹ G5g インスタンスのオペレーティングシステムは Linux aarch64 です。

² P6-B200 および P6-B300 インスタンスタイプの場合、NVIDIA Fabric Manager を設定するための追加のインストール要件があります。

オプション 2: CUDA ツールキットを使用してをインストールする

インストール手順はオペレーティングシステムによって若干異なります。NVIDIA CUDA ツールキットを使用してインスタンスにパブリックドライバーをインストールするには、インスタンスオペレーティングシステムの手順に従います。ここに示されていないインスタンスオペレーティングシステムの場合は、NVIDIA Developer ウェブサイトに掲載されているオペレーティングシステムとインスタンスタイプのアーキテクチャの手順に従ってください。詳細については、「CUDA Toolkit Downloads」を参照してください。

インスタンスタイプのアーキテクチャやその他の仕様については、「Amazon EC2 インスタンスタイプ」リファレンスの「Accelerated computing specifications」を参照してください。

このセクションでは、Amazon Linux 2023 インスタンスへの NVIDIA CUDA ツールキットのインストールについて説明します。このセクションのコマンド例は、x86_64 アーキテクチャに基づいています。

arm64-sbsa コマンドについては、「CUDA Toolkit Downloads」を参照して、ディストリビューションに適用するオプションを選択してください。手順は、最終的な選択を行った後に表示されます。

前提条件

ツールキットとドライバーをインストールする前に、以下のコマンドを実行して、カーネルヘッダーと開発パッケージのバージョンが正しいことを確認します。


[ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y

ツールキットとドライバーをダウンロードする

インスタンスに使用するインストールのタイプを選択し、関連する手順に従います。

AL2023 NVIDIA repository

Amazon Linux 2023 は、AWS が維持する専用リポジトリを通じて NVIDIA GPU ドライバーと CUDA ツールキットパッケージを提供します。AWS は、このリポジトリを AL2023 リリース候補で認定し、Amazon Linux セキュリティセンターを通じてセキュリティアドバイザリを提供します。AL2023 インスタンスでは、インストールを簡素化し、標準 dnf update ワークフローを通じてドライバーを更新するため、このオプションをお勧めします。

手順については、「Amazon Linux 2023 ユーザーガイド」の「NVIDIA ドライバー」を参照してください。

RPM local installation

以下の手順に従って、CUDA ツールキットインストーラリポジトリバンドルをインスタンスにダウンロードし、指定されたバンドルを抽出して登録できます。

NVIDIA Developer ウェブサイトで手順を確認するには、「CUDA Toolkit Downloads」を参照してください。


[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm
[ec2-user ~]$ sudo rpm -i cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm

RPM network installation

これらの手順に従って、CUDA リポジトリをインスタンスのパッケージマネージャーに登録できます。インストール手順を実行すると、パッケージマネージャーによって必要なパッケージのみがダウンロードされます。

NVIDIA Developer ウェブサイトで手順を確認するには、「CUDA Toolkit Downloads」を参照してください。


[ec2-user ~]$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/amzn2023/x86_64/cuda-amzn2023.repo

残りの手順は、RPM ローカルインストールと RPM ネットワークインストールの両方で同じです。

CUDA ツールキットのインストールを完了します


[ec2-user ~]$ sudo dnf clean all
[ec2-user ~]$ sudo dnf install cuda-toolkit -y

ドライバーのオープンカーネルモジュールバリアントをインストールします
```
[ec2-user ~]$ sudo dnf module install nvidia-driver:open-dkms -y
```

GPUDirect Storage と Fabric Manager をインストールします


[ec2-user ~]$ sudo dnf install nvidia-gds -y
[ec2-user ~]$ sudo dnf install nvidia-fabric-manager -y

Fabric Manager とドライバーの永続性を有効にします


[ec2-user ~]$ sudo systemctl enable nvidia-fabricmanager
[ec2-user ~]$ sudo systemctl enable nvidia-persistenced

(P6-B200 および P6-B300 のみ) これらのインスタンスタイプの場合、NVIDIA CUDA Toolkit にバンドルされた追加のパッケージのインストールと設定が必要です。
1. NVIDIA Link Subnet Manager と ibstat をインストールします。
```
[ec2-user ~]$ sudo dnf install nvlink5
```
2. 起動時の Infiniband モジュールの自動ロードを有効にします。
```
[ec2-user ~]$ echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
```
インスタンスを再起動します。
```
[ec2-user ~]$ sudo reboot
```

このセクションでは、Ubuntu 24.04 インスタンスへの NVIDIA CUDA ツールキットのインストールについて説明します。このセクションのコマンド例は、x86_64 アーキテクチャに基づいています。

前提条件


$ apt install linux-headers-$(uname -r)

ツールキットとドライバーをダウンロードする

インスタンスに使用するインストールのタイプを選択し、関連する手順に従います。

残りの手順は、ローカルインストールとネットワークインストールの両方で同じです。

CUDA ツールキットのインストールを完了します
```
$ sudo apt update
$ sudo apt install cuda-toolkit -y
```
ドライバーのオープンカーネルモジュールバリアントをインストールします
```
$ sudo apt install nvidia-open -y
```

GPUDirect Storage と Fabric Manager をインストールします


$ sudo apt install nvidia-gds -y
$ sudo apt install nvidia-fabricmanager -y

Fabric Manager とドライバーの永続性を有効にします


$ sudo systemctl enable nvidia-fabricmanager
$ sudo systemctl enable nvidia-persistenced

(P6-B200 および P6-B300 のみ) これらのインスタンスタイプの場合、NVIDIA CUDA Toolkit にバンドルされた追加のパッケージのインストールと設定が必要です。
1. 最新の InfiniBand 固有のデバイスドライバーと診断ユーティリティをインストールします。
```
$ sudo apt install linux-modules-extra-$(uname -r) -y
$ sudo apt install infiniband-diags -y
```
2. NVIDIA Link Subnet Manager をインストールします。
```
$ sudo apt install nvlsm -y
```
インスタンスを再起動します。
```
sudo reboot
```

パスを更新し、以下の環境変数を追加します。


$ export PATH=${PATH}:/usr/local/cuda-13.0/bin
$ export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64

Windows に NVIDIA ドライバーをインストールするには、次のステップに従ってください。

ドライバーをダウンロードしたフォルダを開き、インストールファイルを起動します。ドライバーをインストールする手順にしたがい、必要に応じてインスタンスを再起動します。
デバイスマネージャを使用して、警告アイコンが表示されている [Microsoft 基本ディスプレイアダプター] という名前のディスプレイアダプターを無効にします。Windows の機能である、Media Foundation および Quality Windows Audio Video Experience をインストールします。

重要
[Microsoft リモートディスプレイアダプター] という名前のディスプレイアダプターを無効にしないでください。[Microsoft リモートディスプレイアダプター] が無効になっていると、接続が中断され、再起動後にインスタンスに接続しようとすると失敗する可能性があります。
デバイスマネージャーで、GPU が正しく動作していることを確認します。
GPU の最善のパフォーマンスを実現するには、「Amazon EC2 インスタンスの GPU 設定を最適化する」の最適化ステップを完了します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

NVIDIA ドライバーが付属する AMI

GRID ドライバーのインストール

NVIDIA パブリックドライバーのインストール

P6-B200 および P6-B300 インスタンスタイプに関する考慮事項

オプション 1: ドライバーのみのインストール

注記

オプション 2: CUDA ツールキットを使用して をインストールする

前提条件

ツールキットとドライバーをダウンロードする

前提条件

ツールキットとドライバーをダウンロードする

重要

オプション 2: CUDA ツールキットを使用してをインストールする