# NVIDIA 퍼블릭 드라이버 설치
<a name="public-nvidia-driver"></a>

[NVIDIA 드라이버가 포함된 AMI 사용](preinstalled-nvidia-driver.md)에 설명된 AWS Marketplace AMI가 사용 사례에 적합하지 않은 경우 퍼블릭 드라이버를 설치하고 자체 라이선스를 사용할 수 있습니다. 설치 옵션은 다음과 같습니다.
+ [옵션 1: 드라이버 전용 설치](#public-nvidia-driver-only-install)
+ [옵션 2: CUDA 툴킷을 사용하여 설치](#public-nvidia-driver-cuda-install)(Linux 배포판에 권장)

 
**P6-B200 및 P6-B300 인스턴스 유형 고려 사항**  
P6-B200 및 P6-B300 플랫폼은 Mellanox ConnectX 네트워크 인터페이스 카드(NIC)를 PCIe 디바이스로 인스턴스에 노출한다는 점에서 독특합니다. 이러한 NIC는 일반적인 네트워크 인터페이스로 작동하지 않고 대신 NVSwitch 브리지로 작동하여 GPU interconnect의 NVLink 토폴로지인 NVFabric을 초기화하고 구성하기 위한 제어 경로를 제공합니다.

시스템을 완전히 초기화하려면 NVIDIA Fabric Manager가 `NVFabric`을 구성하고 NVSwitch 토폴로지를 설정해야 합니다. 이렇게 하면 InfiniBand 커널 모듈이 Mellanox ConnectX NIC와 통신할 수 있습니다.

NVIDIA Fabric Manager는 CUDA 툴킷에 포함되어 있습니다. 이 인스턴스 유형에는 [옵션 2: CUDA 툴킷을 사용하여 설치](#public-nvidia-driver-cuda-install)를 사용하는 것이 좋습니다.

## 옵션 1: 드라이버 전용 설치
<a name="public-nvidia-driver-only-install"></a>

특정 드라이버를 설치하는 경우, 인스턴스에 로그인하고 [http://www.nvidia.com/Download/Find.aspx](http://www.nvidia.com/Download/Find.aspx)에서 인스턴스 유형에 적합한 64비트 NVIDIA 퍼블릭 드라이버를 다운로드합니다. **제품 유형**, **제품 시리즈**, **제품**에 다음 표에 표시된 옵션을 사용합니다.

그런 다음 [NVIDIA 드라이버 설치 가이드](https://docs.nvidia.com/datacenter/tesla/driver-installation-guide/index.html)의 **로컬 리포지토리 설치** 지침을 따릅니다.

**참고**  
P6-B200 및 P6-B300 인스턴스 유형을 사용하려면 NVIDIA CUDA 도구 키트와 함께 제공되는 추가 패키지를 설치 및 구성해야 합니다. 자세한 내용은 [옵션 2: CUDA 툴킷을 사용하여 설치](#public-nvidia-driver-cuda-install)의 Linux 배포 지침을 참조하세요.


| Instance | 제품 유형 | 제품 시리즈 | 제품 | 최소 드라이버 버전 | 
| --- | --- | --- | --- | --- | 
| G3 | Tesla | M-Class | M60 | -- | 
| G4dn | Tesla | T 시리즈 | T4 | -- | 
| G5 | Tesla | A 시리즈 | A10 | 470.00 이상 | 
| G5g1 | Tesla | T 시리즈 | T4G | 470.82.01 이상 | 
| G6 | Tesla | L 시리즈 | L4 | 525.0 이상 | 
| G6e | Tesla | L 시리즈 | L40S | 535.0 이상 | 
| Gr6 | Tesla | L 시리즈 | L4 | 525.0 이상 | 
| G7e | Tesla | RTX 시리즈 | RTX PRO 6000 Blackwell | 575.0 이상 | 
| P2 | Tesla | K 시리즈 | K80 | -- | 
| P3 | Tesla | V 시리즈 | V100 | -- | 
| P4d | Tesla | A 시리즈 | A100 | -- | 
| P4de | Tesla | A 시리즈 | A100 | -- | 
| P5 | Tesla | H-시리즈 | H100 | 530 이상 | 
| P5e | Tesla | H-시리즈 | H200 | 550 이상 | 
| P5en | Tesla | H-시리즈 | H200 | 550 이상 | 
| P6-B2002 | Tesla | HGX 시리즈 | B200 | 570 이상 | 
| P6e-GB200 | Tesla | HGX 시리즈 | B200 | 570 이상 | 
| P6-B3002 | Tesla | HGX 시리즈 | B300 | 580 이상 | 

1 G5g 인스턴스의 운영 체제는 Linux aarch64입니다.

2 P6-B200 및 P6-B300 인스턴스 유형의 경우 NVIDIA Fabric Manager를 구성하기 위한 추가 설치 요구 사항이 있습니다.

## 옵션 2: CUDA 툴킷을 사용하여 설치
<a name="public-nvidia-driver-cuda-install"></a>

설치 지침은 운영 체제에 따라 약간 차이가 있습니다. NVIDIA CUDA 툴킷을 사용하여 인스턴스에 퍼블릭 드라이버를 설치하려면 인스턴스 운영 체제의 지침을 따르세요. 여기에 표시되지 않은 인스턴스 운영 체제의 경우 NVIDIA 개발자 웹사이트의 운영 체제 및 인스턴스 유형 아키텍처에 대한 지침을 따르세요. 자세한 내용은 [CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads)를 참조하세요.

인스턴스 유형 아키텍처 또는 기타 사양은 *Amazon EC2 인스턴스 유형* 참조의 [Accelerated computing](https://docs.aws.amazon.com/ec2/latest/instancetypes/ac.html) 사양을 참조하세요.

### Amazon Linux 2023
<a name="nvidia-public-install-driver-al2023"></a>

이 섹션에서는 Amazon Linux 2023 인스턴스에 NVIDIA CUDA 툴킷을 설치하는 방법을 다룹니다. 이 섹션의 명령 예제는 `x86_64` 아키텍처를 기반으로 합니다.

`arm64-sbsa` 명령은 [CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=arm64-sbsa)를 참조하고 배포에 적용되는 옵션을 선택합니다. 최종 선택 후 지침이 표시됩니다.

**사전 조건**  
툴킷과 드라이버를 설치하기 전에 다음 명령을 실행하여 커널 헤더 및 개발 패키지의 올바른 버전이 있는지 확인합니다.

```
[ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
```

**툴킷 및 드라이버 다운로드**  
인스턴스에 사용할 설치 유형을 선택하고 관련 단계를 따릅니다.

------
#### [ AL2023 NVIDIA repository ]

Amazon Linux 2023에서는 AWS에서 유지 관리하는 전용 리포지토리를 통해 NVIDIA GPU 드라이버 및 CUDA 툴킷 패키지를 제공합니다. AWS는 AL2023 릴리스 후보로 이 리포지토리의 자격을 검증하고 Amazon Linux Security Center를 통해 보안 권고 사항을 제공합니다. AL2023 인스턴스의 경우 설치를 단순화하고 표준 `dnf update` 워크플로를 통해 드라이버를 최신 상태로 유지하기 때문에 이 옵션을 사용하는 것이 좋습니다.

관련 지침은 *Amazon Linux 2023 사용 설명서*의 [NVIDIA drivers](https://docs.aws.amazon.com/linux/al2023/ug/nvidia-drivers.html)를 참조하세요.

------
#### [ RPM local installation ]

다음 지침에 따라 CUDA 툴킷 설치 프로그램 리포지토리 번들을 인스턴스에 다운로드한 다음 지정된 번들을 추출하고 등록할 수 있습니다.

NVIDIA 개발자 웹사이트에서 지침을 보려면 [CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Amazon-Linux&target_version=2023&target_type=rpm_local)를 참조하세요.

```
[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/{{13.0.0}}/local_installers/{{cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm}}
[ec2-user ~]$ sudo rpm -i {{cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm}}
```

------
#### [ RPM network installation ]

다음 지침에 따라 인스턴스의 패키지 관리자를 통해 CUDA 리포지토리를 등록할 수 있습니다. 설치 단계를 실행하면 패키지 관리자가 필요한 패키지만 다운로드합니다.

NVIDIA 개발자 웹사이트에서 지침을 보려면 [CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Amazon-Linux&target_version=2023&target_type=rpm_network)를 참조하세요.

```
[ec2-user ~]$ sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/amzn2023/x86_64/cuda-amzn2023.repo
```

------

나머지 단계는 RPM 로컬 설치와 RPM 네트워크 설치 모두에서 동일합니다.

1. CUDA 툴킷 설치 완료

   ```
   [ec2-user ~]$ sudo dnf clean all
   [ec2-user ~]$ sudo dnf install cuda-toolkit -y
   ```

1. 드라이버의 오픈 커널 모듈 변형 설치

   ```
   [ec2-user ~]$ sudo dnf module install nvidia-driver:open-dkms -y
   ```

1. GPUDirect Storage 및 Fabric Manager 설치

   ```
   [ec2-user ~]$ sudo dnf install nvidia-gds -y
   [ec2-user ~]$ sudo dnf install nvidia-fabric-manager -y
   ```

1. Fabric Manager 및 드라이버 지속성 활성화

   ```
   [ec2-user ~]$ sudo systemctl enable nvidia-fabricmanager
   [ec2-user ~]$ sudo systemctl enable nvidia-persistenced
   ```

1. (*P6-B200 및 P6-B300만 해당*) 이 인스턴스 유형을 사용하려면 NVIDIA CUDA 도구 키트와 함께 제공되는 추가 패키지를 설치 및 구성해야 합니다.

   1. NVIDIA Link Subnet Manager 및 `ibstat`을 설치합니다.

      ```
      [ec2-user ~]$ sudo dnf install nvlink5
      ```

   1. 시작 시 Infiniband 모듈의 자동 로드를 활성화합니다.

      ```
      [ec2-user ~]$ echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
      ```

1. 인스턴스 재부팅

   ```
   [ec2-user ~]$ sudo reboot
   ```

### Ubuntu 24.04
<a name="nvidia-public-install-driver-ubuntu2024"></a>

이 섹션에서는 Ubuntu 24.04 인스턴스에 NVIDIA CUDA 툴킷을 설치하는 방법을 다룹니다. 이 섹션의 명령 예제는 `x86_64` 아키텍처를 기반으로 합니다.

`arm64-sbsa` 명령은 [CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=arm64-sbsa)를 참조하고 배포에 적용되는 옵션을 선택합니다. 최종 선택 후 지침이 표시됩니다.

**사전 조건**  
툴킷과 드라이버를 설치하기 전에 다음 명령을 실행하여 커널 헤더 및 개발 패키지의 올바른 버전이 있는지 확인합니다.

```
$ apt install linux-headers-$(uname -r)
```

**툴킷 및 드라이버 다운로드**  
인스턴스에 사용할 설치 유형을 선택하고 관련 단계를 따릅니다.

------
#### [ Deb local installation ]

다음 지침에 따라 CUDA 툴킷 설치 프로그램 리포지토리 번들을 인스턴스에 다운로드한 다음 지정된 번들을 추출하고 등록할 수 있습니다.

NVIDIA 개발자 웹사이트에서 지침을 보려면 [CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=24.04&target_type=deb_local)를 참조하세요.

```
$ wget https://developer.download.nvidia.com/compute/cuda/repos/{{ubuntu2404}}/x86_64/{{cuda-ubuntu2404.pin}}
$ sudo mv {{cuda-ubuntu2404.pin}} /etc/apt/preferences.d/cuda-repository-pin-600
$ wget https://developer.download.nvidia.com/compute/cuda/{{13.0.0}}/local_installers/{{cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb}}
$ sudo dpkg -i {{cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb}}
$ sudo cp /var/{{cuda-repo-ubuntu2404-13-0-local}}/cuda-*-keyring.gpg /usr/share/keyrings/
```

------
#### [ Deb network installation ]

다음 지침에 따라 인스턴스의 패키지 관리자를 통해 CUDA 리포지토리를 등록할 수 있습니다. 설치 단계를 실행하면 패키지 관리자가 필요한 패키지만 다운로드합니다.

NVIDIA 개발자 웹사이트에서 지침을 보려면 [CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=24.04&target_type=deb_network)를 참조하세요.

```
$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
$ sudo dpkg -i cuda-keyring_1.1-1_all.deb
```

------

나머지 단계는 로컬 설치와 네트워크 설치 모두에서 동일합니다.

1. CUDA 툴킷 설치 완료

   ```
   $ sudo apt update
   $ sudo apt install cuda-toolkit -y
   ```

1. 드라이버의 오픈 커널 모듈 변형 설치

   ```
   $ sudo apt install nvidia-open -y
   ```

1. GPUDirect Storage 및 Fabric Manager 설치

   ```
   $ sudo apt install nvidia-gds -y
   $ sudo apt install nvidia-fabricmanager -y
   ```

1. Fabric Manager 및 드라이버 지속성 활성화

   ```
   $ sudo systemctl enable nvidia-fabricmanager
   $ sudo systemctl enable nvidia-persistenced
   ```

1. (*P6-B200 및 P6-B300만 해당*) 이 인스턴스 유형을 사용하려면 NVIDIA CUDA 도구 키트와 함께 제공되는 추가 패키지를 설치 및 구성해야 합니다.

   1. 최신 InfiniBand 전용 디바이스 드라이버 및 진단 유틸리티를 설치합니다.

      ```
      $ sudo apt install linux-modules-extra-$(uname -r) -y
      $ sudo apt install infiniband-diags -y
      ```

   1. NVIDIA Link Subnet Manager를 설치합니다.

      ```
      $ sudo apt install nvlsm -y
      ```

1. 인스턴스 재부팅

   ```
   sudo reboot
   ```

1. 경로를 업데이트하고 다음 환경 변수를 추가합니다.

   ```
   $ export PATH=${PATH}:/usr/local/{{cuda-13.0}}/bin
   $ export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/{{cuda-13.0}}/lib64
   ```

### Windows 운영 체제
<a name="nvidia-public-install-driver-windows"></a>

Windows에 NVIDIA 드라이버를 설치하려면 다음 단계를 수행합니다.

1. 드라이버를 다운로드한 폴더를 열고 설치 파일을 실행합니다. 안내에 따라 드라이버를 설치하고 필요에 따라 인스턴스를 재부팅합니다.

1. 디바이스 관리자를 사용하여 경고 아이콘이 표시된 **Microsoft Basic Display Adapter**라는 디스플레이 어댑터를 비활성화합니다. Windows 기능인 **미디어 파운데이션** 및 **qWave(Quality Windows Audio Video Experience)**를 설치합니다.
**중요**  
**Microsoft Remote Display Adapter**라는 디스플레이 어댑터를 비활성화하지 마세요. **Microsoft Remote Display Adapter**가 비활성화된 경우 연결이 중단되고 재부팅된 후 인스턴스에 연결하려는 시도가 실패할 수 있습니다.

1. GPU가 올바르게 작동하는지 확인하려면 장치 관리자를 확인합니다.

1. GPU에서 최상의 성능을 얻으려면 [Amazon EC2 인스턴스의 GPU 설정 최적화](optimize_gpu.md)의 최적화 단계를 완료합니다.