NVIDIA GPU 지표 수집
CloudWatch 에이전트를 사용하여 Linux 서버에서 NVIDIA GPU 지표를 수집할 수 있습니다. 이를 설정하려면 CloudWatch 에이전트 구성 파일의 metrics_collected
섹션에 nvidia_gpu
섹션을 추가합니다. 자세한 내용은 Linux 섹션 단원을 참조하십시오.
또한 인스턴스에는 NVIDIA 드라이버가 설치되어 있어야 합니다. 일부 Amazon Machine Image(AMI)에는 NVIDIA 드라이버가 사전 설치되어 있습니다. 그렇지 않다면 드라이버를 수동으로 설치하세요. 자세한 내용은 Linux 인스턴스에 NVIDIA 드라이버 설치를 참조하세요.
다음 지표를 수집할 수 있습니다. 이러한 모든 지표는 CloudWatch Unit
없이 수집되지만, CloudWatch 에이전트 구성 파일에 파라미터를 추가하여 각 지표에 대한 단위를 지정할 수 있습니다. 자세한 내용은 Linux 섹션 단원을 참조하십시오.
지표 | CloudWatch의 지표 이름 | 설명 |
---|---|---|
|
|
GPU에서 하나 이상의 커널이 실행 중이었던 과거 샘플 기간에 대한 시간 비율입니다. |
|
|
코어 GPU 온도(섭씨)입니다. |
|
|
전체 보드에 대해 마지막으로 측정된 소비 전력(와트)입니다. |
|
|
글로벌(디바이스) 메모리를 읽거나 쓰는 동안 과거 샘플 기간에 대한 시간 비율입니다. |
|
|
디바이스의 팬이 현재 동작하려는 최대 팬 속도의 비율입니다. |
|
|
보고된 총 메모리(MB)입니다. |
|
|
사용된 메모리(MB)입니다. |
|
|
여유 메모리(MB)입니다. |
|
|
현재 링크 생성입니다. |
|
|
현재 링크 폭입니다. |
|
|
현재 인코더 세션 수입니다. |
|
|
초당 인코딩 프레임의 이동 평균입니다. |
|
|
인코딩 대기 시간(마이크로초)의 이동 평균입니다. |
|
|
그래픽(셰이더) 클럭의 현재 주파수입니다. |
|
|
스트리밍 멀티프로세서(SM) 클럭의 현재 주파수입니다. |
|
|
메모리 클럭의 현재 주파수입니다. |
|
|
비디오(인코더 및 디코더) 클럭의 현재 주파수입니다. |
이러한 모든 지표는 다음 측정기준으로 수집됩니다.
측정기준 | 설명 |
---|---|
|
이 서버의 GPU의 고유 식별자입니다. 디바이스의 NVIDIA 관리 라이브러리(NVML) 인덱스를 나타냅니다. |
|
GPU의 유형입니다. 예제: |
|
서버 호스트 이름입니다. |