CloudWatch 솔루션: Amazon EC2의 NVIDIA GPU 워크로드 - Amazon CloudWatch

CloudWatch 솔루션: Amazon EC2의 NVIDIA GPU 워크로드

이 솔루션을 사용하면 EC2 인스턴스에서 실행되는 NVIDIA GPU 워크로드용 CloudWatch 에이전트를 사용하여 즉시 사용 가능한 메트릭 컬렉션을 구성할 수 있습니다. 또한, 미리 구성된 CloudWatch 대시보드를 설정하는 데 도움이 됩니다. CloudWatch 관찰성 솔루션에서 모든 CloudWatch 관찰성 솔루션에 대한 일반 정보를 참조하세요.

요구 사항

이 솔루션 관련 조건은 다음과 같습니다.

  • 컴퓨팅: Amazon EC2

  • 지정된 AWS 리전의 모든 EC2 인스턴스에서 최대 500개의 GPU 지원

  • CloudWatch 에이전트의 최신 버전

  • EC2 인스턴스에 SSM Agent 설치

  • EC2 인스턴스에는 NVIDIA 드라이버가 설치되어 있어야 합니다. 일부 Amazon Machine Image(AMI)에는 NVIDIA 드라이버가 사전 설치되어 있습니다. 그렇지 않다면 드라이버를 수동으로 설치하세요. 자세한 내용은 Linux 인스턴스에 NVIDIA 드라이버 설치를 참조하세요.

참고

AWS Systems Manager(SSM Agent)는 AWS 및 신뢰할 수 있는 타사에서 제공하는 일부 Amazon Machine Images (AMI)에 사전 설치되어 있습니다. 에이전트가 설치되지 않은 경우 다음 운영 체제 유형에 대한 절차를 사용하여 수동으로 설치할 수 있습니다.

이점

이 솔루션은 NVIDIA 모니터링을 제공함으로써 다음 사용 사례에 관한 유용한 인사이트를 제공합니다.

  • 성능 병목 현상과 관련된 GPU와 메모리 사용량은 물론, 추가 리소스 요구량도 분석합니다.

  • 온도와 전력 소비를 모니터링하여 GPU가 안전 범위 내에서 작동하는지 확인합니다.

  • GPU 비디오 워크로드의 인코더 성능을 평가합니다.

  • PCIe 연결에서 예상 생성량과 너비를 확인합니다.

  • GPU 클럭 속도를 모니터링하여 규모 조정 및 스로틀링 문제를 감지합니다.

솔루션의 가장 중요한 장점으로는 다음과 같은 것들이 있습니다.

  • CloudWatch 에이전트 구성을 사용하여 NVIDIA의 메트릭 수집을 자동화함으로써 수동 계측 소요를 없앱니다.

  • NVIDIA 메트릭에 대해 미리 구성된 통합 CloudWatch 대시보드를 제공합니다. 대시보드는 솔루션을 사용하여 구성된 새 NVIDIA EC2 인스턴스의 메트릭을 자동으로 처리하며, 이는 해당 대시보드를 처음 생성할 때 해당 메트릭이 존재하지 않더라도 마찬가지입니다.

다음 이미지는 해당 솔루션의 대시보드 예시입니다.

NVIDIA GPU 솔루션용 대시보드 예제.

비용

이 솔루션은 사용자 계정에 리소스를 생성하여 사용합니다. 표준 사용에 대한 요금이 부과되며, 다음 항목들이 포함됩니다.

  • CloudWatch 에이전트가 수집한 메트릭은 사용자 지정 메트릭으로 청구됩니다. 이 솔루션에서 사용하는 메트릭 수는 EC2 호스트 수에 따라 달라집니다.

    • 솔루션에 구성된 각각의 EC2 호스트는 GPU마다 총 17개의 메트릭을 게시합니다.

  • 사용자 지정 단일 대시보드

  • 메트릭을 게시하기 위해 CloudWatch 에이전트가 요청한 API 작업입니다. 이 솔루션의 기본 구성을 사용하면 CloudWatch 에이전트가 각각의 EC2 호스트마다 PutMetricData를 1분에 한 번씩 호출합니다. 즉, 각각의 EC2 호스트에 대해 30일 이내에 PutMetricData API30*24*60=43,200가 호출됩니다.

CloudWatch 요금에 대한 자세한 내용은 Amazon CloudWatch 요금을 참조하세요.

요금 계산기는 이 솔루션 사용에 대한 대략적인 월별 비용을 추정하는 데 도움이 될 수 있습니다.

요금 계산기를 사용하여 솔루션 월별 비용을 추정하려면
  1. Amazon CloudWatch 요금 계산기를 엽니다.

  2. 리전 선택에서 솔루션을 배포하려는 리전을 선택합니다.

  3. 메트릭 섹션의 메트릭 수17 * average number of GPUs per EC2 host * number of EC2 instances configured for this solution을(를) 입력합니다.

  4. API 섹션의 API 요청 수43200 * number of EC2 instances configured for this solution을(를) 입력합니다.

  5. 기본적으로 CloudWatch 에이전트는 각각의 EC2 호스트마다 PutMetricData 작업을 1분당 하나씩 수행합니다.

  6. 대시보드 및 경보 섹션의 대시보드 수1을(를) 입력합니다.

  7. 요금 계산기 하단에서 월별 예상 비용을 확인할 수 있습니다.

이 솔루션에 대한 CloudWatch 에이전트 구성

CloudWatch 에이전트는 서버와 컨테이너화된 환경에서 지속적이고 자율적으로 실행되는 소프트웨어입니다. 인프라와 애플리케이션에서 메트릭, 로그, 트레이스를 수집하여 CloudWatch와 X-Ray로 전송합니다.

CloudWatch에 대한 자세한 내용은 CloudWatch 에이전트를 사용하여 지표, 로그, 추적 수집을(를) 참조하세요.

이 솔루션의 에이전트 구성은 NVIDIA GPU 모니터링 및 관찰을 시작하는 데 도움이 되는 메트릭 세트를 수집합니다. CloudWatch 에이전트는 대시보드가 기본적으로 표시하는 것보다 더 많은 NVIDIA GPU 메트릭을 수집하도록 구성할 수 있습니다. 수집할 수 있는 모든 NVIDIA GPU 메트릭 목록은 NVIDIA GPU 지표 수집을(를) 참조하세요.

이 솔루션의 에이전트 구성

에이전트가 수집한 메트릭은 에이전트 구성에 정의되어 있습니다. 이 솔루션은 솔루션 대시보드에 적합한 차원에 권장 메트릭을 수집하는 에이전트 구성을 제공합니다.

NVIDIA GPU 사용 EC2 인스턴스에 다음 CloudWatch 에이전트 구성을 사용합니다. 구성은 뒷부분의 2단계: Systems Manager Parameter Store에 권장 에이전트 구성 파일을 저장에 설명된 대로 SSM의 Parameter Store에 파라미터로 저장됩니다.

{ "metrics": { "namespace": "CWAgent", "append_dimensions": { "InstanceId": "${aws:InstanceId}" }, "metrics_collected": { "nvidia_gpu": { "measurement": [ "utilization_gpu", "temperature_gpu", "power_draw", "utilization_memory", "fan_speed", "memory_total", "memory_used", "memory_free", "pcie_link_gen_current", "pcie_link_width_current", "encoder_stats_session_count", "encoder_stats_average_fps", "encoder_stats_average_latency", "clocks_current_graphics", "clocks_current_sm", "clocks_current_memory", "clocks_current_video" ], "metrics_collection_interval": 60 } } }, "force_flush_interval": 60 }

솔루션 에이전트 배포

사용 사례에 따라 CloudWatch 에이전트를 설치하는 방법에는 여러 가지가 있습니다. 이 솔루션에는 Systems Manager를 사용하는 것이 좋습니다. Systems Manager는 콘솔 환경을 제공하며 단일 AWS 계정 내에 관리형 서버 플릿을 더 쉽게 관리할 수 있습니다. 이 섹션의 내용은 Systems Manager를 사용하며, 기존 구성으로 CloudWatch 에이전트를 실행하지 않는 경우에 적용할 수 있습니다. CloudWatch 에이전트가 실행 중인지 확인에 나열된 단계에 따라 CloudWatch 에이전트가 실행 중인지 확인할 수 있습니다.

워크로드가 배포된 EC2 호스트에서 이미 CloudWatch 에이전트를 실행 중이며 에이전트 구성을 관리 중이라면 이 섹션의 내용을 건너뛰어 기존 배포 메커니즘에 따라 구성을 업데이트할 수 있습니다. NVIDIA GPU의 에이전트 구성을 기존 에이전트 구성과 병합한 다음에 병합된 구성을 배포해야 합니다. Systems Manager를 사용하여 CloudWatch 에이전트의 구성을 저장하고 관리하는 경우, 해당 구성을 기존 파라미터 값에 병합할 수 있습니다. 자세한 내용은 CloudWatch 에이전트 구성 파일 관리를 참조하세요.

참고

Systems Manager를 사용하여 다음 CloudWatch 에이전트 구성을 배포하면 EC2 인스턴스의 기존 CloudWatch 에이전트 구성을 대체하거나 덮어씁니다. 이 구성은 고유한 환경 또는 사용 사례에 맞춰 수정할 수 있습니다. 구성에 정의된 메트릭은 솔루션을 제공하는 대시보드에 필요한 최소 항목입니다.

이 배포 프로세스는 다음 단계를 통해 이루어집니다.

  • 1단계: 대상 EC2 인스턴스에 필요한 IAM 권한이 있는지 확인합니다.

  • 2단계: Systems Manager Parameter Store에 권장 에이전트 구성 파일을 저장합니다.

  • 3단계: AWS CloudFormation 스택을 사용하여 하나 이상의 EC2 인스턴스에 CloudWatch 에이전트를 설치합니다.

  • 4단계: 에이전트 설정이 올바르게 구성되었는지 확인합니다.

1단계: 대상 EC2 인스턴스에 필요한 IAM 권한이 있는지 확인

Systems Manager가 CloudWatch 에이전트를 설치하고 구성할 수 있도록 권한을 부여해야 합니다. 또한, CloudWatch 에이전트가 EC2 인스턴스에서 CloudWatch로 원격 측정을 게시할 수 있는 권한을 부여해야 합니다. 인스턴스에 연결된 IAM 역할에 CloudWatchAgentServerPolicyAmazonSSMManagedInstanceCore IAM 정책이 연결되어 있는지 확인합니다.

2단계: Systems Manager Parameter Store에 권장 에이전트 구성 파일을 저장

Parameter Store는 구성 파라미터를 안전하게 저장하고 관리하여 EC2 인스턴스에 CloudWatch 에이전트 설치하는 작업을 간소화하므로 하드 코딩 값이 필요 없습니다. 이를 통해 보다 안전하고 유연한 배포 프로세스를 보장하며 중앙 집중식 관리를 가능하게 하는 동시에 다양한 인스턴스에서 구성을 더 쉽게 업데이트할 수 있습니다.

다음 단계에 따라 권장 CloudWatch 에이전트 구성 파일을 Parameter Store에 파라미터로 저장합니다.

CloudWatch 에이전트 구성 파일을 파라미터로 생성하려면
  1. AWS Systems Manager 콘솔(https://console.aws.amazon.com/systems-manager/)을 엽니다.

  2. 콘솔에서 선택한 리전이 NVIDIA GPU 워크로드가 실행 중인 리전인지 확인합니다.

  3. 탐색 창에서 애플리케이션 관리Parameter Store를 선택합니다.

  4. 다음 단계에 따라 새 구성 파라미터를 생성합니다.

    1. 파라미터 생성(Create parameter)을 선택합니다.

    2. 이름 상자에 이후 단계에서 CloudWatch 에이전트 구성 파일을 참조하는 데 사용할 이름을 입력합니다. 예: AmazonCloudWatch-NVIDIA-GPU-Configuration.

    3. (선택 사항) Description 상자에 파라미터 설명을 입력합니다.

    4. 파라미터 계층에서 표준을 선택합니다.

    5. Type(유형)에서 문자열을 선택합니다.

    6. 데이터 유형에는 텍스트를 선택합니다.

    7. 상자에 이 솔루션의 에이전트 구성에 목록으로 표시된 해당 JSON 블록을 붙여넣습니다.

    8. 파라미터 생성(Create parameter)을 선택합니다.

3단계: CloudWatch 에이전트를 설치하고 AWS CloudFormation 템플릿을 사용하여 구성을 적용

AWS CloudFormation을(를) 사용하여 에이전트를 설치하고 이를 이전 단계에서 생성한 CloudWatch 에이전트 구성을 사용하도록 구성할 수 있습니다.

이 솔루션의 CloudWatch 에이전트를 설치하고 구성하려면
  1. https://console.aws.amazon.com/cloudformation/home?#/stacks/quickcreate?templateURL=https://aws-observability-solutions.s3.amazonaws.com/CloudWatchAgent/CFN/v1.0.0/cw-agent-installation-template-1.0.0.json 링크를 사용하여 AWS CloudFormation 빠른 스택 생성 마법사를 엽니다.

  2. 콘솔에서 선택한 리전이 NVIDIA GPU 워크로드가 실행 중인 리전인지 확인합니다.

  3. 스택 이름에 스택의 이름을 CWAgentInstallationStack 등과 같이 입력합니다.

  4. 파라미터 섹션에는 다음과 같이 지정합니다.

    1. CloudWatchAgentConfigSSM에는 이전에 생성한 에이전트 구성의 Systems Manager 파라미터 이름을 AmazonCloudWatch-NVIDIA-GPU-Configuration 등과 같이 입력합니다.

    2. 대상 인스턴스를 선택할 때 사용할 수 있는 두 가지 옵션이 있습니다.

      1. InstanceIds에는 이 구성으로 CloudWatch 에이전트를 설치하려는 인스턴스 ID에서 쉼표로 구분된 인스턴스 ID 목록을 지정합니다. 단일 인스턴스나 여러 인스턴스를 목록 지정할 수 있습니다.

      2. 대규모 배포 시에는 TagKey와 해당 TagValue를 지정하여 해당 태그와 값을 사용하는 모든 EC2 인스턴스를 대상으로 지정할 수 있습니다. TagKey를 지정하는 경우 관련된 TagValue를 지정해야 합니다. (Auto Scaling 그룹에서는 TagKeyaws:autoscaling:groupName처럼 지정하고 Auto Scaling 그룹 내의 모든 인스턴스에 배포할 TagKey의 Auto Scaling 그룹 이름을 지정합니다.)

  5. 설정을 검토한 다음 스택 생성을 선택합니다.

템플릿 파일을 먼저 편집하여 사용자 지정하려면 스택 생성 마법사에서 템플릿 파일 업로드 옵션을 선택하여 편집된 템플릿을 업로드합니다. 자세한 내용은 AWS CloudFormation 콘솔에서 스택 생성 단원을 참조하세요.

참고

이 단계가 완료되면 이 Systems Manager 파라미터는 대상 인스턴스에서 실행되는 CloudWatch 에이전트와 연결됩니다. 이는 다음을 의미합니다.

  1. Systems Manager 파라미터가 삭제되면 에이전트가 중지됩니다.

  2. Systems Manager 파라미터를 편집하면 기본값인 30일로 예약된 빈도로 에이전트에 구성 변경 사항이 자동으로 적용됩니다.

  3. 이 Systems Manager 파라미터에 변경 사항을 즉시 적용하려면 이 단계를 다시 실행해야 합니다. 자세한 내용은 Systems Manager에서 연결 작업을 참조하세요.

4단계: 에이전트 설정이 올바르게 구성되었는지 확인

CloudWatch 에이전트가 실행 중인지 확인에 나열된 단계에 따라 CloudWatch 에이전트가 설치되었는지 확인할 수 있습니다. CloudWatch 에이전트가 설치되어 실행되지 않는 경우 모든 항목을 올바르게 설정했는지 확인합니다.

모든 것이 올바르게 설정된 경우 CloudWatch에 게시되는 NVIDIA GPU 메트릭이 표시됩니다. CloudWatch 콘솔을 확인하여 게시되고 있는지 확인할 수 있습니다.

NVIDIA GPU 메트릭이 CloudWatch에 게시되고 있는지 확인하려면
  1. https://console.aws.amazon.com/cloudwatch/에서 CloudWatch 콘솔을 엽니다.

  2. 메트릭, 전체 메트릭을 선택합니다.

  3. 솔루션을 배포한 리전을 선택하고 사용자 지정 네임스페이스, CWAgent를 선택합니다.

  4. nvidia_smi_utilization_gpu과(와) 같이 이 솔루션의 에이전트 구성에 언급된 메트릭을 검색합니다. 해당 메트릭에 대한 결과가 표시되면 메트릭은 CloudWatch에 게시 중입니다.

NVIDIA GPU 솔루션 대시보드 생성

이 솔루션에서 제공하는 대시보드는 모든 인스턴스에서 메트릭을 집계하고 제시하여 NVIDIA GPU 메트릭을 제공합니다. 대시보드에는 메트릭별 상위 기여자(메트릭 위젯당 상위 10개)의 세부 정보가 표시됩니다. 이를 통해 관찰된 메트릭에 크게 기여하는 인스턴스나 이상치를 빠르게 식별할 수 있습니다.

대시보드를 생성하기 위해 사용할 수 있는 옵션은 다음과 같습니다.

  • CloudWatch 콘솔을 사용하여 대시보드를 생성합니다.

  • AWS CloudFormation 콘솔을 사용하여 대시보드를 배포합니다.

  • AWS CloudFormation 인프라를 코드로 다운로드하여 지속적 통합(CI) 자동화에 통합합니다.

CloudWatch 콘솔을 사용하여 대시보드를 생성하면 실제 생성 및 청구 전에 대시보드를 미리 볼 수 있습니다.

참고

이 솔루션에서 AWS CloudFormation(으)로 생성된 대시보드에는 솔루션이 배포된 리전의 메트릭이 표시됩니다. NVIDIA GPU 메트릭이 게시되는 리전에서 AWS CloudFormation 스택을 생성해야 합니다.

사용자 지정 네임스페이스를 CloudWatch 에이전트 구성의 CWAgent 이외의 네임스페이스로 지정하는 경우 대시보드의 AWS CloudFormation 템플릿을 변경하여 사용 중인 사용자 지정 네임스페이스로 CWAgent를 바꿔야 합니다.

CloudWatch 콘솔을 통해 대시보드를 생성하려면
  1. https://console.aws.amazon.com/cloudwatch/home?#dashboards?dashboardTemplate=NvidiaGpuOnEc2&referrer=os-catalog 링크를 사용하여 CloudWatch 클라우드의 대시보드 생성을 엽니다.

  2. 콘솔에서 선택한 리전이 NVIDIA GPU 워크로드가 실행 중인 리전인지 확인합니다.

  3. 대시보드의 이름을 입력하고 대시보드 생성을 선택합니다.

    이 대시보드를 다른 리전의 비슷한 대시보드와 쉽게 구분하려면 NVIDIA-GPU-Dashboard-us-east-1처럼 대시보드 이름에 리전 이름을 포함하는 것이 좋습니다.

  4. 대시보드를 미리 보고 저장을 선택하여 대시보드를 생성합니다.

AWS CloudFormation을(를) 통해 대시보드를 생성하려면
  1. https://console.aws.amazon.com/cloudformation/home?#/stacks/quickcreate?templateURL=https://aws-observability-solutions.s3.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard-template-1.0.0.json 링크를 사용하여 AWS CloudFormation 빠른 스택 생성 마법사를 엽니다.

  2. 콘솔에서 선택한 리전이 NVIDIA GPU 워크로드가 실행 중인 리전인지 확인합니다.

  3. 스택 이름에 스택의 이름을 NVIDIA-GPU-DashboardStack 등과 같이 입력합니다.

  4. 파라미터 섹션에서 DashboardName 파라미터 아래에 대시보드 이름을 지정합니다.

  5. 이 대시보드를 다른 리전의 비슷한 대시보드와 쉽게 구분하려면 NVIDIA-GPU-Dashboard-us-east-1처럼 대시보드 이름에 리전 이름을 포함하는 것이 좋습니다.

  6. 기능 및 변환에서 변환에 대한 액세스 기능을 확인합니다. AWS CloudFormation은 IAM 리소스를 추가하지 않습니다.

  7. 설정을 검토한 다음 스택 생성을 선택합니다.

  8. 스택 상태가 CREATE_COMPLETE가 되면, 생성된 스택에서 리소스 탭을 선택한 다음 물리적 ID의 링크를 선택하여 대시보드로 이동합니다. 콘솔의 왼쪽 탐색 창에서 대시보드를 선택하고 사용자 지정 대시보드에서 대시보드 이름을 찾아 CloudWatch 콘솔의 대시보드에 액세스할 수도 있습니다.

템플릿 파일을 편집하여 범용으로 사용자 지정하려면 스택 생성 마법사템플릿 파일 업로드 옵션을 사용하여 편집된 템플릿을 업로드하면 됩니다. 자세한 내용은 AWS CloudFormation 콘솔에서 스택 생성 단원을 참조하세요. https://aws-observability-solutions.s3.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard-template-1.0.0.json 링크를 사용하여 템플릿을 다운로드할 수 있습니다.

NVIDIA GPU 대시보드 시작하기

새 NVIDIA GPU 대시보드로 시도해 볼 수 있는 작업들 가운데는 다음과 같은 것이 있습니다. 이들 작업을 통해 대시보드가 올바르게 작동하는지 확인하고 이를 사용하여 NVIDIA GPU 모니터링과 관련된 몇 가지 실습 경험을 제공할 수 있습니다. 이들 작업을 직접 실행해 보면 대시보드 탐색 및 시각화된 메트릭 해석에 익숙해질 수 있습니다.

GPU 사용률 검토

사용률 섹션에서 GPU 사용률 위젯과 메모리 사용률 위젯을 찾습니다. 이들 위젯에서는 GPU가 연산에 적극적으로 사용되는 시간을 백분율로 환산한 값과 각각 읽기 또는 쓰기되는 전역 메모리를 백분율로 환산한 값을 보여줍니다. 사용률이 높다는 것은 잠재적으로 성능 병목 현상이 있거나 추가 GPU 리소스가 필요하다는 의미일 수 있습니다.

GPU 메모리 사용량 분석

메모리 섹션에서 총 메모리 위젯, 사용된 메모리 위젯, 미사용 메모리 위젯을 찾습니다. 이들 위젯에서는 GPU의 전체 메모리 용량에 대한 인사이트와 함께 현재 사용 중이거나 사용할 수 있는 메모리 용량에 대한 인사이트를 얻을 수 있습니다. 메모리 압박은 성능 문제나 메모리 부족 오류로 이어질 수 있으므로 이러한 메트릭을 모니터링하고 워크로드에 충분한 메모리를 제공하는 것이 중요합니다.

온도 및 전력 소비 모니터링

온도/전력 섹션에서 GPU 온도 위젯과 전력 소비 위젯을 찾습니다. 이들 메트릭에서는 GPU가 온도 및 전력과 관련하여 안전 범위 내에서 작동하도록 하는 데 필수적입니다.

인코더 성능 식별

인코더 섹션에서 인코더 세션 수 위젯, 평균 FPS 위젯, 평균 지연 시간 위젯을 찾습니다. GPU에서 비디오 인코딩 워크로드를 실행하는 경우, 이들 메트릭과 관련이 있습니다. 이들 메트릭을 모니터링하여 인코더 작동이 최적으로 이루어지는지 확인하고 잠재적인 병목 현상 또는 성능 문제를 식별합니다.

PCIe 링크 상태 확인

PCIe 섹션에서 PCIe 링크 생성 위젯과 PCIe 링크 너비 위젯을 찾습니다. 이들 메트릭에서는 GPU를 호스트 시스템에 연결하는 PCIe 링크에 대한 정보를 제공합니다. PCIe 병목 현상으로 인한 잠재적 성능 한계를 피하려면 링크가 예상 생성량 및 너비로 작동하는지 확인합니다.

GPU 클럭 검토

클럭 섹션에서 그래픽 클럭 위젯, SM 클럭 위젯, 메모리 클럭 위젯, 비디오 클럭 위젯을 찾습니다. 이들 메트릭에서는 다양한 GPU 구성 요소의 현재 작동 빈도를 보여줍니다. 이와 관련된 클럭을 모니터링하면 성능에 영향을 미칠 수 있는 GPU 클럭 규모 조정이나 주파수 스로틀링과 관련된 잠재적 문제를 식별하는 데 도움이 될 수 있습니다.