기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SageMaker 훈련 작업을 시작하면 SageMaker Debugger가 기본적으로 Amazon EC2 인스턴스의 리소스 사용률을 모니터링하기 시작합니다. 인사이트 대시보드를 통해 시스템 사용률, 통계 개요 및 내장 규칙 분석을 추적할 수 있습니다. 이 가이드는 시스템 메트릭 및 규칙 탭에서 SageMaker Debugger 인사이트 대시보드의 콘텐츠를 안내합니다.
참고
SageMaker Debugger 인사이트 대시보드는 ml.m5.4xlarge
인스턴스에서 Studio Classic 애플리케이션을 실행하여 시각화를 처리하고 렌더링합니다. 각 SageMaker Debugger 인사이트 탭은 하나의 Studio Classic 커널 세션을 실행합니다. 여러 SageMaker Debugger 인사이트 탭에 대한 여러 커널 세션이 단일 인스턴스에서 실행됩니다. SageMaker Debugger 인사이트 탭을 닫으면 해당 커널 세션도 닫힙니다. Studio Classic 애플리케이션은 활성 상태로 유지되며 ml.m5.4xlarge
인스턴스 사용량에 대한 요금이 부과됩니다. 요금에 대한 자세한 내용은 Amazon SageMaker AI 요금
중요
SageMaker Debugger 인사이트 대시보드 사용을 마치면 요금이 발생하지 않도록 ml.m5.4xlarge
인스턴스를 종료하세요. 인스턴스를 종료하는 방법에 대한 지침은 Amazon SageMaker Debugger 인사이트 인스턴스 종료 섹션을 참조하세요.
중요
보고서에서 도표와 권장 사항은 정보 제공의 목적으로 제공되며 확정적인 것은 아닙니다. 사용자는 정보를 독립적으로 평가할 책임이 있습니다.
시스템 지표
시스템 지표 탭에서 요약 표와 시계열 도표를 사용하여 리소스 사용률을 파악할 수 있습니다.
리소스 사용률 요약
이 요약 표는 모든 노드의 컴퓨팅 리소스 사용률 지표 통계(algo-n으로 표시 를 보여줍니다. 리소스 사용률 지표에는 총 CPU 사용률, 총 GPU 사용률, 총 CPU 메모리 사용률, 총 GPU 메모리 사용률, 총 I/O 대기 시간, 총 네트워크(바이트) 등이 포함됩니다. 표에는 최소값과 최대값, p99, p90, p50 백분위수가 나와 있습니다.

리소스 사용률 시계열 도표
시계열 그래프를 사용하여 리소스 사용률의 세부 정보를 확인하고 값비싼 인스턴스를 낭비할 수 있는 낮은 GPU 사용률 및 CPU 병목 현상 등 각 인스턴스에 원치 않는 사용률이 나타나는 시간 간격을 식별할 수 있습니다.
시계열 그래프 컨트롤러 UI
다음 스크린샷은 시계열 그래프를 조정하기 위한 UI 컨트롤러를 보여줍니다.

-
algo-1: 이 드롭다운 메뉴를 사용하여 조사하려는 노드를 선택합니다.
-
확대: 이 버튼을 사용하면 시계열 그래프를 확대하고 더 짧은 시간 간격을 볼 수 있습니다.
-
축소: 이 버튼을 사용하면 시계열 그래프를 축소하고 더 넓은 시간 간격을 볼 수 있습니다.
-
왼쪽으로 이동: 시계열 그래프를 이전 시간 간격으로 이동합니다.
-
왼쪽으로 이동: 시계열 그래프를 이전 시간 간격으로 이동합니다.
-
기간 수정: 이 확인란을 사용하면 시계열 그래프를 수정하거나 다시 가져와서 첫 번째 데이터 포인트에서 마지막 데이터 포인트까지의 전체 뷰를 표시할 수 있습니다.
CPU 사용률 및 I/O 대기 시간
처음 두 그래프는 시간 경과에 따른 CPU 사용률과 I/O 대기 시간을 보여줍니다. 기본적으로 그래프는 CPU 코어에 소요된 평균 CPU 사용률과 I/O 대기 시간을 보여줍니다. 레이블을 선택하여 CPU 코어를 하나 이상 선택하여 단일 차트에 그래프로 표시하고 코어 간 사용률을 비교할 수 있습니다. 드래그하여 확대 및 축소하여 특정 시간 간격을 자세히 볼 수 있습니다.

GPU 사용률 및 GPU 메모리 사용률
다음 그래프는 시간 경과에 따른 GPU 사용률과 GPU 메모리 사용률을 보여줍니다. 기본적으로 그래프는 시간 경과에 따른 평균 사용률을 보여줍니다. GPU 코어 레이블을 선택하여 각 코어의 사용률을 확인할 수 있습니다. 총 GPU 코어 수에 대한 평균 사용률을 계산하면 전체 하드웨어 시스템 리소스의 평균 사용률을 알 수 있습니다. 평균 사용률을 보면 Amazon EC2 인스턴스의 전체 시스템 리소스 사용량을 확인할 수 있습니다. 다음 그림은 8개의 GPU 코어가 있는 ml.p3.16xlarge
인스턴스에서의 예제 훈련 작업을 보여줍니다. 모든 GPU를 충분히 활용하여 훈련 작업이 잘 분산되어 있는지 모니터링할 수 있습니다.

시간 경과에 따른 전체 시스템 사용률
다음 히트맵은 2차원 도표에 투영된 ml.p3.16xlarge
인스턴스의 시간 경과에 따른 전체 시스템 사용률의 예를 보여줍니다. 모든 CPU 및 GPU 코어가 세로 축에 나열되고 시간 경과에 따른 사용률이 색 구성표로 기록됩니다. 여기서 밝은 색상은 낮은 사용률을 나타내고 어두운 색은 높은 사용률을 나타냅니다. 도표 오른쪽에 있는 레이블이 붙은 색상 막대를 참조하여 사용률에 해당하는 색상 수준을 확인할 수 있습니다.

규칙
규칙 탭을 사용하여 훈련 작업에 대한 프로파일링 규칙 분석 요약을 찾을 수 있습니다. 프로파일링 규칙을 훈련 작업과 함께 활성화하면 텍스트가 흰색 단색 텍스트로 강조 표시됩니다. 비활성 규칙은 회색 텍스트로 흐리게 표시됩니다. 이 규칙을 활성화하려면 Amazon SageMaker Debugger에서 관리하는 기본 제공 프로파일러 규칙 사용의 지침을 따르세요.
