기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker Studio Classic에서 AWS 컴퓨팅 리소스 사용률 모니터링
훈련 작업의 컴퓨팅 리소스 사용률을 추적하려면 Amazon SageMaker Debugger에서 제공하는 모니터링 도구를 사용합니다.
SageMaker Python를 사용하여 SageMaker AI에서 실행하는 모든 훈련 작업에 대해 SDKDebugger는 500밀리초마다 CPU 사용률, GPU 사용률, GPU 메모리 사용률, 네트워크 및 I/O 대기 시간과 같은 기본 리소스 사용률 지표를 수집합니다. 훈련 작업의 리소스 사용률 지표의 대시바드를 보려면 SageMaker SageMaker Studio Experiments에서 Debugger UI를 사용하면 됩니다.
딥 러닝 작업 및 단계는 밀리초 간격으로 작동할 수 있습니다. 1초 간격으로 지표를 수집하는 Amazon CloudWatch 지표에 비해 Debugger는 리소스 사용률 지표를 100밀리초(0.1초) 간격으로 세분화하여 작업 또는 단계의 수준에서 지표를 심층 분석할 수 있습니다.
지표 수집 시간 간격을 변경하려는 경우 프로파일링 구성을 위한 파라미터를 훈련 작업 시작 프로그램에 추가할 수 있습니다. 예를 들어 SageMaker AI Python를 사용하는 경우 추정기 객체를 생성할 때 profiler_config
파라미터를 전달SDK해야 합니다. 리소스 사용률 지표 수집 간격을 조정하는 방법을 알아보려면 SageMaker AI Python에서 SageMaker Debugger Python 모듈을 사용하여 SageMaker AI 예측기 객체를 구성하기 위한 코드 템플릿 SDK를 확인한 후에 시스템 리소스 사용률의 기본 프로파일링을 위한 설정 구성를 확인하세요.
또한 SageMaker Debugger에서 제공하는 기본 제공 프로파일링 규칙이라는 문제 감지 도구를 추가할 수 있습니다. 기본 제공 프로파일링 규칙은 리소스 사용률 지표에 대한 분석을 실행하고 계산 성능 문제를 감지합니다. 자세한 내용은 Amazon SageMaker Debugger에서 관리하는 기본 제공 프로파일러 규칙 사용 단원을 참조하십시오. SageMaker SageMaker Studio Experiments의 Debugger UI 또는 SageMaker Debugger 프로파일링 보고서를 통해 규칙 분석 결과를 받을 수 있습니다
SageMaker Debugger에서 제공하는 모니터링 기능에 대한 자세한 내용은 다음 주제를 참조하세요.