컴퓨팅 성능 프로파일링 및 최적화 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

컴퓨팅 성능 프로파일링 및 최적화

크기가 빠르게 커지는 state-of-the-art 딥 러닝 모델을 학습할 때는 이러한 모델의 학습 작업을 대규모 GPU 클러스터로 확장하고 경사하강 프로세스의 모든 반복에서 수십억, 수조 건의 운영 및 통신으로 인한 계산 성능 문제를 식별하는 것이 어려워집니다.

SageMaker 클라우드 컴퓨팅 리소스에서 교육 작업을 실행할 때 발생하는 복잡한 계산 문제를 시각화하고 진단할 수 있는 프로파일링 도구를 제공합니다. AWS 프로파일링 옵션으로는 Amazon SageMaker 프로파일러와 Amazon SageMaker Studio Classic의 리소스 사용률 모니터라는 두 가지 프로파일링 옵션이 있습니다. SageMaker 다음 두 기능에 대한 소개를 참고하여 빠르게 인사이트를 얻고 필요에 따라 어떤 기능을 사용해야 하는지 알아보십시오.

아마존 SageMaker 프로파일러

Amazon SageMaker Profiler는 딥 러닝 모델을 교육하는 동안 프로비저닝된 컴퓨팅 리소스를 심층적으로 분석하고 운영 수준의 세부 정보를 파악할 수 SageMaker 있는 프로파일링 기능입니다. SageMaker 프로파일러는 전체에 PyTorch 주석을 추가하거나 스크립트를 TensorFlow 학습시키고 프로파일러를 활성화하기 위한 Python 모듈을 제공합니다. SageMaker SageMaker Python SDK 및 AWS Deep Learning Containers를 통해 모듈에 액세스할 수 있습니다.

SageMaker 프로파일러를 사용하면 CPU 및 GPU 사용률, GPU에서의 커널 실행, CPU에서의 커널 실행, CPU에서의 커널 시작, 동기화 작업, CPU와 GPU에서의 메모리 작업, 커널 실행과 해당 실행 사이의 지연 시간, CPU와 GPU 간 데이터 전송 등 CPU와 GPU의 모든 활동을 추적할 수 있습니다.

SageMaker 또한 프로파일러는 프로파일을 시각화하는 사용자 인터페이스 (UI), 프로파일링된 이벤트의 통계 요약, GPU와 CPU 간 이벤트의 시간 관계를 추적하고 이해하기 위한 교육 작업 타임라인을 제공합니다.

프로파일러에 대한 자세한 내용은 을 참조하십시오. SageMaker Amazon SageMaker 프로파일러를 사용하여 컴퓨팅 리소스의 활동을 프로파일링할 수 있습니다 AWS .

Amazon SageMaker 스튜디오 클래식의 AWS 컴퓨팅 리소스 모니터링

SageMaker 또한 Studio Classic에서 리소스 사용률을 높은 수준에서 모니터링할 수 있는 사용자 인터페이스를 제공하지만 ~에서 SageMaker 수집한 기본 사용률 지표에 비해 더 세밀하게 모니터링할 수 있습니다. CloudWatch

SageMaker Python SDK를 SageMaker 사용하여 실행하는 모든 교육 작업의 경우 CPU 사용률, GPU 사용률, GPU 메모리 사용률, 네트워크 및 I/O 대기 시간과 같은 기본 리소스 사용률 메트릭을 프로파일링하기 SageMaker 시작합니다. 이러한 리소스 사용률 지표를 500밀리초마다 수집합니다.

1초 간격으로 CloudWatch 지표를 수집하는 Amazon 지표와 비교하여 의 모니터링 기능은 리소스 사용률 지표를 100밀리초 (0.1초) 간격으로 더 세밀하게 분석하므로 작업 또는 단계 수준에서 지표를 자세히 살펴볼 수 있습니다. SageMaker

교육 작업의 리소스 사용률 지표를 모니터링하기 위한 대시보드에 액세스하려면 Studio Experiments의 SageMaker디버거 UI를 참조하십시오. SageMaker