기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker Debugger를 사용하여 기계 학습 훈련 작업의 모델 출력 텐서를 실시간으로 디버깅하고 비수렴 문제를 감지하세요.
Amazon SageMaker Debugger 기능
기계 학습(ML) 훈련 작업에 과적합, 포화 상태 활성화 함수, 그라데이션 소실 등의 문제가 발생하면 모델 성능이 저하될 수 있습니다.
SageMaker Debugger는 훈련 작업을 디버깅하고 그러한 문제들을 해결하여 모델의 성능을 개선할 수 있는 도구를 제공합니다. Debugger는 훈련 이상이 발견된 경우 알림을 보내고, 문제에 대해 조치를 취하고, 수집된 지표 및 텐서를 시각화하여 문제의 근본 원인을 파악할 수 있는 도구도 제공합니다.
SageMaker Debugger는 Apache MXNet 프레임워크, PyTorch 프레임워크, TensorFlow 프레임워크크 및 XGBoost 프레임워크를 지원합니다. 사용 가능한 프레임워크 및 SageMaker Debugger에서 지원하는 버전에 대한 자세한 내용은 지원되는 프레임워크 및 알고리즘을(를) 참조하세요.

고급 Debugger 워크플로는 다음과 같습니다.
-
필요한 경우
sagemaker-debugger
Python SDK로 훈련 스크립트를 수정하세요. -
SageMaker Debugger로 SageMaker 훈련 작업을 구성하세요.
-
SageMaker AI 예측기 API(Python SDK용)를 사용하여를 구성합니다.
-
SageMaker AI
CreateTrainingJob
요청(Boto3 또는 CLI용)을 사용하여를 구성합니다. -
SageMaker Debugger로 사용자 지정 훈련 컨테이너를 구성하세요.
-
-
훈련 작업을 시작하고 훈련 문제를 실시간으로 모니터링하세요.
-
알림을 받고 나서 훈련 문제에 대해 즉각 조치를 취하세요.
-
규칙에 대한 디버거 내장 작업 사용 사용 시 훈련 문제가 발견되면 문자 및 이메일을 받고 훈련 작업을 중지하세요.
-
Amazon CloudWatch Events 및 AWS Lambda을(를) 사용하여 자체 작업을 설정하세요.
-
-
훈련 문제에 대한 심층 분석 내용을 살펴보세요.
-
모델 출력 텐서의 디버깅에 대한 내용은 TensorBoard에서 Debugger 출력 텐서 시각화하기을(를) 참조하세요.
-
-
모델을 최적화하고 목표 정확도를 달성할 때까지 문제를 해결하고, Debugger에서 제공하는 제안 사항을 고려하고, 1~5단계를 반복하세요.
SageMaker Debugger 개발자 안내서에서는 다음 주제를 안내합니다.