기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMake 훈련 작업은 훈련 데이터세트에서 예제를 제공하여 예측을 수행하도록 모델을 교육하는 반복적 프로세스입니다. 일반적으로 훈련 알고리즘은 훈련 오류 및 예측 정확도 등과 같은 여러 지표를 계산합니다. 이러한 지표는 모델이 잘 학습하고 있어 처음 보는 데이터에 대한 예측을 잘 일반화할 수 있는지 여부를 진단하는 데 도움이 됩니다. 훈련 알고리즘은 이러한 지표의 값을 로그에 씁니다. 로그는 SageMaker AI가 모니터링하고 Amazon CloudWatch로 실시간으로 전송합니다. 훈련 작업의 성능을 분석하기 위해 사용자는 CloudWatch에서 이러한 지표 그래프를 볼 수 있습니다. 또한 훈련 작업이 완료되면 사용자는 DescribeTrainingJob
작업을 호출해 최종 반복에서 계산한 지표 값 목록을 얻을 수 있습니다.
참고
Amazon CloudWatch는 고해상도 사용자 지정 지표를 지원하며, 최상의 해상도는 1초입니다. 그러나 해상도가 높을수록 CloudWatch 지표의 수명이 짧아집니다. 1초 주파수 해상도의 경우 CloudWatch 지표는 3시간 동안 사용할 수 있습니다. CloudWatch 지표의 해상도와 수명에 대한 자세한 내용은 Amazon CloudWatch API 참조의 GetMetricStatistics를 참조하세요.
작은 정보
훈련 작업을 100밀리초(0.1초)까지 세밀한 해상도로 프로파일링하고 언제든지 사용자 지정 분석을 위해 Amazon S3에 훈련 지표를 무기한 저장하려는 경우 Amazon SageMaker Debugger 사용을 고려해 보세요. SageMaker Debugger는 일반적인 훈련 문제를 자동으로 감지하는 내장 규칙을 제공하며, 하드웨어 리소스 사용 문제(예: CPU, GPU, I/O 병목 현상) 및 비수렴 모델 문제(예: 과적합, 그라데이션 소실, 텐서 폭발)를 탐지합니다. SageMaker Debugger는 Studio Classic 및 프로파일링 보고서를 통해 시각화도 제공합니다. Debugger 시각화를 살펴보려면 SageMaker Debugger 인사이트 대시보드 안내, Debugger 프로파일링 보고서 안내 및 SMDebug 클라이언트 라이브러리를 사용한 데이터 분석을 참조하세요.