Amazon의 관리형 스팟 훈련 SageMaker - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon의 관리형 스팟 훈련 SageMaker

Amazon SageMaker 을 사용하면 관리형 Amazon EC2 Spot 인스턴스를 사용하여 기계 학습 모델을 쉽게 훈련할 수 있습니다. 관리형 스팟 훈련은 온디맨드 인스턴스에 비해 최대 90%까지 모델 훈련 비용을 최적화할 수 있습니다. SageMaker 는 사용자를 대신하여 스팟 중단을 관리합니다.

Managed Spot Training은 Amazon EC2 Spot 인스턴스를 사용하여 온디맨드 인스턴스 대신 훈련 작업을 실행합니다. 스팟 인스턴스를 사용하는 훈련 작업과 가 Amazon EC2 스팟 인스턴스를 사용하여 작업을 실행하는 SageMaker 데 걸리는 시간을 지정하는 중지 조건을 지정할 수 있습니다. 훈련 실행 중에 생성된 지표와 로그는 에서 확인할 수 있습니다 CloudWatch.

하이퍼파라미터 튜닝이라고도 하는 Amazon SageMaker 자동 모델 튜닝은 관리형 스팟 훈련을 사용할 수 있습니다. 자동 모델 튜닝에 대한 자세한 내용은 를 사용한 자동 모델 튜닝 SageMaker를 참고하세요.

스팟 인스턴스가 중단되어 작업 시작 또는 완료 시간이 더 오래 걸릴 수 있습니다. 로컬 경로에서 Amazon S3로의 체크포인트 SageMaker 를 사용하도록 관리형 스팟 훈련 작업을 구성할 수 있습니다. 작업이 다시 시작되면 는 Amazon S3의 데이터를 다시 로컬 경로로 SageMaker 복사합니다. 그런 다음 다시 시작하는 대신 마지막 체크포인트에서 훈련 작업을 다시 시작할 수 있습니다. 검사에 대한 자세한 내용은 Amazon의 체크포인트 SageMaker 단원을 참조하세요.

참고

훈련 작업이 빠르게 완료되지 않는 한 관리형 스팟 훈련과 함께 체크포인트를 사용하는 것이 좋습니다. 체크포인트가 없는 SageMaker 내장 알고리즘 및 마켓플레이스 알고리즘은 현재 3,600초(60분)MaxWaitTimeInSeconds로 제한됩니다.

관리형 스팟 훈련을 사용하려면 훈련 작업을 생성합니다. EnableManagedSpotTrainingTrue로 설정하고 MaxWaitTimeInSeconds를 지정합니다. MaxWaitTimeInSecondsMaxRuntimeInSeconds보다 커야 합니다. 훈련 작업 생성에 대한 자세한 내용은 섹션을 참조하세요DescribeTrainingJob.

(1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100 공식을 사용하여 관리되는 스팟 훈련을 사용하여 절감 효과를 계산할 수 있습니다. 예를 들어 BillableTimeInSeconds가 100이고 TrainingTimeInSeconds가 500이면 훈련 작업이 500초 동안 실행되었지만 요금은 100초 동안만 청구되었음을 의미합니다. 절감액은 (1 - (100 / 500)) * 100 = 80% 입니다.

Amazon SageMaker 스팟 인스턴스에서 훈련 작업을 실행하는 방법과 관리형 스팟 훈련이 어떻게 작동하고 청구 가능한 시간을 줄이는지 알아보려면 다음 예제 노트북을 참조하세요.