기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker AI를 사용하면 관리형 Amazon EC2 스팟 인스턴스를 사용하여 기계 학습 모델을 쉽게 훈련할 수 있습니다. 관리형 스팟 훈련은 온디맨드 인스턴스에 비해 최대 90%까지 모델 훈련 비용을 최적화할 수 있습니다. SageMaker AI는 사용자를 대신하여 스팟 중단을 관리합니다.
관리형 스팟 훈련은 Amazon EC2 스팟 인스턴스를 사용하여 온디맨드 인스턴스 대신 훈련 작업을 실행합니다. 스팟 인스턴스를 사용하는 훈련 작업과 SageMaker AI가 Amazon EC2 스팟 인스턴스를 사용하여 작업을 실행할 때까지 대기하는 시간을 지정하는 중지 조건을 지정할 수 있습니다. 훈련 실행 중에 생성된 지표 및 로그는 CloudWatch에서 사용할 수 있습니다.
하이퍼파라미터 튜닝이라고도 하는 Amazon SageMaker AI 자동 모델 튜닝은 관리형 스팟 훈련을 사용할 수 있습니다. 자동 모델 튜닝에 대한 자세한 내용은 SageMaker AI를 사용한 자동 모델 튜닝를 참고하세요.
스팟 인스턴스가 중단되어 작업 시작 또는 완료 시간이 더 오래 걸릴 수 있습니다. 체크포인트를 사용하도록 관리형 스팟 훈련 작업을 구성할 수 있습니다. SageMaker AI는 Amazon S3에 대한 로컬 경로에서 체크포인트 데이터를 복사합니다. 작업이 다시 시작되면 SageMaker AI는 Amazon S3의 데이터를 로컬 경로로 다시 복사합니다. 그런 다음 다시 시작하는 대신 마지막 체크포인트에서 훈련 작업을 다시 시작할 수 있습니다. 검사에 대한 자세한 내용은 Amazon SageMaker AI의 체크포인트 섹션을 참조하세요.
참고
훈련 작업이 빨리 완료되지 않는 경우 관리형 스팟 훈련과 함께 체크포인트를 사용하는 것이 좋습니다. 체크포인트가 없는 SageMaker AI 내장 알고리즘 및 마켓플레이스 알고리즘은 현재 3600초(60분)MaxWaitTimeInSeconds
로 제한됩니다.
관리형 스팟 훈련을 사용하려면 훈련 작업을 생성합니다. EnableManagedSpotTraining
을 True
로 설정하고 MaxWaitTimeInSeconds
를 지정합니다. MaxWaitTimeInSeconds
는 MaxRuntimeInSeconds
보다 커야 합니다. 훈련 작업 생성에 대한 자세한 내용은 DescribeTrainingJob을 참조하세요.
(1 -
(BillableTimeInSeconds / TrainingTimeInSeconds)) * 100
공식을 사용하여 관리되는 스팟 훈련을 사용하여 절감 효과를 계산할 수 있습니다. 예를 들어 BillableTimeInSeconds
가 100이고 TrainingTimeInSeconds
가 500이면 훈련 작업이 500초 동안 실행되었지만 요금은 100초 동안만 청구되었음을 의미합니다. 절감액은 (1 - (100 / 500)) * 100 = 80% 입니다.
Amazon SageMaker AI 스팟 인스턴스에서 훈련 작업을 실행하는 방법과 관리형 스팟 훈련이 어떻게 작동하고 청구 가능한 시간을 줄이는지 알아보려면 다음 예제 노트북을 참조하세요.