GPU 오류에 대한 클러스터 수리 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

GPU 오류에 대한 클러스터 수리

GPU에서 실패한 훈련 작업을 실행하는 경우 SageMaker AI는 GPU 상태 확인을 실행하여 실패가 GPU 문제와 관련이 있는지 확인합니다. SageMaker AI는 상태 확인 결과에 따라 다음 작업을 수행합니다.

  • 오류가 복구 가능하고 인스턴스를 재부팅하거나 GPU를 재설정하여 수정할 수 있는 경우 SageMaker AI는 인스턴스를 재부팅합니다.

  • 오류를 복구할 수 없고 교체해야 하는 GPU로 인해 발생하는 경우 SageMaker AI가 인스턴스를 대체합니다.

인스턴스는 SageMaker AI 클러스터 복구 프로세스의 일부로 교체되거나 재부팅됩니다. 이 프로세스 중에 훈련 작업 상태에서 다음 메시지가 표시됩니다.

Repairing training cluster due to hardware failure

SageMaker AI는 클러스터를 최대 10회 복구하려고 시도합니다. 클러스터 복구에 성공하면 SageMaker AI는 이전 체크포인트에서 훈련 작업을 자동으로 다시 시작합니다. 클러스터 복구에 실패하면 훈련 작업도 실패합니다. 클러스터 복구 프로세스에 대한 비용은 청구되지 않습니다. 훈련 작업이 실패하지 않으면 클러스터 수리가 시작되지 않습니다. 웜풀 클러스터에서 GPU 문제가 감지되면 클러스터는 복구 모드로 전환되어 오류가 발생한 인스턴스를 재부팅하거나 교체합니다. 복구 후에도 클러스터를 웜풀 클러스터로 사용할 수 있습니다.

앞서 설명한 클러스터 및 인스턴스 복구 프로세스는 다음 다이어그램에 나와 있습니다.

The cluster and instance repair process.