GPU 오류에 대한 클러스터 수리 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

GPU 오류에 대한 클러스터 수리

에서 실패한 훈련 작업을 실행하는 경우 GPU는 GPU 상태 확인을 SageMaker 실행하여 실패가 GPU 문제와 관련이 있는지 확인합니다. 는 상태 확인 결과에 따라 다음 작업을 SageMaker 수행합니다.

  • 오류가 복구 가능하고 인스턴스를 재부팅하거나 를 재설정하여 수정할 수 있는 경우 GPU SageMaker 는 인스턴스를 재부팅합니다.

  • 오류를 복구할 수 없고 교체해야 GPU 하는 로 인해 발생하는 경우 SageMaker 는 인스턴스를 교체합니다.

인스턴스는 SageMaker 클러스터 복구 프로세스의 일부로 교체되거나 재부팅됩니다. 이 프로세스 중에 훈련 작업 상태에서 다음 메시지가 표시됩니다.

Repairing training cluster due to hardware failure

SageMaker 는 클러스터를 최대 10 회 복구하려고 시도합니다. 클러스터 복구가 성공하면 SageMaker 는 이전 체크포인트에서 훈련 작업을 자동으로 다시 시작합니다. 클러스터 복구에 실패하면 훈련 작업도 실패합니다. 클러스터 복구 프로세스에 대한 비용은 청구되지 않습니다. 훈련 작업이 실패하지 않으면 클러스터 수리가 시작되지 않습니다. 웜풀 클러스터GPU에 문제가 감지되면 클러스터는 복구 모드로 전환되어 오류가 발생한 인스턴스를 재부팅하거나 교체합니다. 복구 후에도 클러스터를 웜풀 클러스터로 사용할 수 있습니다.

앞서 설명한 클러스터 및 인스턴스 복구 프로세스는 다음 다이어그램에 나와 있습니다.

The cluster and instance repair process.