모델 병렬 처리를 사용하여 SageMaker 분산 훈련 작업 실행 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

모델 병렬 처리를 사용하여 SageMaker 분산 훈련 작업 실행

모델 병렬 처리 라이브러리와 SDK 함께 Python을 사용하여 SageMaker 자체 훈련 스크립트의 SageMaker 모델 병렬 훈련 작업을 실행하는 방법을 알아봅니다.

SageMaker 훈련 작업을 실행하기 위한 세 가지 사용 사례 시나리오가 있습니다.

  1. TensorFlow 및 용 사전 빌드된 AWS 딥 러닝 컨테이너 중 하나를 사용할 수 있습니다 PyTorch. 모델 병렬 라이브러리를 처음 사용하는 경우 이 옵션을 사용하는 것이 좋습니다. SageMaker 모델 병렬 훈련 작업을 실행하는 방법에 대한 자습서를 찾으려면 PyTorch Amazon SageMaker AI의 모델 병렬 처리 라이브러리로 훈련할 때 노트북 예제를 참조하세요.

  2. 사전 구축된 컨테이너를 확장하여 사전 구축된 SageMaker Docker 이미지가 지원하지 않는 알고리즘 또는 모델의 추가 기능 요구 사항을 처리할 수 있습니다. 사전 빌드된 컨테이너를 확장하는 방법에 대한 예를 찾으려면 사전 빌드 컨테이너 확장 섹션을 참조하세요.

  3. SageMaker 훈련 도구 키트를 사용하여 SageMaker AI로 작업하도록 자체 Docker 컨테이너를 조정할 수 있습니다. 예제는 자체 훈련 컨테이너 조정을 참조하세요.

위 목록의 옵션 2와 3에 대해서 확장 또는 사용자 정의 Docker 컨테이너에 모델 병렬 라이브러리를 설치하는 방법을 알아보려면 SageMaker의 분산 모델 병렬 라이브러리가 포함된 사전 구축된 도커 컨테이너 확장 섹션을 참조하세요.

모든 경우에 또는 PyTorch 예측기를 구성하여 라이브러리를 SageMaker TensorFlow 활성화하는 훈련 작업을 시작합니다. 자세한 내용은 다음 주제를 참조하세요.