모델 병렬화를 사용하여 SageMaker 분산 훈련 작업 실행 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

모델 병렬화를 사용하여 SageMaker 분산 훈련 작업 실행

모델 병렬화 라이브러리와 함께 SageMaker Python SDK를 사용하여 자체 학습 스크립트로 SageMaker 모델 병렬 훈련 작업을 실행하는 방법을 알아봅니다.

학습 작업 실행을 위한 세 가지 사용 사례 시나리오가 있습니다. SageMaker

  1. 사전 빌드된 AWS 딥러닝 컨테이너 중 하나를 및 용으로 사용할 수 있습니다. TensorFlow PyTorch 모델 병렬 라이브러리를 처음 사용하는 경우 이 옵션을 사용하는 것이 좋습니다. SageMaker 모델 병렬 교육 작업을 실행하는 방법에 대한 자습서를 찾으려면 Amazon 모델 병렬 처리 라이브러리를 사용한 PyTorch SageMaker 학습의 예제 노트북을 참조하십시오.

  2. 사전 빌드된 컨테이너를 확장하여 사전 빌드된 SageMaker Docker 이미지에서 지원하지 않는 알고리즘 또는 모델에 대한 추가 기능 요구 사항을 처리할 수 있습니다. 사전 빌드된 컨테이너를 확장하는 방법에 대한 예를 찾으려면 사전 빌드 컨테이너 확장 섹션을 참조하세요.

  3. 교육 툴킷을 SageMaker 사용하여 자체 Docker 컨테이너를 작업에 맞게 조정할 수 있습니다. SageMaker 예제는 자체 훈련 컨테이너 조정을 참조하세요.

위 목록의 옵션 2와 3에 대해서 확장 또는 사용자 정의 Docker 컨테이너에 모델 병렬 라이브러리를 설치하는 방법을 알아보려면 SageMaker의 분산 모델 병렬 라이브러리가 포함된 사전 빌드된 Docker 컨테이너를 확장하세요. 섹션을 참조하세요.

어떤 경우든 라이브러리를 활성화하도록 SageMaker TensorFlow PyTorch or 추정기를 구성하여 교육 작업을 시작합니다. 자세한 내용은 다음 주제를 참조하세요.