지원되는 프레임워크 및 AWS 리전 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

지원되는 프레임워크 및 AWS 리전

SageMaker 모델 병렬화 라이브러리 v2 (SMP v2) 를 사용하기 전에 지원되는 프레임워크와 인스턴스 유형을 확인하고 계정에 충분한 할당량이 있는지 확인하십시오. AWS AWS 리전

참고

라이브러리의 최신 업데이트 및 릴리스 노트를 확인하려면 을 참조하십시오. SageMaker 모델 병렬화 라이브러리의 릴리스 노트

지원되는 프레임워크

SMP v2는 다음과 같은 딥 러닝 프레임워크를 지원하며 SMP Docker 컨테이너 및 SMP Conda 채널을 통해 사용할 수 있습니다. SageMaker Python SDK의 프레임워크 추정기 클래스를 사용하고 SMP v2를 사용하도록 배포 구성을 지정하면 SMP Docker 컨테이너를 SageMaker 자동으로 선택합니다. SMP v2를 사용하려면 개발 환경에서 SageMaker Python SDK를 항상 최신 상태로 유지하는 것이 좋습니다.

PyTorch SageMaker 모델 병렬화 라이브러리가 지원하는 버전

PyTorch 버전 SageMaker 모델 병렬화 라이브러리 버전 SMP 도커 이미지 URI
v2.3.1 smdistributed-modelparallel==v2.4.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
v2.2.0 smdistributed-modelparallel==v2.3.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
smdistributed-modelparallel==v2.2.0 해당 사항 없음. 이전 버전과 호환되는 SMP v2.3.0의 이미지를 사용하십시오.
v2.1.2 smdistributed-modelparallel==v2.1.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
v2.0.1 smdistributed-modelparallel==v2.0.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121

SMP 콘다 채널

다음 S3 버킷은 SMP 서비스 팀에서 호스팅하는 공개 Conda 채널입니다. SageMaker HyperPod 클러스터와 같은 환경에 SMP v2 라이브러리를 설치하려면 이 Conda 채널을 사용하여 SMP 라이브러리를 올바르게 설치하세요.

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Conda 채널 전반에 대한 자세한 내용은 Conda 설명서의 채널을 참조하십시오.

참고

이전 버전의 SMP 라이브러리 v1.x와 사전 패키징된 DLC를 찾으려면 SMP v1 설명서를 참조하십시오. 지원되는 프레임워크

SMP v2를 오픈 소스 라이브러리와 함께 사용하십시오.

SMP v2 라이브러리는 PyTorch 라이트닝, 허깅 페이스 트랜스포머, 허깅 페이스 액셀러레이트와 같은 다른 PyTorch 기반 오픈소스 라이브러리와 함께 작동합니다. SMP v2는 FSDP API와 호환되기 때문입니다. PyTorch SMP 라이브러리를 다른 타사 라이브러리와 함께 사용하는 방법에 대해 궁금한 점이 있으면 SMP 서비스 팀에 문의하십시오. sm-model-parallel-feedback@amazon.com

AWS 리전

SMP v2는 다음에서 사용할 수 있습니다. AWS 리전 SMP Docker 이미지 URI 또는 SMP Conda 채널을 사용하려면 다음 목록을 확인하고 원하는 채널과 AWS 리전 일치하는 것을 선택하고 그에 따라 이미지 URI 또는 채널 URL을 업데이트하세요.

  • ap-northeast-1

  • ap-northeast-2

  • ap-northeast-3

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ca-central-1

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-west-3

  • sa-east-1

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

지원되는 인스턴스 유형

SMP v2에는 다음 ML 인스턴스 유형 중 하나가 필요합니다.

인스턴스 유형
ml.p4d.24xlarge
ml.p4de.24xlarge
ml.p5.48xlarge
작은 정보

v2.2.0 이상을 지원하는 SMP v2.2.0부터 PyTorch 사용할 수 있습니다. 트랜스포머 엔진을 사용하여 P5 인스턴스를 이용한 FP8 복합 정밀 훈련

SageMaker 기계 학습 인스턴스 유형의 일반적인 사양은 Amazon EC2 인스턴스 유형 페이지의 가속 컴퓨팅 섹션을 참조하십시오. 인스턴스 요금에 대한 자세한 내용은 Amazon SageMaker 요금을 참조하십시오.

다음과 비슷한 오류 메시지가 나타나는 경우 AWS Service Quotas 사용 설명서의 할당량 증가 요청의 지침을 따르세요.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.