지원되는 프레임워크 및 AWS 리전

SageMaker 모델 병렬 처리 라이브러리 v2(SMP v2)를 사용하기 전에 지원되는 프레임워크 및 인스턴스 유형을 확인하고 AWS 계정 및에 충분한 할당량이 있는지 확인합니다 AWS 리전.

참고

라이브러리의 최신 업데이트 및 릴리스 정보를 확인하려면 SageMaker 모델 병렬 처리 라이브러리 릴리스 노트 섹션을 참조하세요.

지원되는 프레임워크

SMP v2는 다음과 같은 딥 러닝 프레임워크를 지원하며 SMP Docker 컨테이너와 SMP Conda 채널을 통해 사용할 수 있습니다. SageMaker Python SDK에서 프레임워크 예측기 클래스를 사용하고 SMP v2를 사용하도록 배포 구성을 지정하면 SageMaker AI가 SMP Docker 컨테이너를 자동으로 픽업합니다. SMP v2를 사용하려면 개발 환경에서 항상 SageMaker Python SDK를 최신 상태로 유지하는 것이 좋습니다.

SageMaker 모델 병렬 처리 라이브러리가 지원하는 PyTorch 버전

PyTorch 버전	SageMaker 모델 병렬 처리 라이브러리 버전	SMP Docker 이미지 URI	SMP Enroot 이미지 URI
v2.4.1	`smdistributed-modelparallel==v2.7.0`	`658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121`	`https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh`
	`smdistributed-modelparallel==v2.6.1`		N/A
	`smdistributed-modelparallel==v2.6.0`		N/A
v2.3.1	`smdistributed-modelparallel==v2.5.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121`	N/A
v2.3.1	`smdistributed-modelparallel==v2.4.0`		N/A
v2.2.0	`smdistributed-modelparallel==v2.3.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121`	N/A
v2.2.0	`smdistributed-modelparallel==v2.2.0`		N/A
v2.1.2	`smdistributed-modelparallel==v2.1.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121`	N/A
v2.0.1	`smdistributed-modelparallel==v2.0.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121`	N/A

SMP Conda 채널

다음 Amazon S3 버킷은 SMP 서비스 팀이 호스팅하는 퍼블릭 Conda 채널입니다. SageMaker HyperPod 클러스터와 같은 환경에 SMP v2 라이브러리를 설치하려면 이 Conda 채널을 사용하여 SMP 라이브러리를 올바르게 설치합니다.


https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

일반적으로 Conda 채널에 대한 자세한 내용은 Conda 설명서의 채널을 참조하세요.

참고

SMP 라이브러리 v1.x 및 사전 패키징된 DLC의 이전 버전을 찾으려면 SMP v1 설명서의 지원되는 프레임워크 섹션을 참조하세요.

오픈 소스 라이브러리에서 SMP v2 사용

SMP v2는 PyTorch FSDP API와 호환되므로 SMP v2 라이브러리는 PyTorch Lightning, Hugging Face Transformers 및 Hugging Face Accelerate와 같은 다른 PyTorch 기반 오픈 소스 라이브러리와 함께 작동합니다. 다른 타사 라이브러리와 함께 SMP 라이브러리를 사용하는 방법에 대한 추가 질문이 있는 경우 sm-model-parallel-feedback@amazon.com에서 SMP 서비스 팀에 문의하세요.

AWS 리전

SMP v2는 다음에서 사용할 수 있습니다 AWS 리전. SMP Docker 이미지 URI 또는 SMP Conda 채널을 사용하려면 다음 목록을 확인하고 해당 목록과 AWS 리전 일치하는 항목을 선택한 다음 이미지 URI 또는 채널 URL을 적절하게 업데이트합니다.

ap-northeast-1
ap-northeast-2
ap-northeast-3
ap-south-1
ap-southeast-1
ap-southeast-2
ca-central-1
eu-central-1
eu-north-1
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-1
us-west-2

지원되는 인스턴스 유형

SMP v2에는 다음 ML 인스턴스 유형 중 하나가 필요합니다.

인스턴스 유형
`ml.p4d.24xlarge`
`ml.p4de.24xlarge`
`ml.p5.48xlarge`
`ml.p5e.48xlarge`

작은 정보

PyTorch v2.2.0 이상을 지원하는 SMP v2.2.0부터 Transformer Engine을 사용하여 P5 인스턴스에서 FP8과 혼합된 정밀도 훈련를 사용할 수 있습니다.

일반적인 SageMaker 기계 학습 인스턴스 유형의 사양은 Amazon EC2 인스턴스 유형 페이지의 가속 컴퓨팅 섹션을 참조하세요. 인스턴스 요금에 대한 자세한 내용은 Amazon SageMaker AI 요금을 참조하세요.

다음과 유사한 오류 메시지가 나타나는 경우 AWS Service Quotas 사용자 가이드에서 할당량 증가 요청에 있는 지침을 따르세요.


ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
    the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
    for training job usage' is 0 Instances, with current utilization of 0 Instances
    and a request delta of 1 Instances.
    Please contact AWS support to request an increase for this limit.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

모델 병렬 처리 개념

SMP v2 사용