지원되는 프레임워크 AWS 리전, 인스턴스 유형 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

지원되는 프레임워크 AWS 리전, 인스턴스 유형

SageMaker 분산 데이터 병렬화 (SMDDP) 라이브러리를 사용하기 전에 지원되는 ML 프레임워크와 인스턴스 유형이 무엇인지, 계정에 충분한 할당량이 있는지 확인하세요. AWS AWS 리전

지원되는 프레임워크

다음 표에는 딥러닝 프레임워크와 SMDDP가 지원하는 버전이 나와 있습니다. SageMaker SMDDP 라이브러리는 SageMaker 프레임워크 컨테이너에서 사용할 수 있고, SageMaker 모델 병렬성 (SMP) 라이브러리 v2를 통해 배포된 Docker 컨테이너에 통합되거나 바이너리 파일로 다운로드할 수 있습니다.

참고

SMDDP 라이브러리의 최신 업데이트 및 릴리스 노트를 확인하려면 를 참조하십시오. SageMaker 데이터 병렬화 라이브러리 출시 노트

PyTorch

PyTorch 버전 SMDDP 라이브러리 버전 SageMaker SMDDP와 함께 사전 설치된 프레임워크 컨테이너 이미지 SMDDP와 함께 사전 설치된 SMP 도커 이미지 바이너리 파일의 URL**
v2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker 현재 사용할 수 없음 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
v2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
v2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
v2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker 사용할 수 없음 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker 사용할 수 없음 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker 사용할 수 없음 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker 사용할 수 없음 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker 사용할 수 없음 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker 사용할 수 없음 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl

** 바이너리 파일의 URL은 사용자 지정 컨테이너에 SMDDP 라이브러리를 설치하기 위한 것입니다. 자세한 정보는 SageMaker 분산 데이터 병렬 라이브러리를 사용하여 자체 Docker 컨테이너를 만드세요.을 참조하세요.

참고

SMDDP 라이브러리는 SageMaker 프레임워크 컨테이너와 SMP Docker 이미지가 제공되는 AWS 리전 곳에서 사용할 수 있습니다.

참고

SMDDP 라이브러리 v1.4.0 이상은 분산 (토치.분산) 데이터 병렬 처리 (토치.parallel) 의 PyTorch 백엔드로 작동합니다. DistributedData병렬). 변경 사항에 따라 분산 패키지를 위한 다음과 같은 smdistributed API는 더 PyTorch 이상 사용되지 않습니다.

이전 버전의 라이브러리 (v1.3.0 또는 이전 버전) 를 사용해야 하는 경우 Python SDK 설명서에서 보관된 SageMaker 분산 데이터 병렬화 문서를 참조하십시오. SageMaker

PyTorch 라이트닝

SMDDP 라이브러리는 다음 SageMaker 프레임워크 컨테이너 PyTorch 및 SMP Docker 컨테이너에서 PyTorch 라이트닝에 사용할 수 있습니다.

PyTorch 라이트닝 v2

PyTorch 라이트닝 버전 PyTorch 버전 SMDDP 라이브러리 버전 SageMaker SMDDP와 함께 사전 설치된 프레임워크 컨테이너 이미지 SMDDP와 함께 사전 설치된 SMP 도커 이미지 바이너리 파일의 URL**
2.2.5 2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker 현재는 사용할 수 없습니다. https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
2.2.0 2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.2 2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
2.1.0 2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker 사용할 수 없음 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

PyTorch 라이트닝 v1

PyTorch 라이트닝 버전 PyTorch 버전 SMDDP 라이브러리 버전 SageMaker SMDDP와 함께 사전 설치된 프레임워크 컨테이너 이미지 바이너리 파일의 URL**

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** 바이너리 파일의 URL은 사용자 지정 컨테이너에 SMDDP 라이브러리를 설치하기 위한 것입니다. 자세한 정보는 SageMaker 분산 데이터 병렬 라이브러리를 사용하여 자체 Docker 컨테이너를 만드세요.을 참조하세요.

참고

PyTorch 라이트닝 및 라이트닝 볼트와 같은 유틸리티 라이브러리는 DLC에 사전 설치되어 있지 않습니다. PyTorch SageMaker PyTorch 평가기를 구성하고 2단계에서 교육 작업 요청을 제출하는 경우 교육 lightning-bolts 컨테이너에 pytorch-lightning 설치하고 requirements.txt 제공하도록 제공해야 합니다. SageMaker PyTorch

# requirements.txt pytorch-lightning lightning-bolts

교육 스크립트 및 작업 제출과 함께 requirements.txt 파일을 배치할 소스 디렉터리를 지정하는 방법에 대한 자세한 내용은 Amazon SageMaker Python SDK 설명서의 타사 라이브러리 사용을 참조하십시오.

Hugging Face 트랜스포머

Hugging Face용 AWS Deep Learning SageMaker Container는 트레이닝 컨테이너를 PyTorch 기본 이미지로 사용합니다. TensorFlow Hugging Face Transformer 라이브러리 버전과 PyTorch 페어링 및 버전을 찾아보려면 최신 Hugging Face Container TensorFlow 및 이전 Hugging Face Container 버전을 참조하십시오.

TensorFlow(사용되지 않음)

중요

SMDDP 라이브러리는 v2.11.0 이후 버전의 DLC에 대한 지원을 TensorFlow 중단했으며 더 이상 DLC에서 사용할 수 없습니다. TensorFlow 다음 표에는 SMDDP 라이브러리가 설치된 이전 DLC가 나와 있습니다. TensorFlow

TensorFlow 버전 SMDDP 라이브러리 버전
2.9.1, 2.10.1, 2.11.0 smdistributed-dataparallel==v1.4.1
2.8.3 smdistributed-dataparallel==v1.3.0

AWS 리전

SMDDP 라이브러리는 AWS Deep Learning Containers for SageMakerSMP Docker 이미지가 제공되는 모든 AWS 리전 곳에서 사용할 수 있습니다.

지원되는 인스턴스 유형

SMDDP 라이브러리에는 다음 인스턴스 유형 중 하나가 필요합니다.

인스턴스 유형
ml.p3dn.24xlarge*
ml.p4d.24xlarge
ml.p4de.24xlarge
작은 정보

EFA 지원 인스턴스 유형에서 분산 교육을 제대로 실행하려면 VPC의 보안 그룹이 보안 그룹 자체에서 들어오고 나가는 모든 인바운드 및 아웃바운드 트래픽을 허용하도록 설정하여 인스턴스 간 트래픽을 활성화해야 합니다. 보안 그룹 규칙을 설정하는 방법을 알아보려면 Amazon EC2 사용 설명서의 1단계: EFA 지원 보안 그룹 준비를 참조하십시오.

중요

* SMDDP 라이브러리는 P3 인스턴스에서의 집단 통신 작업을 최적화하기 위한 지원을 중단했습니다. SMDDP 최적화 AllReduce 콜렉티브를 인스턴스에서 계속 사용할 수는 있지만, 이 ml.p3dn.24xlarge 인스턴스 유형의 성능을 향상시키기 위한 추가 개발 지원은 없을 것입니다. 참고로 SMDDP 최적화 AllGather 컬렉티브는 P4 인스턴스에만 사용할 수 있습니다.

인스턴스 유형의 사양은 Amazon EC2 인스턴스 유형 페이지가속 컴퓨팅 섹션을 참고하세요. 인스턴스 요금에 대한 자세한 내용은 Amazon SageMaker 요금을 참조하십시오.

다음과 유사한 오류 메시지가 발생한 경우 SageMaker 리소스에 대한 서비스 할당량 증가 요청의 지침을 따르세요.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.