기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
지원되는 프레임워크 AWS 리전, 인스턴스 유형
SageMaker 분산 데이터 병렬화 (SMDDP) 라이브러리를 사용하기 전에 지원되는 ML 프레임워크와 인스턴스 유형이 무엇인지, 계정에 충분한 할당량이 있는지 확인하세요. AWS AWS 리전
지원되는 프레임워크
다음 표에는 딥러닝 프레임워크와 SMDDP가 지원하는 버전이 나와 있습니다. SageMaker SMDDP 라이브러리는 SageMaker 프레임워크 컨테이너에서
참고
SMDDP 라이브러리의 최신 업데이트 및 릴리스 노트를 확인하려면 를 참조하십시오. SageMaker 데이터 병렬화 라이브러리 출시 노트
PyTorch
PyTorch 버전 | SMDDP 라이브러리 버전 | SageMaker SMDDP와 함께 사전 설치된 프레임워크 컨테이너 이미지 | SMDDP와 함께 사전 설치된 SMP 도커 이미지 | 바이너리 파일의 URL** |
---|---|---|---|---|
v2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
현재 사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
v2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
v2.1.0 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
v2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
v2.0.0 | smdistributed-dataparallel==v1.8.0 |
763104351884.dkr.ecr. |
사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl |
v1.13.1 | smdistributed-dataparallel==v1.7.0 |
763104351884.dkr.ecr. |
사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl |
v1.12.1 | smdistributed-dataparallel==v1.6.0 |
763104351884.dkr.ecr. |
사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl |
v1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr. |
사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
v1.11.0 | smdistributed-dataparallel==v1.4.1 |
763104351884.dkr.ecr. |
사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl |
** 바이너리 파일의 URL은 사용자 지정 컨테이너에 SMDDP 라이브러리를 설치하기 위한 것입니다. 자세한 정보는 SageMaker 분산 데이터 병렬 라이브러리를 사용하여 자체 Docker 컨테이너 생성을 참조하세요.
참고
SMDDP 라이브러리는 SageMaker 프레임워크 컨테이너와
참고
SMDDP 라이브러리 v1.4.0 이상은 분산 (토치.분산) 데이터 병렬 처리 (토치.parallel) 의 PyTorch 백엔드로 작동합니다. DistributedData병렬). 변경 사항에 따라 분산 패키지를 위한 다음과 같은 smdistributed API는
-
smdistributed.dataparallel.torch.distributed
은(는) 더 이상 사용되지 않습니다. torch.distributed패키지를 대신 사용하세요. -
smdistributed.dataparallel.torch.parallel.DistributedDataParallel
은(는) 더 이상 사용되지 않습니다. torch.nn.parallel을 사용하십시오. DistributedData대신 병렬 API를 사용하세요.
이전 버전의 라이브러리 (v1.3.0 또는 이전 버전) 를 사용해야 하는 경우 Python SDK 설명서에서 보관된 SageMaker 분산 데이터 병렬화 문서를 참조하십시오
PyTorch 라이트닝
SMDDP 라이브러리는 다음 SageMaker 프레임워크 컨테이너 PyTorch 및 SMP Docker 컨테이너에서 PyTorch 라이트닝에 사용할 수 있습니다.
PyTorch 라이트닝 v2
PyTorch 라이트닝 버전 | PyTorch 버전 | SMDDP 라이브러리 버전 | SageMaker SMDDP와 함께 사전 설치된 프레임워크 컨테이너 이미지 | SMDDP와 함께 사전 설치된 SMP 도커 이미지 | 바이너리 파일의 URL** |
---|---|---|---|---|---|
2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
현재는 사용할 수 없습니다. | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
사용할 수 없음 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
PyTorch 라이트닝 v1
PyTorch 라이트닝 버전 | PyTorch 버전 | SMDDP 라이브러리 버전 | SageMaker SMDDP와 함께 사전 설치된 프레임워크 컨테이너 이미지 | 바이너리 파일의 URL** |
---|---|---|---|---|
1.7.2 1.7.0 1.6.4 1.6.3 1.5.10 |
1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr.<region> .amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
** 바이너리 파일의 URL은 사용자 지정 컨테이너에 SMDDP 라이브러리를 설치하기 위한 것입니다. 자세한 정보는 SageMaker 분산 데이터 병렬 라이브러리를 사용하여 자체 Docker 컨테이너 생성을 참조하세요.
참고
PyTorch 라이트닝 및 라이트닝 볼트와 같은 유틸리티 라이브러리는 DLC에 사전 설치되어 있지 않습니다. PyTorch SageMaker PyTorch 평가기를 구성하고 2단계에서 교육 작업 요청을 제출하는 경우 교육 lightning-bolts
컨테이너에 pytorch-lightning
설치하고 requirements.txt
제공하도록 제공해야 합니다. SageMaker PyTorch
# requirements.txt pytorch-lightning lightning-bolts
교육 스크립트 및 작업 제출과 함께 requirements.txt
파일을 배치할 소스 디렉터리를 지정하는 방법에 대한 자세한 내용은 Amazon SageMaker Python SDK 설명서의 타사 라이브러리 사용을
Hugging Face 트랜스포머
Hugging Face용 AWS Deep Learning SageMaker Container는 트레이닝 컨테이너를 PyTorch 기본 이미지로 사용합니다. TensorFlow Hugging Face Transformer 라이브러리 버전과 PyTorch 페어링 및 버전을 찾아보려면 최신 Hugging Face Container TensorFlow 및 이전 Hugging
TensorFlow(사용되지 않음)
중요
SMDDP 라이브러리는 v2.11.0 이후 버전의 DLC에 대한 지원을 TensorFlow 중단했으며 더 이상 DLC에서 사용할 수 없습니다. TensorFlow 다음 표에는 SMDDP 라이브러리가 설치된 이전 DLC가 나와 있습니다. TensorFlow
TensorFlow 버전 | SMDDP 라이브러리 버전 |
---|---|
2.9.1, 2.10.1, 2.11.0 |
smdistributed-dataparallel==v1.4.1
|
2.8.3 |
smdistributed-dataparallel==v1.3.0
|
AWS 리전
SMDDP 라이브러리는 AWS Deep Learning Containers for SageMaker
지원되는 인스턴스 유형
SMDDP 라이브러리에는 다음 인스턴스 유형 중 하나가 필요합니다.
인스턴스 유형 |
---|
ml.p3dn.24xlarge * |
ml.p4d.24xlarge |
ml.p4de.24xlarge |
작은 정보
EFA 지원 인스턴스 유형에서 분산 교육을 제대로 실행하려면 VPC의 보안 그룹이 보안 그룹 자체에서 들어오고 나가는 모든 인바운드 및 아웃바운드 트래픽을 허용하도록 설정하여 인스턴스 간 트래픽을 활성화해야 합니다. 보안 그룹 규칙을 설정하는 방법을 알아보려면 Amazon EC2 사용 설명서의 1단계: EFA 지원 보안 그룹 준비를 참조하십시오.
중요
* SMDDP 라이브러리는 P3 인스턴스에서의 집단 통신 작업을 최적화하기 위한 지원을 중단했습니다. SMDDP 최적화 AllReduce
콜렉티브를 인스턴스에서 계속 사용할 수는 있지만, 이 ml.p3dn.24xlarge
인스턴스 유형의 성능을 향상시키기 위한 추가 개발 지원은 없을 것입니다. 참고로 SMDDP 최적화 AllGather
컬렉티브는 P4 인스턴스에만 사용할 수 있습니다.
인스턴스 유형의 사양은 Amazon EC2 인스턴스 유형 페이지
다음과 유사한 오류 메시지가 발생한 경우 SageMaker 리소스에 대한 서비스 할당량 증가 요청의 지침을 따르세요.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.