기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
PyTorch 훈련 스크립트에서 SMDDP 라이브러리 사용
SageMaker AI 분산 데이터 병렬 처리(SMDDP) 라이브러리 v1.4.0부터 라이브러리를 PyTorch 분산 패키지AllReduce
및 AllGather
집합 작업을 사용하려면 훈련 스크립트의 시작 부분에만 SMDDP 라이브러리를 가져오고 프로세스 그룹 초기화 중에 PyTorch 분산 모듈의 백엔드로 SMDDP를 설정해야 합니다. 백엔드 사양의 단일 라인을 사용하면 모든 기본 PyTorch 분산 모듈과 전체 훈련 스크립트를 변경하지 않고 유지할 수 있습니다. 다음 코드 조각은 라이브러리를 분산 PyTorch 데이터 병렬(DDP)
또는의 경우 PyTorch DDP FSDP
다음과 같이 프로세스 그룹을 초기화합니다.
import torch.distributed as dist import smdistributed.dataparallel.torch.torch_smddp dist.init_process_group(backend="smddp")
참고
( PyTorch DDP작업만 해당) smddp
백엔드는 현재 torch.distributed.new_group()
를 사용하여 하위 프로세스 그룹 생성을 지원하지 않습니다API. smddp
백엔드는 NCCL
및 Gloo
같은 다른 프로세스 그룹 백엔드와 동시에 사용할 수 없습니다.
DeepSpeed 또는 Megatron용-DeepSpeed
다음과 같이 프로세스 그룹을 초기화합니다.
import deepspeed import smdistributed.dataparallel.torch.torch_smddp deepspeed.init_distributed(dist_backend="smddp")
참고
에서 mpirun
기반 시작 관리자(smdistributed
및 pytorchddp
)SMDDPAllGather
와 함께를 사용하려면 훈련 스크립트에서 다음 환경 변수 SageMaker Python을 SMDDP 사용하여를 사용하여 분산 훈련 작업 시작 SDK도 설정해야 합니다.
export SMDATAPARALLEL_OPTIMIZE_SDP=true
훈련 스크립트 작성에 PyTorch FSDP 대한 일반적인 지침은 설명서의 완전 샤딩된 데이터 병렬(FSDP)을 사용한 고급 모델 훈련
훈련 스크립트 작성에 PyTorch DDP 대한 일반적인 지침은 PyTorch 설명서의 분산 데이터 병렬 시작하기
훈련 스크립트 조정을 완료한 후 SageMaker Python을 SMDDP 사용하여를 사용하여 분산 훈련 작업 시작 SDK 섹션으로 넘어갑니다.