SMDDP라이브러리와의 호환성은 다음에 최적화되었습니다. AWS 인프라 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SMDDP라이브러리와의 호환성은 다음에 최적화되었습니다. AWS 인프라

SageMaker 모델 병렬 처리 라이브러리 v2 (SMPv2) 를 SageMaker 분산 데이터 병렬 처리 () 라이브러리와 함께 사용할 수 있습니다. 이 라이브러리는 다음에 최적화된 AllGather 집단 통신 작업을 제공합니다. SMDDP AWS 인프라. 분산 교육에서는 여러 GPU 작업자를 동기화하고 직원 간에 정보를 교환하기 위해 집단 통신 작업을 설계합니다. AllGather샤딩된 데이터 병렬화에 일반적으로 사용되는 핵심 집단 통신 작업 중 하나입니다. 작업에 대한 자세한 내용은 이러한 집단 통신 SMDDP AllGather 작업을 SMDDP AllGather 집단 연산 최적화하면 수렴에 대한 부작용 없이 end-to-end 교육 속도를 높이는 데 직접적으로 기여할 수 있음을 참조하십시오.

참고

SMDDP라이브러리는 P4 및 P4de 인스턴스를 지원합니다 (라이브러리 참조지원되는 프레임워크 AWS 리전, 인스턴스 유형). SMDDP

SMDDP라이브러리는 기본적으로 프로세스 그룹 계층을 PyTorch 통해 통합됩니다. SMDDP라이브러리를 사용하려면 교육 스크립트에 두 줄의 코드만 추가하면 됩니다. SageMaker 모델 병렬화 라이브러리, PyTorch FSDP 및 와 같은 모든 교육 프레임워크를 지원합니다. DeepSpeed

AllGather 작업을 SMDDP 활성화하고 사용하려면 교육 스크립트의 일부로 두 줄의 코드를 추가해야 합니다. 1단계: PyTorch FSDP 교육 스크립트 조정 참고로, 먼저 SMDDP 백엔드를 사용하여 PyTorch Distributed를 초기화한 다음 초기화를 실행해야 합니다SMP.

import torch.distributed as dist # Initialize with SMDDP import smdistributed.dataparallel.torch.torch_smddp dist.init_process_group(backend="smddp") # Replacing "nccl" # Initialize with SMP import torch.sagemaker as tsm tsm.init()

SageMaker 용 프레임워크 컨테이너 PyTorch (SMPv2 및 지원되는 프레임워크 AWS 리전, 인스턴스 유형 SMDDP 라이브러리 참조지원되는 프레임워크 및 AWS 리전) 는 바이너리와 SMP 바이너리와 함께 미리 패키징되어 있습니다. SMDDP SMDDP라이브러리에 대한 자세한 내용은 을 참조하십시오분산 데이터 병렬화 라이브러리를 사용하여 SageMaker 분산 훈련 실행.