분산 데이터 병렬화 라이브러리를 사용하여 SageMaker 분산 훈련 실행 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

분산 데이터 병렬화 라이브러리를 사용하여 SageMaker 분산 훈련 실행

SageMaker 분산 데이터 병렬화 (SMDDP) 라이브러리는 인프라에 최적화된 집단 통신 작업의 구현을 제공하여 선형에 가까운 확장 효율성으로 딥 러닝 모델의 SageMaker 교육 기능을 확장합니다. AWS

대규모 학습 데이터세트에서 대규모 언어 모델 (LLM) 및 확산 모델 같은 대규모 기계 학습 (ML) 모델을 학습할 때 ML 실무자는 가속기 클러스터와 분산 학습 기법을 사용하여 각 GPU 메모리에 맞지 않는 모델의 학습 시간을 단축하거나 메모리 제약 조건을 해결합니다. ML 실무자는 단일 인스턴스에서 여러 액셀러레이터로 시작했다가 워크로드 요구 사항이 증가함에 따라 인스턴스 클러스터로 확장하는 경우가 많습니다. 클러스터 크기가 커지면 여러 노드 간의 통신 오버헤드도 증가하여 전체 컴퓨팅 성능이 저하됩니다.

이러한 오버헤드 및 메모리 문제를 해결하기 위해 SMDDP 라이브러리는 다음을 제공합니다.

  • SMDDP 라이브러리는 AWS 네트워크 인프라 및 Amazon SageMaker ML 인스턴스 토폴로지에 대한 교육 작업을 최적화합니다.

  • SMDDP 라이브러리는 인프라에 최적화된 통합 통신 작업을 AllReduce 구현하여 AllGather 노드 간 통신을 개선합니다. AWS

SMDDP 라이브러리 오퍼링에 대한 자세한 내용은 을 참조하십시오. SageMaker 분산 데이터 병렬화 라이브러리 소개

에서 제공하는 SageMaker 모델 병렬 전략을 사용한 교육에 대한 자세한 내용은 을 참조하십시오. (아카이브) SageMaker 모델 병렬화 라이브러리 v1.x