쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

SageMaker 모델 병렬 처리 라이브러리 릴리스 노트

포커스 모드
SageMaker 모델 병렬 처리 라이브러리 릴리스 노트 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker 모델 병렬 처리(SMP) 라이브러리의 최신 업데이트를 추적하려면 다음 릴리스 정보를 참조하세요. SMP 라이브러리에 대한 추가 질문이 있는 경우 sm-model-parallel-feedback@amazon.com의 SMP 서비스 팀에 문의하세요.

SageMaker 모델 병렬 처리 라이브러리 v2.7.0

날짜: 2024년 12월 4일

SMP 라이브러리 업데이트

새로운 기능

SMP Docker 컨테이너

SMP 라이브러리 팀은 SageMaker PyTorch 프레임워크 컨테이너를 대체하여 Docker 및 Enroot 컨테이너를 배포합니다. PyTorch SageMaker Python SDK에서 PyTorch 추정기 클래스를 사용하고 SMP v2를 사용하도록 배포 구성을 지정하면 SageMaker가 SMP Docker 컨테이너를 자동으로 픽업합니다. 이 SMP v2 릴리스를 사용하려면 SageMaker Python SDK를 v2.237.0 이상으로 업그레이드하세요.

컨테이너 세부 정보

  • CUDA v12.1이 포함된 PyTorch v2.4.1용 SMP Docker 컨테이너

    658645717510.dkr.ecr.<us-west-2>.smdistributed-modelparallel:2.4.1-gpu-py311-cu121
  • CUDA v12.1이 포함된 PyTorch v2.4.1용 SMP Enroot 컨테이너

    https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh
  • 사전 설치된 패키지

    • SMP 라이브러리 v2.7.0

    • SMDDP 라이브러리 v2.5.0

    • CUDNN v9.4.0

    • FlashAttention v2.5.8

    • TransformerEngine v1.10

    • Megatron v0.8.0

    • Hugging Face Transformers 4.30.2

    • Hugging Face Datasets 라이브러리 v2.19.0

    • EFA v1.32.0

    • NCCL v2.21.5

SMP Conda 채널

다음 S3 버킷은 SMP 서비스 팀이 호스팅하는 SMP 라이브러리의 퍼블릭 Conda 채널입니다. SageMaker HyperPod 클러스터와 같은 Conda 환경에 SMP v2 라이브러리를 설치하려면이 Conda 채널을 사용하여 SMP 라이브러리를 올바르게 설치합니다.

  • https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

일반적으로 Conda 채널에 대한 자세한 내용은 Conda 설명서채널을 참조하세요.

SageMaker 모델 병렬 처리 라이브러리 v2.6.1

날짜: 2024년 10월 31일

SMP 라이브러리 업데이트

버그 수정

  • SMP v2.6.0에서 이전 훈련 스크립트를 사용할 때 발생하는 ImportError 문제를 수정했습니다. 이렇게 하면 SMP v2.6.0과의 이전 버전과의 비호환성이 수정됩니다.

  • DeprecationWarning 대한를 추가했습니다torch.sagemaker.distributed.fsdp.checkpoint. 이 모듈은 SMP v2.7.0에서 더 이상 사용되지 않고 제거됩니다. 현재 코드torch.sagemaker.distributed.fsdp.checkpoint에서를 사용 중인 경우 향후 문제를 방지하기 위해 SMP v2.7.0 릴리스 전에 스크립트를 업데이트해야 합니다.

  • SMP v2.6.0에서 식별된 이전 버전과의 호환성 문제를 수정했습니다. 이 문제는 SMP v2.6.0에서 USE_PG_WITH_UTIL 체크포인트 메서드의 사용 중단과 관련이 있었으며, 이는 이전 버전의 훈련 스크립트와의 이전 버전 호환성을 깨뜨렸습니다. 이 문제를 해결하려면 PyTorch 훈련 작업을 다시 실행하여 SMP v2.6.1로 패키징된 최신 SMP 컨테이너를 픽업합니다.

SMP Docker 컨테이너

SMP 라이브러리 팀은 SageMaker PyTorch 프레임워크 컨테이너를 대체하여 Docker 컨테이너를 배포합니다. SageMaker Python SDK에서 PyTorch 예측기 클래스를 사용하고 SMP v2를 사용하도록 배포 구성을 지정하면 SageMaker AI가 SMP Docker 컨테이너를 자동으로 픽업합니다.

컨테이너 세부 정보

  • CUDA v12.1이 포함된 PyTorch v2.4.1용 SMP Docker 컨테이너

    658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121
  • 사전 설치된 패키지

    • SMP 라이브러리 v2.6.1

    • SMDDP 라이브러리 v2.5.0

    • CUDNN v9.4.0

    • FlashAttention v2.5.8

    • TransformerEngine v1.10

    • Megatron v0.8.0

    • Hugging Face Transformers 4.30.2

    • Hugging Face Datasets 라이브러리 v2.19.0

    • EFA v1.32.0

    • NCCL v2.21.5

SMP Conda 채널

다음 S3 버킷은 SMP 서비스 팀이 호스팅하는 SMP 라이브러리의 퍼블릭 Conda 채널입니다. SageMaker HyperPod 클러스터와 같이 사용자 지정이 가능한 컴퓨팅 리소스 환경에 SMP v2 라이브러리를 설치하려면 이 Conda 채널을 사용하여 SMP 라이브러리를 올바르게 설치합니다.

  • https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

일반적으로 Conda 채널에 대한 자세한 내용은 Conda 설명서채널을 참조하세요.

SageMaker 모델 병렬화 라이브러리 v2.6.0

날짜: 2024년 10월 17일

SMP 라이브러리 업데이트

새로운 기능

  • 다음 LLM 모델 구성에 대한 지원이 추가되었습니다. 컨텍스트 병렬 처리텐서 병렬화를 사용할 수 있습니다.

  • 다음 Mixtral 모델 구성에 대한 텐서 병렬화 지원이 추가되었습니다.

  • AllGather 통신 집합체를 사용하여 키-값 텐서의 전체 시퀀스를 얻는 AllGather 기반 컨텍스트 병렬 구현에 대한 지원이 추가되었습니다. 사용 가능한 구현은 p2pall_gather입니다. p2p 구현에서는 주의력 계산 중에 키-값(KV) 텐서 누적에 대한 피어-투-피어 전송-수신 호출을 활용하여 비동기적으로 실행하고 통신이 계산과 겹치도록 허용합니다. 반면, all_gather 구현은 KV 텐서 누적을 위한 AllGather 통신 집합 작업을 사용합니다. 이러한 컨텍스트 병렬 구현을 적용하는 방법은 컨텍스트 병렬 처리 섹션을 참조하세요.

  • 회전 위치 임베딩(RoPE) 세타 값을 튜닝하기 위한 지원이 추가되었습니다.

버그 수정

  • 지연된 파라미터가 활성화된 경우 사전 훈련 중에 회전 위치 임베딩(RoPE )이 제대로 초기화되지 않는 버그를 수정했습니다.

알려진 문제

  • Transformer Engine은 현재 컨텍스트 병렬 처리 또는 슬라이딩 창 주의가 활성화된 FP8을 지원하지 않습니다. 따라서 슬라이딩 창 구성이 null이 아닌 값으로 설정된 경우 Mistral 변환기의 SMP 버전은 컨텍스트 병렬 처리 또는 FP8 훈련을 지원하지 않습니다.

SMP Docker 컨테이너

SMP 라이브러리 팀은 SageMaker PyTorch 프레임워크 컨테이너를 대체하여 Docker 컨테이너를 배포합니다. SageMaker Python SDK에서 PyTorch 예측기 클래스를 사용하고 SMP v2를 사용하도록 배포 구성을 지정하면 SageMaker AI가 SMP Docker 컨테이너를 자동으로 픽업합니다.

통화 업데이트

  • v2.4.1로 업그레이드된 PyTorch

  • Megatron을 v0.8.0으로 업그레이드

  • TransformerEngine 라이브러리를 v1.10으로 업그레이드했습니다.

  • 트랜스포머를 v4.44.2로 업그레이드

  • cuDNN을 v9.4.0.58로 업그레이드

컨테이너 세부 정보

  • CUDA v12.1이 포함된 PyTorch v2.4.1용 SMP Docker 컨테이너

    658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121
  • 사전 설치된 패키지

    • SMP 라이브러리 v2.6.0

    • SMDDP 라이브러리 v2.5.0

    • CUDNN v9.4.0

    • FlashAttention v2.5.8

    • TransformerEngine v1.10

    • Megatron v0.8.0

    • Hugging Face Transformers 4.30.2

    • Hugging Face Datasets 라이브러리 v2.19.0

    • EFA v1.32.0

    • NCCL v2.21.5

SMP Conda 채널

다음 S3 버킷은 SMP 서비스 팀이 호스팅하는 SMP 라이브러리의 퍼블릭 Conda 채널입니다. SageMaker HyperPod 클러스터와 같이 사용자 지정이 가능한 컴퓨팅 리소스 환경에 SMP v2 라이브러리를 설치하려면 이 Conda 채널을 사용하여 SMP 라이브러리를 올바르게 설치합니다.

  • https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

일반적으로 Conda 채널에 대한 자세한 내용은 Conda 설명서채널을 참조하세요.

SageMaker 모델 병렬화 라이브러리 v2.5.0

날짜: 2024년 8월 28일

SMP 라이브러리 업데이트

새로운 기능

  • Mixtral 모델의 P5 인스턴스에서 FP8 데이터 형식을 사용하는 혼합 정밀도 훈련에 대한 지원이 추가되었습니다.

  • 다음 모델 구성에 대한 컨텍스트 병렬 처리 지원이 추가되었습니다.

    • Llama-v2: 7B 및 70B

    • Llama-v3: 8B 및 70B

    • GPT-NeoX: 20B

  • 체크포인트를 비동기적으로 저장하기 위한 지원이 추가되었습니다. 자세한 내용은 SMP를 사용한 체크포인트 지정을 참조하십시오.

    • Amazon EBS 또는 파일 서버를 사용하지 않고 S3에 체크포인트를 직접 저장할 수 있도록 지원합니다.

버그 수정

  • 사전 훈련된 모델 체크포인트를 로드하고 텐서 병렬 처리를 사용할 때 Llama 미세 조정 중에 예기치 않게 높은 초기 손실을 일으킨 문제를 해결했습니다.

참고

  • FP8 혼합 정밀도로 Mixtral에 활성화 체크포인트를 사용하려면 주의와 전문가 계층을 별도로 체크포인트해야 합니다. 올바르게 설정하는 예제는 Amazon SageMaker AI 예제 리포지토리의 예제 훈련 스크립트를 참조하세요.

알려진 문제

  • MoE 구성(torch.sagemaker.moe.moe_config.MoEConfig)의 균형 로드 밸런싱 유형은 현재 활성화 체크포인트와 호환되지 않습니다.

  • 컨텍스트 병렬 처리를 통해 GPT-NeoX는 훈련 전과 미세 조정 모두에서 성능 회귀를 보여줍니다.

  • P4 인스턴스의 GPT-NeoX의 경우 지연된 파라미터 초기화 변환 모델에서 Hugging Face 변환기 모델로 가중치를 직접 로드하면 첫 번째 단계에서 손실 불일치가 발생합니다.

SMP Docker 컨테이너

SMP 라이브러리 팀은 SageMaker PyTorch 프레임워크 컨테이너를 대체하여 Docker 컨테이너를 배포합니다. SageMaker Python SDK에서 PyTorch 예측기 클래스를 사용하고 SMP v2를 사용하도록 배포 구성을 지정하면 SageMaker AI가 SMP Docker 컨테이너를 자동으로 픽업합니다. 이 SMP v2 릴리스를 사용하려면 SageMaker Python SDK를 v2.224.0 이상으로 업그레이드하세요.

통화 업데이트

  • FlashAttention 라이브러리를 v2.5.8로 업그레이드했습니다

  • Transformer Engine 라이브러리를 v1.8로 업그레이드했습니다

    • Conda 환경에 Transformer Engine을 설치하려면 소스에서 를 빌드하고 특정 업스트림 수정(744624d, 27c6342, 7669bf3)을 체리-픽해야 합니다.

컨테이너 세부 정보

  • CUDA v12.1이 포함된 PyTorch v2.3.1용 SMP Docker 컨테이너

    658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121

    지원되는 리전 목록은 AWS 리전 섹션을 참조하세요.

  • 사전 설치된 패키지

    • SMP 라이브러리 v2.5.0

    • SMDDP 라이브러리 v2.3.0

    • CUDNN v8.9.7.29

    • FlashAttention v2.5.8

    • TransformerEngine v1.8

    • Megatron v0.7.0

    • Hugging Face Transformers v4.40.1

    • Hugging Face Datasets 라이브러리 v2.19.0

    • EFA v1.32.0

    • NCCL v2.21.5

SMP Conda 채널

다음 S3 버킷은 SMP 서비스 팀이 호스팅하는 SMP 라이브러리의 퍼블릭 Conda 채널입니다. SageMaker HyperPod 클러스터와 같이 사용자 지정이 가능한 컴퓨팅 리소스 환경에 SMP v2 라이브러리를 설치하려면 이 Conda 채널을 사용하여 SMP 라이브러리를 올바르게 설치합니다.

  • https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Conda 채널에 대한 자세한 내용은 Conda 설명서채널을 참조하세요.

SageMaker 모델 병렬화 라이브러리 v2.4.0

날짜: 2024년 6월 20일

SMP 라이브러리 업데이트

버그 수정

  • SMP 변환기를 사용하는 동안 레이블이 순방향 패스로 전달되지 않을 때 잘못된 로짓 모양을 유발하는 버그를 수정했습니다.

통화 업데이트

  • PyTorch v2.3.1에 대한 지원이 추가됨

  • Python v3.11에 대한 지원을 추가했습니다.

  • Hugging Face Transformers 라이브러리 v4.40.1에 대한 지원이 추가되었습니다.

사용 중단

  • Python v3.10에 대한 지원이 중단되었습니다

  • v4.40.1 이전의 Hugging Face Transformers 라이브러리 버전에 대한 지원이 중단되었습니다.

기타 변경사항

  • 서로 다른 순위에서 중복 제거된 텐서 저장을 전환하는 패치가 포함되어 있습니다. 자세한 내용은 PyTorch GitHub 리포지토리의 토론 스레드를 참조하세요.

알려진 문제

  • 손실이 급증했다가 텐서 병렬 처리로 Llama-3 70B를 미세 조정하는 동안 더 높은 손실 값으로 재개될 수 있는 알려진 문제가 있습니다.

SMP Docker 컨테이너

SMP 라이브러리 팀은 SageMaker PyTorch 프레임워크 컨테이너를 대체하여 Docker 컨테이너를 배포합니다. SageMaker Python SDK에서 PyTorch 예측기 클래스를 사용하고 SMP v2를 사용하도록 배포 구성을 지정하면 SageMaker AI가 SMP Docker 컨테이너를 자동으로 픽업합니다. 이 SMP v2 릴리스를 사용하려면 SageMaker Python SDK를 v2.224.0 이상으로 업그레이드하세요.

통화 업데이트

  • SMDDP 라이브러리를 v2.3.0으로 업그레이드했습니다

  • NCCL 라이브러리를 v2.21.5로 업그레이드했습니다

  • EFA 소프트웨어를 v1.32.0으로 업그레이드했습니다

사용 중단

컨테이너 세부 정보

  • CUDA v12.1이 포함된 PyTorch v2.3.1용 SMP Docker 컨테이너

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
  • 사전 설치된 패키지

    • SMP 라이브러리 v2.4.0

    • SMDDP 라이브러리 v2.3.0

    • CUDNN v8.9.7.29

    • FlashAttention v2.3.3

    • TransformerEngine v1.2.1

    • Hugging Face Transformers v4.40.1

    • Hugging Face Datasets 라이브러리 v2.19.0

    • EFA v1.32.0

    • NCCL v2.21.5

SMP Conda 채널

다음 S3 버킷은 SMP 서비스 팀이 호스팅하는 SMP 라이브러리의 퍼블릭 Conda 채널입니다. SageMaker HyperPod 클러스터와 같이 사용자 지정이 가능한 컴퓨팅 리소스 환경에 SMP v2 라이브러리를 설치하려면 이 Conda 채널을 사용하여 SMP 라이브러리를 올바르게 설치합니다.

  • https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

일반적으로 Conda 채널에 대한 자세한 내용은 Conda 설명서채널을 참조하세요.

SageMaker 모델 병렬화 라이브러리 v2.3.1

날짜: 2024년 5월 9일

버그 수정

  • 전문가 병렬 처리를 위해 torch.sagemaker.moe.moe_config.MoEConfig에서 moe_load_balancing=balanced를 사용할 때 발생하는 ImportError 문제를 해결했습니다.

  • load_state_dict_from_rank0이 활성화될 때 torch.sagemaker.transform 호출이 KeyError를 제기하는 미세 조정 문제를 수정했습니다.

  • 미세 조정을 위해 Mixtral 8x22B 와 같은 대규모 전문가 혼합(MoE) 모델을 로드할 때 발생하는 메모리 부족(OOM) 오류를 수정했습니다.

SMP Docker 컨테이너

SMP 라이브러리 팀은 SageMaker PyTorch 프레임워크 컨테이너를 대체하여 Docker 컨테이너를 배포합니다. 이 릴리스는 앞서 언급한 버그 수정을 다음 SMP Docker 이미지에 통합합니다.

  • CUDA v12.1이 포함된 PyTorch v2.2.0용 SMP Docker 컨테이너

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121

SageMaker 모델 병렬화 라이브러리 v2.3.0

날짜: 2024년 4월 11일

새로운 기능

  • Mixture of Experts 변환기 모델을 지원하기 위해 새로운 핵심 기능인 전문가 병렬 처리가 추가되었습니다. 자세한 내용은 전문가 병렬 처리을 참조하십시오.

SMP Docker 컨테이너

SMP 라이브러리 팀은 SageMaker PyTorch 프레임워크 컨테이너를 대체하여 Docker 컨테이너를 배포합니다. PyTorch SageMaker Python SDK에서 PyTorch 추정기 클래스를 사용하고 SMP v2를 사용하도록 배포 구성을 지정하면 SageMaker가 SMP Docker 컨테이너를 자동으로 픽업합니다. 이 SMP v2 릴리스를 사용하려면 SageMaker Python SDK를 v2.214.4 이상으로 업그레이드하세요.

  • CUDA v12.1이 포함된 PyTorch v2.2.0용 SMP Docker 컨테이너

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
    • 이 Docker 컨테이너에 사전 설치된 패키지

      • SMDDP 라이브러리 v2.2.0

      • CUDNN v8.9.5.29

      • FlashAttention v2.3.3

      • TransformerEngine v1.2.1

      • Hugging Face Transformers v4.37.1

      • Hugging Face Datasets 라이브러리 v2.16.1

      • Megatron-core 0.5.0

      • EFA v1.30.0

      • NCCL v2.19.4

SageMaker 모델 병렬화 라이브러리 v2.2.0

날짜: 2024년 3월 7일

새로운 기능

  • Transformer Engine 통합이 포함된 P5 인스턴스에서 다음 Hugging Face 변환기 모델의 FP8 훈련에 대한 지원이 추가되었습니다.

    • GPT-NeoX

    • Llama 2

버그 수정

  • 텐서 병렬 처리 훈련 중에 AllGather 집합 호출 전에 텐서가 연속적이라고 보장되지 않는 버그를 수정했습니다.

통화 업데이트

  • PyTorch v2.2.0.에 대한 지원이 추가됨

  • SMDDP 라이브러리를 v2.2.0으로 업그레이드했습니다.

  • FlashAttention 라이브러리를 v2.3.3으로 업그레이드했습니다.

  • NCCL 라이브러리를 v2.19.4로 업그레이드했습니다.

사용 중단

  • v1.2.0 이전의 Transformer Engine 버전에 대한 지원이 중단되었습니다.

알려진 문제

  • SMP 활성화 오프로딩 기능은 현재 작동하지 않습니다. 대신 기본 PyTorch 활성화 오프로드를 사용합니다.

기타 변경사항

SMP Docker 컨테이너

SMP 라이브러리 팀은 SageMaker PyTorch 프레임워크 컨테이너를 대체하여 Docker 컨테이너를 배포합니다. SageMaker Python SDK에서 PyTorch 예측기 클래스를 사용하고 SMP v2를 사용하도록 배포 구성을 지정하면 SageMaker AI가 SMP Docker 컨테이너를 자동으로 픽업합니다. 이 SMP v2 릴리스를 사용하려면 SageMaker Python SDK를 v2.212.0 이상으로 업그레이드하세요.

  • CUDA v12.1이 포함된 PyTorch v2.2.0용 SMP Docker 컨테이너

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
    • P4d, P4de 및 P5 인스턴스에 사용 가능

    • 이 Docker 컨테이너에 사전 설치된 패키지

      • SMDDP 라이브러리 v2.2.0

      • CUDNN v8.9.5.29

      • FlashAttention v2.3.3

      • TransformerEngine v1.2.1

      • Hugging Face Transformers v4.37.1

      • Hugging Face Datasets 라이브러리 v2.16.1

      • EFA v1.30.0

      • NCCL v2.19.4

SageMaker 모델 병렬화 라이브러리 v2.1.0

날짜: 2024년 2월 6일

통화 업데이트

  • PyTorch v2.1.2에 대한 지원이 추가됨.

사용 중단

  • Hugging Face Transformers v4.31.0에 대한 지원이 중단되었습니다.

알려진 문제

  • attn_implementation=flash_attention_2 및 FSDP를 사용하여 Hugging Face Llama 2 모델을 미세 조정하면 모델이 분기되는 문제가 발견되었습니다. 자세한 내용은 Hugging Face Transformers GitHub 리포지토리문제 티켓을 참조하세요. 분산 문제를 방지하려면 attn_implementation=sdpa를 사용합니다. 또는 use_smp_implementation=True를 설정하여 SMP 변환기 모델 구현을 사용합니다.

SMP Docker 컨테이너

SMP 라이브러리 팀은 SageMaker PyTorch 프레임워크 컨테이너를 대체하여 Docker 컨테이너를 배포합니다. PyTorch SageMaker Python SDK에서 PyTorch 추정기 클래스를 사용하고 SMP v2를 사용하도록 배포 구성을 지정하면 SageMaker가 SMP Docker 컨테이너를 자동으로 픽업합니다. 이 SMP v2 릴리스를 사용하려면 SageMaker Python SDK를 v2.207.0 이상으로 업그레이드하세요.

  • CUDA v12.1이 포함된 PyTorch v2.1.2용 SMP Docker 컨테이너

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
    • P4d, P4de 및 P5 인스턴스에 사용 가능

    • 이 Docker 컨테이너에 사전 설치된 패키지

      • SMDDP 라이브러리 v2.1.0

      • CUDNN v8.9.5.29

      • FlashAttention v2.3.3

      • TransformerEngine v1.2.1

      • Hugging Face Transformers v4.37.1

      • Hugging Face Datasets 라이브러리 v2.16.1

      • EFA v1.30.0

SMP Conda 채널

다음 S3 버킷은 SMP 서비스 팀이 호스팅하는 퍼블릭 Conda 채널입니다. SageMaker HyperPod 클러스터와 같이 사용자 지정이 가능한 컴퓨팅 리소스 환경에 SMP v2 라이브러리를 설치하려면 이 Conda 채널을 사용하여 SMP 라이브러리를 올바르게 설치합니다.

  • https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

일반적으로 Conda 채널에 대한 자세한 내용은 Conda 설명서채널을 참조하세요.

SageMaker 모델 병렬화 라이브러리 v2.0.0

날짜: 2023년 12월 19일

새로운 기능

다음과 같은 새로운 제품과 함께 SageMaker 모델 병렬 처리(SMP) 라이브러리 v2.0.0을 릴리스했습니다.

  • SMP v1.x의 이전 torch.sagemaker 패키지에서 완전히 수정된 새 smdistributed.modelparallel.torch 패키지입니다.

  • PyTorch 2.0.1에 대한 지원이 추가됨

  • PyTorch FSDP 지원.

  • Transformer Engine 라이브러리와 통합하여 Tensor 병렬 처리 구현.

  • SageMaker 훈련SageMaker HyperPod를 모두 지원합니다.

영향을 미치는 변경 사항

  • SMP v2APIs를 완전히 개정하고 torch.sagemaker 패키지를 제공합니다. 대부분 torch.sagemaker.init() 모듈로 초기화하고 모델 병렬 구성 파라미터를 전달하기만 하면 됩니다. 이 새 패키지를 사용하면 훈련 스크립트에서 코드 수정을 크게 단순화할 수 있습니다. SMP v2를 사용하도록 훈련 스크립트를 조정하는 방법에 대한 자세한 내용은 섹션을 참조하세요SageMaker 모델 병렬 처리 라이브러리 v2 사용.

  • SMP v1을 사용하여 Hugging Face Transformer 모델을 훈련하고 SMP v2에서 모델을 재사용하려는 경우 섹션을 참조하세요SMP v1에서 SMP v2로 업그레이드.

  • PyTorch FSDP 훈련의 경우 SMP v2를 사용해야 합니다.

알려진 문제

  • 활성화 체크포인트는 현재 FSDP를 사용하는 다음 래핑 정책에서만 작동합니다.

    • auto_wrap_policy = functools.partial(transformer_auto_wrap_policy, ...)

  • 활성화 오프로딩를 사용하려면 FSDP 활성화 체크포인트 유형이 REENTRANT여야 합니다.

  • 샤딩된 데이터 병렬 각도가 로 설정된 상태에서 텐서 병렬이 활성화된 상태로 실행 1중인 경우 를 사용해야 합니다backend = nccl. 이 시나리오에서는 smddp 백엔드 옵션이 지원되지 않습니다.

  • 텐서 병렬 처리를 사용하지 않는 경우에도 SMP 라이브러리에서 PyTorch를 사용하려면 Transformer Engine이 필요합니다.

기타 변경사항

  • 이 릴리스부터 SageMaker 모델 병렬 처리 라이브러리에 대한 설명서는이 Amazon SageMaker AI 개발자 안내서에서 모두 확인할 수 있습니다. Amazon SageMaker AI 개발자 안내서의 SMP v2에 대한이 전체 개발자 안내서를 위해 SageMaker Python SDK 설명서의 SMP v1.x에 대한 추가 참조는 더 이상 사용되지 않습니다. SMP v1.x에 대한 설명서가 여전히 필요한 경우 SMP v1.x에 대한 개발자 안내서는 에서 사용할 수 (보관됨) SageMaker 모델 병렬 처리 라이브러리 v1.x있으며 SMP Python 라이브러리 v1.x 참조는 SageMaker Python SDK v2.199.0 설명서 에서 사용할 수 있습니다.

사용 중단

  • TensorFlow 에 대한 지원이 중단되었습니다.

  • SMP v2에서는 파이프라인 병렬 처리를 지원하지 않습니다.

  • 기본 PyTorch FSDP에 유리한 DeepSpeed 라이브러리는 지원되지 않습니다.

SMP Docker 컨테이너

SMP 라이브러리 팀은 SageMaker PyTorch 프레임워크 컨테이너를 대체하여 Docker 컨테이너를 배포합니다. SageMaker Python SDK에서 PyTorch 예측기 클래스를 사용하고 SMP v2를 사용하도록 배포 구성을 지정하면 SageMaker AI가 SMP Docker 컨테이너를 자동으로 픽업합니다. 이 SMP v2 릴리스를 사용하려면 SageMaker Python SDK를 v2.207.0 이상으로 업그레이드하세요.

  • CUDA v12.1이 포함된 PyTorch v2.0.1용 SMP Docker 컨테이너

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121
프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.