Amazon SageMaker HyperPod 릴리스 정보 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker HyperPod 릴리스 정보

다음 릴리스 정보에서는 Amazon 에 대한 최신 업데이트를 추적합니다 SageMaker HyperPod. 이러한 릴리스 정보에서는 이전 버전 이후 수행된 새로운 기능, 수정 사항 및 개선 사항을 설명합니다.

SageMaker HyperPod 릴리스 정보: 2024년 9월 10일

SageMaker HyperPod 는 에 대해 다음을 릴리스합니다Amazon을 통한 SageMaker HyperPod 클러스터 오케스트레이팅 EKS.

새로운 기능

SageMaker HyperPod DLAMI Amazon EKS 지원용

다음은 Amazon EKS 지원을 SageMaker HyperPod DLAMIs 위해 에 사전 설치되거나 사전 구성된 패키지의 요약 목록입니다. 각 DLAMIs는 Amazon Linux 2(AL2)를 기반으로 하며 특정 Kubernetes 버전을 지원합니다.

에는 다음이 AMIs 포함됩니다.

Deep Learning EKS AMI 1.28
  • Amazon EKS 구성 요소

    • Kubernetes 버전: 1.28.11

    • 컨테이너 버전: 1.7.20

    • Runc 버전: 1.1.11

    • AWS IAM 인증자: 0.6.21

  • Amazon SSM Agent: 3.3.380

  • Linux 커널: 5.10.223

  • OSS NVIDIA 드라이버: 535.183.01

  • NVIDIA CUDA: 12.2

  • EFA 설치 관리자: 1.32.0

  • GDRCopy: 2.4

  • NVIDIA 컨테이너 툴킷: 1.16.1

  • AWS OFI NCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0

Deep Learning EKS AMI 1.29
  • Amazon EKS 구성 요소

    • Kubernetes 버전: 1.29.6

    • 컨테이너 버전: 1.7.20

    • Runc 버전: 1.1.11

    • AWS IAM 인증자: 0.6.21

  • Amazon SSM Agent: 3.3.380

  • Linux 커널: 5.10.223

  • OSS Nvidia 드라이버: 535.183.01

  • NVIDIA CUDA: 12.2

  • EFA 설치 관리자: 1.32.0

  • GDRCopy: 2.4

  • Nvidia 컨테이너 툴킷: 1.16.1

  • AWS OFI NCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0

Deep Learning EKS AMI 1.30
  • Amazon EKS 구성 요소

    • Kubernetes 버전: 1.30.2

    • 컨테이너 버전: 1.7.20

    • Runc 버전: 1.1.11

    • AWS IAM 인증자: 0.6.21

  • Amazon SSM Agent: 3.3.380

  • Linux 커널: 5.10.223

  • OSS Nvidia 드라이버: 535.183.01

  • NVIDIA CUDA: 12.2

  • EFA 설치 관리자: 1.32.0

  • GDRCopy: 2.4

  • Nvidia 컨테이너 툴킷: 1.16.1

  • AWS OFI NCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0

SageMaker HyperPod DLAMI Slurm 지원용

HyperPod 서비스 팀은 를 통해 소프트웨어 패치를 배포합니다SageMaker HyperPod DLAMI. 최신 Slurm에 대한 HyperPod DLAMI 다음 세부 정보를 참조하세요.

참고

최신 로 기존 HyperPod 클러스터를 업데이트하는 방법에 대한 지침은 섹션을 HyperPod DLAMI참조하세요클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트.

  • NVIDIA 드라이버 v550.90.07 설치

  • EFA 드라이버 v2.10 설치

  • 최신 버전의 AWS Neuron을 설치했습니다. SDK

    • aws-neuronx-collectives: v2.21.46.0

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod 릴리스 정보: 2024년 8월 20일

SageMaker HyperPod 는 에 대해 다음을 릴리스합니다Slurm을 사용한 SageMaker HyperPod 클러스터 오케스트레이팅.

새로운 기능

  • SageMaker HyperPod 자동 재개 기능을 개선하여 일반RESources()에 연결된 Slurm 노드의 복원력 기능을 확장했습니다GRES.

    일반 리소스(GRES)가 Slurm 노드에 연결된 경우 Slurm은 일반적으로 노드 교체와 같은 노드 할당 변경을 허용하지 않으므로 가 실패한 작업을 재개할 수 없습니다. 명시적으로 금지되지 HyperPod 않는 한 자동 재개 기능은 GRES활성화된 노드와 연결된 모든 결함 있는 작업을 자동으로 다시 대기열에 추가합니다. 이 프로세스에는 작업을 중지하고 작업 대기열에 다시 배치한 다음 처음부터 작업을 다시 시작하는 작업이 포함됩니다.

기타 변경 사항

  • slurmrestd 에 미리 패키징되어 있습니다 SageMaker HyperPod AMI.

  • 시스템 응답성과 작업 처리를 개선하기 위해 ResumeTimeout 및 의 기본값을 60초UnkillableStepTimeout에서 300초slurm.conf로 변경했습니다.

  • NVIDIA Data Center GPU Manager(DCGM) 및 NVIDIA 시스템 관리 인터페이스(nvidia-smi)의 상태 확인을 약간 개선했습니다.

버그 수정

  • HyperPod 자동 재개 플러그인은 유휴 노드를 사용하여 작업을 재개할 수 있습니다.

업그레이드 단계

  • 다음 명령을 실행하여 를 호출UpdateClusterSoftwareAPI하여 기존 HyperPod 클러스터를 최신 로 업데이트합니다 HyperPod DLAMI. 자세한 지침은 섹션을 참조하세요클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트.

    중요

    이 를 실행하기 전에 작업을 백업합니다API. 패치 프로세스는 루트 볼륨을 업데이트된 로 대체합니다. 즉AMI, 인스턴스 루트 볼륨에 저장된 이전 데이터가 손실됩니다. 인스턴스 루트 볼륨의 데이터를 Amazon S3 또는 Amazon FSx for Lustre로 백업해야 합니다. 자세한 내용은 에서 제공하는 백업 스크립트 사용 SageMaker HyperPod 단원을 참조하십시오.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    참고

    AWS CLI 명령을 실행하여 HyperPod 클러스터를 업데이트해야 합니다. SageMaker HyperPod 콘솔 UI를 통한 HyperPod 소프트웨어 업데이트는 현재 사용할 수 없습니다.

SageMaker HyperPod 릴리스 정보: 2024년 6월 20일

SageMaker HyperPod 는 에 대해 다음을 릴리스합니다Slurm을 사용한 SageMaker HyperPod 클러스터 오케스트레이팅.

새로운 기능

  • SageMaker HyperPod 클러스터 인스턴스에 추가 스토리지를 연결하는 새로운 기능이 추가되었습니다. 이 기능을 사용하면 SageMaker HyperPod 콘솔 또는 CreateCluster 및 를 통해 클러스터 생성 또는 업데이트 프로세스 중에 인스턴스 그룹 구성 수준에서 추가 스토리지를 구성할 수 있습니다UpdateClusterAPIs. 추가 EBS 볼륨은 SageMaker HyperPod 클러스터 내의 각 인스턴스에 연결되고 에 탑재됩니다/opt/sagemaker. SageMaker HyperPod 클러스터에서 이를 구현하는 방법에 대한 자세한 내용은 다음 페이지의 업데이트된 설명서를 참조하세요.

    이 기능을 사용하려면 HyperPod 클러스터 소프트웨어를 업데이트해야 합니다. HyperPod 클러스터 소프트웨어를 패치한 후 새 인스턴스 그룹을 추가하여 2024년 6월 20일 이전에 생성된 기존 SageMaker HyperPod 클러스터에 이 기능을 사용할 수 있습니다. 이 기능은 2024년 6월 20일 이후에 생성된 모든 SageMaker HyperPod 클러스터에 대해 완전히 유효합니다.

업그레이드 단계

  • 다음 명령을 실행하여 를 호출UpdateClusterSoftwareAPI하여 기존 HyperPod 클러스터를 최신 로 업데이트합니다 HyperPod DLAMI. 자세한 지침은 섹션을 참조하세요클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트.

    중요

    이 를 실행하기 전에 작업을 백업합니다API. 패치 프로세스는 루트 볼륨을 업데이트된 로 대체합니다. 즉AMI, 인스턴스 루트 볼륨에 저장된 이전 데이터가 손실됩니다. 인스턴스 루트 볼륨에서 Amazon S3 또는 Amazon FSx for Lustre로 데이터를 백업해야 합니다. 자세한 내용은 에서 제공하는 백업 스크립트 사용 SageMaker HyperPod 단원을 참조하십시오.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    참고

    AWS CLI 명령을 실행하여 HyperPod 클러스터를 업데이트해야 합니다. SageMaker HyperPod 콘솔 UI를 통한 HyperPod 소프트웨어 업데이트는 현재 사용할 수 없습니다.

SageMaker HyperPod 릴리스 정보: 2024년 4월 24일

SageMaker HyperPod 는 에 대해 다음을 릴리스합니다Slurm을 사용한 SageMaker HyperPod 클러스터 오케스트레이팅.

버그 수정

  • ThreadsPerCore 파라미터로 버그를 수정했습니다ClusterInstanceGroupSpecificationAPI. 수정을 사용하면 CreateCluster 및 가 를 통해 사용자 입력을 UpdateCluster APIs 적절하게 가져와 적용합니다ThreadsPerCore. 이 수정 사항은 2024년 4월 24일 이후에 생성된 HyperPod 클러스터에 적용됩니다. 이 버그에 문제가 있어 클러스터에 이 수정 사항을 적용하려면 새 클러스터를 생성해야 합니다. 의 지침에 따라 새 클러스터로 이동하는 동안 작업을 백업하고 복원해야 합니다에서 제공하는 백업 스크립트 사용 SageMaker HyperPod.

SageMaker HyperPod 릴리스 정보: 2024년 3월 27일

SageMaker HyperPod 는 에 대해 다음을 릴리스합니다Slurm을 사용한 SageMaker HyperPod 클러스터 오케스트레이팅.

HyperPod 소프트웨어 패치

HyperPod 서비스 팀은 를 통해 소프트웨어 패치를 배포합니다SageMaker HyperPod DLAMI. 최신 에 대한 다음 세부 정보를 참조하세요 HyperPod DLAMI.

  • 이번 릴리스에서 Slurm은 HyperPod DLAMI, JSON YAML및 JWT 지원이 포함된 REST 서비스(slurmestd)로 구축되었습니다.

  • Slurm을 v23.11.3로 업그레이드

업그레이드 단계

  • 다음 명령을 실행하여 를 호출UpdateClusterSoftwareAPI하여 기존 HyperPod 클러스터를 최신 로 업데이트합니다 HyperPod DLAMI. 자세한 지침은 섹션을 참조하세요클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트.

    중요

    이 를 실행하기 전에 작업을 백업합니다API. 패치 프로세스는 루트 볼륨을 업데이트된 로 대체합니다. 즉AMI, 인스턴스 루트 볼륨에 저장된 이전 데이터가 손실됩니다. 인스턴스 루트 볼륨에서 Amazon S3 또는 Amazon FSx for Lustre로 데이터를 백업해야 합니다. 자세한 내용은 에서 제공하는 백업 스크립트 사용 SageMaker HyperPod 단원을 참조하십시오.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    참고

    AWS CLI 명령을 실행하여 HyperPod 클러스터를 업데이트해야 합니다. SageMaker HyperPod 콘솔 UI를 통한 HyperPod 소프트웨어 업데이트는 현재 사용할 수 없습니다.

개선 사항

  • 자동 재개 서비스 제한 시간을 60분으로 늘렸습니다.

  • Slurm 컨트롤러를 다시 시작하지 않도록 인스턴스 교체 프로세스를 개선했습니다.

  • 인스턴스 시작 시 다운로드 오류 및 인스턴스 상태 확인 오류와 같은 실행 수명 주기 스크립트의 오류 메시지가 개선되었습니다.

버그 수정

  • 시간 동기화 문제를 일으킨 시간제 서비스의 버그를 수정했습니다.

  • 구문 분석으로 버그를 수정했습니다slurm.conf.

  • NVIDIA go-dcgm 라이브러리 관련 문제를 해결했습니다.

SageMaker HyperPod 릴리스 정보: 2024년 3월 14일

SageMaker HyperPod 는 에 대해 다음을 릴리스합니다Slurm을 사용한 SageMaker HyperPod 클러스터 오케스트레이팅.

HyperPod DLAMI Slurm 소프트웨어 패치용

HyperPod 서비스 팀은 를 통해 소프트웨어 패치를 배포합니다SageMaker HyperPod DLAMI. 최신 에 대한 다음 세부 정보를 참조하세요 HyperPod DLAMI.

  • Slurm을 v23.11.1로 업그레이드

  • 에서 SlurmPMIx을 활성화하기 위한 OpenPMIx v4.2.6이 추가되었습니다.

  • 2023-10-26에 릴리스된 AWS Deep Learning BaseGPUAMI(Ubuntu 20.04) 기반

  • 기본 패키지 외에도 이 HyperPod DLAMI 에 사전 설치된 패키지의 전체 목록 AMI

    • Slurm : v23.11.1

    • O penPMIx : v4.2.6

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • SageMaker HyperPod 클러스터 상태 확인 및 자동 재개와 같은 기능을 지원하는 소프트웨어 패키지

업그레이드 단계

  • 다음 명령을 실행하여 를 호출UpdateClusterSoftwareAPI하여 기존 HyperPod 클러스터를 최신 로 업데이트합니다 HyperPod DLAMI. 자세한 지침은 섹션을 참조하세요클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트.

    중요

    이 를 실행하기 전에 작업을 백업합니다API. 패치 프로세스는 루트 볼륨을 업데이트된 로 대체합니다. 즉AMI, 인스턴스 루트 볼륨에 저장된 이전 데이터가 손실됩니다. 인스턴스 루트 볼륨에서 Amazon S3 또는 Amazon FSx for Lustre로 데이터를 백업해야 합니다. 자세한 내용은 에서 제공하는 백업 스크립트 사용 SageMaker HyperPod 단원을 참조하십시오.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    참고

    AWS CLI 명령을 실행하여 HyperPod 클러스터를 업데이트해야 합니다. SageMaker HyperPod 콘솔 UI를 통한 HyperPod 소프트웨어 업데이트는 현재 사용할 수 없습니다.

개선 사항

SageMaker HyperPod 릴리스 정보: 2024년 2월 15일

SageMaker HyperPod 는 에 대해 다음을 릴리스합니다Slurm을 사용한 SageMaker HyperPod 클러스터 오케스트레이팅.

새로운 기능

  • SageMaker HyperPod 보안 패치에 UpdateClusterSoftware API 대한 새 를 추가했습니다. 보안 패치를 사용할 수 있게 되면 를 실행하여 계정의 기존 SageMaker HyperPod 클러스터를 업데이트하는 것이 좋습니다aws sagemaker update-cluster-software --cluster-name your-cluster-name. 향후 보안 패치에 대한 후속 조치를 취하려면 이 Amazon SageMaker HyperPod 릴리스 정보 페이지를 계속 추적하세요. 의 UpdateClusterSoftware API 작동 방식을 알아보려면 섹션을 참조하세요클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트.

SageMaker HyperPod 릴리스 정보: 2023년 11월 29일

SageMaker HyperPod 는 에 대해 다음을 릴리스합니다Slurm을 사용한 SageMaker HyperPod 클러스터 오케스트레이팅.

새로운 기능

  • AWS re:Invent 2023 SageMaker HyperPod 에서 Amazon을 출시했습니다.

HyperPod 소프트웨어 패치

HyperPod 서비스 팀은 를 통해 소프트웨어 패치를 배포합니다SageMaker HyperPod DLAMI. 최신 에 대한 다음 세부 정보를 참조하세요 HyperPod DLAMI.

  • 2023-10-18에 릴리스된 AWS Deep Learning BaseGPUAMI(Ubuntu 20.04) 기반

  • 기본 패키지 외에도 이 HyperPod DLAMI 에 사전 설치된 패키지의 전체 목록 AMI

    • Slurm : v23.02.3

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • SageMaker HyperPod 클러스터 상태 확인 및 자동 재개와 같은 기능을 지원하는 소프트웨어 패키지