기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker HyperPod 릴리스 정보
다음 릴리스 정보에서는 Amazon 에 대한 최신 업데이트를 추적합니다 SageMaker HyperPod. 이러한 릴리스 정보에서는 이전 버전 이후 수행된 새로운 기능, 수정 사항 및 개선 사항을 설명합니다.
SageMaker HyperPod 릴리스 정보: 2024년 9월 10일
SageMaker HyperPod 는 에 대해 다음을 릴리스합니다Amazon을 통한 SageMaker HyperPod 클러스터 오케스트레이팅 EKS.
새로운 기능
-
에 Amazon EKS 지원이 추가되었습니다 SageMaker HyperPod. 자세한 내용은 Amazon을 통한 SageMaker HyperPod 클러스터 오케스트레이팅 EKS을 참조하십시오.
SageMaker HyperPod DLAMI Amazon EKS 지원용
다음은 Amazon EKS 지원을 SageMaker HyperPod DLAMIs 위해 에 사전 설치되거나 사전 구성된 패키지의 요약 목록입니다. 각 DLAMIs는 Amazon Linux 2(AL2)를 기반으로 하며 특정 Kubernetes 버전을 지원합니다.
에는 다음이 AMIs 포함됩니다.
SageMaker HyperPod DLAMI Slurm 지원용
HyperPod 서비스 팀은 를 통해 소프트웨어 패치를 배포합니다SageMaker HyperPod DLAMI. 최신 Slurm에 대한 HyperPod DLAMI 다음 세부 정보를 참조하세요.
참고
최신 로 기존 HyperPod 클러스터를 업데이트하는 방법에 대한 지침은 섹션을 HyperPod DLAMI참조하세요클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트.
-
NVIDIA 드라이버 v550.90.07 설치
-
EFA 드라이버 v2.10 설치
-
최신 버전의 AWS Neuron을 설치했습니다. SDK
-
aws-neuronx-collectives: v2.21.46.0
-
aws-neuronx-dkms: v2.17.17.0
-
aws-neuronx-oci-hook: v2.4.4.0
-
aws-neuronx-runtime-lib: v2.21.41.0
-
aws-neuronx-tools: v2.18.3.0
-
SageMaker HyperPod 릴리스 정보: 2024년 8월 20일
SageMaker HyperPod 는 에 대해 다음을 릴리스합니다Slurm을 사용한 SageMaker HyperPod 클러스터 오케스트레이팅.
새로운 기능
-
SageMaker HyperPod 자동 재개 기능을 개선하여 일반RESources()에 연결된 Slurm 노드의 복원력 기능을 확장했습니다GRES.
일반 리소스(GRES)
가 Slurm 노드에 연결된 경우 Slurm은 일반적으로 노드 교체와 같은 노드 할당 변경을 허용하지 않으므로 가 실패한 작업을 재개할 수 없습니다. 명시적으로 금지되지 HyperPod 않는 한 자동 재개 기능은 GRES활성화된 노드와 연결된 모든 결함 있는 작업을 자동으로 다시 대기열에 추가합니다. 이 프로세스에는 작업을 중지하고 작업 대기열에 다시 배치한 다음 처음부터 작업을 다시 시작하는 작업이 포함됩니다.
기타 변경 사항
-
slurmrestd
에 미리 패키징되어 있습니다 SageMaker HyperPod AMI. -
시스템 응답성과 작업 처리를 개선하기 위해
ResumeTimeout
및 의 기본값을 60초UnkillableStepTimeout
에서 300초slurm.conf
로 변경했습니다. -
NVIDIA Data Center GPU Manager(DCGM) 및 NVIDIA 시스템 관리 인터페이스(nvidia-smi)의 상태 확인을 약간 개선했습니다.
버그 수정
-
HyperPod 자동 재개 플러그인은 유휴 노드를 사용하여 작업을 재개할 수 있습니다.
업그레이드 단계
-
다음 명령을 실행하여 를 호출UpdateClusterSoftwareAPI하여 기존 HyperPod 클러스터를 최신 로 업데이트합니다 HyperPod DLAMI. 자세한 지침은 섹션을 참조하세요클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트.
중요
이 를 실행하기 전에 작업을 백업합니다API. 패치 프로세스는 루트 볼륨을 업데이트된 로 대체합니다. 즉AMI, 인스턴스 루트 볼륨에 저장된 이전 데이터가 손실됩니다. 인스턴스 루트 볼륨의 데이터를 Amazon S3 또는 Amazon FSx for Lustre로 백업해야 합니다. 자세한 내용은 에서 제공하는 백업 스크립트 사용 SageMaker HyperPod 단원을 참조하십시오.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
참고
AWS CLI 명령을 실행하여 HyperPod 클러스터를 업데이트해야 합니다. SageMaker HyperPod 콘솔 UI를 통한 HyperPod 소프트웨어 업데이트는 현재 사용할 수 없습니다.
SageMaker HyperPod 릴리스 정보: 2024년 6월 20일
SageMaker HyperPod 는 에 대해 다음을 릴리스합니다Slurm을 사용한 SageMaker HyperPod 클러스터 오케스트레이팅.
새로운 기능
-
SageMaker HyperPod 클러스터 인스턴스에 추가 스토리지를 연결하는 새로운 기능이 추가되었습니다. 이 기능을 사용하면 SageMaker HyperPod 콘솔 또는
CreateCluster
및 를 통해 클러스터 생성 또는 업데이트 프로세스 중에 인스턴스 그룹 구성 수준에서 추가 스토리지를 구성할 수 있습니다UpdateCluster
APIs. 추가 EBS 볼륨은 SageMaker HyperPod 클러스터 내의 각 인스턴스에 연결되고 에 탑재됩니다/opt/sagemaker
. SageMaker HyperPod 클러스터에서 이를 구현하는 방법에 대한 자세한 내용은 다음 페이지의 업데이트된 설명서를 참조하세요.이 기능을 사용하려면 HyperPod 클러스터 소프트웨어를 업데이트해야 합니다. HyperPod 클러스터 소프트웨어를 패치한 후 새 인스턴스 그룹을 추가하여 2024년 6월 20일 이전에 생성된 기존 SageMaker HyperPod 클러스터에 이 기능을 사용할 수 있습니다. 이 기능은 2024년 6월 20일 이후에 생성된 모든 SageMaker HyperPod 클러스터에 대해 완전히 유효합니다.
업그레이드 단계
-
다음 명령을 실행하여 를 호출UpdateClusterSoftwareAPI하여 기존 HyperPod 클러스터를 최신 로 업데이트합니다 HyperPod DLAMI. 자세한 지침은 섹션을 참조하세요클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트.
중요
이 를 실행하기 전에 작업을 백업합니다API. 패치 프로세스는 루트 볼륨을 업데이트된 로 대체합니다. 즉AMI, 인스턴스 루트 볼륨에 저장된 이전 데이터가 손실됩니다. 인스턴스 루트 볼륨에서 Amazon S3 또는 Amazon FSx for Lustre로 데이터를 백업해야 합니다. 자세한 내용은 에서 제공하는 백업 스크립트 사용 SageMaker HyperPod 단원을 참조하십시오.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
참고
AWS CLI 명령을 실행하여 HyperPod 클러스터를 업데이트해야 합니다. SageMaker HyperPod 콘솔 UI를 통한 HyperPod 소프트웨어 업데이트는 현재 사용할 수 없습니다.
SageMaker HyperPod 릴리스 정보: 2024년 4월 24일
SageMaker HyperPod 는 에 대해 다음을 릴리스합니다Slurm을 사용한 SageMaker HyperPod 클러스터 오케스트레이팅.
버그 수정
-
의
ThreadsPerCore
파라미터로 버그를 수정했습니다ClusterInstanceGroupSpecification
API. 수정을 사용하면CreateCluster
및 가 를 통해 사용자 입력을UpdateCluster
APIs 적절하게 가져와 적용합니다ThreadsPerCore
. 이 수정 사항은 2024년 4월 24일 이후에 생성된 HyperPod 클러스터에 적용됩니다. 이 버그에 문제가 있어 클러스터에 이 수정 사항을 적용하려면 새 클러스터를 생성해야 합니다. 의 지침에 따라 새 클러스터로 이동하는 동안 작업을 백업하고 복원해야 합니다에서 제공하는 백업 스크립트 사용 SageMaker HyperPod.
SageMaker HyperPod 릴리스 정보: 2024년 3월 27일
SageMaker HyperPod 는 에 대해 다음을 릴리스합니다Slurm을 사용한 SageMaker HyperPod 클러스터 오케스트레이팅.
HyperPod 소프트웨어 패치
HyperPod 서비스 팀은 를 통해 소프트웨어 패치를 배포합니다SageMaker HyperPod DLAMI. 최신 에 대한 다음 세부 정보를 참조하세요 HyperPod DLAMI.
-
이번 릴리스에서 Slurm은 HyperPod DLAMI, JSON YAML및 JWT 지원이 포함된 REST 서비스(
slurmestd
)로 구축되었습니다. -
Slurm
을 v23.11.3로 업그레이드
업그레이드 단계
-
다음 명령을 실행하여 를 호출UpdateClusterSoftwareAPI하여 기존 HyperPod 클러스터를 최신 로 업데이트합니다 HyperPod DLAMI. 자세한 지침은 섹션을 참조하세요클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트.
중요
이 를 실행하기 전에 작업을 백업합니다API. 패치 프로세스는 루트 볼륨을 업데이트된 로 대체합니다. 즉AMI, 인스턴스 루트 볼륨에 저장된 이전 데이터가 손실됩니다. 인스턴스 루트 볼륨에서 Amazon S3 또는 Amazon FSx for Lustre로 데이터를 백업해야 합니다. 자세한 내용은 에서 제공하는 백업 스크립트 사용 SageMaker HyperPod 단원을 참조하십시오.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
참고
AWS CLI 명령을 실행하여 HyperPod 클러스터를 업데이트해야 합니다. SageMaker HyperPod 콘솔 UI를 통한 HyperPod 소프트웨어 업데이트는 현재 사용할 수 없습니다.
개선 사항
-
자동 재개 서비스 제한 시간을 60분으로 늘렸습니다.
-
Slurm 컨트롤러를 다시 시작하지 않도록 인스턴스 교체 프로세스를 개선했습니다.
-
인스턴스 시작 시 다운로드 오류 및 인스턴스 상태 확인 오류와 같은 실행 수명 주기 스크립트의 오류 메시지가 개선되었습니다.
버그 수정
-
시간 동기화 문제를 일으킨 시간제 서비스의 버그를 수정했습니다.
-
구문 분석으로 버그를 수정했습니다
slurm.conf
. -
NVIDIA
go-dcgm
라이브러리 관련 문제를 해결했습니다.
SageMaker HyperPod 릴리스 정보: 2024년 3월 14일
SageMaker HyperPod 는 에 대해 다음을 릴리스합니다Slurm을 사용한 SageMaker HyperPod 클러스터 오케스트레이팅.
HyperPod DLAMI Slurm 소프트웨어 패치용
HyperPod 서비스 팀은 를 통해 소프트웨어 패치를 배포합니다SageMaker HyperPod DLAMI. 최신 에 대한 다음 세부 정보를 참조하세요 HyperPod DLAMI.
-
Slurm
을 v23.11.1로 업그레이드 -
에서 SlurmPMIx
을 활성화하기 위한 OpenPMIx v4.2.6이 추가되었습니다. -
2023-10-26에 릴리스된 AWS Deep Learning BaseGPUAMI(Ubuntu 20.04)
기반 -
기본 패키지 외에도 이 HyperPod DLAMI 에 사전 설치된 패키지의 전체 목록 AMI
업그레이드 단계
-
다음 명령을 실행하여 를 호출UpdateClusterSoftwareAPI하여 기존 HyperPod 클러스터를 최신 로 업데이트합니다 HyperPod DLAMI. 자세한 지침은 섹션을 참조하세요클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트.
중요
이 를 실행하기 전에 작업을 백업합니다API. 패치 프로세스는 루트 볼륨을 업데이트된 로 대체합니다. 즉AMI, 인스턴스 루트 볼륨에 저장된 이전 데이터가 손실됩니다. 인스턴스 루트 볼륨에서 Amazon S3 또는 Amazon FSx for Lustre로 데이터를 백업해야 합니다. 자세한 내용은 에서 제공하는 백업 스크립트 사용 SageMaker HyperPod 단원을 참조하십시오.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
참고
AWS CLI 명령을 실행하여 HyperPod 클러스터를 업데이트해야 합니다. SageMaker HyperPod 콘솔 UI를 통한 HyperPod 소프트웨어 업데이트는 현재 사용할 수 없습니다.
개선 사항
-
HyperPod 이제 는 를 통해 제공된 파티션 이름 전달
provisioning_params.json
을 적절하게 지원하고 제공된 입력을 기반으로 파티션을 적절하게 생성합니다.provisioning_params.json
에 대한 자세한 내용은 SageMaker HyperPod 양식 및 수명 주기 스크립트를 사용하여 클러스터 사용자 지정 SageMaker HyperPod 를 참조하십시오.
SageMaker HyperPod 릴리스 정보: 2024년 2월 15일
SageMaker HyperPod 는 에 대해 다음을 릴리스합니다Slurm을 사용한 SageMaker HyperPod 클러스터 오케스트레이팅.
새로운 기능
-
SageMaker HyperPod 보안 패치에
UpdateClusterSoftware
API 대한 새 를 추가했습니다. 보안 패치를 사용할 수 있게 되면 를 실행하여 계정의 기존 SageMaker HyperPod 클러스터를 업데이트하는 것이 좋습니다aws sagemaker update-cluster-software --cluster-name
. 향후 보안 패치에 대한 후속 조치를 취하려면 이 Amazon SageMaker HyperPod 릴리스 정보 페이지를 계속 추적하세요. 의your-cluster-name
UpdateClusterSoftware
API 작동 방식을 알아보려면 섹션을 참조하세요클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트.
SageMaker HyperPod 릴리스 정보: 2023년 11월 29일
SageMaker HyperPod 는 에 대해 다음을 릴리스합니다Slurm을 사용한 SageMaker HyperPod 클러스터 오케스트레이팅.
새로운 기능
-
AWS re:Invent 2023 SageMaker HyperPod 에서 Amazon을 출시했습니다.
HyperPod 소프트웨어 패치
HyperPod 서비스 팀은 를 통해 소프트웨어 패치를 배포합니다SageMaker HyperPod DLAMI. 최신 에 대한 다음 세부 정보를 참조하세요 HyperPod DLAMI.
-
2023-10-18에 릴리스된 AWS Deep Learning BaseGPUAMI(Ubuntu 20.04)
기반 -
기본 패키지 외에도 이 HyperPod DLAMI 에 사전 설치된 패키지의 전체 목록 AMI
-
Slurm
: v23.02.3 -
Munge: v0.5.15
-
aws-neuronx-dkms
: v2.* -
aws-neuronx-collectives
: v2.* -
aws-neuronx-runtime-lib
: v2.* -
aws-neuronx-tools
: v2.* -
SageMaker HyperPod 클러스터 상태 확인 및 자동 재개와 같은 기능을 지원하는 소프트웨어 패키지
-