기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker HyperPod 릴리스 정보
이 주제에서는 Amazon SageMaker HyperPod의 업데이트, 수정 사항 및 새로운 기능을 추적하는 릴리스 정보를 다룹니다. Amazon SageMaker HyperPod에 대한 일반 기능 릴리스, 업데이트 및 개선 사항을 찾고 있다면이 페이지가 유용할 수 있습니다.
HyperPod AMI 릴리스는 일반 AMI 릴리스, 버전 및 종속성을 포함한 주요 구성 요소에 대한 정보를 포함하도록 별도로 문서화됩니다. HyperPod AMI 릴리스와 관련된 이러한 정보를 찾으려면 섹션을 참조하세요Amazon SageMaker HyperPod AMI 릴리스.
SageMaker HyperPod 릴리스 정보: 2025년 2월 20일
SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.
새로운 기능 및 개선 사항
-
SageMaker HyperPod 클러스터에서 인스턴스 그룹을 삭제하는 지원이 추가되었습니다. 자세한 내용은 EKS 오케스트레이션 클러스터인스턴스 그룹 삭제의 및 Slurm 오케스트레이션 클러스터클러스터 축소의 섹션을 참조하세요.
SageMaker HyperPod 릴리스 정보: 2025년 2월 18일
SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.
새로운 기능
-
이 SageMaker HyperPod 릴리스에는 Nvidia 컨테이너 도구 키트(버전 1.17.3에서 버전 1.17.4로)의 보안 업데이트가 포함되어 있습니다. 자세한 내용은 v1.17.4 릴리스 정보를
참조하세요. 참고
Nvidia 컨테이너 도구 키트 버전 1.17.4의 모든 컨테이너 워크로드에 대해 이제 CUDA 호환성 라이브러리 탑재가 비활성화되었습니다. 컨테이너 워크플로에서 여러 CUDA 버전과의 호환성을 보장하려면 CUDA 호환성 라이브러리
LD_LIBRARY_PATH
를 포함하도록를 업데이트합니다. 에서 특정 단계를 찾을 수 있습니다CUDA 호환성 계층을 사용하는 경우.
관련 AMI 릴리스에 대한 자세한 내용은 Slurm용 SageMaker HyperPod AMI 릴리스: 2025년 2월 18일 및 섹션을 참조하세요Amazon EKS용 SageMaker HyperPod AMI 릴리스: 2025년 2월 18일.
SageMaker HyperPod 릴리스 정보: 2025년 2월 6일
SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.
새로운 기능 및 개선 사항
-
향상된 SageMaker HyperPod 다중 AZ 지원: 클러스터 내의 개별 인스턴스 그룹에 대해 서로 다른 가용 영역을 분할하여 서로 다른 서브넷 및 보안 그룹을 지정할 수 있습니다. SageMaker HyperPod 다중 AZ 지원에 대한 자세한 내용은 섹션을 참조하세요여러 AZs에서 SageMaker HyperPod 클러스터 설정.
SageMaker HyperPod 릴리스 정보: 2025년 1월 22일
AMI 릴리스
SageMaker HyperPod 릴리스 정보: 2025년 1월 9일
SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.
새로운 기능 및 개선 사항
-
IPv6 지원 추가: 클러스터는 IPv6 지원 VPC 및 서브넷으로 IPv6-enabled 주소 지정을 사용할 수 있습니다. 자세한 내용은 사용자 지정 Amazon VPC를 사용하여 SageMaker HyperPod 설정 단원을 참조하십시오.
SageMaker HyperPod 릴리스 정보: 2024년 12월 21일
SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.
새로운 기능
-
SageMaker HyperPod는 이제 Slurm 및 Amazon EKS 클러스터 모두에 대해 다음 인스턴스 유형을 지원합니다.
-
새 인스턴스 유형: C6gn, C6i, M6i, R6i.
-
새로운 Trainium 인스턴스 유형: Trn1 및 Trn1n.
-
개선 사항
-
Slurm이 작업을 중단할 때 오류 로깅 가시성이 향상되고 Slurm이 시작한 작업 취소 중에 불필요한 작업 단계 종료가 방지되었습니다.
-
Slurm 및 Amazon EKS 클러스터 모두에 대해 p5en의 기본 DLAMI가 업데이트되었습니다.
AMI 릴리스
SageMaker HyperPod 릴리스 정보: 2024년 12월 13일
SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.
새 기능
-
SageMaker HyperPod는 Amazon CloudWatch 지표 세트를 릴리스하여 SageMaker HyperPod Slurm 클러스터의 상태와 성능을 모니터링합니다. 이러한 지표는 CPU, GPU, 메모리 사용률, 노드 수 및 실패한 노드와 같은 클러스터 인스턴스 정보와 관련이 있습니다. 이 모니터링 기능은 기본적으로 활성화되어 있으며
/aws/sagemaker/Clusters
CloudWatch 네임스페이스에서 지표에 액세스할 수 있습니다. 또한 이러한 지표를 기반으로 CloudWatch 경보를 설정하여 Slurm 기반 HyperPod 클러스터 내의 잠재적 문제를 사전에 감지하고 해결할 수 있습니다. 자세한 내용은 Amazon SageMaker HyperPod Slurm 지표 단원을 참조하십시오.
AMI 릴리스
SageMaker HyperPod 릴리스 정보: 2024년 11월 24일
SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.
새로운 기능
-
여러 가용 영역에 걸쳐 SageMaker HyperPod 클러스터를 구성하기 위한 지원이 추가되었습니다. SageMaker HyperPod 다중 AZ 지원에 대한 자세한 내용은 섹션을 참조하세요여러 AZs에서 SageMaker HyperPod 클러스터 설정.
AMI 릴리스
SageMaker HyperPod 릴리스 정보: 2024년 11월 15일
SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션. 자세한 내용은 및 섹션을 참조하세요Amazon EKS용 SageMaker HyperPod AMI 릴리스: 2024년 11월 15일.
새로운 기능 및 개선 사항
-
Amazon EKS 및 Slurm 오케스트레이션 클러스터 모두에 대한 trn1 및 trn1n 인스턴스 유형에 대한 지원이 추가되었습니다.
-
Slurm 클러스터에 대한 로그 관리 개선:
-
로그 교체 구현: 크기에 따라 매주 또는 매일.
-
로그 보존을 3주로 설정합니다.
-
스토리지 영향을 줄이기 위해 로그를 압축했습니다.
-
장기 보존을 위해 CloudWatch에 로그를 계속 업로드합니다.
참고
일부 로그는 여전히 syslog에 저장됩니다.
-
-
Fluent Bit 설정을 조정하여 줄이 긴 파일의 추적 문제를 방지합니다.
버그 수정
-
구성 파일에서 Slurm 컨트롤러 노드 업데이트를 통한 의도하지 않은 잘림을 방지했습니다
slurm.config
.
AMI 릴리스
SageMaker HyperPod 릴리스 정보: 2024년 11월 11일
SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.
새 기능
-
SageMaker HyperPod AMI는 이제 G6e 인스턴스 유형을 지원합니다.
AMI 릴리스
SageMaker HyperPod 릴리스 정보: 2024년 10월 31일
SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.
새로운 기능
-
Amazon EKS 및 Slurm 오케스트레이션 클러스터 모두에 대한 인스턴스 그룹 수준 및 인스턴스 수준에서 SageMaker HyperPod 클러스터 크기 축소가 추가되었습니다. Amazon EKS 클러스터 축소에 대한 자세한 내용은 섹션을 참조하세요SageMaker HyperPod 클러스터 축소. Slurm 클러스터 축소에 대한 자세한 내용은의 클러스터 축소를 참조하세요AWS CLI 사용.
-
SageMaker HyperPod는 이제 Amazon EKS 및 Slurm 오케스트레이션 클러스터 모두에 대해 P5e 인스턴스 유형을 지원합니다.
SageMaker HyperPod 릴리스 정보: 2024년 10월 21일
SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.
새 기능
-
SageMaker HyperPod는 이제 Slurm 및 Amazon EKS 클러스터 모두에 대해 P5e[n], G6, Gr6 및 Trn2[n] 인스턴스 유형을 지원합니다.
AMI 릴리스
SageMaker HyperPod 릴리스 정보: 2024년 9월 10일
SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.
새로운 기능
-
SageMaker HyperPod에 Amazon EKS 지원이 추가되었습니다. 자세한 내용은 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션을 참조하십시오.
-
AWS CloudFormation 및 Terraform을 통한 SageMaker HyperPod 클러스터 관리에 대한 지원이 추가되었습니다. 를 통한 HyperPod 클러스터 관리에 대한 자세한 내용은 용 CloudFormation 설명서를
AWS::SageMaker::Cluster
AWS CloudFormation참조하세요. Terraform을 통한 HyperPod 클러스터 관리에 대한 자세한 내용은 용 Terraform 설명서를awscc_sagemaker_cluster
참조하세요.
AMI 릴리스
SageMaker HyperPod 릴리스 정보: 2024년 8월 20일
SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션에 대해 다음을 릴리스합니다.
새로운 기능
-
SageMaker HyperPod 자동 재개 기능을 개선하여 일반 RESources(GRES)와 연결된 Slurm 노드의 복원력 기능을 확장했습니다.
일반 리소스(GRES)
가 Slurm 노드에 연결된 경우 Slurm은 일반적으로 노드 교체와 같은 노드 할당 변경을 허용하지 않으므로 실패한 작업을 재개할 수 없습니다. 명시적으로 금지되지 않는 한 HyperPod 자동 재개 기능은 GRES 지원 노드와 연결된 결함이 있는 모든 작업을 자동으로 다시 대기열에 추가합니다. 이 프로세스에는 작업을 중지하고 작업 대기열에 다시 배치한 다음 처음부터 작업을 다시 시작하는 작업이 포함됩니다.
기타 변경사항
-
SageMaker HyperPod AMI에 사전 패키징된
slurmrestd
. -
시스템 응답성과 작업 처리를 개선하기 위해
ResumeTimeout
및UnkillableStepTimeout
의 기본값을slurm.conf
에서 60초에서 300초로 변경했습니다. -
NVIDIA Data Center GPU Manager(DCGM) 및 NVIDIA 시스템 관리 인터페이스(nvidia-smi)의 상태 확인을 약간 개선했습니다.
버그 수정
-
HyperPod 자동 재개 플러그인은 유휴 노드를 사용하여 작업을 재개할 수 있습니다.
SageMaker HyperPod 릴리스 정보: 2024년 6월 20일
SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션에 대해 다음을 릴리스합니다.
새로운 기능
-
SageMaker HyperPod 클러스터 인스턴스에 추가 스토리지를 연결하는 새로운 기능이 추가되었습니다. 이 기능을 사용하면 클러스터 생성 또는 업데이트 프로세스 중에 인스턴스 그룹 구성 수준에서 SageMaker HyperPod 콘솔
CreateCluster
및UpdateCluster
API를 통해 보조 스토리지를 구성할 수 있습니다. 추가 EBS 볼륨은 SageMaker HyperPod 클러스터 내의 각 인스턴스에 연결되고/opt/sagemaker
에 탑재됩니다. SageMaker HyperPod 클러스터에서 이를 구현하는 방법에 대한 자세한 내용은 다음 페이지의 업데이트된 설명서를 참조하세요.이 기능을 사용하려면 HyperPod 클러스터 소프트웨어를 업데이트해야 합니다. HyperPod 클러스터 소프트웨어를 패치한 후 새 인스턴스 그룹을 추가하여 2024년 6월 20일 이전에 생성된 기존 SageMaker HyperPod 클러스터에 이 기능을 사용할 수 있습니다. 이 기능은 2024년 6월 20일 이후에 생성된 모든 SageMaker HyperPod 클러스터에 대해 완전히 효과적입니다.
업그레이드 단계
-
다음 명령을 실행하여 UpdateClusterSoftware API를 호출하여 기존 HyperPod 클러스터를 최신 HyperPod DLAMI로 업데이트합니다. 자세한 지침은 클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트 섹션을 참조하세요.
중요
이 API를 실행하기 전에 작업을 백업합니다. 패치 프로세스는 루트 볼륨을 업데이트된 AMI로 대체합니다. 즉, 인스턴스 루트 볼륨에 저장된 이전 데이터가 손실됩니다. 인스턴스 루트 볼륨에서 Amazon S3 또는 Amazon FSx for Lustre로 데이터를 백업해야 합니다. 자세한 내용은 SageMaker HyperPod에서 제공하는 백업 스크립트 사용 단원을 참조하십시오.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
참고
HyperPod 클러스터를 업데이트하려면 AWS CLI 명령을 실행해야 합니다. SageMaker HyperPod 콘솔 UI를 통한 HyperPod 소프트웨어 업데이트는 현재 사용할 수 없습니다.
SageMaker HyperPod 릴리스 정보: 2024년 4월 24일
SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션에 대해 다음을 릴리스합니다.
버그 수정
-
ClusterInstanceGroupSpecification
API의ThreadsPerCore
파라미터로 버그를 수정했습니다. 수정을 사용하면CreateCluster
및UpdateCluster
API는ThreadsPerCore
를 통해 사용자 입력을 적절하게 가져와 적용합니다. 이 수정 사항은 2024년 4월 24일 이후에 생성된 HyperPod 클러스터에 적용됩니다. 이 버그에 문제가 있어 이 수정 사항을 클러스터에 적용하려면 새 클러스터를 생성해야 합니다. SageMaker HyperPod에서 제공하는 백업 스크립트 사용의 지침에 따라 새 클러스터로 이동하는 동안 작업을 백업하고 복원해야 합니다.
SageMaker HyperPod 릴리스 정보: 2024년 3월 27일
SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션에 대해 다음을 릴리스합니다.
HyperPod 소프트웨어 패치
HyperPod 서비스 팀은 SageMaker HyperPod DLAMI를 통해 소프트웨어 패치를 배포합니다. 최신 HyperPod DLAMI에 대한 다음 세부 정보를 참조하세요.
-
HyperPod DLAMI의 이번 릴리스에서 Slurm은 JSON, YAML 및 JWT를 지원하는 REST 서비스(
slurmestd
)로 구축되었습니다. -
Slurm
을 v23.11.3로 업그레이드했습니다.
개선 사항
-
자동 재개 서비스 제한 시간을 60분으로 늘렸습니다.
-
Slurm 컨트롤러를 다시 시작하지 않도록 인스턴스 교체 프로세스를 개선했습니다.
-
인스턴스 시작 시 다운로드 오류 및 인스턴스 상태 확인 오류와 같은 실행 수명 주기 스크립트의 오류 메시지가 개선되었습니다.
버그 수정
-
시간 동기화 문제를 일으킨 시간제 서비스의 버그를 수정했습니다.
-
slurm.conf
구문 분석으로 버그를 수정했습니다. -
NVIDIA
go-dcgm
라이브러리 관련 문제를 해결했습니다.
SageMaker HyperPod 릴리스 정보: 2024년 3월 14일
SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션에 대해 다음을 릴리스합니다.
개선 사항
-
이제 HyperPod는
provisioning_params.json
을 통해 제공된 파티션 이름 전달을 적절하게 지원하고 제공된 입력을 기반으로 파티션을 적절하게 생성합니다.provisioning_params.json
에 대한 자세한 내용은 SageMaker HyperPod 양식 및 수명 주기 스크립트를 사용하여 SageMaker HyperPod 클러스터 사용자 지정를 참조하세요.
AMI 릴리스
SageMaker HyperPod 릴리스 정보: 2024년 2월 15일
SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션에 대해 다음을 릴리스합니다.
새로운 기능
-
SageMaker HyperPod 보안 패치를 위한 새
UpdateClusterSoftware
API가 추가되었습니다. 보안 패치를 사용할 수 있게 되면aws sagemaker update-cluster-software --cluster-name
을 실행하여 계정의 기존 SageMaker HyperPod 클러스터를 업데이트하는 것이 좋습니다. 향후 보안 패치에 대한 후속 조치를 취하려면 이 Amazon SageMaker HyperPod 릴리스 정보 페이지를 계속 추적하세요.your-cluster-name
UpdateClusterSoftware
API의 원리는 클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트 섹션을 참조하세요.
SageMaker HyperPod 릴리스 정보: 2023년 11월 29일
SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션에 대해 다음을 릴리스합니다.
새로운 기능
-
AWS re:Invent 2023에서 Amazon SageMaker HyperPod를 시작했습니다.
AMI 릴리스