Amazon SageMaker HyperPod 릴리스 정보 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker HyperPod 릴리스 정보

이 주제에서는 Amazon SageMaker HyperPod의 업데이트, 수정 사항 및 새로운 기능을 추적하는 릴리스 정보를 다룹니다. Amazon SageMaker HyperPod에 대한 일반 기능 릴리스, 업데이트 및 개선 사항을 찾고 있다면이 페이지가 유용할 수 있습니다.

HyperPod AMI 릴리스는 일반 AMI 릴리스, 버전 및 종속성을 포함한 주요 구성 요소에 대한 정보를 포함하도록 별도로 문서화됩니다. HyperPod AMI 릴리스와 관련된 이러한 정보를 찾으려면 섹션을 참조하세요Amazon SageMaker HyperPod AMI 릴리스.

SageMaker HyperPod 릴리스 정보: 2025년 2월 20일

SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.

새로운 기능 및 개선 사항

  • SageMaker HyperPod 클러스터에서 인스턴스 그룹을 삭제하는 지원이 추가되었습니다. 자세한 내용은 EKS 오케스트레이션 클러스터인스턴스 그룹 삭제의 및 Slurm 오케스트레이션 클러스터클러스터 축소의 섹션을 참조하세요.

SageMaker HyperPod 릴리스 정보: 2025년 2월 18일

SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.

새로운 기능

  • 이 SageMaker HyperPod 릴리스에는 Nvidia 컨테이너 도구 키트(버전 1.17.3에서 버전 1.17.4로)의 보안 업데이트가 포함되어 있습니다. 자세한 내용은 v1.17.4 릴리스 정보를 참조하세요.

    참고

    Nvidia 컨테이너 도구 키트 버전 1.17.4의 모든 컨테이너 워크로드에 대해 이제 CUDA 호환성 라이브러리 탑재가 비활성화되었습니다. 컨테이너 워크플로에서 여러 CUDA 버전과의 호환성을 보장하려면 CUDA 호환성 라이브러리LD_LIBRARY_PATH를 포함하도록를 업데이트합니다. 에서 특정 단계를 찾을 수 있습니다CUDA 호환성 계층을 사용하는 경우.

관련 AMI 릴리스에 대한 자세한 내용은 Slurm용 SageMaker HyperPod AMI 릴리스: 2025년 2월 18일 및 섹션을 참조하세요Amazon EKS용 SageMaker HyperPod AMI 릴리스: 2025년 2월 18일.

SageMaker HyperPod 릴리스 정보: 2025년 2월 6일

SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.

새로운 기능 및 개선 사항

  • 향상된 SageMaker HyperPod 다중 AZ 지원: 클러스터 내의 개별 인스턴스 그룹에 대해 서로 다른 가용 영역을 분할하여 서로 다른 서브넷 및 보안 그룹을 지정할 수 있습니다. SageMaker HyperPod 다중 AZ 지원에 대한 자세한 내용은 섹션을 참조하세요여러 AZs에서 SageMaker HyperPod 클러스터 설정.

SageMaker HyperPod 릴리스 정보: 2025년 1월 22일

AMI 릴리스

SageMaker HyperPod 릴리스 정보: 2025년 1월 9일

SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.

새로운 기능 및 개선 사항

SageMaker HyperPod 릴리스 정보: 2024년 12월 21일

SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.

새로운 기능

  • SageMaker HyperPod는 이제 Slurm 및 Amazon EKS 클러스터 모두에 대해 다음 인스턴스 유형을 지원합니다.

    • 새 인스턴스 유형: C6gn, C6i, M6i, R6i.

    • 새로운 Trainium 인스턴스 유형: Trn1 및 Trn1n.

개선 사항

  • Slurm이 작업을 중단할 때 오류 로깅 가시성이 향상되고 Slurm이 시작한 작업 취소 중에 불필요한 작업 단계 종료가 방지되었습니다.

  • Slurm 및 Amazon EKS 클러스터 모두에 대해 p5en의 기본 DLAMI가 업데이트되었습니다.

AMI 릴리스

SageMaker HyperPod 릴리스 정보: 2024년 12월 13일

SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.

새 기능

  • SageMaker HyperPod는 Amazon CloudWatch 지표 세트를 릴리스하여 SageMaker HyperPod Slurm 클러스터의 상태와 성능을 모니터링합니다. 이러한 지표는 CPU, GPU, 메모리 사용률, 노드 수 및 실패한 노드와 같은 클러스터 인스턴스 정보와 관련이 있습니다. 이 모니터링 기능은 기본적으로 활성화되어 있으며 /aws/sagemaker/Clusters CloudWatch 네임스페이스에서 지표에 액세스할 수 있습니다. 또한 이러한 지표를 기반으로 CloudWatch 경보를 설정하여 Slurm 기반 HyperPod 클러스터 내의 잠재적 문제를 사전에 감지하고 해결할 수 있습니다. 자세한 내용은 Amazon SageMaker HyperPod Slurm 지표 단원을 참조하십시오.

AMI 릴리스

SageMaker HyperPod 릴리스 정보: 2024년 11월 24일

SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.

새로운 기능

AMI 릴리스

SageMaker HyperPod 릴리스 정보: 2024년 11월 15일

SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션. 자세한 내용은 및 섹션을 참조하세요Amazon EKS용 SageMaker HyperPod AMI 릴리스: 2024년 11월 15일.

새로운 기능 및 개선 사항

  • Amazon EKS 및 Slurm 오케스트레이션 클러스터 모두에 대한 trn1 및 trn1n 인스턴스 유형에 대한 지원이 추가되었습니다.

  • Slurm 클러스터에 대한 로그 관리 개선:

    • 로그 교체 구현: 크기에 따라 매주 또는 매일.

    • 로그 보존을 3주로 설정합니다.

    • 스토리지 영향을 줄이기 위해 로그를 압축했습니다.

    • 장기 보존을 위해 CloudWatch에 로그를 계속 업로드합니다.

      참고

      일부 로그는 여전히 syslog에 저장됩니다.

  • Fluent Bit 설정을 조정하여 줄이 긴 파일의 추적 문제를 방지합니다.

버그 수정

  • 구성 파일에서 Slurm 컨트롤러 노드 업데이트를 통한 의도하지 않은 잘림을 방지했습니다slurm.config.

AMI 릴리스

SageMaker HyperPod 릴리스 정보: 2024년 11월 11일

SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.

새 기능

  • SageMaker HyperPod AMI는 이제 G6e 인스턴스 유형을 지원합니다.

AMI 릴리스

SageMaker HyperPod 릴리스 정보: 2024년 10월 31일

SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.

새로운 기능

  • Amazon EKS 및 Slurm 오케스트레이션 클러스터 모두에 대한 인스턴스 그룹 수준 및 인스턴스 수준에서 SageMaker HyperPod 클러스터 크기 축소가 추가되었습니다. Amazon EKS 클러스터 축소에 대한 자세한 내용은 섹션을 참조하세요SageMaker HyperPod 클러스터 축소. Slurm 클러스터 축소에 대한 자세한 내용은의 클러스터 축소를 참조하세요AWS CLI 사용.

  • SageMaker HyperPod는 이제 Amazon EKS 및 Slurm 오케스트레이션 클러스터 모두에 대해 P5e 인스턴스 유형을 지원합니다.

SageMaker HyperPod 릴리스 정보: 2024년 10월 21일

SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.

새 기능

  • SageMaker HyperPod는 이제 Slurm 및 Amazon EKS 클러스터 모두에 대해 P5e[n], G6, Gr6 및 Trn2[n] 인스턴스 유형을 지원합니다.

AMI 릴리스

SageMaker HyperPod 릴리스 정보: 2024년 9월 10일

SageMaker HyperPod는 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션 및에 대해 다음을 릴리스합니다Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션.

새로운 기능

AMI 릴리스

SageMaker HyperPod 릴리스 정보: 2024년 8월 20일

SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션에 대해 다음을 릴리스합니다.

새로운 기능

  • SageMaker HyperPod 자동 재개 기능을 개선하여 일반 RESources(GRES)와 연결된 Slurm 노드의 복원력 기능을 확장했습니다.

    일반 리소스(GRES)가 Slurm 노드에 연결된 경우 Slurm은 일반적으로 노드 교체와 같은 노드 할당 변경을 허용하지 않으므로 실패한 작업을 재개할 수 없습니다. 명시적으로 금지되지 않는 한 HyperPod 자동 재개 기능은 GRES 지원 노드와 연결된 결함이 있는 모든 작업을 자동으로 다시 대기열에 추가합니다. 이 프로세스에는 작업을 중지하고 작업 대기열에 다시 배치한 다음 처음부터 작업을 다시 시작하는 작업이 포함됩니다.

기타 변경사항

  • SageMaker HyperPod AMI에 사전 패키징된 slurmrestd.

  • 시스템 응답성과 작업 처리를 개선하기 위해 ResumeTimeoutUnkillableStepTimeout의 기본값을 slurm.conf에서 60초에서 300초로 변경했습니다.

  • NVIDIA Data Center GPU Manager(DCGM) 및 NVIDIA 시스템 관리 인터페이스(nvidia-smi)의 상태 확인을 약간 개선했습니다.

버그 수정

  • HyperPod 자동 재개 플러그인은 유휴 노드를 사용하여 작업을 재개할 수 있습니다.

SageMaker HyperPod 릴리스 정보: 2024년 6월 20일

SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션에 대해 다음을 릴리스합니다.

새로운 기능

  • SageMaker HyperPod 클러스터 인스턴스에 추가 스토리지를 연결하는 새로운 기능이 추가되었습니다. 이 기능을 사용하면 클러스터 생성 또는 업데이트 프로세스 중에 인스턴스 그룹 구성 수준에서 SageMaker HyperPod 콘솔 CreateClusterUpdateCluster API를 통해 보조 스토리지를 구성할 수 있습니다. 추가 EBS 볼륨은 SageMaker HyperPod 클러스터 내의 각 인스턴스에 연결되고 /opt/sagemaker에 탑재됩니다. SageMaker HyperPod 클러스터에서 이를 구현하는 방법에 대한 자세한 내용은 다음 페이지의 업데이트된 설명서를 참조하세요.

    이 기능을 사용하려면 HyperPod 클러스터 소프트웨어를 업데이트해야 합니다. HyperPod 클러스터 소프트웨어를 패치한 후 새 인스턴스 그룹을 추가하여 2024년 6월 20일 이전에 생성된 기존 SageMaker HyperPod 클러스터에 이 기능을 사용할 수 있습니다. 이 기능은 2024년 6월 20일 이후에 생성된 모든 SageMaker HyperPod 클러스터에 대해 완전히 효과적입니다.

업그레이드 단계

  • 다음 명령을 실행하여 UpdateClusterSoftware API를 호출하여 기존 HyperPod 클러스터를 최신 HyperPod DLAMI로 업데이트합니다. 자세한 지침은 클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트 섹션을 참조하세요.

    중요

    이 API를 실행하기 전에 작업을 백업합니다. 패치 프로세스는 루트 볼륨을 업데이트된 AMI로 대체합니다. 즉, 인스턴스 루트 볼륨에 저장된 이전 데이터가 손실됩니다. 인스턴스 루트 볼륨에서 Amazon S3 또는 Amazon FSx for Lustre로 데이터를 백업해야 합니다. 자세한 내용은 SageMaker HyperPod에서 제공하는 백업 스크립트 사용 단원을 참조하십시오.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    참고

    HyperPod 클러스터를 업데이트하려면 AWS CLI 명령을 실행해야 합니다. SageMaker HyperPod 콘솔 UI를 통한 HyperPod 소프트웨어 업데이트는 현재 사용할 수 없습니다.

SageMaker HyperPod 릴리스 정보: 2024년 4월 24일

SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션에 대해 다음을 릴리스합니다.

버그 수정

  • ClusterInstanceGroupSpecification API의 ThreadsPerCore 파라미터로 버그를 수정했습니다. 수정을 사용하면 CreateClusterUpdateCluster API는 ThreadsPerCore를 통해 사용자 입력을 적절하게 가져와 적용합니다. 이 수정 사항은 2024년 4월 24일 이후에 생성된 HyperPod 클러스터에 적용됩니다. 이 버그에 문제가 있어 이 수정 사항을 클러스터에 적용하려면 새 클러스터를 생성해야 합니다. SageMaker HyperPod에서 제공하는 백업 스크립트 사용의 지침에 따라 새 클러스터로 이동하는 동안 작업을 백업하고 복원해야 합니다.

SageMaker HyperPod 릴리스 정보: 2024년 3월 27일

SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션에 대해 다음을 릴리스합니다.

HyperPod 소프트웨어 패치

HyperPod 서비스 팀은 SageMaker HyperPod DLAMI를 통해 소프트웨어 패치를 배포합니다. 최신 HyperPod DLAMI에 대한 다음 세부 정보를 참조하세요.

  • HyperPod DLAMI의 이번 릴리스에서 Slurm은 JSON, YAML 및 JWT를 지원하는 REST 서비스(slurmestd)로 구축되었습니다.

  • Slurm을 v23.11.3로 업그레이드했습니다.

개선 사항

  • 자동 재개 서비스 제한 시간을 60분으로 늘렸습니다.

  • Slurm 컨트롤러를 다시 시작하지 않도록 인스턴스 교체 프로세스를 개선했습니다.

  • 인스턴스 시작 시 다운로드 오류 및 인스턴스 상태 확인 오류와 같은 실행 수명 주기 스크립트의 오류 메시지가 개선되었습니다.

버그 수정

  • 시간 동기화 문제를 일으킨 시간제 서비스의 버그를 수정했습니다.

  • slurm.conf 구문 분석으로 버그를 수정했습니다.

  • NVIDIA go-dcgm 라이브러리 관련 문제를 해결했습니다.

SageMaker HyperPod 릴리스 정보: 2024년 3월 14일

SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션에 대해 다음을 릴리스합니다.

개선 사항

AMI 릴리스

SageMaker HyperPod 릴리스 정보: 2024년 2월 15일

SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션에 대해 다음을 릴리스합니다.

새로운 기능

  • SageMaker HyperPod 보안 패치를 위한 새 UpdateClusterSoftware API가 추가되었습니다. 보안 패치를 사용할 수 있게 되면 aws sagemaker update-cluster-software --cluster-name your-cluster-name을 실행하여 계정의 기존 SageMaker HyperPod 클러스터를 업데이트하는 것이 좋습니다. 향후 보안 패치에 대한 후속 조치를 취하려면 이 Amazon SageMaker HyperPod 릴리스 정보 페이지를 계속 추적하세요. UpdateClusterSoftware API의 원리는 클러스터의 SageMaker HyperPod 플랫폼 소프트웨어 업데이트 섹션을 참조하세요.

SageMaker HyperPod 릴리스 정보: 2023년 11월 29일

SageMaker HyperPod는 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션에 대해 다음을 릴리스합니다.

새로운 기능

  • AWS re:Invent 2023에서 Amazon SageMaker HyperPod를 시작했습니다.

AMI 릴리스