기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
다음 섹션에서는 SageMaker HyperPod 시작하기 전에 사전 조건을 안내합니다.
주제
SageMaker HyperPod 할당량
AWS 계정에서 클러스터 사용에 대한 할당량을 고려하여 SageMaker HyperPod 클러스터를 생성할 수 있습니다.
중요
SageMaker HyperPod 요금에 대한 자세한 내용은 SageMaker HyperPod 요금 및 Amazon SageMaker AI 요금을
를 사용하여 Amazon SageMaker HyperPod 할당량 보기 AWS Management Console
SageMaker HyperPod 에 사용되는 클러스터 사용량 에 대해 한도라고도 하는 할당량의 기본값 및 적용된 값을 검색합니다.
-
Service Quotas 콘솔
을 엽니다. -
왼쪽 탐색 창에서 AWS 서비스를 선택합니다.
-
AWS 서비스 목록에서 Amazon SageMaker AI를 검색하고 선택합니다.
-
서비스 할당량 목록에서 서비스 할당량 이름, 적용된 값(사용 가능한 경우), AWS 기본 할당량 및 할당량 값을 조정할 수 있는지 여부를 확인할 수 있습니다.
-
검색 창에 클러스터 사용량을 입력합니다. 클러스터 사용 할당량, 적용된 할당량 및 기본 할당량을 보여줍니다.
를 사용하여 Amazon SageMaker HyperPod 할당량 증가 요청 AWS Management Console
계정 또는 리소스 수준에서 할당량을 늘립니다.
-
클러스터 사용량에 대한 인스턴스 할당량을 늘리려면 늘리려는 할당량을 선택합니다.
-
할당량이 조정 가능한 경우 조정 가능성 열에 나열된 값을 기반으로 계정 수준 또는 리소스 수준에서 할당량 증가를 요청할 수 있습니다.
-
할당량 값 증가에 새 값을 입력합니다. 새 값은 현재 값보다 커야 합니다.
-
요청을 선택합니다.
-
콘솔에서 보류 중이거나 최근에 해결된 요청을 보려면 서비스 세부 정보 페이지에서 요청 기록 탭으로 이동하거나 탐색 창에서 대시보드를 선택합니다. 보류 중인 요청의 경우 요청 상태를 선택하여 요청 접수증을 엽니다. 요청의 초기 상태는 Pending(보류 중)입니다. 상태가 Quota requested로 변경되면 사례 번호가 표시됩니다 AWS Support. 이 케이스 번호를 선택하여 요청의 티켓을 엽니다.
할당량 증가 요청에 대한 종합적으로 알아보려면 AWS Service Quotas 사용 설명서의 할당량 증가 요청을 참조하세요.
사용자 지정 Amazon VPC를 사용하여 SageMaker HyperPod 설정
사용자 지정 Amazon VPC를 사용하여 SageMaker HyperPod 클러스터를 설정하려면 다음 사전 조건을 검토하세요.
참고
Amazon EKS 오케스트레이션에는 VPC 구성이 필수입니다. Slurm 오케스트레이션의 경우 VPC 설정은 선택 사항입니다.
-
사용자 지정 VPC로 SageMaker HyperPod 클러스터를 생성하기 AWS 계정 전에에서 탄력적 네트워크 인터페이스(ENI) 용량을 검증합니다. ENI 제한은 Amazon EC2에 의해 제어되며에 따라 다릅니다 AWS 리전. SageMaker HyperPod는 할당량 증가를 자동으로 요청할 수 없습니다.
현재 ENI 할당량을 확인하려면:
-
Service Quotas 콘솔
을 엽니다. -
할당량 관리 섹션에서 AWS 서비스 드롭다운 목록을 사용하여 VPC를 검색합니다.
-
Amazon Virtual Private Cloud(Amazon VPC)의 할당량을 보려면 선택합니다.
-
리전당 서비스 할당량 네트워크 인터페이스 또는 할당량 코드를 찾습니다
L-DF5E4CA3
.
현재 ENI 한도가 SageMaker HyperPod 클러스터 요구 사항에 충분하지 않은 경우 할당량 증가를 요청합니다. 적절한 ENI 용량을 미리 확보하면 클러스터 배포 실패를 방지하는 데 도움이 됩니다.
-
-
사용자 지정 VPC를 사용하여 SageMaker HyperPod 클러스터를 리소스와 AWS 연결하는 경우 클러스터 생성 중에 VPC 이름, ID AWS 리전, 서브넷 IDs 및 보안 그룹 IDs 제공합니다.
참고
Amazon VPC 및 서브넷이
VPCConfig
의OverrideVPCConfig
속성을 사용하여 클러스터의 또는 인스턴스 그룹 수준에서 IPv6를 지원하는 경우ClusterInstanceGroupSpecification
네트워크 통신은 클러스터 오케스트레이션 플랫폼에 따라 다릅니다.-
Slurm 오케스트레이션 클러스터는 듀얼 IPv6 및 IPv4 주소로 노드를 자동으로 구성하여 즉각적인 IPv6 네트워크 통신을 허용합니다.
VPCConfig
IPv6 설정 이외의 추가 구성은 필요하지 않습니다. -
EKS 오케스트레이션 클러스터에서 노드는 듀얼 스택 주소 지정을 수신하지만 포드는 Amazon EKS 클러스터가 명시적으로 IPv6IPv6-enabled를 사용할 수 있습니다. 새 IPv6 Amazon EKS 클러스터를 생성해야 합니다. 기존 IPv4 Amazon EKS 클러스터는 IPv6로 변환할 수 없습니다. IPv6 Amazon EKS 클러스터 배포에 대한 자세한 내용은 Amazon EKS IPv6 클러스터 배포를 참조하세요.
IPv6 구성을 위한 추가 리소스:
-
VPC에 IPv6 지원을 추가하는 방법에 대한 자세한 내용은 VPC에 대한 IPv6 지원을 참조하세요.
-
새 IPv6-compatible VPC 생성에 대한 자세한 내용은 Amazon VPC 생성 안내서를 참조하세요.
-
사용자 지정 Amazon VPC로 SageMaker HyperPod를 구성하려면 SageMaker HyperPod에 대한 사용자 지정 Amazon VPC 설정을 참조하세요.
-
-
모든 리소스가 SageMaker HyperPod 클러스터 AWS 리전 와 동일한에 배포되었는지 확인합니다. VPC 내에서 리소스 간 통신을 허용하도록 보안 그룹 규칙을 구성합니다. 예를 들어에서 VPC를 생성할 때 하나 이상의 가용 영역(예:
us-west-2a
또는us-west-2b
)에 서브넷을us-west-2
프로비저닝하고 그룹 내 트래픽을 허용하는 보안 그룹을 생성합니다.참고
SageMaker HyperPod는 다중 가용 영역 배포를 지원합니다. 자세한 내용은 여러 AZs에서 SageMaker HyperPod 클러스터 설정 단원을 참조하십시오.
-
VPC 엔드포인트를 생성하여 VPC 배포 SageMaker HyperPod 인스턴스 그룹에 대한 Amazon Simple Storage Service (Amazon S3) 연결을 설정합니다. SageMaker 인터넷 액세스가 없으면 인스턴스 그룹은 수명 주기 스크립트, 훈련 데이터 또는 모델 아티팩트를 저장하거나 검색할 수 없습니다. 프라이빗 VPC에 대한 Amazon S3 버킷 액세스를 제한하는 사용자 지정 IAM 정책을 생성하는 것이 좋습니다. 자세한 내용은 AWS PrivateLink 가이드의 Amazon S3용 엔드포인트를 참조하세요.
-
Elastic Fabric Adapter(EFA) 지원 인스턴스를 사용하는 HyperPod 클러스터의 경우 보안 그룹 자체와 주고받는 모든 인바운드 및 아웃바운드 트래픽을 허용하도록 보안 그룹을 구성합니다. 특히 아웃바운드 규칙에
0.0.0.0/0
를 사용하지 마세요. EFA 상태 확인 실패가 발생할 수 있습니다. EFA 보안 그룹 준비 지침에 대한 자세한 내용은 Amazon EC2 사용 설명서의 1단계: EFA 지원 보안 그룹 준비를 참조하세요.
여러 AZs에서 SageMaker HyperPod 클러스터 설정
여러 가용 영역(AZs)에서 SageMaker HyperPod 클러스터를 구성하여 안정성과 가용성을 개선할 수 있습니다.
참고
EFA(Elastic Fabric Adapter) 트래픽은 AZs 또는 VPCs를 통과할 수 없습니다. 이는 EFA 인터페이스의 ENA 디바이스에서 발생하는 일반 IP 트래픽에는 적용되지 않습니다. 자세한 내용은 EFA 제한을 참조하세요.
-
기본 동작
HyperPod는 모든 클러스터 인스턴스를 단일 가용 영역에 배포합니다. VPC 구성에 따라 배포 AZ가 결정됩니다.
-
Slurm 오케스트레이션 클러스터의 경우 VPC 구성은 선택 사항입니다. VPC 구성이 제공되지 않으면 HyperPod는 플랫폼 VPC에서 하나의 서브넷으로 기본 설정됩니다.
-
EKS 오케스트레이션 클러스터의 경우 VPC 구성이 필요합니다.
-
Slurm 및 EKS 오케스트레이터의 경우
VpcConfig
가 제공되면 HyperPod는 제공된VpcConfig
의 서브넷 목록에서 서브넷을 선택합니다. 모든 인스턴스 그룹은 서브넷의 AZ를 상속합니다.
참고
클러스터를 생성한 후에는
VpcConfig
설정을 수정할 수 없습니다.HyperPod 클러스터용 VPCs 구성에 대한 자세한 내용은 이전 섹션인 섹션을 참조하세요사용자 지정 Amazon VPC를 사용하여 SageMaker HyperPod 설정.
-
-
다중 AZ 구성
클러스터를 생성하거나 기존 클러스터에 새 인스턴스 그룹을 추가할 때 여러 AZs에서 HyperPod 클러스터를 설정할 수 있습니다. 다중 AZ 배포를 구성하려면 클러스터 내의 개별 인스턴스 그룹에 대해 잠재적으로 여러 가용 영역에 걸쳐 서로 다른 서브넷과 보안 그룹을 지정하여 클러스터의 기본 VPC 설정을 재정의할 수 있습니다.
SageMaker HyperPod API 사용자는
CreateCluster
또는UpdateCluster
API로 작업할 때 ClusterInstanceGroupSpecification 내에서OverrideVpcConfig
속성을 사용할 수 있습니다. APIsOverrideVpcConfig
필드는 다음과 같습니다.-
인스턴스 그룹을 생성한 후에는 수정할 수 없습니다.
-
선택 사항입니다. 지정하지 않으면 클러스터 수준이 기본값으로
VpcConfig
사용됩니다. -
Slurm 오케스트레이션 클러스터의 경우 클러스터 수준이 제공된 경우에만
VpcConfig
를 지정할 수 있습니다. 클러스터 수준에서VpcConfig
를 지정하지 않으면 인스턴스 그룹에 사용할 수OverrideVpcConfig
없습니다. -
두 개의 필수 필드를 포함합니다.
-
Subnets
- 1~16IDs 허용 -
SecurityGroupIds
- 1~5개의 보안 그룹 IDs 허용
-
SageMaker HyperPod 콘솔 UI 또는를 사용하여 SageMaker HyperPod 클러스터를 생성하거나 업데이트하는 방법에 대한 자세한 내용은 AWS CLI다음을 참조하세요.
-
Slurm 오케스트레이션: Slurm 오케스트레이션 HyperPod 클러스터 운영을 참조하세요.
-
EKS 오케스트레이션. EKS 오케스트레이션 HyperPod 클러스터 운영을 참조하세요.
-
참고
여러 AZs에서 워크로드를 실행할 때 AZs 발생한다는 점에 유의하세요. 지연 시간에 민감한 애플리케이션을 설계할 때 이러한 영향을 고려하세요.
클러스터 사용자 액세스 제어를 위한 설정 AWS Systems Manager 및 다른 이름으로 실행
SageMaker HyperPod DLAMI는 SageMaker HyperPod 클러스터 인스턴스 그룹에 대한 액세스를 관리하는 데 도움이 되도록 AWS Systems Manager
참고
사용자에게 HyperPod 클러스터 노드에 대한 액세스 권한을 부여하면 노드에 사용자 관리형 소프트웨어를 설치하고 운영할 수 있습니다. 사용자에 대한 최소 권한 원칙을 유지해야 합니다.
AWS 계정에서 Run As 활성화
AWS 계정 관리자 또는 클라우드 관리자는 SSM의 Run As 기능을 사용하여 IAM 역할 또는 사용자 수준에서 SageMaker HyperPod 클러스터에 대한 액세스를 관리할 수 있습니다. 이 기능을 사용하면 IAM 역할 또는 사용자와 연결된 OS 사용자를 사용하여 각 SSM 세션을 시작할 수 있습니다.
AWS 계정에서 Run As를 활성화하려면 Linux 및 macOS 관리형 노드에 대한 Run As 지원 켜기의 단계를 따릅니다. 클러스터에서 OS 사용자를 이미 생성한 경우 Linux 및 macOS 관리형 노드에 대한 Run As 지원을 켜려면 5단계의 옵션 2에 안내된 대로 태그를 지정하여 IAM 역할 또는 사용자와 연결해야 합니다.
(선택 사항) Amazon FSx for Lustre로 SageMaker HyperPod 설정
SageMaker HyperPod 사용을 시작하고 클러스터와 FSx for Lustre 파일 시스템 간의 데이터 경로를 매핑하려면 SageMaker HyperPod에서 AWS 리전 지원하는 중 하나를 선택합니다. AWS 리전 원하는를 선택한 후 사용할 가용 영역(AZ)도 결정해야 합니다.
FSx for Lustre 파일 시스템이 동일한 내에 설정된 AZs와 다른 AZs에서 SageMaker HyperPod 컴퓨팅 노드를 사용하는 경우 통신 및 네트워크 오버헤드 AWS 리전가 있을 수 있습니다. SageMaker HyperPod 클러스터와 FSx for Lustre 파일 시스템 간의 교차 AZ 트래픽을 방지하려면 SageMaker HyperPod 서비스 계정과 동일한 물리적 AZ를 사용하는 것이 좋습니다. 또한 VPC로 구성했는지 확인합니다. Amazon FSx를 스토리지의 기본 파일 시스템으로 사용하려면 VPC로 SageMaker HyperPod 클러스터를 구성해야 합니다.