Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Selain umum Prasyarat untuk menggunakan SageMaker HyperPod untuk SageMaker HyperPod, periksa persyaratan dan pertimbangan berikut untuk mengatur cluster SageMaker HyperPod menggunakan Amazon EKS.
Persyaratan
catatan
Sebelum membuat HyperPod cluster, Anda memerlukan kluster Amazon EKS yang sedang berjalan yang dikonfigurasi dengan VPC dan diinstal menggunakan Helm.
-
Jika menggunakan konsol SageMaker AI, Anda dapat membuat cluster Amazon EKS di dalam halaman konsol HyperPod cluster. Untuk informasi selengkapnya, lihat Buat SageMaker HyperPod cluster.
-
Jika menggunakan AWS CLI, Anda harus membuat klaster Amazon EKS sebelum membuat cluster untuk diasosiasikan. HyperPod Untuk informasi selengkapnya, lihat Membuat klaster Amazon EKS di Panduan Pengguna Amazon EKS.
Saat menyediakan kluster Amazon EKS Anda, pertimbangkan hal berikut:
-
Dukungan versi Kubernetes
-
SageMaker HyperPod mendukung Kubernetes versi 1.28, 1.29, 1.30, dan 1.31.
-
-
Mode otentikasi klaster Amazon EKS
-
Mode otentikasi kluster Amazon EKS yang didukung oleh SageMaker HyperPod adalah
API
danAPI_AND_CONFIG_MAP
.
-
-
Jaringan
-
SageMaker HyperPod memerlukan plug-in Amazon VPC Container Network Interface (CNI) versi 1.18.3 atau yang lebih baru.
catatan
AWS Plugin VPC CNI untuk Kubernetes
adalah satu-satunya CNI yang didukung oleh. SageMaker HyperPod -
Jenis subnet di VPC Anda harus bersifat pribadi HyperPod untuk cluster.
-
-
Peran IAM
-
Pastikan peran IAM yang diperlukan untuk HyperPod diatur sebagaimana dipandu di AWS Identity and Access Management untuk SageMaker HyperPod bagian.
-
-
Pengaya klaster Amazon EKS
-
Anda dapat terus menggunakan berbagai add-on yang disediakan oleh Amazon EKS seperti Kube-proxy, CoreDNS, plugin Amazon VPC Container Network Interface (CNI), identitas GuardDuty pod Amazon EKS, agen, driver Amazon Container Storage Interface (CSI), FSx driver Mountpoint untuk Amazon S3 CSI, Distro for, dan agen Observability. AWS OpenTelemetry CloudWatch
-
Pertimbangan untuk mengonfigurasi SageMaker HyperPod cluster dengan Amazon EKS
-
Anda harus menggunakan peran IAM yang berbeda berdasarkan jenis node Anda. Untuk HyperPod node, gunakan peran berdasarkanPeran IAM untuk SageMaker HyperPod. Untuk node Amazon EKS, lihat Peran IAM node Amazon EKS.
-
Anda tidak dapat memasang volume EBS tambahan secara langsung ke Pod yang berjalan pada node HyperPod klaster. Sebagai gantinya, Anda perlu memanfaatkan InstanceStorageConfigsuntuk menyediakan dan memasang volume EBS tambahan ke node. HyperPod Penting untuk dicatat bahwa Anda hanya dapat melampirkan volume EBS tambahan ke grup instans baru saat membuat atau memperbarui HyperPod klaster. Setelah Anda mengonfigurasi grup instans dengan volume EBS tambahan ini, di file konfigurasi Amazon EKS Pod, Anda harus mengatur jalur lokal
untuk memasang volume dengan benar /opt/sagemaker
ke Pod Amazon EKS Anda. -
Anda dapat menerapkan pengontrol Amazon EBS CSI (Container Storage Interface) pada node. HyperPod Namun, node Amazon EBS CSI DaemonSet, yang memfasilitasi pemasangan dan pelepasan volume EBS, hanya dapat berjalan pada non-instance. HyperPod
-
Jika Anda menggunakan label tipe instance untuk menentukan batasan penjadwalan, pastikan Anda menggunakan tipe instans AI ML yang diawali dengan awalan. SageMaker
ml.
Misalnya, untuk instance P5, gunakanml.p5.48xlarge
sebagai pengganti.p5.48xlarge
Pertimbangan untuk mengonfigurasi jaringan untuk SageMaker HyperPod cluster dengan Amazon EKS
-
Setiap instance HyperPod cluster mendukung satu Elastic Network Interface (ENI). Untuk jumlah maksimum Pod per jenis instans, lihat tabel berikut.
Jenis instans Jumlah Pod Maks ml.p4d.24xlarge 49 ml.p4de.24xlarge 49 ml.p5.48xbesar 49 ml.trn1.32xbesar 49 ml.trn1n.32xbesar 49 ml.g5.xlarge 14 ml.g5.2xbesar 14 ml.g5.4xbesar 29 ml.g5.8xbesar 29 ml.g5.12xbesar 49 ml.g5.16xbesar 29 ml.g5.24xbesar 49 ml.g5.48xbesar 49 ml.c5.large 9 ml.c5.xlarge 14 ml.c5.2xlarge 14 ml.c5.4xlarge 29 ml.c5.9xlarge 29 ml.c5.12xbesar 29 ml.c5.18xlarge 49 ml.c5.24xbesar 49 ml.c5n.besar 9 ml.c5n.2xbesar 14 ml.c5n.4xbesar 29 ml.c5n.9xlarge 29 ml.c5n.18xlarge 49 db.m5.large 9 db.m5.xlarge 14 ml.m5.2xlarge 14 ml.m5.4xlarge 29 ml.m5.8xlarge 29 ml.m5.12xlarge 29 ml.m5.16xlarge 49 ml.m5.24xlarge 49 db.t3.medium 5 db.t3.large 11 db.t3.xlarge 14 ml.t3.2xlarge 14 ml.g6.xlarge 14 ml.g6.2xbesar 14 ml.g6.4xbesar 29 ml.g6.8xlarge 29 ml.g6.12xlarge 29 ml.g6.16xlarge 49 ml.g6.24xbesar 49 ml.g6.48xlarge 49 ml.gr6.4xbesar 29 ml.gr6.8xbesar 29 ml.g6e.xlarge 14 ml.g6e.2xlarge 14 ml.g6e.4xlarge 29 ml.g6e.8xlarge 29 ml.g6e.12xlarge 29 ml.g6e.16xlarge 49 ml.g6e.24xlarge 49 ml.g6e.48xlarge 49 ml.p5e.48xlarge 49 -
Hanya Pod yang
hostNetwork = true
memiliki akses ke Amazon EC2 Instance Metadata Service (IMDS) secara default. Gunakan identitas Amazon EKS Pod atau peran IAM untuk akun layanan (IRSA) untuk mengelola akses ke AWS kredensil Pod. -
SageMaker HyperPod cluster saat ini hanya mendukung IPv4 pengalamatan IP. IPv6 Pengalamatan IP tidak didukung saat ini.
Pertimbangan untuk menggunakan fitur ketahanan HyperPod cluster
-
Penggantian otomatis node tidak didukung untuk instance CPU.
-
Agen pemantauan HyperPod kesehatan perlu diinstal agar pemulihan otomatis node berfungsi. Agen dapat diinstal menggunakan Helm. Untuk informasi selengkapnya, lihat Instal paket di kluster Amazon EKS menggunakan Helm.
-
Agen pemeriksaan kesehatan dan pemantauan kesehatan yang HyperPod mendalam mendukung instans GPU dan Trn.
-
SageMaker AI menerapkan noda berikut ke node saat mereka menjalani pemeriksaan kesehatan mendalam:
effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
catatan
Anda tidak dapat menambahkan taint khusus ke node dalam grup instance dengan
DeepHealthChecks
dihidupkan.
Setelah klaster Amazon EKS Anda berjalan, konfigurasikan klaster Anda menggunakan manajer paket Helm seperti yang diinstruksikan Instal paket di kluster Amazon EKS menggunakan Helm sebelum membuat klaster Anda HyperPod .