Instal paket di EKS cluster Amazon menggunakan Helm - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Instal paket di EKS cluster Amazon menggunakan Helm

Sebelum membuat SageMaker HyperPod cluster dan melampirkannya ke EKS cluster Amazon, Anda harus menginstal paket menggunakan Helm, manajer paket untuk Kubernetes. Helm adalah alat sumber terbuka untuk menyiapkan proses instalasi untuk klaster Kubernetes. Ini memungkinkan otomatisasi dan perampingan instalasi dependensi dan menyederhanakan berbagai pengaturan yang diperlukan untuk mempersiapkan EKS cluster Amazon sebagai orkestrator (bidang kontrol) untuk sebuah cluster. SageMaker HyperPod

Tim SageMaker HyperPod layanan menyediakan paket bagan Helm, yang menggabungkan dependensi kunci seperti device/ EFA plug-in, Kueue, Kubeflow Training Operator, dan konfigurasi izin terkait.

penting

Langkah instalasi helm ini adalah langkah yang diperlukan. Kegagalan mengonfigurasi EKS klaster Amazon Anda menggunakan bagan Helm yang disediakan dapat mengakibatkan SageMaker HyperPod klaster tidak berfungsi dengan benar atau proses pembuatan gagal sepenuhnya. Nama aws-hyperpod namespace tidak dapat diubah.

  1. Instal Helm di mesin lokal Anda.

  2. Unduh bagan Helm yang disediakan oleh SageMaker HyperPod terletak di helm_chart/HyperPodHelmChart dalam SageMaker HyperPod CLIrepositori.

    git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
  3. Perbarui dependensi bagan Helm, pratinjau perubahan yang akan dilakukan pada klaster Kubernetes Anda, dan instal bagan Helm.

    helm dependencies update HyperPodHelmChart
    helm install hyperpod-dependencies HyperPodHelmChart --dry-run
    helm install hyperpod-dependencies HyperPodHelmChart

Singkatnya, instalasi Helm menyiapkan berbagai komponen untuk EKS klaster Amazon Anda, termasuk penjadwalan pekerjaan dan antrian (Kueue), manajemen penyimpanan, integrasi, dan Kubeflow. MLflow Selain itu, bagan menginstal komponen berikut untuk diintegrasikan dengan fitur ketahanan SageMaker HyperPod cluster, yang merupakan komponen yang diperlukan.

  • Agen pemantauan kesehatan — Ini menginstal agen pemantauan kesehatan yang disediakan oleh. SageMaker HyperPod Ini diperlukan jika Anda ingin agar HyperPod cluster Anda dipantau. Agen pemantauan kesehatan disediakan sebagai gambar Docker sebagai berikut. Dalam values.yaml yang disediakan di bagan Helm, gambar sudah diatur sebelumnya. Agen mendukung instance GPU berbasis dan instans T rainium-accelerator-based (trn1,trn1n,inf2). Itu diinstal ke aws-hyperpod namespace.

    590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
  • Pemeriksaan kesehatan mendalam - Ini mengatur akun layanan pemeriksaan kesehatan SageMaker HyperPod mendalam,ClusterRole, dan ClusterRoleBinding ke aws-hyperpod namespace.

  • Operator Kubeflow — MPI Operator adalah MPIoperator Kubernetes yang menyederhanakan menjalankan beban kerja Machine Learning (ML) dan High-Performance Computing () dengan menggunakan Message Passing HPC Interface () pada klaster Kubernetes. MPI Ini menginstal MPI Operator v0.5. Itu diinstal ke mpi-operator namespace.

  • nvidia-device-plugin— Ini adalah plugin perangkat Kubernetes yang memungkinkan Anda mengekspos secara otomatis NVIDIA GPUs untuk dikonsumsi oleh kontainer di cluster Amazon Anda. EKS Hal ini memungkinkan Kubernetes untuk mengalokasikan dan menyediakan akses ke yang diminta GPUs untuk kontainer itu. Diperlukan saat menggunakan tipe instance denganGPU.

  • neuron-device-plugin— Ini adalah plugin perangkat Kubernetes yang memungkinkan Anda mengekspos secara otomatis AWS Chip inferentia untuk dikonsumsi oleh wadah di EKS cluster Amazon Anda. Hal ini memungkinkan Kubernetes untuk mengakses dan memanfaatkan AWS Chip inferensia pada node cluster. Diperlukan saat menggunakan tipe instance Neuron.

  • aws-efa-k8s-device-plugin— Ini adalah plugin perangkat Kubernetes yang memungkinkan penggunaan AWS Adaptor Kain Elastis (EFA) pada EKS cluster Amazon. EFAadalah perangkat jaringan yang menyediakan komunikasi latensi rendah dan throughput tinggi antar instance dalam sebuah cluster. Diperlukan saat menggunakan jenis instans yang EFA didukung.

Untuk informasi lebih lanjut tentang prosedur instalasi menggunakan bagan Helm yang disediakan, lihat READMEfile di SageMaker HyperPod CLI repositori.