Pesan rencana pelatihan untuk pekerjaan atau HyperPod cluster pelatihan Anda - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pesan rencana pelatihan untuk pekerjaan atau HyperPod cluster pelatihan Anda

Paket SageMaker pelatihan Amazon adalah kemampuan yang memungkinkan Anda memesan dan membantu memaksimalkan penggunaan kapasitas GPU untuk beban kerja pelatihan model AI skala besar. Fitur ini menyediakan akses ke jenis instans yang sangat dicari yang mencakup berbagai opsi komputasi yang dipercepat GPU, termasuk teknologi GPU NVIDIA terbaru dan chip Trainium. AWS Dengan rencana SageMaker pelatihan, Anda dapat mengamankan akses yang dapat diprediksi ke sumber daya komputasi dengan permintaan tinggi dan berkinerja tinggi ini dalam jadwal dan anggaran yang Anda tentukan, tanpa perlu mengelola infrastruktur yang mendasarinya. Fleksibilitas ini sangat berharga bagi organisasi yang menghadapi tantangan untuk memperoleh dan menjadwalkan instance komputasi kelebihan langganan ini untuk beban kerja AI yang sangat penting bagi misi mereka.

Apa itu rencana SageMaker pelatihan

SageMaker Rencana pelatihan memungkinkan Anda untuk memesan kapasitas komputasi yang disesuaikan dengan kebutuhan sumber daya target Anda, seperti pekerjaan SageMaker pelatihan atau SageMaker HyperPod cluster. Layanan secara otomatis menangani reservasi, penyediaan sumber daya komputasi yang dipercepat, penyiapan infrastruktur, eksekusi beban kerja, dan pemulihan dari kegagalan infrastruktur.

SageMaker rencana pelatihan terdiri dari satu atau lebih blok Kapasitas Cadangan, masing-masing ditentukan oleh parameter berikut:

  • Jenis contoh tertentu

  • Jumlah contoh

  • Zona Ketersediaan

  • Durasi

  • Waktu mulai dan berakhir

catatan
  • Rencana pelatihan khusus untuk sumber daya target mereka (baik SageMaker Training Job atau SageMaker HyperPod) dan tidak dapat dipertukarkan.

  • Beberapa blok Kapasitas Cadangan dalam satu rencana pelatihan mungkin terputus-putus. Ini berarti mungkin ada celah antara blok Kapasitas Cadangan.

Manfaat rencana SageMaker pelatihan

SageMaker rencana pelatihan menawarkan manfaat berikut:

  • Akses yang Dapat Diprediksi: Cadangan kapasitas GPU untuk beban kerja pembelajaran mesin Anda dalam kerangka waktu yang ditentukan.

  • Manajemen Biaya: Rencana dan anggaran untuk persyaratan pelatihan skala besar sebelumnya.

  • Manajemen Sumber Daya Otomatis: rencana SageMaker pelatihan menangani penyediaan dan pengelolaan infrastruktur.

  • Fleksibilitas: Buat rencana pelatihan untuk berbagai sumber daya, termasuk pekerjaan SageMaker pelatihan dan SageMaker HyperPod cluster.

  • Toleransi Kesalahan: Manfaatkan pemulihan otomatis dari kegagalan infrastruktur dan migrasi beban kerja di seluruh Availability Zone untuk pekerjaan pelatihan SageMaker AI.

SageMaker rencana pelatihan reservasi terlebih dahulu dan waktu mulai yang fleksibel

SageMaker rencana pelatihan memungkinkan Anda untuk memesan kapasitas komputasi terlebih dahulu, dengan waktu dan durasi mulai yang fleksibel.

  • Pemesanan di muka: Anda dapat memesan rencana pelatihan hingga 8 minggu (56 hari) sebelum tanggal mulai.

  • Waktu tunggu minimum: penawaran rencana SageMaker pelatihan mungkin tersedia untuk dimulai dalam waktu 30 menit setelah reservasi, tergantung ketersediaan.

    catatan

    Anda dapat mencari dan membeli paket yang akan dapat diakses dalam waktu 30 menit. Untuk memastikan aktivasi tepat waktu, transaksi pembayaran harus berhasil diselesaikan setidaknya 5 menit sebelum waktu mulai yang diinginkan. Misalnya, jika Anda ingin rencana dimulai pada pukul 14:00, Anda dapat melakukan pencarian menit terakhir hingga pukul 13.30 dan menyelesaikan pembelian Anda pada pukul 13:55 untuk menjamin paket siap pada pukul 14:00.

  • Durasi reservasi dan kuantitas instans: rencana SageMaker pelatihan memungkinkan Anda memesan instans dengan opsi durasi dan kuantitas tertentu. Untuk jenis instans yang tersedia dalam opsi tertentu Wilayah AWS, durasi, dan kuantitas, lihatJenis instans yang didukung Wilayah AWS,, dan harga.

  • Waktu akhir: Rencana Pelatihan selalu berakhir pada pukul 11:30 UTC pada hari terakhir reservasi.

  • Pengakhiran rencana pelatihan: Ketika 30 menit tetap dalam Kapasitas Cadangan, rencana SageMaker pelatihan memulai proses penghentian setiap instance yang berjalan di dalam blok tersebut hingga Kapasitas Cadangan berikutnya menjadi aktif. Anda mempertahankan akses penuh ke rencana pelatihan Anda hingga 30 menit sebelum waktu akhir blok Kapasitas Cadangan terakhir.

SageMaker rencana pelatihan alur kerja pengguna

SageMaker rencana pelatihan bekerja melalui langkah-langkah berikut:

Langkah-langkah admin:

  1. Cari dan tinjau: Temukan penawaran paket yang tersedia yang sesuai dengan persyaratan komputasi Anda, seperti jenis instans, hitungan, waktu mulai, dan durasi.

  2. Buat rencana: Pesan rencana pelatihan yang memenuhi kebutuhan Anda menggunakan ID penawaran paket pilihan Anda.

  3. Pembayaran dan penjadwalan: Setelah pembayaran di muka berhasil, status paket menjadi. Scheduled

Langkah-langkah untuk pengguna rencana/insinyur ML:

  1. Alokasi sumber daya: Gunakan paket Anda untuk mengantri pekerjaan pelatihan SageMaker AI atau mengalokasikan ke grup instans SageMaker HyperPod klaster.

  2. Aktivasi: Ketika tanggal mulai rencana tiba, itu menjadiActive. Berdasarkan kapasitas cadangan yang tersedia, rencana SageMaker pelatihan secara otomatis meluncurkan pekerjaan pelatihan atau grup instans penyediaan.

catatan

Status rencana pelatihan beralih dari Scheduled Active kapan periode Kapasitas Cadangan dimulai, dan kemudian kembali ke Scheduled saat menunggu periode Kapasitas Cadangan berikutnya dimulai.

Diagram berikut memberikan gambaran komprehensif tentang bagaimana rencana SageMaker pelatihan berinteraksi dengan yang berbedatarget resources, menggambarkan siklus hidup rencana dan perannya dalam alokasi sumber daya untuk pekerjaan pelatihan dan cluster. SageMaker SageMaker HyperPod

  • Rencana pelatihan untuk SageMaker Training Job: Diagram pertama menggambarkan end-to-end alur kerja interaksi antara rencana pelatihan dan Training SageMaker Job.

    Penagihan, Reservasi kapasitas dengan rencana pelatihan, dan SageMaker Training Job. Ilustrasi siklus hidup rencana pelatihan, dan status pekerjaan pelatihan yang dikelola oleh Administrator dan Insinyur ML.
  • Rencana pelatihan untuk SageMaker HyperPod cluster: Diagram kedua menggambarkan end-to-end alur kerja interaksi antara rencana pelatihan dan kelompok instance. SageMaker HyperPod

    Penagihan, Reservasi kapasitas dengan rencana pelatihan, dan alur kerja manajemen grup instans. Ilustrasi siklus hidup rencana pelatihan dan status grup instans yang dikelola oleh Administrator dan Insinyur ML.

Jenis instans yang didukung Wilayah AWS,, dan harga

Rencana pelatihan mendukung reservasi untuk jenis instans berkinerja tinggi tertentu berikut, masing-masing tersedia dalam pilihan: Wilayah AWS

  • ml.p4d.24xlarge

  • ml.p5.48xbesar

  • ml.p5e.48xlarge

  • ml.p5en.48xlarge

  • ml.trn1.32xbesar

  • ml.trn2.48xlarge

catatan

Ketersediaan jenis instans dapat berubah seiring waktu. Untuk up-to-date informasi terbanyak tentang jenis instans yang tersedia menurut Wilayah, serta harga masing-masing, lihat Harga SageMaker AI. Gulir ke bawah ke bagian paket pelatihan SageMaker HyperPod fleksibel Amazon di bawah Harga Sesuai Permintaan. Pilih Wilayah untuk melihat daftar jenis instans yang tersedia.

Ketersediaan di beberapa wilayah memungkinkan untuk memilih lokasi yang paling cocok untuk beban kerja, dengan mempertimbangkan faktor-faktor seperti persyaratan residensi data dan kedekatan dengan layanan lain AWS .

penting
  • Anda dapat menggunakan rencana SageMaker pelatihan untuk memesan instans dengan durasi reservasi dan opsi kuantitas instans berikut.

    • Durasi reservasi tersedia dalam kenaikan 1 hari dari 1 hingga 182 hari.

    • Opsi kuantitas instance reservasi adalah 1, 2, 4, 8, 16, 32 atau 64 instance.

  • Pastikan bahwa Pekerjaan Pelatihan atau kuota HyperPod layanan memungkinkan jumlah maksimum instans per jenis instans yang melebihi jumlah instans yang ditentukan dalam paket Anda. Untuk melihat kuota Anda saat ini atau meminta peningkatan kuota, lihat. Lihat kuota rencana SageMaker pelatihan menggunakan konsol AWS manajemen

SageMaker rencana pelatihan perilaku pencarian

Saat mencari penawaran rencana pelatihan, rencana SageMaker pelatihan menggunakan pendekatan berikut untuk memaksimalkan ketersediaan sumber daya dan fleksibilitas bagi pengguna, bahkan ketika permintaan tinggi dan blok Kapasitas Cadangan langka:

  • Pencarian berkelanjutan awal: rencana SageMaker pelatihan pertama-tama mencoba menemukan satu blok berkelanjutan dari Kapasitas Cadangan yang cocok dengan durasi yang ditentukan dalam tanggal mulai dan berakhir, sambil memenuhi semua kriteria tertentu lainnya, termasuk sumber daya target, jenis instans yang diminta, dan jumlah instance.

  • Pencarian dua blok: rencana SageMaker pelatihan tidak mengembalikan hasil “tidak ada kapasitas” jika satu blok Kapasitas Cadangan berkelanjutan yang memenuhi semua kriteria tidak tersedia. Sebagai gantinya, ia secara otomatis mencoba memenuhi permintaan menggunakan dua blok Kapasitas Cadangan terpisah, membagi total durasi di dua segmen waktu.

    Pendekatan dua blok ini memberikan lebih banyak fleksibilitas dalam alokasi sumber daya, berpotensi mengamankan instance permintaan tinggi yang seharusnya tidak tersedia.

catatan

SageMaker rencana pelatihan mengembalikan hingga tiga penawaran dari satu atau dua segmen. Misalnya, untuk rencana durasi 48 jam, rencana SageMaker pelatihan mungkin menawarkan rencana dengan dua blok 24 jam, satu blok 48 jam terus menerus, dan dua blok dengan durasi yang tidak merata.

Pertimbangan

penting
  • Rencana pelatihan tidak dapat dimodifikasi setelah dibeli.

  • Rencana pelatihan tidak dapat dibagikan di seluruh AWS akun atau di dalam AWS Organisasi Anda.

  • Saat mencari penawaran rencana pelatihan, rencana SageMaker pelatihan menyesuaikan strategi pencariannya berdasarkan: target resources

    Untuk SageMaker HyperPod cluster:

    • Penawaran terbatas pada satu Availability Zone (AZ).

    • Ini memastikan kinerja jaringan yang konsisten dan lokalitas data dalam cluster.

    Untuk pekerjaan SageMaker pelatihan:

    • Penawaran dapat menjangkau beberapa Availability Zone.

    • Ini sangat relevan ketika penawaran rencana berisi beberapa kapasitas cadangan terputus-putus.

    • Misalnya, rencana mungkin mencakup kapasitas dalam AZ-A untuk satu blok Kapasitas Cadangan dan AZ-B untuk yang lain. SageMaker Rencana pelatihan dapat secara otomatis memindahkan beban kerja di seluruh Availability Zones (AZs) berdasarkan ketersediaan sumber daya.

      Pendekatan multi-AZ untuk pekerjaan pelatihan ini memberikan fleksibilitas yang lebih besar dalam alokasi sumber daya, meningkatkan peluang menemukan kapasitas yang sesuai untuk beban kerja Anda. Namun, Anda harus menyadari bahwa pekerjaan Anda mungkin berjalan berbeda AZs selama bagian yang berbeda dari periode reservasi Anda.

  • Ketika disajikan dengan penawaran dua blok, pengguna harus mempertimbangkan dengan cermat apakah alokasi split ini memenuhi persyaratan beban kerja mereka. Ini mungkin memerlukan penyesuaian penjadwalan pekerjaan atau distribusi beban kerja untuk mengakomodasi sifat reservasi yang tidak berkelanjutan.