SageMaker HyperPod repositori resep - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

SageMaker HyperPod repositori resep

Gunakan repositori SageMaker HyperPod resep untuk mendapatkan resep.

  1. main.py: File ini berfungsi sebagai titik masuk utama untuk memulai proses pengiriman pekerjaan pelatihan ke cluster atau pekerjaan pelatihan. SageMaker

  2. launcher_scripts: Direktori ini berisi kumpulan skrip yang umum digunakan yang dirancang untuk memfasilitasi proses pelatihan untuk berbagai Model Bahasa Besar (LLMs).

  3. recipes_collection: Folder ini menampung kompilasi LLM resep yang telah ditentukan sebelumnya yang disediakan oleh pengembang. Pengguna dapat memanfaatkan resep ini bersama dengan data khusus mereka untuk melatih LLM model yang disesuaikan dengan kebutuhan spesifik mereka.

Anda menggunakan SageMaker HyperPod resep untuk meluncurkan pelatihan atau pekerjaan fine-tuning. Terlepas dari cluster yang Anda gunakan, proses pengiriman pekerjaan adalah sama. Misalnya, Anda dapat menggunakan skrip yang sama untuk mengirimkan pekerjaan ke klaster Slurm atau Kubernetes. Peluncur mengirimkan pekerjaan pelatihan berdasarkan tiga file konfigurasi:

  1. Konfigurasi Umum (config.yaml): Termasuk pengaturan umum seperti parameter default atau variabel lingkungan yang digunakan dalam pekerjaan pelatihan.

  2. Konfigurasi Cluster (cluster): Untuk pekerjaan pelatihan menggunakan cluster saja. Jika Anda mengirimkan tugas pelatihan ke klaster Kubernetes, Anda mungkin perlu menentukan informasi seperti volume, label, atau kebijakan restart. Untuk cluster Slurm, Anda mungkin perlu menentukan nama pekerjaan Slurm. Semua parameter terkait dengan cluster tertentu yang Anda gunakan.

  3. Resep (resep): Resep berisi pengaturan untuk pekerjaan pelatihan Anda, seperti jenis model, derajat sharding, atau jalur dataset. Misalnya, Anda dapat menentukan Llama sebagai model pelatihan Anda dan melatihnya menggunakan teknik paralelisme model atau data seperti Fully Sharded Distributed Parallel (FSDP) di delapan mesin. Anda juga dapat menentukan frekuensi atau jalur pos pemeriksaan yang berbeda untuk pekerjaan pelatihan Anda.

Setelah Anda menentukan resep, Anda menjalankan skrip peluncur untuk menentukan pekerjaan end-to-end pelatihan pada cluster berdasarkan konfigurasi melalui main.py titik masuk. Untuk setiap resep yang Anda gunakan, ada skrip shell yang menyertainya yang terletak di folder launch_scripts. Contoh-contoh ini memandu Anda melalui pengiriman dan memulai pekerjaan pelatihan. Gambar berikut mengilustrasikan bagaimana peluncur SageMaker HyperPod resep mengirimkan pekerjaan pelatihan ke cluster berdasarkan sebelumnya. Saat ini, peluncur SageMaker HyperPod resep dibangun di atas Nvidia NeMo Framework Launcher. Untuk informasi selengkapnya, lihat Panduan NeMo Peluncur.

Diagram yang menggambarkan alur kerja peluncur HyperPod resep. Di sebelah kiri, di dalam kotak putus-putus, ada tiga ikon file berlabel “Resep”, “config.yaml”, dan “slurm.yaml atau k8s.yaml atau sm_job.yaml (Konfigurasi cluster)”. Panah menunjuk dari kotak ini ke kotak tengah berlabel "Peluncur HyperPod resep”. Dari kotak tengah ini, panah lain menunjuk ke kanan ke “Training Job”, dengan "main.py" tertulis di atas panah.