Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Personalizza SageMaker HyperPod i cluster utilizzando gli script del ciclo di vita
SageMaker HyperPod offre sempre cluster di up-and-running calcolo, che sono altamente personalizzabili in quanto è possibile scrivere script del ciclo di vita per indicare come configurare le risorse del cluster. SageMaker HyperPod Gli argomenti seguenti sono le best practice per preparare gli script del ciclo di vita per configurare SageMaker HyperPod i cluster con strumenti open source per la gestione del carico di lavoro.
Negli argomenti seguenti vengono illustrate le best practice approfondite per la preparazione degli script del ciclo di vita su cui configurare le configurazioni Slurm. SageMaker HyperPod
Panoramica di alto livello
La procedura seguente è il flusso principale per il provisioning di un HyperPod cluster e la sua configurazione con Slurm. I passaggi sono disposti secondo un approccio dal basso verso l'alto.
-
Pianifica come vuoi creare i nodi Slurm su un cluster. HyperPod Ad esempio, se desideri configurare due nodi Slurm, dovrai configurare due gruppi di istanze in un cluster. HyperPod
-
Prepara un
provisioning_parameters.json
file, che è un. Modulo di configurazione per il provisioning dei nodi Slurm su HyperPodprovisioning_parameters.json
deve contenere informazioni sulla configurazione del nodo Slurm da fornire sul cluster. HyperPod Ciò dovrebbe riflettere la progettazione dei nodi Slurm della Fase 1. -
Prepara un set di script del ciclo di vita su cui configurare Slurm HyperPod per installare pacchetti software e configurare un ambiente nel cluster adatto al tuo caso d'uso. È necessario strutturare gli script del ciclo di vita in modo che vengano eseguiti collettivamente in ordine in uno script Python centrale (
lifecycle_script.py
) e scrivere uno script di shell entrypoint () per eseguire lo script Python.on_create.sh
Lo script di shell entrypoint è ciò che è necessario fornire a una richiesta di creazione di cluster più avanti nel Passaggio 5. HyperPodInoltre, si noti che è necessario scrivere gli script in modo da aspettarsi
resource_config.json
che vengano generati HyperPod durante la creazione del cluster.resource_config.json
contiene informazioni sulle risorse del HyperPod cluster come indirizzi IP, tipi di istanze e ARNs, ed è ciò che è necessario utilizzare per configurare Slurm. -
Raccogli tutti i file dei passaggi precedenti in una cartella.
└── lifecycle_files // your local folder ├── provisioning_parameters.json ├── on_create.sh ├── lifecycle_script.py └── ... // more setup scrips to be fed into lifecycle_script.py
-
Carica tutti i file in un bucket S3. Copia e conserva il percorso del bucket S3. Tieni presente che dovresti creare un percorso del bucket S3 iniziando con
sagemaker-
perché devi scegliere un percorso Ruolo IAM per SageMaker HyperPod allegato con AmazonSageMakerClusterInstanceRolePolicy, che consente solo i percorsi dei bucket S3 che iniziano con il prefisso.sagemaker-
Il comando seguente è un comando di esempio per caricare tutti i file in un bucket S3.aws s3 cp --recursive
./lifecycle_files
s3://sagemaker-hyperpod-lifecycle/src
-
Prepara una richiesta di creazione HyperPod del cluster.
-
Opzione 1: Se utilizzi il AWS CLI, scrivi una richiesta di creazione del cluster in formato JSON (
create_cluster.json
) seguendo le istruzioni all'indirizzoCrea un nuovo cluster. -
Opzione 2: se utilizzi l'interfaccia utente della console SageMaker AI, compila il modulo di richiesta Crea un cluster nell'interfaccia utente della HyperPod console seguendo le istruzioni riportate all'indirizzoCrea un SageMaker HyperPod cluster.
In questa fase, assicurati di creare gruppi di istanze nella stessa struttura pianificata nei passaggi 1 e 2. Inoltre, assicurati di specificare il bucket S3 dal passaggio 5 nei moduli di richiesta.
-
-
Invia la richiesta di creazione del cluster. HyperPod esegue il provisioning di un cluster in base alla richiesta, quindi crea un
resource_config.json
file nelle istanze del HyperPod cluster e configura Slurm sul cluster che esegue gli script del ciclo di vita.
I seguenti argomenti illustrano e approfondiscono i dettagli su come organizzare i file di configurazione e gli script del ciclo di vita in modo che funzionino correttamente durante la creazione del cluster. HyperPod
Argomenti
Inizia con gli script del ciclo di vita di base forniti da HyperPod
Quali configurazioni particolari HyperPod gestisce nei file di configurazione Slurm
Convalida i file di configurazione JSON prima di creare un cluster Slurm su HyperPod
Sviluppa script del ciclo di vita in modo interattivo su un nodo del cluster HyperPod
Aggiorna un cluster con script del ciclo di vita nuovi o aggiornati