Esegui un processo di formazione su HyperPod Slurm

SageMaker HyperPod Recipes supporta l'invio di un lavoro di formazione a un cluster GPU/Trainium slurm. Prima di inviare il processo di formazione, aggiorna la configurazione del cluster. Utilizzate uno dei seguenti metodi per aggiornare la configurazione del cluster:

Modificare le slurm.yaml
Sostituiscilo tramite la riga di comando

Dopo aver aggiornato la configurazione del cluster, installa l'ambiente.

Configura il cluster

Per inviare un lavoro di formazione a un cluster Slurm, specifica la configurazione specifica per Slurm. Modifica slurm.yaml per configurare il cluster Slurm. Di seguito è riportato un esempio di configurazione del cluster Slurm. È possibile modificare questo file in base alle proprie esigenze di formazione:


job_name_prefix: 'sagemaker-'
slurm_create_submission_file_only: False 
stderr_to_stdout: True
srun_args:
  # - "--no-container-mount-home"
slurm_docker_cfg:
  docker_args:
    # - "--runtime=nvidia" 
  post_launch_commands: 
container_mounts: 
  - "/fsx:/fsx"

job_name_prefix: Specificate un prefisso per il nome del lavoro per identificare facilmente i vostri invii al cluster Slurm.
slurm_create_submission_file_only: Imposta questa configurazione su True per un'esecuzione a secco per aiutarti a eseguire il debug.
stderr_to_stdout: Specificate se state reindirizzando l'errore standard (stderr) allo standard output (stdout).
srun_args: Personalizza configurazioni srun aggiuntive, ad esempio escludendo nodi di calcolo specifici. Per ulteriori informazioni, consulta la documentazione di srun.
slurm_docker_cfg: Il programma di avvio delle SageMaker HyperPod ricette avvia un contenitore Docker per eseguire il processo di formazione. È possibile specificare argomenti Docker aggiuntivi all'interno di questo parametro.
container_mounts: Specificate i volumi che state montando nel contenitore per il programma di avvio delle ricette, per consentire ai vostri lavori di formazione di accedere ai file in quei volumi.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Configurazioni specifiche del cluster

Esegui un lavoro di formazione su k8s HyperPod