Esegui un processo di formazione su HyperPod Slurm - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esegui un processo di formazione su HyperPod Slurm

SageMaker HyperPod Recipes supporta l'invio di un lavoro di formazione a un cluster GPU/Trainium slurm. Prima di inviare il processo di formazione, aggiorna la configurazione del cluster. Utilizzate uno dei seguenti metodi per aggiornare la configurazione del cluster:

  • Modificare le slurm.yaml

  • Sostituiscilo tramite la riga di comando

Dopo aver aggiornato la configurazione del cluster, installa l'ambiente.

Configura il cluster

Per inviare un lavoro di formazione a un cluster Slurm, specifica la configurazione specifica per Slurm. Modifica slurm.yaml per configurare il cluster Slurm. Di seguito è riportato un esempio di configurazione del cluster Slurm. È possibile modificare questo file in base alle proprie esigenze di formazione:

job_name_prefix: 'sagemaker-' slurm_create_submission_file_only: False stderr_to_stdout: True srun_args: # - "--no-container-mount-home" slurm_docker_cfg: docker_args: # - "--runtime=nvidia" post_launch_commands: container_mounts: - "/fsx:/fsx"
  1. job_name_prefix: Specificate un prefisso per il nome del lavoro per identificare facilmente i vostri invii al cluster Slurm.

  2. slurm_create_submission_file_only: Imposta questa configurazione su True per un'esecuzione a secco per aiutarti a eseguire il debug.

  3. stderr_to_stdout: Specificate se state reindirizzando l'errore standard (stderr) allo standard output (stdout).

  4. srun_args: Personalizza configurazioni srun aggiuntive, ad esempio escludendo nodi di calcolo specifici. Per ulteriori informazioni, consulta la documentazione di srun.

  5. slurm_docker_cfg: Il programma di avvio delle SageMaker HyperPod ricette avvia un contenitore Docker per eseguire il processo di formazione. È possibile specificare argomenti Docker aggiuntivi all'interno di questo parametro.

  6. container_mounts: Specificate i volumi che state montando nel contenitore per il programma di avvio delle ricette, per consentire ai vostri lavori di formazione di accedere ai file in quei volumi.