Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esegui un processo di formazione su HyperPod Slurm
SageMaker HyperPod Recipes supporta l'invio di un lavoro di formazione a un cluster GPU/Trainium slurm. Prima di inviare il processo di formazione, aggiorna la configurazione del cluster. Utilizzate uno dei seguenti metodi per aggiornare la configurazione del cluster:
-
Modificare le
slurm.yaml
-
Sostituiscilo tramite la riga di comando
Dopo aver aggiornato la configurazione del cluster, installa l'ambiente.
Configura il cluster
Per inviare un lavoro di formazione a un cluster Slurm, specifica la configurazione specifica per Slurm. Modifica slurm.yaml
per configurare il cluster Slurm. Di seguito è riportato un esempio di configurazione del cluster Slurm. È possibile modificare questo file in base alle proprie esigenze di formazione:
job_name_prefix: 'sagemaker-' slurm_create_submission_file_only: False stderr_to_stdout: True srun_args: # - "--no-container-mount-home" slurm_docker_cfg: docker_args: # - "--runtime=nvidia" post_launch_commands: container_mounts: - "/fsx:/fsx"
-
job_name_prefix
: Specificate un prefisso per il nome del lavoro per identificare facilmente i vostri invii al cluster Slurm. -
slurm_create_submission_file_only
: Imposta questa configurazione su True per un'esecuzione a secco per aiutarti a eseguire il debug. -
stderr_to_stdout
: Specificate se state reindirizzando l'errore standard (stderr) allo standard output (stdout). -
srun_args
: Personalizza configurazioni srun aggiuntive, ad esempio escludendo nodi di calcolo specifici. Per ulteriori informazioni, consulta la documentazione di srun. -
slurm_docker_cfg
: Il programma di avvio delle SageMaker HyperPod ricette avvia un contenitore Docker per eseguire il processo di formazione. È possibile specificare argomenti Docker aggiuntivi all'interno di questo parametro. -
container_mounts
: Specificate i volumi che state montando nel contenitore per il programma di avvio delle ricette, per consentire ai vostri lavori di formazione di accedere ai file in quei volumi.