Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Scopri come creare SageMaker HyperPod cluster orchestrati da Amazon EKS utilizzando la CLI. AWS
-
Prima di creare un cluster: SageMaker HyperPod
-
Assicurati di avere un cluster Amazon EKS esistente attivo e funzionante. Per istruzioni dettagliate su come configurare un cluster Amazon EKS, consulta Creare un cluster Amazon EKS nella Guida per l'utente di Amazon EKS.
-
Installa il diagramma Helm come indicato in. Installa pacchetti sul cluster Amazon EKS utilizzando Helm
-
-
Prepara uno script di configurazione del ciclo di vita e caricalo su un bucket Amazon S3, ad esempio.
s3://
amzn-s3-demo-bucket
/Lifecycle-scripts
/base-config
/Per iniziare rapidamente, scarica lo script di esempio
on_create.sh
dall' GitHub archivio AWS Home Distributed Training e caricalo nel bucket S3. Questo script configura il file di registrazione /var/log/provision/provisioning.log
necessario per raccogliere i log dai CloudWatch contenitori Pod. È inoltre possibile includere istruzioni di configurazione aggiuntive, una serie di script di configurazione o comandi da eseguire durante la fase di provisioning del HyperPod cluster.Importante
Se crei un Ruolo IAM per SageMaker HyperPod collegamento solo a quello gestito
AmazonSageMakerClusterInstanceRolePolicy
, il tuo cluster ha accesso ai bucket Amazon S3 con il prefisso specifico.sagemaker-
-
Prepara un file di richiesta CreateClusterAPI in formato JSON. Per
ExecutionRole
, fornisci l'ARN del ruolo IAM che hai creato con la sezione managedAmazonSageMakerClusterInstanceRolePolicy
from. Ruolo IAM per SageMaker HyperPodNota
Assicurati che il SageMaker HyperPod cluster sia distribuito all'interno dello stesso Virtual Private Cloud (VPC) del cluster Amazon EKS. Le sottoreti e i gruppi di sicurezza specificati nella configurazione del SageMaker HyperPod cluster devono consentire la connettività di rete e la comunicazione con l'endpoint del server API del cluster Amazon EKS.
// create_cluster.json
{ "ClusterName":"string"
, "InstanceGroups": [{ "InstanceGroupName":"string"
, "InstanceType":"string"
, "InstanceCount":number
, "LifeCycleConfig": { "SourceS3Uri":"s3://amzn-s3-demo-bucket-sagemaker>/<lifecycle-script-directory>/src/"
, "OnCreate":"on_create.sh"
}, "ExecutionRole":"string"
, "ThreadsPerCore":number
, "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"
] }], "VpcConfig": { "SecurityGroupIds": ["string"
], "Subnets": ["string"
] }, "Tags": [{ "Key":"string"
, "Value":"string"
}], "Orchestrator": { "Eks": { "ClusterArn":"string"
, } }, "NodeRecovery": "Automatic" }Tieni presente quanto segue durante la configurazione per creare un nuovo SageMaker HyperPod cluster associato a un cluster EKS.
-
È possibile configurare fino a 20 gruppi di istanze con il
InstanceGroups
parametro. -
Per
Orchestator.Eks.ClusterArn
, specifica l'ARN del cluster EKS che desideri utilizzare come orchestratore. -
Per
OnStartDeepHealthChecks
, aggiungiInstanceStress
e abilita.InstanceConnectivity
Controlli sanitari approfonditi -
Per
NodeRecovery
, specificaAutomatic
di abilitare il ripristino automatico dei nodi. SageMaker HyperPod sostituisce o riavvia le istanze (nodi) quando l'agente di monitoraggio dello stato rileva problemi. -
Per il
Tags
parametro, è possibile aggiungere tag personalizzati per la gestione del SageMaker HyperPod cluster come risorsa. AWS Puoi aggiungere tag al tuo cluster nello stesso modo in cui li aggiungi in altri AWS servizi che supportano i tag. Per ulteriori informazioni sull'etichettatura AWS delle risorse in generale, consulta la Guida per l'utente di Tagging AWS Resources. -
Per il
VpcConfig
parametro, specificare le informazioni del VPC utilizzato nel cluster EKS. Le sottoreti devono essere private.
-
-
Esegui il comando create-cluster come segue.
Importante
Quando si esegue il
create-cluster
comando con il--cli-input-json
parametro, è necessario includere ilfile://
prefisso prima del percorso completo del file JSON. Questo prefisso è necessario per garantire che AWS CLI riconosca l'input come percorso di file. L'omissione delfile://
prefisso genera un errore di analisi del parametro.aws sagemaker create-cluster \ --cli-input-json
file://complete/path/to/create_cluster.json
Questo dovrebbe restituire l'ARN del nuovo cluster.