Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Creare un SageMaker HyperPod cluster
Scopri come creare SageMaker HyperPod cluster orchestrati da Amazon EKS utilizzando il. AWS CLI
-
Prima di creare un cluster: SageMaker HyperPod
-
Assicurati di avere un EKS cluster Amazon esistente attivo e funzionante. Per istruzioni dettagliate su come configurare un EKS cluster Amazon, consulta Create an Amazon EKS cluster nella Amazon EKS User Guide.
-
Installa il diagramma Helm come indicato in. Installa pacchetti sul EKS cluster Amazon utilizzando Helm
-
-
Prepara uno script di configurazione del ciclo di vita e caricalo su un bucket Amazon S3, ad esempio.
s3://sagemaker-amzn-s3-demo-bucket>/<lifecycle-script-directory>/src/
Per iniziare rapidamente, scarica lo script di esempio
on_create.sh
dall' GitHub archivio AWS Home Distributed Training e caricalo nel bucket S3. Questo script configura il file di registrazione /var/log/provision/provisioning.log
necessario per raccogliere i log dai CloudWatch contenitori Pod. È inoltre possibile includere istruzioni di configurazione aggiuntive, una serie di script di configurazione o comandi da eseguire durante la fase di provisioning del HyperPod cluster.Importante
Se crei un IAMruolo per SageMaker HyperPod collegamento solo a quello gestito
AmazonSageMakerClusterInstanceRolePolicy
, il tuo cluster ha accesso ai bucket Amazon S3 con il prefisso specifico.sagemaker-
-
Prepara un file di CreateClusterAPIrichiesta in formato. JSON Per
ExecutionRole
, fornisci il ARN IAM ruolo che hai creato con il file gestitoAmazonSageMakerClusterInstanceRolePolicy
dalla sezioneIAMruolo per SageMaker HyperPod.Nota
Assicurati che il SageMaker HyperPod cluster sia distribuito all'interno dello stesso Virtual Private Cloud (VPC) del EKS cluster Amazon. Le sottoreti e i gruppi di sicurezza specificati nella configurazione del SageMaker HyperPod cluster devono consentire la connettività di rete e la comunicazione con l'endpoint API server del EKS cluster Amazon.
// create_cluster.json
{ "ClusterName":"string"
, "InstanceGroups": [{ "InstanceGroupName":"string"
, "InstanceType":"string"
, "InstanceCount":number
, "LifeCycleConfig": { "SourceS3Uri":"s3://sagemaker-amzn-s3-demo-bucket>/<lifecycle-script-directory>/src/"
, "OnCreate":"on_create.sh"
}, "ExecutionRole":"string"
, "ThreadsPerCore":number
, "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"
] }], "VpcConfig": { "SecurityGroupIds": ["string"
], "Subnets": ["string"
] }, "Tags": [{ "Key":"string"
, "Value":"string"
}], "Orchestrator": { "Eks": { "ClusterArn":"string"
, } }, "NodeRecovery": "Automatic" }Tieni presente quanto segue durante la configurazione per creare un nuovo SageMaker HyperPod cluster associato a un cluster. EKS
-
È possibile configurare fino a 20 gruppi di istanze con il
InstanceGroups
parametro. -
Per
Orchestator.Eks.ClusterArn
, specifica ARN il EKS cluster che desideri utilizzare come orchestratore. -
Per
OnStartDeepHealthChecks
, aggiungiInstanceStress
eInstanceConnectivity
abilita. Controlli sanitari approfonditi -
Per
NodeRecovery
, specificaAutomatic
di abilitare il ripristino automatico dei nodi. SageMaker HyperPod sostituisce o riavvia le istanze (nodi) quando l'agente di monitoraggio dello stato rileva problemi. -
Per il
Tags
parametro, è possibile aggiungere tag personalizzati per la gestione del SageMaker HyperPod cluster come risorsa. AWS Puoi aggiungere tag al tuo cluster nello stesso modo in cui li aggiungi in altri AWS servizi che supportano i tag. Per ulteriori informazioni sull'etichettatura AWS delle risorse in generale, consulta la Guida per l'utente di Tagging AWS Resources. -
Per il
VpcConfig
parametro, specificare le informazioni relative all'oggetto VPC utilizzato nel EKS cluster. Le sottoreti devono essere private.
-
-
Esegui il comando create-cluster come segue.
aws sagemaker create-cluster \ --cli-input-json
file://complete/path/to/create_cluster.json
Questo dovrebbe restituire il file ARN del nuovo cluster.