Esecuzione di lavori di formazione su un cluster eterogeneo

Utilizzando la funzionalità di cluster eterogeneo di SageMaker Training, puoi eseguire un processo di formazione con diversi tipi di istanze ML per una migliore scalabilità e utilizzo delle risorse per diverse attività e scopi di formazione ML. Ad esempio, se il processo di addestramento su un cluster con istanze GPU presenta un basso utilizzo della GPU e problemi di collo di bottiglia della CPU a causa di attività che richiedono un uso intensivo della CPU, l'utilizzo di un cluster eterogeneo può contribuire a ridurre il carico di attività che richiedono un uso intensivo della CPU aggiungendo gruppi di istanze CPU più convenienti, risolvere tali problemi e ottenere un migliore utilizzo della GPU.

Nota

Questa funzionalità è disponibile in SageMaker Python SDK v2.98.0 e versioni successive.

Nota

Questa funzionalità è disponibile tramite le classi SageMaker AI PyTorche framework estimator. TensorFlow I framework supportati sono la versione PyTorch 1.10 o successiva e la versione 2.6 o successiva. TensorFlow

Consulta anche il blog Migliora il rapporto prezzo/prestazioni del tuo modello di formazione utilizzando i cluster eterogenei di Amazon SageMaker AI.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

SageMaker Variabili di ambiente AI e percorsi predefiniti per l'addestramento dei luoghi di archiviazione

Configura un processo di formazione con un cluster eterogeneo in Amazon AI SageMaker