Esegui un job di formazione SageMaker distribuito con Model Parallelism - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esegui un job di formazione SageMaker distribuito con Model Parallelism

Scopri come eseguire un processo di formazione parallelo al modello del tuo script di formazione utilizzando SageMaker Python SDK con la libreria di parallelismo dei modelli. SageMaker

Esistono tre scenari di utilizzo per l'esecuzione di un processo di formazione. SageMaker

  1. Puoi utilizzare uno dei AWS Deep Learning Container predefiniti per e. TensorFlow PyTorch Questa opzione è consigliata se è la prima volta che utilizzi la libreria di parallelismo dei modelli. Per trovare un tutorial su come eseguire un processo di formazione parallela su SageMaker modelli, consulta i notebook di esempio in training PyTorch with model parallelism library SageMaker di Amazon.

  2. Puoi estendere i contenitori predefiniti per gestire eventuali requisiti funzionali aggiuntivi per il tuo algoritmo o modello che l'immagine Docker predefinita SageMaker non supporta. Per un esempio di come è possibile estendere un container predefinito, consulta Estendere un container predefinito.

  3. Puoi adattare il tuo contenitore Docker per utilizzarlo SageMaker utilizzando il toolkit di formazione. SageMaker Per un esempio, consulta Adapting your own training container.

Per le opzioni 2 e 3 nell'elenco precedente, consulta Estendi un contenitore Docker predefinito che contiene la libreria parallela SageMaker di modelli distribuiti per informazioni su come installare la libreria di parallelismo dei modelli in un container Docker esteso o personalizzato.

In tutti i casi, avviate il processo di formazione configurando un estimatore SageMaker TensorFlow o uno PyTorch stimatore per attivare la libreria. Per ulteriori informazioni, consulta i seguenti argomenti.