Formazione Spot gestita in Amazon SageMaker - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Formazione Spot gestita in Amazon SageMaker

Amazon SageMaker semplifica l'addestramento di modelli di machine learning utilizzando istanze Amazon EC2 Spot gestite. Managed Spot Training è in grado di ottimizzare il costo dei modelli di addestramento fino al 90% rispetto alle istanze on demand. SageMaker gestisce le interruzioni Spot per tuo conto.

Managed Spot Training utilizza un'istanza Amazon EC2 Spot per eseguire lavori di formazione anziché istanze su richiesta. Puoi specificare quali processi di formazione utilizzano istanze spot e una condizione di arresto che specifica per quanto tempo occorre SageMaker attendere l'esecuzione di un processo utilizzando le istanze Amazon Spot. EC2 Le metriche e i log generati durante le sessioni di allenamento sono disponibili in. CloudWatch

L'ottimizzazione SageMaker automatica dei modelli di Amazon, nota anche come ottimizzazione degli iperparametri, può utilizzare l'addestramento spot gestito. Per ulteriori informazioni sull’ottimizzazione automatica dei modelli, consulta Ottimizzazione automatica del modello con SageMaker.

Le istanze Spot possono essere interrotte, causando un aumento del tempo richiesto per avviare o terminare i processi. Puoi configurare il tuo processo di formazione in loco gestito in modo da utilizzare i checkpoint. SageMaker copia i dati del checkpoint da un percorso locale ad Amazon S3. Quando il processo viene riavviato, SageMaker copia nuovamente i dati da Amazon S3 nel percorso locale. Il processo di addestramento può quindi riprendere dall'ultimo checkpoint anziché essere riavviato. Per ulteriori informazioni sulla creazione di checkpoint, consulta Punti di controllo in Amazon SageMaker.

Nota

A meno che il processo di formazione non venga completato rapidamente, ti consigliamo di utilizzare il checkpointing insieme alla formazione in loco gestita. SageMaker gli algoritmi integrati e gli algoritmi di marketplace che non prevedono il checkpoint sono attualmente limitati a 3600 secondi (MaxWaitTimeInSeconds60 minuti).

Per utilizzare Managed Spot Training, crea un processo di addestramento. Imposta EnableManagedSpotTraining su True e specifica MaxWaitTimeInSeconds. MaxWaitTimeInSeconds deve essere maggiore di MaxRuntimeInSeconds. Per ulteriori informazioni sulla creazione di un lavoro di formazione, consulta. DescribeTrainingJob

Puoi calcolare i risparmi derivanti dall'utilizzo di Managed Spot Training utilizzando la formula (1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100. Ad esempio, se BillableTimeInSeconds è 100 e TrainingTimeInSeconds è 500, significa che il processo di addestramento è durato 500 secondi, ma ti sono stati fatturati solo 100 secondi. Il tuo risparmio è di (1 - (100/ 500)) * 100 = 80%.

Per scoprire come eseguire lavori di formazione sulle istanze SageMaker spot di Amazon e come funziona la formazione spot gestita e riduce il tempo fatturabile, consulta i seguenti notebook di esempio: