Formazione Spot gestita in Amazon SageMaker AI - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Formazione Spot gestita in Amazon SageMaker AI

Amazon SageMaker AI semplifica l'addestramento di modelli di machine learning utilizzando istanze Amazon EC2 Spot gestite. Managed Spot Training è in grado di ottimizzare il costo dei modelli di addestramento fino al 90% rispetto alle istanze on demand. SageMaker L'intelligenza artificiale gestisce le interruzioni Spot per tuo conto.

Managed Spot Training utilizza un'istanza Amazon EC2 Spot per eseguire lavori di formazione anziché istanze su richiesta. Puoi specificare quali processi di formazione utilizzano istanze spot e una condizione di arresto che specifica per quanto tempo l' SageMaker IA attende l'esecuzione di un processo utilizzando le istanze Amazon Spot. EC2 Le metriche e i log generati durante le sessioni di allenamento sono disponibili in. CloudWatch

L'ottimizzazione automatica dei modelli di Amazon SageMaker AI, nota anche come ottimizzazione degli iperparametri, può utilizzare l'addestramento spot gestito. Per ulteriori informazioni sull’ottimizzazione automatica dei modelli, consulta Ottimizzazione automatica dei modelli con AI SageMaker .

Le istanze Spot possono essere interrotte, causando un aumento del tempo richiesto per avviare o terminare i processi. Puoi configurare il tuo processo di formazione in loco gestito in modo da utilizzare i checkpoint. SageMaker L'intelligenza artificiale copia i dati del checkpoint da un percorso locale ad Amazon S3. Quando il processo viene riavviato, l' SageMaker intelligenza artificiale copia i dati da Amazon S3 nel percorso locale. Il processo di addestramento può quindi riprendere dall'ultimo checkpoint anziché essere riavviato. Per ulteriori informazioni sulla creazione di checkpoint, consulta Punti di controllo in Amazon SageMaker AI.

Nota

A meno che il processo di formazione non venga completato rapidamente, ti consigliamo di utilizzare il checkpointing insieme alla formazione in loco gestita. SageMaker Gli algoritmi integrati nell'intelligenza artificiale e gli algoritmi di marketplace che non prevedono checkpoint sono attualmente limitati a 3600 secondi (MaxWaitTimeInSeconds60 minuti).

Per utilizzare Managed Spot Training, crea un processo di addestramento. Imposta EnableManagedSpotTraining su True e specifica MaxWaitTimeInSeconds. MaxWaitTimeInSeconds deve essere maggiore di MaxRuntimeInSeconds. Per ulteriori informazioni sulla creazione di un processo di training, consulta DescribeTrainingJob.

Puoi calcolare i risparmi derivanti dall'utilizzo di Managed Spot Training utilizzando la formula (1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100. Ad esempio, se BillableTimeInSeconds è 100 e TrainingTimeInSeconds è 500, significa che il processo di addestramento è durato 500 secondi, ma ti sono stati fatturati solo 100 secondi. Il tuo risparmio è di (1 - (100/ 500)) * 100 = 80%.

Per scoprire come eseguire lavori di formazione sulle istanze spot di Amazon SageMaker AI e come funziona la formazione spot gestita e riduce il tempo fatturabile, consulta i seguenti notebook di esempio: