Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Iperparametri per ottimizzare il processo di apprendimento dei modelli di generazione di testo
È possibile ottimizzare il processo di apprendimento del modello base regolando qualsiasi combinazione dei seguenti iperparametri. Questi parametri sono disponibili per tutti i modelli.
-
Epoch Count: l'
epochCount
iperparametro determina quante volte il modello analizza l'intero set di dati di addestramento. Influisce sulla durata dell'allenamento e può prevenire il sovradimensionamento se impostato in modo appropriato. Un numero elevato di epoche può aumentare la durata complessiva dei lavori di messa a punto. Si consiglia di impostare un valore ampioMaxAutoMLJobRuntimeInSeconds
all'interno del per evitare che i lavoriCompletionCriteria
di fine-tuning siTextGenerationJobConfig
interrompano prematuramente. -
Batch Size: l'
batchSize
iperparametro definisce il numero di campioni di dati utilizzati in ogni iterazione dell'addestramento. Può influire sulla velocità di convergenza e sull'utilizzo della memoria. Con batch di grandi dimensioni, aumenta il rischio di errori di esaurimento della memoria (OOM), che possono manifestarsi come un errore interno del server in Autopilot. Per verificare la presenza di tale errore, controllate il gruppo di/aws/sagemaker/TrainingJobs
log per i lavori di formazione avviati dal job Autopilot. Puoi accedere a questi log in CloudWatch dalla console di gestione. AWS Scegli Registri, quindi scegli il gruppo di/aws/sagemaker/TrainingJobs
registri. Per correggere OOM gli errori, riduci le dimensioni del batch.Si consiglia di iniziare con una dimensione del batch pari a 1, quindi aumentarla in modo incrementale fino a quando non si verifica un errore di memoria esaurita. A titolo di riferimento, il completamento di 10 epoche richiede in genere fino a 72 ore.
-
Frequenza di apprendimento: l'
learningRate
iperparametro controlla la dimensione del passo con cui i parametri di un modello vengono aggiornati durante l'allenamento. Determina la velocità o la lentezza con cui i parametri del modello vengono aggiornati durante l'allenamento. Un tasso di apprendimento elevato significa che i parametri vengono aggiornati in base a passaggi di grandi dimensioni, il che può portare a una convergenza più rapida, ma può anche far sì che il processo di ottimizzazione superi la soluzione ottimale e diventi instabile. Un tasso di apprendimento basso significa che i parametri vengono aggiornati con passaggi di dimensioni ridotte, il che può portare a una convergenza più stabile, ma a scapito di un apprendimento più lento. -
Frequenza di apprendimento (fasi di riscaldamento): l'
learningRateWarmupSteps
iperparametro specifica il numero di fasi di allenamento durante le quali il tasso di apprendimento aumenta gradualmente prima di raggiungere il valore obiettivo o massimo. Ciò consente al modello di convergere in modo più efficace ed evitare problemi come divergenza o convergenza lenta che possono verificarsi con un tasso di apprendimento inizialmente elevato.
Per saperne di più su come regolare gli iperparametri per un esperimento di perfezionamento in Autopilot e scoprirne i possibili valori, consulta. Come impostare gli iperparametri per ottimizzare il processo di apprendimento di un modello