Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Hyperparameter zur Optimierung des Lernprozesses Ihrer Textgenerierungsmodelle
Sie können den Lernprozess Ihres Basismodells optimieren, indem Sie eine beliebige Kombination der folgenden Hyperparameter anpassen. Diese Parameter sind für alle Modelle verfügbar.
-
Epoch Count: Der
epochCount
Hyperparameter bestimmt, wie oft das Modell den gesamten Trainingsdatensatz durchläuft. Er beeinflusst die Trainingsdauer und kann bei entsprechender Einstellung eine Überanpassung verhindern. Eine große Anzahl von Epochen kann die Gesamtlaufzeit von Feinabstimmungsaufgaben verlängern. Wir empfehlen,MaxAutoMLJobRuntimeInSeconds
innerhalb von einen großen Wert festzulegen,TextGenerationJobConfig
um zu verhindern, dass Feinabstimmungsaufträge vorzeitig beendet werden.CompletionCriteria
-
Batchgröße: Der
batchSize
Hyperparameter definiert die Anzahl der Datenproben, die in jeder Trainingsiteration verwendet werden. Dies kann sich auf die Konvergenzgeschwindigkeit und die Speichernutzung auswirken. Bei einer großen Batchgröße steigt das Risiko von Fehlern aufgrund unzureichenden Speichers (OOM), die im Autopilot als interner Serverfehler auftreten können. Um nach solchen Fehlern zu suchen, überprüfen Sie die/aws/sagemaker/TrainingJobs
Protokollgruppe für die Trainingsaufträge, die von Ihrem Autopilot-Job gestartet wurden. Sie können von der AWS Managementkonsole CloudWatch aus auf diese Logs zugreifen. Wählen Sie Protokolle und dann die/aws/sagemaker/TrainingJobs
Protokollgruppe aus. Reduzieren Sie die Batchgröße, um OOM Fehler zu beheben.Wir empfehlen, mit einer Batchgröße von 1 zu beginnen und diese dann schrittweise zu erhöhen, bis ein Fehler aufgrund unzureichender Speicherkapazität auftritt. Als Referenz: Die Fertigstellung von 10 Epochen dauert in der Regel bis zu 72 Stunden.
-
Lernrate: Der
learningRate
Hyperparameter steuert die Schrittweite, mit der die Parameter eines Modells während des Trainings aktualisiert werden. Er bestimmt, wie schnell oder langsam die Parameter des Modells während des Trainings aktualisiert werden. Eine hohe Lernrate bedeutet, dass die Parameter um eine große Schrittweite aktualisiert werden, was zu einer schnelleren Konvergenz führen kann, aber auch dazu führen kann, dass der Optimierungsprozess über die optimale Lösung hinausgeht und instabil wird. Eine niedrige Lernrate bedeutet, dass die Parameter in kleinen Schritten aktualisiert werden, was zu einer stabileren Konvergenz führen kann, allerdings auf Kosten eines langsameren Lernens. -
Lernrate: Aufwärmschritte: Der
learningRateWarmupSteps
Hyperparameter gibt die Anzahl der Trainingsschritte an, während derer die Lernrate schrittweise ansteigt, bevor sie ihren Ziel- oder Maximalwert erreicht. Dies hilft dem Modell, effektiver zu konvergieren und Probleme wie Divergenz oder langsame Konvergenz zu vermeiden, die bei einer anfänglich hohen Lernrate auftreten können.
Informationen darüber, wie Sie Hyperparameter für Ihr Feinabstimmungsexperiment im Autopilot anpassen und ihre möglichen Werte ermitteln können, finden Sie unter. Wie setzt man Hyperparameter, um den Lernprozess eines Modells zu optimieren