Hyperparameter zur Optimierung des Lernprozesses Ihrer Textgenerierungsmodelle - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Hyperparameter zur Optimierung des Lernprozesses Ihrer Textgenerierungsmodelle

Sie können den Lernprozess Ihres Basismodells optimieren, indem Sie eine beliebige Kombination der folgenden Hyperparameter anpassen. Diese Parameter sind für alle Modelle verfügbar.

  • Epoch Count: Der epochCount Hyperparameter bestimmt, wie oft das Modell den gesamten Trainingsdatensatz durchläuft. Er beeinflusst die Trainingsdauer und kann bei entsprechender Einstellung eine Überanpassung verhindern. Eine große Anzahl von Epochen kann die Gesamtlaufzeit von Feinabstimmungsaufgaben verlängern. Wir empfehlen, MaxAutoMLJobRuntimeInSeconds innerhalb von einen großen Wert festzulegen, TextGenerationJobConfig um zu verhindern, dass Feinabstimmungsaufträge vorzeitig beendet werden. CompletionCriteria

  • Batchgröße: Der batchSize Hyperparameter definiert die Anzahl der Datenproben, die in jeder Trainingsiteration verwendet werden. Dies kann sich auf die Konvergenzgeschwindigkeit und die Speichernutzung auswirken. Bei einer großen Batchgröße steigt das Risiko von Fehlern aufgrund unzureichenden Speichers (OOM), die im Autopilot als interner Serverfehler auftreten können. Um nach solchen Fehlern zu suchen, überprüfen Sie die /aws/sagemaker/TrainingJobs Protokollgruppe für die Trainingsaufträge, die von Ihrem Autopilot-Job gestartet wurden. Sie können von der AWS Managementkonsole CloudWatch aus auf diese Logs zugreifen. Wählen Sie Protokolle und dann die /aws/sagemaker/TrainingJobs Protokollgruppe aus. Reduzieren Sie die Batchgröße, um OOM Fehler zu beheben.

    Wir empfehlen, mit einer Batchgröße von 1 zu beginnen und diese dann schrittweise zu erhöhen, bis ein Fehler aufgrund unzureichender Speicherkapazität auftritt. Als Referenz: Die Fertigstellung von 10 Epochen dauert in der Regel bis zu 72 Stunden.

  • Lernrate: Der learningRate Hyperparameter steuert die Schrittweite, mit der die Parameter eines Modells während des Trainings aktualisiert werden. Er bestimmt, wie schnell oder langsam die Parameter des Modells während des Trainings aktualisiert werden. Eine hohe Lernrate bedeutet, dass die Parameter um eine große Schrittweite aktualisiert werden, was zu einer schnelleren Konvergenz führen kann, aber auch dazu führen kann, dass der Optimierungsprozess über die optimale Lösung hinausgeht und instabil wird. Eine niedrige Lernrate bedeutet, dass die Parameter in kleinen Schritten aktualisiert werden, was zu einer stabileren Konvergenz führen kann, allerdings auf Kosten eines langsameren Lernens.

  • Lernrate: Aufwärmschritte: Der learningRateWarmupSteps Hyperparameter gibt die Anzahl der Trainingsschritte an, während derer die Lernrate schrittweise ansteigt, bevor sie ihren Ziel- oder Maximalwert erreicht. Dies hilft dem Modell, effektiver zu konvergieren und Probleme wie Divergenz oder langsame Konvergenz zu vermeiden, die bei einer anfänglich hohen Lernrate auftreten können.

Informationen darüber, wie Sie Hyperparameter für Ihr Feinabstimmungsexperiment im Autopilot anpassen und ihre möglichen Werte ermitteln können, finden Sie unter. Wie setzt man Hyperparameter, um den Lernprozess eines Modells zu optimieren