Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Basismodelle und Hyperparameter für die Feinabstimmung
Grundlagenmodelle sind rechenintensiv und werden auf einem großen, unbeschrifteten Datensatz trainiert. Die Feinabstimmung eines vortrainierten Grundlagenmodells ist eine kostengünstige Möglichkeit, die vielfältigen Funktionen des Modells zu nutzen und ein Modell gleichzeitig an Ihren eigenen kleinen Datensatz anzupassen. Die Feinabstimmung ist eine Anpassungsmethode, die weiteres Training erfordert und die Gewichtung Ihres Modells verändert.
Die Feinabstimmung kann für Sie nützlich sein, wenn:
-
Sie Ihr Modell an spezifische Geschäftsanforderungen anpassen müssen.
-
Ihr Modell erfolgreich mit domainspezifischer Sprache wie Branchenjargon, Fachbegriffen oder anderem Fachvokabular arbeiten soll.
-
Sie für bestimmte Aufgaben eine bessere Leistung benötigen.
-
Sie in Anwendungen genaue, relative und kontextsensitive Antworten benötigen.
-
Sie Antworten benötigen, die sachlicher, weniger toxisch und besser auf spezifische Anforderungen zugeschnitten sind.
Es gibt zwei Hauptansätze, die Sie je nach Anwendungsfall und ausgewähltem Grundlagenmodell für die Feinabstimmung wählen können.
-
Wenn Sie daran interessiert sind, Ihr Modell anhand domainspezifischer Daten zu optimieren, finden Sie weitere Informationen unter Feinabstimmung eines großen Sprachmodells (LLM) mithilfe von Domänenanpassung.
-
Wenn Sie an einer anweisungsbasierten Feinabstimmung anhand von Beispielen für Eingabeaufforderungen und Antworten interessiert sind, finden Sie weitere Informationen unter Optimieren Sie ein umfangreiches Sprachmodell (LLM) mithilfe von Eingabeaufforderungen.
Foundation-Modelle sind für die Feinabstimmung verfügbar
Sie können jedes der folgenden JumpStart Foundation-Modelle feinabstimmen:
-
Bloom 3B
-
Blüte 7B1
-
BloomZ 3B FP16
-
BloomZ 7 B1 FP16
-
Kode Lama 13B
-
Kode Llama 13B Python
-
Kode Llama 34B
-
Kode Llama 34B Python
-
Kode Llama 70B
-
Kode Llama 70B Python
-
Kode Llama 7B
-
Kode Llama 7B Python
-
CyberAgentLM2-7B-Chat (-7B-Chat) CALM2
-
Falke 40 B BF16
-
Falcon 40B, einweisen BF16
-
Falcon 7B BF16
-
Falcon 7B, Instruktor BF16
-
Flan-T5-Basis
-
Flan-T5 Groß
-
Flan-T5 Klein
-
Flan-T5 XL
-
Flan-T5 XXL
-
Gemma 2 B.
-
Gemma 2B, Instruktor
-
Gemma 7B
-
Gemma 7B, Instruktor
-
GPT-2 XL
-
GPT-J 6B
-
GPT-Neo 1,3 B
-
GPT-Neo 125 M
-
GPT- 2,7 B NEO
-
GPTLichtinstrukt 6B
-
Lama 2 13B
-
Lama 2 13B Chat
-
Lama 2 13B Neuron
-
Lama 2 70B
-
Lama 2 70B Chat
-
Lama 2 7B
-
Lama 2 7B Chat
-
Lama 2 7B Neuron
-
Mistral 7B
-
Mistral 8x7B
-
Mixtral 8x7B Instruktieren
-
RedPajama INCITEBasis 3B V1
-
RedPajama INCITEBasis 7B V1
-
RedPajama INCITEChat 3B V1
-
RedPajama INCITEChatten Sie 7B V1
-
RedPajama INCITEWeisen Sie 3B V1 an
-
RedPajama INCITE7B V1 anweisen
-
Stabile Diffusion 2.1
Häufig unterstützte Feinabstimmung von Hyperparametern
Verschiedene Foundation-Modelle unterstützen bei der Feinabstimmung unterschiedliche Hyperparameter. Die folgenden Hyperparameter werden häufig unterstützt, mit denen Sie Ihr Modell während des Trainings weiter anpassen können:
Inferenzparameter | Beschreibung |
---|---|
|
Die Anzahl der Durchläufe, die das Modell während des Trainings durch den Datensatz zur Feinabstimmung durchläuft. Muss eine Ganzzahl größer als 1 sein. |
|
Die Geschwindigkeit, mit der die Modellgewichte aktualisiert werden, nachdem jeder Stapel von Trainingsbeispielen zur Feinabstimmung durchgearbeitet wurde. Muss eine positive Gleitkommazahl größer als 0 sein. |
|
Ob das Modell per Anweisung trainiert werden soll oder nicht. Es muss sich entweder um |
|
Die Batchgröße pro GPU Kern oder CPU für Schulungen. Muss eine positive Ganzzahl sein. |
|
Die Batchgröße pro GPU Kern oder CPU zur Auswertung. Muss eine positive Ganzzahl sein. |
|
Kürzen Sie die Anzahl der Trainingsbeispiele zu Debugging-Zwecken oder für ein schnelleres Training auf diesen Wert. Der Wert -1 bedeutet, dass das Modell alle Trainingsproben verwendet. Muss eine positive Ganzzahl oder -1 sein. |
|
Kürzen Sie zu Debugging-Zwecken oder zur schnelleren Schulung die Anzahl der Validierungsbeispiele auf diesen Wert. Der Wert -1 bedeutet, dass das Modell alle Validierungsproben verwendet. Muss eine positive Ganzzahl oder -1 sein. |
|
Maximale Gesamtlänge der Eingabesequenz nach der Tokenisierung. Sequenzen, die länger sind, werden gekürzt. Falls -1, |
|
Wenn es keinen Validierungskanal gibt, wird das Verhältnis der Zugvalidierung von den Trainingsdaten getrennt. Muss zwischen 0 und 1 liegen. |
|
Wenn keine Validierungsdaten vorhanden sind, wird die zufällige Aufteilung der Eingabe-Trainingsdaten in die vom Modell verwendeten Trainings- und Validierungsdaten behoben. Muss eine Ganzzahl sein. |
|
Die Anzahl der Prozesse, die für die Vorverarbeitung verwendet werden sollen. Wenn |
|
LoRa-Wert (LoRa-Wert), der als Skalierungsfaktor für Gewichtsupdates dient. Muss eine positive Ganzzahl sein. |
|
LoRa-Alphawert (LoRa), der als Skalierungsfaktor für Gewichtsupdates dient. Im Allgemeinen das 2- bis 4-fache der Größe von. |
|
Der Dropout-Wert für LoRa-Ebenen (LoRa-Ebenen) muss ein positiver Gleitkommawert zwischen 0 und 1 sein. |
|
Wenn das |
|
Wenn beim |
Sie können Hyperparameterwerte angeben, wenn Sie Ihr Modell in Studio feinabstimmen. Weitere Informationen finden Sie unter Optimieren Sie ein Modell in Studio.
Sie können bei der Feinabstimmung Ihres Modells auch standardmäßige Hyperparameterwerte überschreiben, indem Sie SageMaker Python SDK. Weitere Informationen finden Sie unter Die Feinabstimmung öffentlich verfügbarer Foundation-Modelle mithilfe der Klasse JumpStartEstimator.