Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Datensatz-Dateitypen und Eingabedatenformat
Bei der anweisungsbasierten Feinabstimmung werden beschriftete Datensätze verwendet, um die Leistung von Aufgaben zu verbessern, die für bestimmte Aufgaben zur Verarbeitung natürlicher Sprache () vorab trainiert wurden. LLMs NLP Die beschrifteten Beispiele sind als Paare zwischen Aufforderung und Antwort formatiert und als Anweisungen formuliert.
Weitere Informationen zu den unterstützten Datensatz-Dateitypen finden Sie unter Unterstützte Dataset-Dateitypen.
Weitere Informationen zum Eingabedatenformat finden Sie unter Eingabedatenformat für die anweisungsbasierte Feinabstimmung.
Unterstützte Dataset-Dateitypen
Autopilot unterstützt anweisungsbasierte Feinabstimmungen von Datensätzen, die als Dateien (Standard) oder als Parquet-Dateien formatiert sind. CSV
-
CSV(kommagetrennte Werte) ist ein zeilenbasiertes Dateiformat, das Daten in für Menschen lesbarem Klartext speichert. Dies ist eine beliebte Wahl für den Datenaustausch, da es von einer Vielzahl von Anwendungen unterstützt wird.
-
Parquet ist ein binäres, spaltenbasiertes Dateiformat, bei dem die Daten effizienter gespeichert und verarbeitet werden als in menschenlesbaren Dateiformaten wie. CSV Dies macht es zu einer besseren Option für Big-Data-Probleme.
Anmerkung
Der Datensatz kann aus mehreren Dateien bestehen, von denen jede einer bestimmten Vorlage entsprechen muss. Informationen zum Formatieren Ihrer Eingabedaten finden Sie unter Eingabedatenformat für die anweisungsbasierte Feinabstimmung.
Eingabedatenformat für die anweisungsbasierte Feinabstimmung
Jede Datei im Datensatz muss dem folgenden Format entsprechen:
-
Der Datensatz muss genau zwei durch Kommas getrennte und benannte Spalten enthalten:
input
undoutput
. Autopilot erlaubt keine zusätzlichen Spalten. -
Die
input
-Spalten enthalten die Eingabeaufforderungen und die entsprechendeoutput
-Spalte enthält die erwartete Antwort. Sowohl dieinput
als auch dieoutput
sind im Zeichenfolgenformat.
Das folgende Beispiel verdeutlicht das Eingabedatenformat für die anweisungsbasierte Feinabstimmung in Autopilot.
input,output "<prompt text>","<expected generated text>"
Anmerkung
Wir empfehlen die Verwendung von Datensätzen mit mindestens 1000 Zeilen, um ein optimales Lernen und eine optimale Leistung des Modells zu gewährleisten.
Darüber hinaus legt Autopilot je nach Art des verwendeten Modells eine Obergrenze für die Anzahl der Zeilen im Datensatz und die Kontextlänge fest.
-
Die Beschränkungen für die Anzahl der Zeilen in einem Datensatz gelten für die Gesamtzahl der Zeilen in allen Dateien innerhalb des Datensatzes, einschließlich mehrerer Dateien. Wenn zwei Kanaltypen definiert sind (einer für das Training und einer für die Validierung), gilt der Grenzwert für die Gesamtzahl der Zeilen in allen Datensätzen in beiden Kanälen. Wenn die Anzahl der Zeilen den Schwellenwert überschreitet, schlägt der Job mit einem Validierungsfehler fehl.
-
Wenn die Länge der Eingabe oder Ausgabe einer Zeile im Datensatz die im Kontext des Sprachmodells festgelegte Grenze überschreitet, wird sie automatisch gekürzt. Wenn mehr als 60 % der Zeilen im Datensatz gekürzt werden, unabhängig davon, ob es sich um die Eingabe oder Ausgabe handelt, bricht Autopilot den Job mit einem Validierungsfehler ab.
In der folgenden Tabelle sind diese Grenzen für jedes Modell aufgeführt.
JumpStart Modell-ID | BaseModelName auf API Anfrage |
Zeilenlimit | Limit für die Kontextlänge |
---|---|---|---|
huggingface-textgeneration-dolly-v2-3b-bf16 | Dolly3B |
10.000 Zeilen | 1024 Tokens |
huggingface-textgeneration-dolly-v2-7b-bf16 | Dolly7B |
10.000 Zeilen | 1024 Tokens |
huggingface-textgeneration-dolly-v2-12b-bf16 | Dolly12B |
10.000 Zeilen | 1024 Tokens |
huggingface-llm-falcon-7b-bf16 | Falcon7B |
1.000 Zeilen | 1024 Tokens |
huggingface-llm-falcon-7b-instruct-bf16 | Falcon7BInstruct |
1.000 Zeilen | 1024 Tokens |
huggingface-llm-falcon-40b-bf16 | Falcon40B |
10.000 Zeilen | 1024 Tokens |
huggingface-llm-falcon-40b-instruct-bf16 | Falcon40BInstruct |
10.000 Zeilen | 1024 Tokens |
huggingface-text2text-flan-t5-large | FlanT5L |
10.000 Zeilen | 1024 Tokens |
huggingface-text2text-flan-t5-xl | FlanT5XL |
10.000 Zeilen | 1024 Tokens |
huggingface-text2text-flan-t5-xxll | FlanT5XXL |
10.000 Zeilen | 1024 Tokens |
meta-textgeneration-llama-2-7b | Llama2-7B |
10.000 Zeilen | 2048 Tokens |
meta-textgeneration-llama-2-7b-f | Llama2-7BChat |
10.000 Zeilen | 2048 Tokens |
meta-textgeneration-llama-2-13b | Llama2-13B |
7.000 Zeilen | 2048 Tokens |
meta-textgeneration-llama-2-13b-f | Llama2-13BChat |
7.000 Zeilen | 2048 Tokens |
huggingface-llm-mistral-7b | Mistral7B |
10.000 Zeilen | 2048 Tokens |
huggingface-llm-mistral-7b-instruct | Mistral7BInstruct |
10.000 Zeilen | 2048 Tokens |
huggingface-textgeneration1-mpt-7b-bf16 | MPT7B |
10.000 Zeilen | 1024 Tokens |
huggingface-textgeneration1-mpt-7b-instruct-bf16 | MPT7BInstruct |
10.000 Zeilen | 1024 Tokens |