XGBoostHyperparameter - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

XGBoostHyperparameter

Die folgende Tabelle enthält die Teilmenge der Hyperparameter, die für den SageMaker XGBoost Amazon-Algorithmus erforderlich sind oder am häufigsten verwendet werden. Dies sind Parameter, die von Benutzern festgelegt werden, um die Schätzung der Modellparameter aus Daten zu erleichtern. Die obligatorischen Hyperparameter, die festgelegt werden müssen, sind zuerst aufgelistet (in alphabetischer Reihenfolge). Die optionalen Hyperparameter, die festgelegt werden können, sind als Nächstes aufgeführt (ebenfalls in alphabetischer Reihenfolge). Der SageMaker XGBoost Algorithmus ist eine Implementierung des DMLC XGBoost Open-Source-Pakets. Einzelheiten zum vollständigen Satz von Hyperparametern, die für diese Version von konfiguriert werden könnenXGBoost, finden Sie unter XGBoost Parameter.

Name des Parameters Beschreibung
num_class

Die Anzahl der Klassen.

Erforderlich, wenn objective auf multi:softmax oder multi:softprob festgelegt ist.

Gültige Werte: Ganzzahl.

num_round

Die Anzahl der Runden, die für die Ausführung des Trainings notwendig ist.

Erforderlich

Gültige Werte: Ganzzahl.

alpha

L1-Regularisierungsbedingung für Gewichtungen. Eine Erhöhung dieses Werts macht Modelle konservativer.

Optional

Gültige Werte: Gleitkommazahl.

Standardwert: 0

base_score

Die erste Prognosebewertung aller Instances, globale Verzerrung.

Optional

Gültige Werte: Gleitkommazahl.

Standardwert: 0.5

booster

Welcher Booster empfiehlt sich? Die Werte gbtree und dart verwenden baumbasierte Modelle, während gblinear eine lineare Funktion verwendet.

Optional

Gültige Werte: Zeichenfolge. Entweder "gbtree", "gblinear" oder "dart".

Standardwert: "gbtree"

colsample_bylevel

Teilstichprobenverhältnis von Spalten für jede Teilung auf jeder Ebene.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0,1].

Standardwert: 1

colsample_bynode

Teilstichprobenverhältnis der Spalten von jedem Knoten.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0,1].

Standardwert: 1

colsample_bytree

Teilstichprobenverhältnis von Spalten beim Erstellen jedes Baums.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0,1].

Standardwert: 1

csv_weights

Wenn dieses Flag aktiviert ist, XGBoost unterscheidet es die Wichtigkeit von Instances für die CSV-Eingabe, indem die zweite Spalte (die Spalte nach den Labels) in den Trainingsdaten als Gewichtung der Instanz verwendet wird.

Optional

Gültige Werte: 0 oder 1

Standardwert: 0

deterministic_histogram

Wenn dieses Flag aktiviert ist, wird das Histogramm deterministisch weiter XGBoost GPU erstellt. Wird nur verwendet, wenn tree_method auf gpu_hist festgelegt ist.

Eine vollständige Liste der gültigen Eingaben finden Sie unter Parameter. XGBoost

Optional

Gültige Werte: Zeichenfolge. Bereich: "true" oder "false".

Standardwert: "true"

early_stopping_rounds

Das Modell wird so lange trainiert, bis die Validierungsbewertung keine Verbesserung mehr zeigt. Der Validierungsfehler muss mindestens einmal abnehmen, early_stopping_rounds um mit dem Training fortzufahren. SageMakerBeim Hosting wird das beste Inferenzmodell verwendet.

Optional

Gültige Werte: Ganzzahl.

Standardwert: -

eta

Reduzierung der Schrittgröße in Updates, um Überanpassung zu verhindern. Nach jedem Boosting-Schritt können Sie direkt die Gewichtungen der neuen Merkmale erhalten. Der Parameter eta verkleinert die Merkmalsgewichtungen, sodass der Boosting-Prozess konservativer wird.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0,1].

Standardwert: 0.3

eval_metric

Evaluationsmetriken für die Datenvalidierung. Eine Standardmetrik wird je nach Ziel zugewiesen:

  • rmse: zur Regression

  • error: zur Klassifizierung

  • map: für die Rangfolge

Eine Liste der gültigen Eingaben finden Sie unter Parameter für XGBoost Lernaufgaben.

Optional

Gültige Werte: Zeichenfolge.

Standardwert: Standard gemäß Ziel.

gamma

Es ist eine minimale Verlustreduzierung erforderlich, um eine weitere Partition auf einem Blattknoten des Baums zu erstellen. Je größer, desto konservativer ist der Algorithmus.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0,∞).

Standardwert: 0

grow_policy

Steuert die Art und Weise, wie neue Knoten zur Struktur hinzugefügt werden. Wird derzeit nur unterstützt, wenn tree_method auf hist festgelegt ist.

Optional

Gültige Werte: Zeichenfolge. Entweder "depthwise" oder "lossguide".

Standardwert: "depthwise"

interaction_constraints

Geben Sie Gruppen von Variablen an, die interagieren dürfen.

Optional

Gültige Werte: Verschachtelte Liste von ganzen Zahlen. Jede Ganzzahl steht für ein Feature, und jede verschachtelte Liste enthält Features, die interagieren dürfen, z. B. [[1,2], [3,4,5]].

Standardwert: Keiner

lambda

L2-Regularisierungsbedingung für Gewichtungen. Eine Erhöhung dieses Werts macht Modelle konservativer.

Optional

Gültige Werte: Gleitkommazahl.

Standardwert: 1

lambda_bias

L2-Regularisierungsbedingung für Verzerrungen.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0.0, 1.0].

Standardwert: 0

max_bin

Maximale Anzahl diskreter Pakete zum Gruppieren kontinuierlicher Merkmale. Wird nur verwendet, wenn tree_method auf hist festgelegt ist.

Optional

Gültige Werte: Ganzzahl.

Standardwert: 256

max_delta_step

Maximaler Delta-Schritt für die Gewichtungsschätzung für jeden Baum. Wenn eine positive Ganzzahl verwendet wird, trägt dies zu einer konservativeren Aktualisierung bei. Die bevorzugte Option ist die Verwendung in logistischer Regression. Setzen Sie sie auf 1-10, um die Aktualisierung zu kontrollieren.

Optional

Gültige Werte: Ganzzahl. Bereich: [0,∞).

Standardwert: 0

max_depth

Maximale Tiefe eines Baums. Durch Erhöhen dieses Wertes wird das Modell komplexer und wahrscheinlich überangepasst. 0 gibt an, dass keine Begrenzung vorliegt. Ein Begrenzung ist erforderlich, wenn grow_policy=depth-wise.

Optional

Gültige Werte: Ganzzahl. Bereich: [0,∞)

Standardwert: 6

max_leaves

Maximale Anzahl der hinzuzufügenden Knoten. Ist nur relevant, wenn grow_policy auf lossguide festgelegt ist.

Optional

Gültige Werte: Ganzzahl.

Standardwert: 0

min_child_weight

Minimale Summe der Instance-Gewichtung (Hesse), die für eine untergeordnete Struktur erforderlich ist. Wenn der Partitionsschritt des Baums einen Blattknoten zum Ergebnis hat, dessen Instance-Gewicht-Summe kleiner als min_child_weight ist, verzichtet der Aufbauprozess auf eine weitere Partitionierung. In linearen Regressionsmodellen entspricht dies einer Mindestanzahl von erforderlichen Instances in den einzelnen Knoten. Je größer der Algorithmus, desto konservativer.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0,∞).

Standardwert: 1

monotone_constraints

Gibt Einschränkungen der Monotonie für jedes Feature an.

Optional

Gültige Werte: Tupel von ganzen Zahlen. Gültige Ganzzahlen: -1 (abnehmende Einschränkung), 0 (keine Einschränkung), 1 (zunehmende Einschränkung).

Beispiel: (0, 1): Keine Einschränkung für den ersten Prädiktor und eine zunehmende Einschränkung für den zweiten. (-1, 1): Abnehmende Einschränkung für den ersten Prädiktor und eine zunehmende Einschränkung für den zweiten.

Standardwert: (0, 0)

normalize_type

Typ eines Normalisierungsalgorithmus.

Optional

Gültige Werte: Entweder tree oder forest.

Standardwert: tree

nthread

Anzahl der parallelen Threads zum Ausführen von xgboost.

Optional

Gültige Werte: Ganzzahl.

Standardwert: Maximale Anzahl an Threads.

objective

Legt die Lernaufgabe und das entsprechende Lernziel fest. Beispiele: reg:logistic, multi:softmax, reg:squarederror. Eine vollständige Liste der gültigen Eingaben finden Sie unter XGBoostLernaufgabenparameter.

Optional

Zulässige Werte: String

Standardwert: "reg:squarederror"

one_drop

Wenn diese Kennzeichen aktiviert ist, fällt während eines Abbruchs mindestens ein Baum aus.

Optional

Gültige Werte: 0 oder 1

Standardwert: 0

process_type

Typ des auszuführenden Boosting-Prozesses.

Optional

Gültige Werte: Zeichenfolge. Entweder "default" oder "update".

Standardwert: "default"

rate_drop

Die Ausfallrate, die einen Bruchteil eines vorherigen Baums angibt, der während eines Abbruchs ausfällt.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0.0, 1.0].

Standardwert: 0.0

refresh_leaf

Dies ist ein Parameter des Aktualisierungs-Plugins 'refresh'. Wenn Sie ihn auf true (1) festlegen, werden die Statistiken der Blätter und Knoten eines Baumes aktualisiert. Wenn Sie ihn auf false (0) festlegen, werden nur die Statistiken der Knoten aktualisiert.

Optional

Gültige Werte: 0/1

Standardwert: 1

sample_type

Typ eines Stichprobenalgorithmus.

Optional

Gültige Werte: Entweder uniform oder weighted.

Standardwert: uniform

scale_pos_weight

Kontrolliert die Balance zwischen positiven und negativen Gewichtungen. Er ist nützlich bei Klassen, die nicht im Gleichgewicht sind. Ein typischer Wert dafür: sum(negative cases) / sum(positive cases).

Optional

Gültige Werte: Gleitkommazahl

Standardwert: 1

seed

Numerischer Startwert.

Optional

Gültige Werte: Ganzzahl

Standardwert: 0

single_precision_histogram

Wenn dieses Kennzeichen aktiviert ist, XGBoost werden Histogramme mit einfacher Genauigkeit anstelle von doppelter Genauigkeit erstellt. Wird nur verwendet, wenn tree_method auf hist oder gpu_hist festgelegt ist.

Eine vollständige Liste der gültigen Eingaben finden Sie unter Parameter. XGBoost

Optional

Gültige Werte: Zeichenfolge. Bereich: "true" oder "false"

Standardwert: "false"

sketch_eps

Wird nur für einen approximativen Greedy-Algorithmus verwendet. Damit ergibt sich eine Paketanzahl von O(1/ sketch_eps). Im Vergleich zur direkten Auswahl der Paketanzahl besteht hier eine theoretische Garantie im Hinblick auf grafikbezogene Genauigkeit.

Optional

Gültige Werte: Float, Bereich: [0, 1].

Standardwert: 0.03

skip_drop

Wahrscheinlichkeit, mit der das Ausfallverfahren während einer Boosting-Iteration übersprungen wird.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0.0, 1.0].

Standardwert: 0.0

subsample

Teilstichprobenverhältnis der Trainings-Instance. Ein Wert von 0,5 bedeutet, dass XGBoost zufällig die Hälfte der Dateninstanzen gesammelt wird, um Bäume wachsen zu lassen. Dies verhindert eine Überanpassung.

Optional

Gültige Werte: Gleitkommazahl. Bereich: [0,1].

Standardwert: 1

tree_method

Der Algorithmus zur Baumkonstruktion, der in verwendet wurdeXGBoost.

Optional

Gültige Werte: One of auto, exact, approx, hist oder gpu_hist.

Standardwert: auto

tweedie_variance_power

Parameter, der die Varianz der Tweedie-Verteilung steuert.

Optional

Gültige Werte: Gleitkommazahl. Bereich: (1, 2)

Standardwert: 1.5

updater

Eine durch Komma getrennte Zeichenfolge, welche die Reihenfolge festlegt, in der die Baum-Updater ausgeführt werden. Dies ist eine modulare Methode, um Bäume zu erstellen und zu ändern.

Eine vollständige Liste der gültigen Eingaben finden Sie unter XGBoostParameter.

Optional

Gültige Werte: durch Komma getrennte Zeichenfolge.

Standardwert: grow_colmaker, prune

use_dask_gpu_training

Stellen use_dask_gpu_training Sie diese "true" Option ein, wenn Sie ein verteiltes GPU Training mit Dask durchführen möchten. Das GPU Dask-Training wird nur für die Versionen 1.5-1 und höher unterstützt. Setzen Sie diesen Wert für Versionen vor 1.5-1 nicht auf "true". Weitere Informationen finden Sie unter Verteiltes Training GPU.

Optional

Gültige Werte: Zeichenfolge. Bereich: "true" oder "false"

Standardwert: "false"

verbosity

Ausführlichkeit beim Drucken von Nachrichten.

Gültige Werte: 0 (stumm), 1 (Warnung), 2 (Info), 3 (Debug).

Optional

Standardwert: 1