TabTransformer Hyperparameter - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

TabTransformer Hyperparameter

Die folgende Tabelle enthält die Teilmenge der Hyperparameter, die für den SageMaker TabTransformer Amazon-Algorithmus erforderlich sind oder am häufigsten verwendet werden. Dies sind Parameter, die von Benutzern festgelegt werden, um die Schätzung der Modellparameter aus Daten zu erleichtern. Der SageMaker TabTransformer Algorithmus ist eine Implementierung des TabTransformerOpen-Source-Pakets.

Anmerkung

Die Standard-Hyperparameter basieren auf Beispieldatensätzen in der TabTransformer Beispiel-Notizbücher.

Der SageMaker TabTransformer Algorithmus wählt automatisch eine Bewertungsmetrik und eine Zielfunktion aus, die auf der Art des Klassifikationsproblems basieren. Der TabTransformer Algorithmus erkennt die Art des Klassifizierungsproblems anhand der Anzahl der Labels in Ihren Daten. Bei Regressionsproblemen ist die Bewertungsmetrik das Quadrat r und die Zielfunktion der quadratische Mittelwert. Bei binären Klassifikationsproblemen entsprechen die Bewertungsmetrik und die Zielfunktion beide der binären Kreuzentropie. Bei Klassifikationsproblemen mit mehreren Klassen entsprechen die Bewertungsmetrik und die Zielfunktion beide einer Mehrklassen-Kreuzentropie.

Anmerkung

Die Funktionen TabTransformer Bewertungsmetrik und Zielsetzung sind derzeit nicht als Hyperparameter verfügbar. Stattdessen erkennt der SageMaker TabTransformer integrierte Algorithmus anhand der Anzahl der eindeutigen Ganzzahlen in der Labelspalte automatisch den Typ der Klassifikationsaufgabe (Regression, Binär oder Mehrklassenfunktion) und weist eine Bewertungsmetrik und eine Zielfunktion zu.

Name des Parameters Beschreibung
n_epochs

Anzahl der Epochen, in denen das tiefe neuronale Netzwerk trainiert werden soll.

Gültige Werte: Ganzzahl, Bereich: Positive Ganzzahl.

Standardwert: 5.

patience

Das Training wird beendet, wenn sich eine Metrik eines Validierungsdatenpunkts in der letzten patience Runde nicht verbessert hat.

Gültige Werte: Ganzzahl, Bereich: (2,60).

Standardwert: 10.

learning_rate

Die Geschwindigkeit, mit der die Modellgewichte aktualisiert werden, nachdem die einzelnen Trainingsbeispiele durchgearbeitet wurden.

Gültige Werte: float, range: Positive float.

Standardwert: 0.001.

batch_size

Die Anzahl der Beispiele, die im Netzwerk verbreitet wurden.

Gültige Werte: Ganzzahl, Bereich: (1,2048).

Standardwert: 256.

input_dim

Die Dimension der Einbettungen zur Kodierung der kategorialen und/oder kontinuierlichen Spalten.

Gültige Werte: String, einer der folgenden Werte:"16", "32", "64", "128", "256", or "512".

Standardwert: "32".

n_blocks

Die Anzahl der Transformer-Encoder-Blöcke.

Gültige Werte: Ganzzahl, Bereich: (1,12).

Standardwert: 4.

attn_dropout

Die Dropout-Rate wurde auf die Multi-Head Attention-Ebenen angewendet.

Gültige Werte: Float, Bereich: (0, 1).

Standardwert: 0.2.

mlp_dropout

Die Dropout-Rate wird auf das FeedForward Netzwerk innerhalb der Encoder-Schichten und der letzten MLP Schichten über den Transformer-Encodern angewendet.

Gültige Werte: Float, Bereich: (0, 1).

Standardwert: 0.1.

frac_shared_embed

Der Anteil der Einbettungen, die sich alle verschiedenen Kategorien für eine bestimmte Spalte teilen.

Gültige Werte: Float, Bereich: (0, 1).

Standardwert: 0.25.