Trainingsweisen und Unterstützung von Algorithmen - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Trainingsweisen und Unterstützung von Algorithmen

Autopilot unterstützt verschiedene Trainingsweisen und Algorithmen, um mit Hilfe von Machine Learning Aufgaben zu bearbeiten, Qualitäts- und Zielkennzahlen zu melden und ggf. automatische Kreuzvalidierungen vorzunehmen.

Trainingsweisen

SageMaker Der Autopilot kann die Trainingsmethode automatisch auf der Grundlage der Datensatzgröße auswählen, oder Sie können sie manuell auswählen. Folgende Optionen stehen zur Verfügung:

  • Ensembling — Der Autopilot verwendet die AutoGluonBibliothek, um mehrere Basismodelle zu trainieren. Um die optimale Kombination für Ihren Datensatz zu finden, führt der Ensemble-Modus 10 Versuche mit unterschiedlichen Modell- und Metaparametereinstellungen durch. Anschließend kombiniert Autopilot diese Modelle mithilfe einer Stacking-Ensemble-Methode, um ein optimales Vorhersagemodell zu erstellen. Eine Liste der Algorithmen, die Autopilot im Ensembling-Modus für tabellarische Daten unterstützt, finden Sie im folgenden Abschnitt zu den Unterstützten Algorithmen.

  • Hyperparameter-Optimierung (HPO) — Der Autopilot ermittelt die beste Version eines Modells, indem er Hyperparameter mithilfe der Bayesschen Optimierung oder der Multi-Fidelity-Optimierung optimiert und gleichzeitig Trainingsjobs für Ihren Datensatz ausführt. HPOmode wählt die Algorithmen aus, die für Ihren Datensatz am relevantesten sind, und wählt den besten Bereich von Hyperparametern für die Optimierung Ihrer Modelle aus. Um Ihre Modelle zu optimieren, führt der HPO Modus bis zu 100 Versuche durch (Standard), um die optimalen Hyperparameter-Einstellungen innerhalb des ausgewählten Bereichs zu finden. Wenn die Größe Ihres Datensatzes weniger als 100 MB beträgt, verwendet Autopilot die Bayessche Optimierung. Wenn Ihr Datensatz größer als 100 MB ist, wählt Autopilot die Multi-Fidelity-Optimierung.

    Bei der Multi-Fidelity-Optimierung werden kontinuierlich Kennzahlen aus den Trainingscontainern ausgegeben. Ein Versuch, der im Vergleich zu einer ausgewählten Zielkennzahl schlecht abschneidet, wird vorzeitig abgebrochen. Einem Versuch, der gut abschneidet, werden mehr Ressourcen zugewiesen.

    Eine Liste der Algorithmen, die Autopilot im HPO Modus unterstützt, finden Sie im folgenden Abschnitt zur Algorithmusunterstützung.

  • Automatisch — Der Autopilot wählt je nach Datensatzgröße automatisch entweder den Ensembling-Modus oder HPO den Modus aus. Wenn Ihr Datensatz größer als 100 MB ist, wählt Autopilot. HPO Andernfalls wählt er den Ensembling-Modus. In den folgenden Fällen kann der Autopilot die Größe Ihres Datensatzes nicht lesen.

    • Wenn Sie den Virtual Private Cloud (VPC) -Modus für einen AutoML-Job aktivieren, aber der S3-Bucket, der den Datensatz enthält, ermöglicht nur den VPC Zugriff von.

    • Die Eingabe S3 DataType Ihres Datensatzes ist a. ManifestFile

    • Die Eingabe S3Uri enthält mehr als 1000 Elemente.

    Wenn der Autopilot Ihre Datensatzgröße nicht lesen kann, verwendet er standardmäßig den Auswahlmodus. HPO

Anmerkung

Verwenden Sie für optimale Laufzeit und Leistung den Ensemble-Trainingsmodus für Datensätze, die kleiner als 100 MB sind.

Unterstützung von Algorithmen

Im HPOModus unterstützt Autopilot die folgenden Arten von Algorithmen für maschinelles Lernen:

  • Linear Learner – Ein Algorithmus für überwachtes Lernen, der entweder Klassifikations- oder Regressionsprobleme lösen kann.

  • XGBoost— Ein Algorithmus für überwachtes Lernen, der versucht, eine Zielvariable genau vorherzusagen, indem er eine Reihe von Schätzungen aus einer Reihe einfacherer und schwächerer Modelle kombiniert.

  • Deep-Learning-Algorithmus — Ein mehrschichtiges künstliches neuronales Netzwerk aus Perzeptron (MLP) und Feedforward. Dieser Algorithmus kann Daten verarbeiten, die nicht linear trennbar sind.

Anmerkung

Sie brauchen keinen Algorithmus anzugeben, der für Ihr Machine-Learning-Problem verwendet werden soll. Der Autopilot wählt automatisch den passenden Algorithmus zum Trainieren aus.

Im Ensembling-Modus unterstützt Autopilot die folgenden Algorithmentypen für Machine Learning:

  • Light GBM — Ein optimiertes Framework, das baumbasierte Algorithmen mit Gradientenverstärkung verwendet. Dieser Algorithmus verwendet Bäume, die eher in die Breite als in die Tiefe wachsen, und ist in hohem Maße auf Geschwindigkeit optimiert.

  • CatBoost— Ein Framework, das baumbasierte Algorithmen mit Gradientenverstärkung verwendet. Es ist für den Umgang mit kategorischen Variablen optimiert.

  • XGBoost— Ein Framework, das baumbasierte Algorithmen mit Gradientenverstärkung verwendet, die eher in die Tiefe als in die Breite wachsen.

  • Random Forest – Ein Baumalgorithmus, der mehrere Entscheidungsbäume für zufällige Teilstichproben der Daten verwendet und ersetzt. Die Bäume werden auf jeder Ebene in optimale Knoten aufgeteilt. Die Entscheidungen der einzelnen Bäume werden zusammen gemittelt, um Überanpassungen zu vermeiden und die Prognosen zu verbessern.

  • Extra Trees – Ein Baumalgorithmus, der für den gesamten Datensatz mehrere Entscheidungsbäume verwendet. Die Bäume werden auf jeder Ebene nach dem Zufallsprinzip aufgeteilt. Die Entscheidungen der einzelnen Bäume werden gemittelt, um Überanpassungen zu vermeiden und die Prognosen zu verbessern. Zusätzliche Bäume sorgen im Vergleich zum Random-Forest-Algorithmus für ein gewisses Maß an Randomisierung.

  • Lineare Modelle – Ein Framework, das die Beziehung zwischen zwei Variablen in den beobachteten Daten mit Hilfe einer linearen Gleichung modelliert.

  • Neural Network Torch – Ein Modell für ein neuronales Netzwerk, das mit Pytorch implementiert wird.

  • Neural Network fast.ai – Ein Modell für ein neuronales Netzwerk, das mit fast.ai implementiert wird.