Erstellen Sie Regressions- oder Klassifizierungsjobs für Tabellendaten mithilfe der AutoML-API

Fokusmodus

Erstellen Sie Regressions- oder Klassifizierungsjobs für Tabellendaten mithilfe der AutoML-API - Amazon SageMaker KI

Erforderliche Parameter Optionale Parameter Migrieren Sie a CreateAuto MLJob auf V2 CreateAuto MLJob

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Sie können einen Autopilot-Regressions- oder Klassifizierungsjob für Tabellendaten programmgesteuert erstellen, indem Sie die CreateAutoMLJobV2API-Aktion in einer beliebigen Sprache aufrufen, die von Autopilot oder dem unterstützt wird. AWS CLI Weiter unten finden Sie eine Sammlung von obligatorischen und optionalen Eingabeanforderungsparametern für die API-Aktion CreateAutoMLJobV2. Sie finden die alternativen Informationen für die vorangegangene Version dieser Aktion, CreateAutoMLJob. Wir empfehlen jedoch, CreateAutoMLJobV2 zu verwenden.

Informationen darüber, wie diese API-Aktion in eine Funktion in der Sprache Ihrer Wahl übersetzt wird, finden Sie im Abschnitt Siehe auch von CreateAutoMLJobV2 und wählen Sie ein SDK aus. Als Beispiel für Python-Benutzer finden Sie die vollständige Anforderungssyntax von create_auto_ml_job_v2 in AWS SDK for Python (Boto3).

Anmerkung

CreateAutoMLJobV2 und DescribeAuto MLJob V2 sind neue Versionen von und bieten Abwärtskompatibilität. CreateAutoMLJob DescribeAutoMLJob

Wir empfehlen die Verwendung des CreateAutoMLJobV2. CreateAutoMLJobV2 kann tabellarische Aufgabentypen bearbeiten, die mit denen der Vorgängerversion CreateAutoMLJob identisch sind, sowie nicht-tabellarische Aufgabentypen wie Bild- oder Textklassifizierung oder Zeitreihenprognosen.

Alle Experimente mit tabellarischen Daten erfordern mindestens die Angabe des Versuchsnamens, die Angabe der Speicherorte für die Eingabe- und Ausgabedaten und die Angabe, welche Zieldaten vorhergesagt werden sollen. Optional können Sie auch die Art des Problems angeben, das Sie lösen möchten (Regression, Klassifikation, Mehrklassenklassifikation), Ihre Modellierungsstrategie (gestapelte Ensembles oder Hyperparameter-Optimierung) wählen, die Liste der Algorithmen auswählen, die vom Autopilot-Job zum Trainieren der Daten verwendet werden, und vieles mehr.

Nach der Durchführung des Experiments können Sie Versuche vergleichen und sich mit den Einzelheiten der Vorverarbeitungsschritte, Algorithmen und Hyperparameterbereiche der einzelnen Modelle befassen. Sie haben auch die Möglichkeit, die Erklärbarkeits- und Leistungsberichte dazu herunterzuladen. Verwenden Sie die mitgelieferten Notebooks, um sich die Ergebnisse der automatisierten Datenexploration oder die Definitionen der Kandidatenmodelle anzusehen.

Hier finden Sie Richtlinien zur Migration eines CreateAutoMLJob nach CreateAutoMLJobV2 in Migrieren Sie a CreateAuto MLJob auf V2 CreateAuto MLJob.

Erforderliche Parameter

anchor anchor

Wenn Sie CreateAutoMLJobV2 aufrufen, um ein Autopilot-Experiment für tabellarische Daten zu erstellen, müssen Sie die folgenden Werte angeben:

Eine AutoMLJobName, um den Namen Ihres Jobs anzugeben.
Mindestens eine AutoMLJobChannel in AutoMLJobInputDataConfig zur Angabe Ihrer Datenquelle.
Sowohl eine AutoMLJobObjective-Metrik als auch der von Ihnen gewählte Aufgabentyp für überwachtes Lernen (binäre Klassifikation, Mehrklassen-Klassifizierung, Regression) in AutoMLProblemTypeConfig, oder gar keiner. Für tabellarische Daten müssen Sie TabularJobConfig als Typ für AutoMLProblemTypeConfig wählen. Sie legen die Aufgabe für überwachtes Lernen im ProblemType Attribut von TabularJobConfig fest.
Eine OutputDataConfig zur Angabe des Ausgabepfades in Amazon S3 zum Speichern der Artefakte Ihres AutoML-Jobs.
Ein RoleArn, zur Angabe der ARN der Rolle, die für den Zugriff auf Ihre Daten verwendet wird.

Alle anderen Parameter sind optional.

Optionale Parameter

Die folgenden Abschnitte enthalten Einzelheiten zu einigen optionalen Parametern, die Sie an Ihre CreateAutoMLJobV2 API-Aktion übergeben können, wenn Sie Tabellendaten verwenden. Sie finden die alternativen Informationen für die Vorgängerversion dieser Aktion, CreateAutoMLJob. Wir empfehlen jedoch, CreateAutoMLJobV2 zu verwenden.

Bei tabellarischen Daten hängt es von Ihrer Modellierungsstrategie (ENSEMBLING oder HYPERPARAMETER_TUNING) ab, welche Algorithmen anhand Ihrer Daten ausgeführt werden, um Ihre Modellkandidaten zu trainieren. Im Folgenden wird beschrieben, wie diese Trainingsweise eingestellt wird.

Wenn Sie das Feld leer lassen (odernull), wird das Mode aus der Größe Ihres Datensatzes abgeleitet.

Informationen zu den Trainingsmethoden für gestapelte Ensembles und Hyperparameter-Optimierung von Autopilot finden Sie unter Trainingsweisen und Unterstützung von Algorithmen

So stellen Sie die Trainingsweise eines AutoML-Jobs ein

Wenn Sie das Feld leer lassen (odernull), wird das Mode aus der Größe Ihres Datensatzes abgeleitet.

Informationen zu den Trainingsmethoden für gestapelte Ensembles und Hyperparameter-Optimierung von Autopilot finden Sie unter Trainingsweisen und Unterstützung von Algorithmen

anchor anchor

Für tabellarische Daten müssen Sie TabularJobConfig als Typ für AutoMLProblemTypeConfig wählen.

Sie können die Trainingsmethode eines AutoML-Jobs V2 mit dem TabularJobConfig.Mode-Parameter festlegen.

Auswahl der Features

Autopilot bietet automatische Schritte zur Datenvorverarbeitung, einschließlich der Auswahl und Extraktion der Features. Sie können die Features, die im Training verwendet werden sollen, mit dem Attribut FeatureSpecificatioS3Uri aber auch manuell angeben.

Ausgewählte Features sollten in einer JSON-Datei im folgenden Format enthalten sein:


{ "FeatureAttributeNames":["col1", "col2", ...] }

Bei den Werten in ["col1", "col2", ...] wird die Groß-/Kleinschreibung berücksichtigt. Es sollte sich dabei um eine Liste von Zeichenfolgen handeln, die eindeutige Werte enthalten, bei denen es sich um Teilmengen der Spaltennamen in den Eingabedaten handelt.

Anmerkung

Die Liste der als Features bereitgestellten Spalten darf die Zielspalte nicht enthalten.

Auswahl der Algorithmen

Ihr Autopilot-Job führt standardmäßig eine vordefinierte Liste von Algorithmen an Ihrem Datensatz aus, um Modellkandidaten zu trainieren. Die Liste der Algorithmen hängt von der Trainingsweise (ENSEMBLING oder HYPERPARAMETER_TUNING) ab, die vom Job verwendet wird.

Sie können eine Teilmenge der Standardauswahl an Algorithmen angeben.

Eine Liste der verfügbaren Algorithmen je Training Mode finden Sie unter AutoMLAlgorithms. Einzelheiten zu den einzelnen Algorithmen finden Sie unter Trainingsweisen und Unterstützung von Algorithmen.

So wählen Sie Features und Algorithmen für das Training eines AutoML-Jobs aus

Auswahl der Features

Ausgewählte Features sollten in einer JSON-Datei im folgenden Format enthalten sein:


{ "FeatureAttributeNames":["col1", "col2", ...] }

Anmerkung

Die Liste der als Features bereitgestellten Spalten darf die Zielspalte nicht enthalten.

anchor anchor

Für tabellarische Daten müssen Sie TabularJobConfig als Typ für AutoMLProblemTypeConfig wählen.

Sie können die URL zu den ausgewählten Features mit dem TabularJobConfig.FeatureSpecificatioS3Uri-Parameter festlegen.

Auswahl der Algorithmen

Sie können eine Teilmenge der Standardauswahl an Algorithmen angeben.

anchor anchor

Für tabellarische Daten müssen Sie TabularJobConfig als Typ für AutoMLProblemTypeConfig wählen.

Sie können ein Array von ausgewählten AutoMLAlgorithms im AlgorithmsConfig Attribut von angeben CandidateGenerationConfig.

Das Folgende ist ein Beispiel für ein AlgorithmsConfig-Attribut, das genau drei Algorithmen („xgboost“, „fastai“, „catboost“) in seinem AutoMLAlgorithms-Feld für die Trainingsweise „Ensembling“ auflistet.


{
   "AutoMLProblemTypeConfig": {
        "TabularJobConfig": {
          "Mode": "ENSEMBLING",
          "CandidateGenerationConfig": {
            "AlgorithmsConfig":[
               {"AutoMLAlgorithms":["xgboost", "fastai", "catboost"]}
            ]
         },
       },
     },
  }

Sie können Ihren eigenen Validierungsdatensatz und ein benutzerdefiniertes Datenteilungsverhältnis angeben oder den Datensatz automatisch von Autopilot teilen lassen.

CreateAutoMLJobV2

Jedes AutoMLJobChannelObjekt (siehe der erforderliche Parameter Auto MLJob InputDataConfig) hat einen WertChannelType, der entweder auf training oder auf validation Werte gesetzt werden kann, die angeben, wie die Daten beim Erstellen eines Modells für maschinelles Lernen verwendet werden sollen. Es muss mindestens eine Datenquelle bereitgestellt werden, und es sind maximal zwei Datenquellen zulässig: eine für Trainingsdaten und eine für Validierungsdaten.