Erstellen Sie mit der Studio Classic-Benutzeroberfläche ein Regressions- oder Klassifikations-Autopilot-Experiment für Tabellendaten - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erstellen Sie mit der Studio Classic-Benutzeroberfläche ein Regressions- oder Klassifikations-Autopilot-Experiment für Tabellendaten

Wichtig

Ab dem 30. November 2023 wird die Benutzeroberfläche von Autopilot im Rahmen der aktualisierten Amazon SageMaker Studio-Erfahrung auf Amazon Canvas migriert. SageMaker SageMaker Canvas bietet Analysten und Citizen Data Scientists Funktionen ohne Programmierkenntnisse für Aufgaben wie Datenaufbereitung, Feature-Engineering, Algorithmusauswahl, Schulung und Optimierung, Inferenz und mehr. Benutzer können integrierte Visualisierungen und Was-wäre-wenn-Analysen nutzen, um ihre Daten und verschiedene Szenarien zu untersuchen. Automatisierte Prognosen ermöglichen es ihnen, ihre Modelle einfach zu produzieren. Canvas unterstützt eine Vielzahl von Anwendungsfällen, darunter Computer Vision, Bedarfsprognosen, intelligente Suche und generative KI.

Benutzer von Amazon SageMaker Studio Classic, der vorherigen Erfahrung von Studio, können die Autopilot-Benutzeroberfläche in Studio Classic weiterhin verwenden. Benutzer mit Programmiererfahrung können weiterhin alle APIReferenzen in allen unterstützten SDK technischen Implementierungen verwenden.

Wenn Sie bisher Autopilot in Studio Classic verwendet haben und zu SageMaker Canvas migrieren möchten, müssen Sie Ihrem Benutzerprofil oder Ihrer IAM Rolle möglicherweise zusätzliche Berechtigungen gewähren, damit Sie die SageMaker Canvas-Anwendung erstellen und verwenden können. Weitere Informationen finden Sie unter (Optional) Migrieren Sie von Autopilot in Studio Classic zu Canvas SageMaker .

Alle UI-bezogenen Anweisungen in diesem Handbuch beziehen sich auf die eigenständigen Funktionen von Autopilot vor der Migration zu Amazon Canvas. SageMaker Benutzer, die diese Anweisungen befolgen, sollten Studio Classic verwenden.

Sie können die Amazon SageMaker Studio Classic-Benutzeroberfläche verwenden, um Autopilot-Experimente für Klassifizierungs- oder Regressionsprobleme mit Tabellendaten zu erstellen. Mithilfe der Benutzeroberfläche können Sie den Namen Ihres Experiments angeben, Speicherorte für die Eingabe- und Ausgabedaten angeben und angeben, welche Zieldaten vorhergesagt werden sollen. Optional können Sie auch die Art des Problems angeben, das Sie lösen möchten (Regression, Klassifikation, Mehrklassenklassifikation), Ihre Modellierungsstrategie (gestapelte Ensembles oder Hyperparameter-Optimierung) wählen, die Liste der Algorithmen auswählen, die vom Autopilot-Job zum Trainieren der Daten verwendet werden, und vieles mehr.

Die Benutzeroberfläche enthält Beschreibungen, Umschalter, Auswahlmenüs, Optionsfelder u.v.m., die Ihnen beim Erstellen Ihrer Modellkandidaten helfen. Nach der Durchführung des Experiments können Sie Versuche vergleichen und sich mit den Einzelheiten der Vorverarbeitungsschritte, Algorithmen und Hyperparameterbereiche der einzelnen Modelle befassen. Optional können Sie ihre Erklärbarkeits - und Leistungsberichte herunterladen. Verwenden Sie die mitgelieferten Notebooks, um sich die Ergebnisse der automatisierten Datenexploration oder die Definitionen der Kandidatenmodelle anzusehen.

Alternativ können Sie Autopilot AutoML API in verwenden. Erstellen Sie Regressions- oder Klassifizierungsjobs für Tabellendaten mit AutoML API

Um ein Autopilot-Experiment mit der Benutzeroberfläche von Studio Classic zu erstellen
  1. Melden Sie sich an https://console.aws.amazon.com/sagemaker/, wählen Sie im linken Navigationsbereich Studio, wählen Sie Ihre Domain und Ihr Benutzerprofil aus und öffnen Sie Studio.

  2. Wählen Sie in Studio das Studio Classic-Symbol im oberen linken Navigationsbereich aus. Dadurch wird eine Studio Classic-App geöffnet.

  3. Führen oder öffnen Sie eine Studio Classic-Anwendung in einem Bereich Ihrer Wahl oder erstellen Sie einen Studio Classic-Bereich. . Wählen Sie auf der Registerkarte Home die Karte AutoML aus. Dadurch wird eine neue AutoML-Registerkarte geöffnet.

  4. Wählen Sie Ein AutoML-Experiment erstellen aus. Dadurch wird eine neue Registerkarte Experiment erstellen geöffnet.

  5. Geben Sie im Abschnitt Einzelheiten zum Experiment und zu den Daten die folgenden Informationen ein:

    1. Name des Experiments — Muss in der aktuellen Version für Ihr Konto eindeutig sein AWS-Region und darf maximal 63 alphanumerische Zeichen enthalten. Er kann Bindestriche (-) enthalten, jedoch keine Leerzeichen.

    2. Eingabedaten – Geben Sie den Speicherort des Amazon Simple Storage Service (Amazon S3)-Buckets Ihrer Eingabedaten an. Dieser S3-Bucket muss sich in Ihrem aktuellen AWS-Region befinden. Das URL muss in einem s3:// Format vorliegen, für das Amazon Schreibberechtigungen SageMaker besitzt. Die Datei muss im CSV Parquet-Format vorliegen und mindestens 500 Zeilen enthalten. Wählen Sie Durchsuchen aus, um die verfügbaren Pfade durchzugehen, und klicken Sie auf Vorschau, um eine Stichprobe Ihrer Eingabedaten zu sehen.

    3. Handelt es sich bei Ihrer S3-Eingabe um eine Manifest-Datei? - Eine Manifest-Datei enthält Metadaten zu Ihren Eingabedaten. Die Metadaten geben den Speicherort Ihrer Daten in Amazon S3 an. Sie geben außerdem an, wie die Daten formatiert sind und welche Attribute aus dem Datensatz beim Training Ihres Modells verwendet werden sollen. Sie können eine Manifest-Datei als Alternative zur Vorverarbeitung verwenden, wenn Ihre gekennzeichneten Daten im Pipe-Modus gestreamt werden.

    4. Daten automatisch aufteilen? - Autopilot kann Ihre Daten im Verhältnis 80/20% in Trainings- und Validierungsdaten aufteilen. Wenn Sie eine individuelle Aufteilung bevorzugen, können Sie die Option Teilungsverhältnis angeben wählen. Um für die Validierung einen benutzerdefinierten Datensatz zu verwenden, wählen Sie Überprüfungssatz bereitstellen.

    5. Speicherort für die Ausgabedaten (S3-Bucket) – Der Name des Speicherortes im S3-Bucket, an dem Sie die Ausgabedaten speichern möchten. Der Bucket URL für diesen Bucket muss in einem Amazon S3 S3-Format vorliegen, für das Amazon Schreibberechtigungen SageMaker besitzt. Der S3-Bucket muss sich in der aktuellen AWS-Region befinden. Autopilot kann diesen für Sie auch am selben Ort erstellen wie Ihre Eingabedaten.

  6. Wählen Sie Weiter: Ziel und Features. Die Registerkarte Ziel und Features wird geöffnet.

  7. Im Abschnitt Ziel und Features:

    • Wählen Sie eine Spalte aus, die als Ziel für Modellvorhersagen festgelegt werden soll.

    • Optional können Sie im Abschnitt Stichprobengewicht den Namen einer Spalte mit den Stichprobengewichten angeben, um anzufordern, dass die Zeilen in Ihrem Datensatz während des Trainings und bei der Auswertung gewichtet werden. Weitere Informationen zu verfügbaren objektiven Kennzahlen finden Sie unter Gewichtete Metriken mit Autopilot.

      Anmerkung

      Die Support für Stichprobengewichte steht nur im Ensembling-Modus zur Verfügung.

    • Sie können auch Features für das Training auswählen und deren Datentyp ändern. Die folgenden Datentypen stehen zur Verfügung: TextNumerical,Categorical,Datetime,Sequence, undAuto. Alle Features sind standardmäßig ausgewählt.

  8. Wählen Sie Weiter: Trainingsmethode. Die Registerkarte Trainingsmethode wird geöffnet.

  9. Wählen Sie im Abschnitt Trainingsmethode Ihre Trainingsoption aus: Ensembling, Hyperparameter-Optimierung (HPO) oder Automatisch, damit der Autopilot die Trainingsmethode automatisch anhand der Datensatzgröße auswählt. In jedem Trainingsmodus wird ein vordefinierter Satz von Algorithmen auf Ihren Datensatz angewendet, um Modellkandidaten zu trainieren. Standardmäßig wählt Autopilot vorab alle verfügbaren Algorithmen für den jeweiligen Trainingsmodus aus. Sie können ein Autopilot-Trainingsexperiment mit allen Algorithmen durchführen oder Ihre eigene Teilmenge auswählen.

    Weitere Informationen zu den Trainingsarten und den verfügbaren Algorithmen finden Sie im Abschnitt Autopilot-Trainingsarten auf der Seite Trainingsarten und Algorithmen.

  10. Wählen Sie Weiter: Bereitstellung und erweiterte Einstellungen, um die Registerkarte Bereitstellung und erweiterte Einstellungen zu öffnen. Einstellungen sind u.a. die automatische Anzeige des Namens des Endpunktes, die Art der Aufgabe für das Machine Learning und zusätzliche Optionen für die Durchführung Ihres Experiments.

    1. Einstellungen für die Bereitstellung – Autopilot kann automatisch einen Endpunkt erstellen und Ihr Modell für Sie zum Einsatz bringen.

      Um die automatische Bereitstellung auf einem automatisch generierten Endpunkt vorzunehmen oder für eine benutzerdefinierte Bereitstellung dem Endpunkt einen Namen zu geben, setzen Sie den Schalter unter Automatisch bereitstellen? auf Ja. Wenn Sie Daten aus Amazon SageMaker Data Wrangler importieren, haben Sie zusätzliche Optionen, um das beste Modell mit oder ohne die Transformationen von Data Wrangler automatisch bereitzustellen.

      Anmerkung

      Wenn Ihr Data Wrangler-Flow mehrzeilige Operationen wie groupby, join oder concatenate enthält, können Sie bei diesen Transformationen keine automatische Bereitstellung vornehmen. Weitere Informationen finden Sie unter Modelle anhand Ihres Datenflusses automatisch trainieren.

    2. Erweiterte Einstellungen (optional) – Der Autopilot bietet zusätzliche Steuerelemente, mit denen Sie experimentelle Parameter manuell festlegen können, z. B. die Definition Ihres Aufgabentyps, Zeitbeschränkungen für Ihren Autopilot-Job und Ihre Versuche sowie Sicherheit und Verschlüsselungseinstellungen.

      Anmerkung

      Autopilot unterstützt die Einstellung von Standardwerten, um die Konfiguration von Autopilot-Experimenten mithilfe der klassischen Benutzeroberfläche von Studio zu vereinfachen. Administratoren können die Lebenszykluskonfigurationen von Studio Classic (LCC) verwenden, um Infrastruktur-, Netzwerk- und Sicherheitswerte in Konfigurationsdateien festzulegen und die erweiterten Einstellungen von Jobs vorab auszufüllen. AutoML

      Weitere Informationen darüber, wie Administratoren die individuelle Anpassung eines Autopilot-Experiments automatisieren können, finden Sie unter Konfigurieren Sie die Standardparameter eines Autopilot-Experiments (für Administratoren).

      1. Aufgabentyp bei Machine Learning – Der Autopilot kann den Aufgabentyp beim überwachten Lernen aus Ihrem Datensatz automatisch ableiten. Wenn Sie es vorziehen, ihn manuell auszuwählen, können Sie dafür das Auswahlmenü Aufgabentyp für Machine Learning auswählen verwenden. Beachten Sie, dass die Standardeinstellung immer Auto ist. In einigen Fällen SageMaker ist es nicht möglich, genaue Schlüsse zu ziehen. In solchen Fällen müssen Sie den Wert angeben, damit der Job erfolgreich ausgeführt werden kann. Insbesondere können Sie aus den folgenden Aufgabentypen auswählen:

        • Binäre Klassifikation – Bei der binären Klassifizierung werden Eingabedaten anhand ihrer Attribute einer von zwei im Voraus festgelegten und sich gegenseitig ausschließenden Klassen zugewiesen, z. B. medizinische Diagnosen anhand von Untersuchungsergebnissen, mit denen festgestellt wird, ob jemand an einer Krankheit leidet.

        • Regression – Die Regression stellt eine Beziehung zwischen den Eingabevariablen (auch als unabhängige Variablen oder Features bezeichnet) und der Zielvariablen (auch als abhängige Variable bezeichnet) her. Diese Beziehung wird durch eine mathematische Funktion oder ein Modell angegeben, das die Eingabevariablen einer kontinuierlichen Ausgabe zuordnet. Dies wird häufig bei Aufgaben wie der Vorhersage von Immobilienpreisen anhand solcher Merkmale wie der Quadratmeterzahl und der Anzahl Badezimmer, Börsentrends oder geschätzten Verkaufszahlen verwendet.

        • Mehrklassen-Klassifizierung – Bei der Mehrklassen-Klassifizierung werden Eingabedaten anhand ihrer Attribute einer von mehreren Klassen zugewiesen, z. B. der Vorhersage des für ein Textdokument relevantesten Themas, z. B. Politik, Finanzen oder Philosophie.

      2. Laufzeit – Sie können ein maximales Zeitlimit festlegen. Bei Erreichen des Zeitlimits werden Versuche und Jobs, die das Zeitlimit überschreiten, automatisch beendet.

      3. Zugriff — Sie können die Rolle wählen, die Amazon SageMaker Studio Classic übernimmt, SageMaker um in Ihrem Namen temporären Zugriff AWS-Services (insbesondere auf Amazon S3) zu erhalten. Wenn keine Rolle explizit definiert ist, verwendet Studio Classic automatisch die standardmäßige SageMaker Ausführungsrolle, die Ihrem Benutzerprofil zugewiesen ist.

      4. Verschlüsselung — Um die Sicherheit Ihrer Daten im Ruhezustand zu erhöhen und sie vor unbefugtem Zugriff zu schützen, können Sie Verschlüsselungsschlüssel angeben, um Daten in Ihren Amazon S3-Buckets und im Amazon Elastic Block Store (AmazonEBS) -Volume zu verschlüsseln, das Ihrer Studio Classic-Domain zugeordnet ist.

      5. Sicherheit — Sie können die virtuelle private Cloud (AmazonVPC) wählen, in der Ihr SageMaker Job ausgeführt wird. Stellen Sie sicher, dass Amazon Zugriff auf Ihre Amazon S3-Eingabe- und Ausgabe-Buckets VPC hat.

      6. Projekt — Geben Sie den Namen des SageMaker Projekts an, das mit diesem Autopilot-Experiment verknüpft werden soll, und modellieren Sie die Ergebnisse. Wenn Sie ein Projekt angeben, markiert Autopilot das Projekt mit einem Experiment. Auf diese Weise wissen Sie, welche Modellausgaben mit diesem Projekt verknüpft sind.

      7. Tags – Tags sind ein Array von Schlüsselwertepaaren. Verwenden Sie Stichwörter, um Ihre Ressourcen zu kategorisieren AWS-Services, z. B. nach Zweck, Eigentümer oder Umgebung.

    3. Wählen Sie Weiter: Überprüfen und erstellen, um eine Zusammenfassung Ihres Autopilot-Experiments zu erhalten, bevor Sie es erstellen.

  11. Wählen Sie Experiment erstellen. Bei der Erstellung des Experiments wird ein Autopilot-Job in gestartet. SageMaker Der Autopilot gibt den Status des Experiments, Informationen zum Datenexplorationsprozess und zu den Modellkandidaten in Notebooks aus, eine Liste der erzeugten Modelle und ihrer Berichte sowie das Job-Profil, mit dem sie erstellt wurden.

    Informationen zu den Notebooks, die durch einen Autopilot-Job erzeugt wurden, finden Sie unter Autopilot-Notebooks, die zur Verwaltung von AutoML-Aufgaben generiert wurden. Informationen zu den einzelnen Modellkandidaten und ihren Berichten finden Sie unter Teilen Sie ein Autopilot-Modell mit einem SageMaker Canvas-Benutzer.

Anmerkung

Zur Vermeidung unnötiger Kosten: Wenn Sie ein Modell bereitstellen, das nicht mehr benötigt wird, löschen Sie die Endpunkte und Ressourcen, die während dieser Bereitstellung erstellt wurden. Informationen zu Preisangaben für Instanzen nach Regionen finden Sie unter Amazon SageMaker Pricing.