Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Dieses Tutorial führt Sie durch einen Workflow für end-to-end maschinelles Lernen (ML) mit Amazon SageMaker Canvas. SageMaker Canvas ist eine visuelle Schnittstelle ohne Code, mit der Sie Daten aufbereiten und ML-Modelle trainieren und bereitstellen können. Für das Tutorial verwenden Sie einen Taxi-Datensatz aus New York, um ein Modell zu trainieren, das den Fahrpreis für eine bestimmte Fahrt vorhersagt. Sie erhalten praktische Erfahrung mit wichtigen ML-Aufgaben wie der Bewertung der Datenqualität und der Behebung von Datenproblemen, der Aufteilung von Daten in Trainings- und Testsätze, dem Training und der Auswertung von Modellen, dem Erstellen von Prognosen und der Bereitstellung Ihres trainierten Modells — alles innerhalb der Canvas-Anwendung. SageMaker
Wichtig
In diesem Tutorial wird davon ausgegangen, dass Sie oder Ihr Administrator ein Konto erstellt haben. AWS Informationen zum Erstellen eines AWS Kontos finden Sie unter Erste Schritte: Sind Sie ein AWS Erstbenutzer?
Einrichtung
Eine Amazon SageMaker AI-Domain ist ein zentraler Ort zur Verwaltung all Ihrer Amazon SageMaker AI-Umgebungen und -Ressourcen. Eine Domain dient als virtuelle Grenze für Ihre Arbeit im Bereich SageMaker KI und bietet Isolierung und Zugriffskontrolle für Ihre Ressourcen für maschinelles Lernen (ML).
Um mit Amazon SageMaker Canvas zu beginnen, müssen Sie oder Ihr Administrator zur SageMaker AI-Konsole navigieren und eine Amazon SageMaker AI-Domain erstellen. Eine Domain verfügt über die Speicher- und Rechenressourcen, die Sie für die Ausführung von SageMaker Canvas benötigen. Innerhalb der Domain konfigurieren Sie SageMaker Canvas für den Zugriff auf Ihre Amazon S3 S3-Buckets und die Bereitstellung von Modellen. Gehen Sie wie folgt vor, um eine Quick-Domain einzurichten und eine SageMaker Canvas-Anwendung zu erstellen.
So richten Sie SageMaker Canvas ein
-
Navigieren Sie zur SageMaker AI-Konsole
. -
Wählen Sie in der linken Navigationsleiste SageMaker Canvas aus.
-
Wählen Sie „ SageMaker KI-Domain erstellen“.
-
Wählen Sie Set up (Festlegen). Die Einrichtung der Domain kann einige Minuten dauern.
Das vorherige Verfahren verwendete eine schnelle Domäneneinrichtung. Sie können eine erweiterte Konfiguration durchführen, um alle Aspekte der Kontokonfiguration, einschließlich Berechtigungen, Integrationen und Verschlüsselung, zu kontrollieren. Weitere Informationen zu einer benutzerdefinierten Einrichtung finden Sie unterBenutzerdefiniertes Setup für Amazon SageMaker AI verwenden.
Standardmäßig erhalten Sie bei der schnellen Domäneneinrichtung Berechtigungen zum Bereitstellen von Modellen. Wenn Sie benutzerdefinierte Berechtigungen über eine Standarddomäne eingerichtet haben und Sie manuell Berechtigungen für die Modellbereitstellung erteilen müssen, finden Sie weitere Informationen unterBerechtigungsverwaltung.
Erstellung von Schemas
Amazon SageMaker Canvas ist eine Plattform für maschinelles Lernen, die es Benutzern ermöglicht, Modelle für maschinelles Lernen ohne umfangreiche Programmierkenntnisse oder maschinelles Lernen zu erstellen, zu trainieren und einzusetzen. Eine der leistungsstarken Funktionen von Amazon SageMaker Canvas ist die Möglichkeit, große Datensätze aus verschiedenen Quellen wie Amazon S3 zu importieren und mit ihnen zu arbeiten.
In diesem Tutorial verwenden wir den Taxidatensatz von NYC, um mithilfe eines Amazon SageMaker Canvas Data Wrangler-Datenflusses den Fahrpreis für jede Fahrt vorherzusagen. Das folgende Verfahren beschreibt die Schritte zum Importieren einer modifizierten Version des NYC-Taxidatensatzes in einen Datenfluss.
Anmerkung
Zur besseren Verarbeitung importiert SageMaker Canvas eine Stichprobe Ihrer Daten. Standardmäßig werden 50.000 Zeilen nach dem Zufallsprinzip ausgewählt.
Um den NYC-Taxi-Datensatz zu importieren
-
Wählen Sie SageMaker auf der Canvas-Startseite Data Wrangler aus.
-
Wählen Sie Daten importieren.
-
Wählen Sie Tabellarisch aus.
-
Wählen Sie die Toolbox neben der Datenquelle aus.
-
Wählen Sie Amazon S3 aus der Drop-down-Liste aus.
-
Geben Sie für Input S3 Endpoint Folgendes an
s3://
amazon-sagemaker-data-wrangler-documentation-artifacts
/canvas-single-file-nyc-taxi-dataset
.csv -
Wählen Sie Go.
-
Markieren Sie das Kontrollkästchen neben dem Datensatz.
-
Wählen Sie Datenvorschau aus.
-
Wählen Sie Save aus.
Bericht 1 zu Datenqualität und Erkenntnissen (Beispiel)
Nach dem Import eines Datensatzes in Amazon SageMaker Canvas können Sie einen Datenqualitäts- und Insights-Bericht für eine Stichprobe der Daten erstellen. Verwenden Sie ihn, um wertvolle Einblicke in den Datensatz zu erhalten. Der Bericht macht Folgendes:
-
Beurteilt die Vollständigkeit des Datensatzes
-
Identifiziert fehlende Werte und Ausreißer
Es kann andere potenzielle Probleme identifizieren, die sich auf die Modellleistung auswirken können. Außerdem wird die Vorhersagekraft der einzelnen Merkmale in Bezug auf die Zielvariable bewertet, sodass Sie die relevantesten Merkmale für das Problem, das Sie zu lösen versuchen, identifizieren können.
Wir können die Erkenntnisse aus dem Bericht nutzen, um die Höhe des Fahrpreises vorherzusagen. Indem Sie die Spalte für den Flugpreis als Zielvariable angeben und Regression als Problemtyp auswählen, analysiert der Bericht, ob der Datensatz für die Vorhersage kontinuierlicher Werte wie Flugpreise geeignet ist. Aus dem Bericht sollte hervorgehen, dass Funktionen wie Jahr und Hour_of_Day eine geringe Aussagekraft für die gewählte Zielvariable haben, sodass Sie wertvolle Erkenntnisse gewinnen können.
Gehen Sie wie folgt vor, um einen Datenqualitäts- und Insights-Bericht für eine Stichprobe mit 50.000 Zeilen aus dem Datensatz zu erhalten.
Um einen Bericht über ein Beispiel zu erhalten
-
Wählen Sie im Popup-Fenster neben dem Knoten Datentypen die Option Get data insights aus.
-
Geben Sie unter Analysename einen Namen für den Bericht ein.
-
Wählen Sie als Problemtyp die Option Regression aus.
-
Wählen Sie für die Spalte Ziel die Option Tarifbetrag aus.
-
Wählen Sie Erstellen aus.
Sie können den Bericht „Datenqualität und Einblicke“ anhand einer Stichprobe Ihrer Daten überprüfen. Aus dem Bericht geht hervor, dass die Funktionen „Jahr“ und „Hour_of_Day“ keine Vorhersage der Zielvariablen, dem Flugpreis, ermöglichen.
Wählen Sie oben in der Navigation den Namen des Datenflusses aus, um zu ihm zurückzukehren.
Geben Sie Jahr und Stunde des Tages ein
Wir verwenden die Erkenntnisse aus dem Bericht, um die Spalten year und hour_of_day zu löschen, um den Feature-Bereich zu optimieren und möglicherweise die Modellleistung zu verbessern.
Amazon SageMaker Canvas bietet eine benutzerfreundliche Oberfläche und Tools zur Durchführung solcher Datentransformationen.
Gehen Sie wie folgt vor, um die Spalten year und hour_of_day mit dem Data Wrangler-Tool in Amazon Canvas aus dem NYC-Taxi-Datensatz zu löschen. SageMaker
-
Wählen Sie das Symbol neben Datentypen.
-
Wählen Sie Schritt hinzufügen.
-
Schreiben Sie in der Suchleiste den Text Spalte löschen.
-
Wählen Sie Spalten verwalten aus.
-
Wählen Sie Spalte löschen.
-
Wählen Sie für „Zu löschende Spalten“ die Spalten year und hour_of_day aus.
-
Wählen Sie Vorschau, um zu sehen, wie Ihre Transformation Ihre Daten verändert.
-
Wählen Sie Hinzufügen aus.
Sie können das vorherige Verfahren als Grundlage verwenden, um alle anderen Transformationen in SageMaker Canvas hinzuzufügen.
Bericht 2 zur Datenqualität und zu Erkenntnissen (vollständiger Datensatz)
Für den vorherigen Insights-Bericht haben wir eine Stichprobe des Taxi-Datensatzes in New York verwendet. Für unseren zweiten Bericht führen wir eine umfassende Analyse des gesamten Datensatzes durch, um mögliche Probleme zu identifizieren, die sich auf die Modellleistung auswirken.
Gehen Sie wie folgt vor, um einen Bericht über Datenqualität und Einblicke für einen gesamten Datensatz zu erstellen.
Um einen Bericht über den gesamten Datensatz zu erhalten
-
Wählen Sie das Symbol neben dem Knoten Spalten löschen aus.
-
Wählen Sie Get Data Insights aus.
-
Geben Sie unter Analysename einen Namen für den Bericht ein.
-
Wählen Sie als Problemtyp die Option Regression aus.
-
Wählen Sie für die Spalte Ziel die Option Tarifbetrag aus.
-
Wählen Sie für Datengröße die Option Vollständiger Datensatz aus.
-
Wählen Sie Erstellen aus.
Das Folgende ist ein Bild aus dem Insights-Bericht:

Dabei treten die folgenden Probleme auf:
-
Doppelte Zeilen
-
Schiefes Ziel
Doppelte Zeilen können zu Datenlecks führen, wenn das Modell beim Training und Testen denselben Daten ausgesetzt ist. Sie können zu übermäßig optimistischen Leistungskennzahlen führen. Durch das Entfernen doppelter Zeilen wird sichergestellt, dass das Modell auf eindeutigen Instanzen trainiert wird, wodurch das Risiko von Datenverlusten reduziert und die Generalisierbarkeit des Modells verbessert wird.
Eine schiefe Verteilung der Zielvariablen, in diesem Fall die Spalte für den Flugpreis, kann zu unausgewogenen Klassen führen, sodass das Modell tendenziell in Richtung Mehrheitsklasse tendieren kann. Dies kann zu schlechten Ergebnissen in Minderheitenklassen führen, was besonders in Szenarien problematisch ist, in denen es wichtig ist, seltene oder unterrepräsentierte Fälle genau vorherzusagen.
Lösung von Problemen mit der Datenqualität
Um diese Probleme zu lösen und den Datensatz für die Modellierung vorzubereiten, können Sie nach den folgenden Transformationen suchen und sie anwenden:
-
Löschen Sie Duplikate mithilfe der Transformation „Zeilen verwalten“.
-
Behandeln Sie Ausreißer in der Spalte Tarifbetrag mithilfe der numerischen Ausreißer mit robuster Standardabweichung.
-
Behandeln Sie Ausreißer in den Spalten Reisedistanz und Reisedauer mithilfe der numerischen Ausreißer mit der Standardabweichung.
-
Verwenden Sie die Option Kategorisch kodieren, um die Spalten Tarifcode-ID, Zahlungsart, Zusatzkennzeichen und Mautkennzeichen als Gleitkommazahlen zu kodieren.
Wenn Sie sich nicht sicher sind, wie Sie eine Transformation anwenden, finden Sie weitere Informationen unter Geben Sie Jahr und Stunde des Tages ein
Indem Sie diese Probleme mit der Datenqualität beheben und geeignete Transformationen anwenden, können Sie die Eignung des Datensatzes für die Modellierung verbessern.
Überprüfung der Datenqualität und der schnellen Modellgenauigkeit
Nachdem wir die Transformationen angewendet haben, um Probleme mit der Datenqualität zu beheben, wie z. B. das Entfernen doppelter Zeilen, erstellen wir unseren endgültigen Bericht über Datenqualität und Einblicke. Anhand dieses Berichts kann überprüft werden, ob die Probleme durch die angewandten Transformationen behoben wurden und ob sich der Datensatz nun in einem für die Modellierung geeigneten Zustand befindet.
Wenn Sie sich den endgültigen Bericht „Datenqualität und Einblicke“ ansehen, sollten Sie davon ausgehen, dass keine größeren Datenqualitätsprobleme gemeldet werden. Aus dem Bericht sollte Folgendes hervorgehen:
-
Die Zielvariable ist nicht mehr schief
-
Es gibt keine Ausreißer oder doppelte Zeilen
Darüber hinaus sollte der Bericht eine schnelle Modellbewertung enthalten, die auf einem Basismodell basiert, das auf dem transformierten Datensatz trainiert wurde. Dieser Wert dient als erster Indikator für die potenzielle Genauigkeit und Leistung des Modells.
Gehen Sie wie folgt vor, um den Bericht Datenqualität und Einblicke zu erstellen.
So erstellen Sie den Bericht „Datenqualität und Einblicke“
-
Wählen Sie das Symbol neben dem Knoten Spalten löschen aus.
-
Wählen Sie Get Data Insights aus.
-
Geben Sie unter Analysename einen Namen für den Bericht ein.
-
Wählen Sie als Problemtyp die Option Regression aus.
-
Wählen Sie für die Spalte Ziel die Option Tarifbetrag aus.
-
Wählen Sie für Datengröße die Option Vollständiger Datensatz aus.
-
Wählen Sie Erstellen aus.
Teilen Sie die Daten in Trainings- und Testsätze auf
Um ein Modell zu trainieren und seine Leistung zu bewerten, verwenden wir die Split-Datentransformation, um die Daten in Trainings- und Testsätze aufzuteilen.
Standardmäßig verwendet SageMaker Canvas eine randomisierte Aufteilung, aber Sie können auch die folgenden Arten von Teilungen verwenden:
-
Bestellt
-
Stratifiziert
-
Nach Schlüsseln aufgeteilt
Sie können den Prozentsatz für die Aufteilung ändern oder Teilungen hinzufügen.
Verwenden Sie für dieses Tutorial alle Standardeinstellungen für die Aufteilung. Sie müssen auf den Datensatz doppelklicken, um seinen Namen zu sehen. Der Trainingsdatensatz hat den Namen Dataset (Train).
Wenden Sie neben dem Ordinal-Codierungsknoten die Datentransformation Split an.
Modell des Zuges
Nachdem Sie Ihre Daten aufgeteilt haben, können Sie ein Modell trainieren. Dieses Modell lernt aus Mustern in Ihren Daten. Sie können es verwenden, um Vorhersagen zu treffen oder Erkenntnisse zu gewinnen.
SageMaker Canvas hat sowohl Schnell-Builds als auch Standard-Builds. Verwenden Sie einen Standard-Build, um das Modell mit der besten Leistung anhand Ihrer Daten zu trainieren.
Bevor Sie mit dem Training eines Modells beginnen, müssen Sie den Trainingsdatensatz zunächst als SageMaker Canvas-Datensatz exportieren.
Um Ihren Datensatz zu exportieren
-
Wählen Sie neben dem Knoten für den Trainingsdatensatz das Symbol aus und wählen Sie Exportieren aus.
-
Wählen Sie den SageMaker Canvas-Datensatz aus.
-
Wählen Sie Exportieren, um den Datensatz zu exportieren.
Nachdem Sie einen Datensatz erstellt haben, können Sie ein Modell auf dem von Ihnen erstellten SageMaker Canvas-Datensatz trainieren. Für weitere Informationen zum Schulen eines Modells siehe Erstellen Sie ein benutzerdefiniertes numerisches oder kategoriales Vorhersagemodell.
Evaluieren Sie das Modell und treffen Sie Vorhersagen
Nach dem Training Ihres Modells für maschinelles Lernen ist es wichtig, dessen Leistung zu bewerten, um sicherzustellen, dass es Ihren Anforderungen entspricht und bei unsichtbaren Daten eine gute Leistung erbringt. Amazon SageMaker Canvas bietet eine benutzerfreundliche Oberfläche, mit der Sie die Genauigkeit Ihres Modells beurteilen, seine Prognosen überprüfen und Einblicke in seine Stärken und Schwächen gewinnen können. Sie können die Erkenntnisse nutzen, um fundierte Entscheidungen über den Einsatz und mögliche Verbesserungsmöglichkeiten zu treffen.
Verwenden Sie das folgende Verfahren, um ein Modell zu bewerten, bevor Sie es bereitstellen.
So bewerten Sie ein Modell
-
Wählen Sie Meine Modelle.
-
Wählen Sie das Modell aus, das Sie erstellt haben.
-
Wählen Sie unter Versionen die Version aus, die dem Modell entspricht.
Sie können jetzt die Metriken zur Modellbewertung einsehen.
Nachdem Sie das Modell bewertet haben, können Sie Vorhersagen für neue Daten treffen. Wir verwenden den Testdatensatz, den wir erstellt haben.
Um den Testdatensatz für Vorhersagen zu verwenden, müssen wir ihn in einen SageMaker Canvas-Datensatz konvertieren. Der SageMaker Canvas-Datensatz hat ein Format, das das Modell interpretieren kann.
Gehen Sie wie folgt vor, um einen SageMaker Canvas-Datensatz aus dem Testdatensatz zu erstellen.
Um einen SageMaker Canvas-Datensatz zu erstellen
-
Wählen Sie neben dem Datensatz Datensatz (Test) das Optionsfeld aus.
-
Wählen Sie Exportieren aus.
-
Wählen Sie den SageMaker Canvas-Datensatz aus.
-
Geben Sie unter Datensatzname einen Namen für den Datensatz an.
-
Wählen Sie Export aus.
Verwenden Sie das folgende Verfahren, um Vorhersagen zu treffen. Es wird davon ausgegangen, dass Sie sich immer noch auf der Seite Analysieren befinden.
Um Vorhersagen für den Testdatensatz zu treffen
-
Wählen Sie Predict.
-
Wählen Sie Manuell.
-
Wählen Sie den Datensatz aus, den Sie exportiert haben.
-
Wählen Sie Prognosen generieren aus.
-
Wenn SageMaker Canvas mit der Generierung der Prognosen fertig ist, wählen Sie das Symbol rechts neben dem Datensatz aus.
-
Wählen Sie Vorschau, um die Vorhersagen anzusehen.
Bereitstellen eines Modells
Nachdem Sie Ihr Modell bewertet haben, können Sie es auf einem Endpunkt bereitstellen. Sie können Anfragen an den Endpunkt senden, um Vorhersagen zu erhalten.
Verwenden Sie das folgende Verfahren, um ein Modell bereitzustellen. Es wird davon ausgegangen, dass Sie sich immer noch auf der Seite Predict befinden.
Um ein Modell bereitzustellen
-
Wählen Sie Bereitstellen.
-
Wählen Sie Create deployment.
-
Wählen Sie Bereitstellen.
Bereinigen
Sie haben das Tutorial erfolgreich abgeschlossen. Um zusätzliche Gebühren zu vermeiden, löschen Sie die Ressourcen, die Sie nicht verwenden.
Gehen Sie wie folgt vor, um den von Ihnen erstellten Endpunkt zu löschen. Es wird davon ausgegangen, dass Sie sich immer noch auf der Bereitstellungsseite befinden.
So löschen Sie einen Endpunkt
-
Wählen Sie das Optionsfeld rechts neben Ihrer Bereitstellung.
-
Wählen Sie Deployment löschen aus.
-
Wählen Sie Löschen aus.
Löschen Sie nach dem Löschen der Bereitstellung die Datensätze, die Sie in SageMaker Canvas erstellt haben. Gehen Sie wie folgt vor, um die Datensätze zu löschen.
Um die Datensätze zu löschen
-
Wählen Sie in der linken Navigationsleiste Datensätze aus.
-
Wählen Sie den Datensatz aus, den Sie analysiert haben, und den synthetischen Datensatz, der für Vorhersagen verwendet wurde.
-
Wählen Sie Löschen aus.
Um zusätzliche Gebühren zu vermeiden, müssen Sie sich von SageMaker Canvas abmelden. Weitere Informationen finden Sie unter Von Amazon SageMaker Canvas abmelden.