Daten verarbeiten - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Daten verarbeiten

Bei der interaktiven Arbeit mit Daten in einem Amazon Data SageMaker Wrangler-Datenfluss wendet Amazon SageMaker Canvas die Transformationen nur auf einen Beispieldatensatz an, den Sie in der Vorschau anzeigen können. Nachdem Sie Ihren Datenfluss in SageMaker Canvas abgeschlossen haben, können Sie alle Ihre Daten verarbeiten und an einem Ort speichern, der für Ihre Workflows für maschinelles Lernen geeignet ist.

Es gibt mehrere Optionen, wie Sie vorgehen können, nachdem Sie die Transformation Ihrer Daten in Data Wrangler abgeschlossen haben:

  • Erstellen Sie ein Modell. Sie können ein Canvas-Modell erstellen, bei dem Sie direkt mit der Erstellung eines Modells mit Ihren vorbereiteten Daten beginnen. Sie können ein Modell entweder nach der Verarbeitung Ihres gesamten Datensatzes erstellen oder indem Sie nur die Beispieldaten exportieren, mit denen Sie in Data Wrangler gearbeitet haben. Canvas speichert Ihre verarbeiteten Daten (entweder den gesamten Datensatz oder die Beispieldaten) als Canvas-Datensatz.

    Wir empfehlen, dass Sie Ihre Beispieldaten für schnelle Iterationen verwenden, aber dass Sie Ihre gesamten Daten verwenden, wenn Sie Ihr endgültiges Modell trainieren möchten. Bei der Erstellung tabellarischer Modelle werden Datensätze, die größer als 5 GB sind, automatisch auf 5 GB heruntergerechnet, und bei Zeitreihenprognosemodellen werden Datensätze, die größer als 30 GB sind, auf 30 GB heruntergerechnet.

    Weitere Informationen zum Erstellen eines Modells finden Sie unter. Erstellen eines benutzerdefinierten Modells

  • Exportieren Sie die Daten. Sie können Ihre Daten zur Verwendung in Workflows für maschinelles Lernen exportieren. Wenn Sie Ihre Daten exportieren möchten, haben Sie mehrere Möglichkeiten:

    • Sie können Ihre Daten in der Canvas-Anwendung als Datensatz speichern. Weitere Informationen zu den unterstützten Dateitypen für Canvas-Datasets und zu zusätzlichen Anforderungen beim Importieren von Daten in Canvas finden Sie unterErstellen eines Datensatzes.

    • Sie können Ihre Daten in Amazon S3 speichern. Abhängig von der Verfügbarkeit des Canvas-Speichers werden Ihre Daten in der Anwendung verarbeitet und anschließend nach Amazon S3 exportiert. Wenn die Größe Ihres Datensatzes das übersteigt, was Canvas verarbeiten kann, verwendet Canvas standardmäßig einen EMR serverlosen Job, um auf mehrere Recheninstanzen zu skalieren, Ihren gesamten Datensatz zu verarbeiten und ihn nach Amazon S3 zu exportieren. Sie können einen SageMaker Verarbeitungsauftrag auch manuell konfigurieren, um eine genauere Kontrolle über die Rechenressourcen zu haben, die für die Verarbeitung Ihrer Daten verwendet werden.

  • Exportieren Sie einen Datenfluss. Möglicherweise möchten Sie den Code für Ihren Datenfluss speichern, damit Sie Ihre Transformationen außerhalb von Canvas ändern oder ausführen können. Canvas bietet Ihnen die Möglichkeit, Ihre Datenflusstransformationen als Python-Code in einem Jupyter-Notizbuch zu speichern, das Sie dann nach Amazon S3 exportieren können, um es an anderer Stelle in Ihren Machine-Learning-Workflows zu verwenden.

Wenn Sie Ihre Daten aus einem Datenfluss exportieren und entweder als Canvas-Datensatz oder in Amazon S3 speichern, erstellt Canvas einen neuen Zielknoten in Ihrem Datenfluss. Dies ist ein letzter Knoten, der Ihnen zeigt, wo Ihre verarbeiteten Daten gespeichert sind. Sie können Ihrem Flow zusätzliche Zielknoten hinzufügen, wenn Sie mehrere Exportvorgänge durchführen möchten. Sie können beispielsweise die Daten von verschiedenen Punkten in Ihrem Datenfluss exportieren, um nur einige der Transformationen anzuwenden, oder Sie können transformierte Daten an verschiedene Amazon S3 S3-Standorte exportieren. Weitere Informationen zum Hinzufügen oder Bearbeiten eines Zielknotens finden Sie unterFügen Sie einen Zielknoten hinzu.

In den folgenden Abschnitten wird beschrieben, wie die vorherigen Aktionen ausgeführt werden.

Exportieren, um ein Modell zu erstellen

Mit nur wenigen Klicks von Ihrem Datenfluss aus können Sie Ihre transformierten Daten exportieren und mit der Erstellung eines ML-Modells in Canvas beginnen. Canvas speichert Ihre Daten als Canvas-Datensatz, und Sie werden zur Konfigurationsseite für die Modellerstellung für ein neues Modell weitergeleitet.

So erstellen Sie ein Canvas-Modell mit Ihren transformierten Daten:

  1. Navigieren Sie zu Ihrem Datenfluss.

  2. Wählen Sie das Ellipsensymbol neben dem Knoten aus, den Sie exportieren.

  3. Wählen Sie im Kontextmenü die Option Modell erstellen aus.

  4. Geben Sie im Seitenbereich Exportieren, um ein Modell zu erstellen, einen Datensatznamen für den neuen Datensatz ein.

  5. Lassen Sie die Option Gesamten Datensatz verarbeiten ausgewählt, um Ihren gesamten Datensatz zu verarbeiten und zu exportieren, bevor Sie mit der Modellerstellung fortfahren. Deaktivieren Sie diese Option, um Ihr Modell anhand der interaktiven Beispieldaten zu trainieren, mit denen Sie in Ihrem Datenfluss arbeiten.

  6. Geben Sie einen Modellnamen ein, um das neue Modell zu benennen.

  7. Wählen Sie einen Problemtyp oder den Modelltyp aus, den Sie erstellen möchten. Weitere Informationen zu den unterstützten Modelltypen in SageMaker Canvas finden Sie unterErstellen eines benutzerdefinierten Modells.

  8. Wählen Sie die Zielspalte oder den Wert aus, den das Modell vorhersagen soll.

  9. Wählen Sie Exportieren und Modell erstellen.

Die Registerkarte Erstellen für ein neues Canvas-Modell sollte geöffnet werden, und Sie können die Konfiguration und das Training Ihres Modells abschließen. Weitere Informationen zum Erstellen eines Modells finden Sie unterEin Modell erstellen.

Daten exportieren

Exportieren Sie Daten, um die Transformationen aus Ihrem Datenfluss auf den gesamten importierten Datensatz anzuwenden. Sie können jeden Knoten in Ihrem Datenfluss an die folgenden Speicherorte exportieren:

  • SageMaker Canvas-Datensatz

  • Amazon S3

Wenn Sie Modelle in Canvas trainieren möchten, können Sie Ihren vollständigen, transformierten Datensatz als Canvas-Datensatz exportieren. Wenn Sie Ihre transformierten Daten in maschinellen Lern-Workflows außerhalb von SageMaker Canvas verwenden möchten, können Sie Ihren Datensatz nach Amazon S3 exportieren.

In einen Canvas-Datensatz exportieren

Gehen Sie wie folgt vor, um einen SageMaker Canvas-Datensatz aus einem Knoten in Ihrem Datenfluss zu exportieren.

Um einen Knoten in Ihrem Flow als SageMaker Canvas-Datensatz zu exportieren
  1. Navigieren Sie zu Ihrem Datenfluss.

  2. Wählen Sie das Ellipsensymbol neben dem Knoten aus, den Sie exportieren.

  3. Zeigen Sie im Kontextmenü mit der Maus auf Exportieren und wählen Sie dann Daten in Canvas-Datensatz exportieren aus.

  4. Geben Sie im Seitenbereich „In Canvas-Datensatz exportieren“ einen Datensatznamen für den neuen Datensatz ein.

  5. Lassen Sie die Option Gesamten Datensatz verarbeiten ausgewählt, wenn SageMaker Canvas Ihren gesamten Datensatz verarbeiten und speichern soll. Deaktivieren Sie diese Option, um die Transformationen nur auf die Beispieldaten anzuwenden, mit denen Sie in Ihrem Datenfluss arbeiten.

  6. Wählen Sie Export aus.

Sie sollten jetzt in der Lage sein, zur Datensatzseite der Canvas-Anwendung zu gehen und Ihren neuen Datensatz zu sehen.

Exportieren zu Amazon S3

Wenn Sie Ihre Daten nach Amazon S3 exportieren, können Sie skalieren, um Daten beliebiger Größe zu transformieren und zu verarbeiten. Canvas verarbeitet Ihre Daten automatisch lokal, wenn der Speicher der Anwendung die Größe Ihres Datensatzes bewältigen kann. Wenn Ihre Datensatzgröße die lokale Speicherkapazität von 5 GB überschreitet, initiiert Canvas in Ihrem Namen einen Remote-Job, um zusätzliche Rechenressourcen bereitzustellen und die Daten schneller zu verarbeiten. Standardmäßig verwendet Canvas Amazon EMR Serverless, um diese Remote-Jobs auszuführen. Sie können Canvas jedoch manuell so konfigurieren, dass entweder EMR Serverless oder ein SageMaker Verarbeitungsjob mit Ihren eigenen Einstellungen verwendet wird.

Anmerkung

Wenn Sie einen EMR serverlosen Job ausführen, erbt der Job standardmäßig die IAM Rolle, die KMS wichtigsten Einstellungen und die Tags Ihrer Canvas-Anwendung.

Im Folgenden werden die Optionen für Remote-Jobs in Canvas zusammengefasst:

  • EMRServerlos: Dies ist die Standardoption, die Canvas für Remote-Jobs verwendet. EMRServerless stellt Rechenressourcen zur Verarbeitung Ihrer Daten automatisch bereit und skaliert sie, sodass Sie sich keine Gedanken über die Auswahl der richtigen Rechenressourcen für Ihren Workload machen müssen. Weitere Informationen zu EMR Serverless finden Sie im EMRServerless User Guide.

  • SageMaker Verarbeitung: SageMaker Verarbeitungsaufträge bieten erweiterte Optionen und eine detaillierte Kontrolle über die Rechenressourcen, die für die Verarbeitung Ihrer Daten verwendet werden. Sie können beispielsweise den Typ und die Anzahl der Recheninstanzen angeben, den Job selbst konfigurieren VPC und den Netzwerkzugriff kontrollieren, Verarbeitungsaufträge automatisieren und vieles mehr. Weitere Informationen zur Automatisierung von Verarbeitungsaufträgen finden Sie unterErstellen Sie einen Zeitplan für die automatische Verarbeitung neuer Daten. Weitere allgemeine Informationen zur SageMaker Verarbeitung von Aufträgen finden Sie unterVerwenden Sie Verarbeitungsjobs, um Datenumwandlungs-Workloads auszuführen.

Die folgenden Dateitypen werden beim Export nach Amazon S3 unterstützt:

  • CSV

  • Parquet

Lesen Sie die folgenden Seiten, um zu beginnen.

Voraussetzungen für EMR serverlose Jobs

Um einen Remote-Auftrag zu erstellen, der EMR serverlose Ressourcen verwendet, benötigen Sie die erforderlichen Berechtigungen. Sie können Berechtigungen entweder über die SageMaker Amazon-Domain oder die Benutzerprofileinstellungen gewähren, oder Sie können die Einstellungen Ihres Benutzers manuell konfigurieren AWS IAMRolle. Anweisungen, wie Sie Benutzern Berechtigungen zur Verarbeitung großer Datenmengen gewähren, finden Sie unterErteilen Sie Benutzern Berechtigungen zur Nutzung großer Datenmengen während des gesamten ML-Lebenszyklus.

Wenn Sie diese Richtlinien nicht konfigurieren möchten, aber dennoch große Datenmengen mit Data Wrangler verarbeiten müssen, können Sie alternativ einen SageMaker Verarbeitungsjob verwenden.

Verwenden Sie die folgenden Verfahren, um Ihre Daten nach Amazon S3 zu exportieren. Folgen Sie den optionalen erweiterten Schritten, um einen Remote-Job zu konfigurieren.

Um einen Knoten in Ihrem Flow nach Amazon S3 zu exportieren
  1. Navigieren Sie zu Ihrem Datenfluss.

  2. Wählen Sie das Ellipsensymbol neben dem Knoten aus, den Sie exportieren.

  3. Zeigen Sie im Kontextmenü mit der Maus auf Exportieren und wählen Sie dann Daten nach Amazon S3 exportieren aus.

  4. Im Seitenbereich Nach Amazon S3 exportieren können Sie den Datensatznamen für den neuen Datensatz ändern.

  5. Geben Sie für den S3-Standort den Amazon S3 S3-Standort ein, an den Sie den Datensatz exportieren möchten. Sie können den S3URI, den Alias oder ARN den S3-Standort oder den S3-Zugangspunkt eingeben. Weitere Informationen zu Zugriffspunkten finden Sie unter Verwaltung des Datenzugriffs mit Amazon S3 S3-Zugriffspunkten im Amazon S3 S3-Benutzerhandbuch.

  6. (Optional) Geben Sie für die erweiterten Einstellungen Werte für die folgenden Felder an:

    1. Dateityp — Das Dateiformat Ihrer exportierten Daten.

    2. Trennzeichen — Das Trennzeichen, das zum Trennen von Werten in der Datei verwendet wird.

    3. Komprimierung — Die Komprimierungsmethode, die verwendet wird, um die Dateigröße zu reduzieren.

    4. Anzahl der Partitionen — Die Anzahl der Datensatzdateien, die Canvas als Ausgabe des Jobs schreibt.

    5. Spalten auswählen — Sie können eine Teilmenge von Spalten aus den Daten auswählen, die in die Partitionen aufgenommen werden sollen.

  7. Lassen Sie die Option Gesamten Datensatz verarbeiten ausgewählt, wenn Canvas Ihre Datenflusstransformationen auf Ihren gesamten Datensatz anwenden und das Ergebnis exportieren soll. Wenn Sie diese Option deaktivieren, wendet Canvas die Transformationen nur auf die Stichprobe Ihres Datensatzes an, die im interaktiven Data Wrangler-Datenfluss verwendet wird.

    Anmerkung

    Wenn Sie nur eine Stichprobe Ihrer Daten exportieren, verarbeitet Canvas Ihre Daten in der Anwendung und erstellt keinen Remote-Job für Sie.

  8. Lassen Sie die Option Automatische Jobkonfiguration ausgewählt, wenn Canvas automatisch bestimmen soll, ob der Job mithilfe des Canvas-Anwendungsspeichers oder eines EMR serverlosen Jobs ausgeführt werden soll. Wenn Sie diese Option deaktivieren und Ihren Job manuell konfigurieren, können Sie wählen, ob Sie einen EMR serverlosen Auftrag oder einen SageMaker Verarbeitungsauftrag verwenden möchten. Anweisungen zur Konfiguration eines EMR serverlosen Auftrags oder eines SageMaker Verarbeitungsauftrags finden Sie im Abschnitt nach diesem Verfahren, bevor Sie Ihre Daten exportieren.

  9. Wählen Sie Export aus.

Die folgenden Verfahren zeigen, wie Sie die Remote-Job-Einstellungen für EMR Serverless oder SageMaker Processing manuell konfigurieren, wenn Sie Ihren vollständigen Datensatz nach Amazon S3 exportieren.

EMR Serverless

Gehen Sie wie folgt vor, um einen EMR serverlosen Job beim Export nach Amazon S3 zu konfigurieren:

  1. Deaktivieren Sie im Seitenbereich Nach Amazon S3 exportieren die Option Automatische Jobkonfiguration.

  2. Wählen Sie EMRServerlos aus.

  3. Geben Sie unter Jobname einen Namen für Ihren EMR Serverless-Job ein. Der Name kann Buchstaben, Zahlen, Bindestriche und Unterstriche enthalten.

  4. Geben Sie IAMunter Rolle die Ausführungsrolle des Benutzers IAM ein. Diese Rolle sollte über die erforderlichen Berechtigungen verfügen, um EMR serverlose Anwendungen auszuführen. Weitere Informationen finden Sie unter Erteilen Sie Benutzern Berechtigungen zur Nutzung großer Datenmengen während des gesamten ML-Lebenszyklus.

  5. (Optional) Geben Sie als Schlüssel die Schlüssel-ID oder ARN eines KMS AWS KMS key um die Job-Logs zu verschlüsseln. Wenn Sie keinen Schlüssel eingeben, verwendet Canvas einen Standardschlüssel für EMR Serverless.

  6. (Optional) Geben Sie für die Monitoring-Konfiguration den Namen einer Amazon CloudWatch Logs-Protokollgruppe ein, in der Sie Ihre Protokolle veröffentlichen möchten.

  7. (Optional) Fügen Sie EMR unter Tags dem Serverless-Job, der aus Schlüssel-Wert-Paaren besteht, Metadaten-Tags hinzu. Diese Tags können verwendet werden, um Jobs zu kategorisieren und nach ihnen zu suchen.

  8. Wählen Sie Export, um den Auftrag zu starten.

SageMaker Processing

Gehen Sie wie folgt vor, um einen SageMaker Verarbeitungsjob beim Export nach Amazon S3 zu konfigurieren:

  1. Deaktivieren Sie im Seitenbereich Nach Amazon S3 exportieren die Option Automatische Jobkonfiguration.

  2. Wählen Sie SageMaker Verarbeitung aus.

  3. Geben Sie unter Jobname einen Namen für Ihren SageMaker Verarbeitungsjob ein.

  4. Wählen Sie unter Instanztyp den Typ der Recheninstanz aus, um den Verarbeitungsjob auszuführen.

  5. Geben Sie unter Anzahl der Instanzen die Anzahl der Recheninstanzen an, die gestartet werden sollen.

  6. Geben Sie unter IAMRolle die IAM Ausführungsrolle des Benutzers ein. Diese Rolle sollte über die erforderlichen Berechtigungen verfügen SageMaker , um Verarbeitungsaufträge in Ihrem Namen zu erstellen und auszuführen. Diese Berechtigungen werden gewährt, wenn Sie die AmazonSageMakerFullAccessRichtlinie mit Ihrer IAM Rolle verknüpft haben.

  7. Geben Sie unter Volumengröße die Speichergröße in GB für das ML-Speichervolume ein, das jeder Verarbeitungsinstanz zugeordnet ist. Wählen Sie die Größe auf der Grundlage Ihrer erwarteten Eingabe- und Ausgabedatengröße.

  8. (Optional) Geben Sie unter KMS Volume-Schlüssel einen KMS Schlüssel zum Verschlüsseln des Speichervolumes an. Wenn Sie keinen Schlüssel angeben, wird der standardmäßige EBS Amazon-Verschlüsselungsschlüssel verwendet.

  9. (Optional) Geben Sie unter KMSSchlüssel einen KMS Schlüssel an, um die Eingabe- und Ausgabedatenquellen von Amazon S3 zu verschlüsseln, die vom Verarbeitungsauftrag verwendet werden.

  10. (Optional) Gehen Sie für die Spark-Speicherkonfiguration wie folgt vor:

    1. Geben Sie Treiberspeicher in MB für den Spark-Treiberknoten ein, der die Jobkoordination und -planung übernimmt.

    2. Geben Sie Executor-Speicher in MB für die Spark-Executor-Knoten ein, die einzelne Aufgaben im Job ausführen.

  11. (Optional) Gehen Sie für die Netzwerkkonfiguration wie folgt vor:

    1. Geben Sie unter Subnetzkonfiguration die IDs VPC Subnetze ein, in denen die Verarbeitungsinstanzen gestartet werden sollen. Standardmäßig verwendet der Job Ihre Standardeinstellungen. VPC

    2. Geben Sie für die Sicherheitsgruppenkonfiguration die IDs Sicherheitsgruppen ein, mit denen die Verbindungsregeln für eingehende und ausgehende Verbindungen gesteuert werden sollen.

    3. Aktivieren Sie die Option Verschlüsselung des Datenverkehrs zwischen Containern aktivieren, um die Netzwerkkommunikation zwischen Verarbeitungscontainern während des Jobs zu verschlüsseln.

  12. (Optional) Für Associate-Zeitpläne können Sie einen EventBridge Amazon-Zeitplan erstellen wählen, damit der Verarbeitungsjob in wiederkehrenden Intervallen ausgeführt wird. Wählen Sie Neuen Zeitplan erstellen und füllen Sie das Dialogfeld aus. Weitere Informationen zum Ausfüllen dieses Abschnitts und zum planmäßigen Ausführen von Verarbeitungsaufträgen finden Sie unterErstellen Sie einen Zeitplan für die automatische Verarbeitung neuer Daten.

  13. (Optional) Fügen Sie Tags als Schlüssel-Wert-Paare hinzu, damit Sie Verarbeitungsaufträge kategorisieren und nach ihnen suchen können.

  14. Wählen Sie Exportieren, um den Verarbeitungsjob zu starten.

Nach dem Export Ihrer Daten sollten Sie den vollständig verarbeiteten Datensatz am angegebenen Amazon S3 S3-Speicherort finden.

Exportieren Sie einen Datenfluss

Beim Exportieren Ihres Datenflusses werden die Operationen, die Sie in Data Wrangler ausgeführt haben, übersetzt und in ein Jupyter-Notizbuch mit Python-Code exportiert, das Sie ändern und ausführen können. Dies kann hilfreich sein, um den Code für Ihre Datentransformationen in Ihre Machine-Learning-Pipelines zu integrieren.

Sie können einen beliebigen Datenknoten in Ihrem Datenfluss auswählen und exportieren. Beim Exportieren des Datenknotens wird die Transformation exportiert, die der Knoten darstellt, sowie die Transformationen, die ihm vorausgehen.

Um einen Datenfluss als Jupyter-Notebook zu exportieren
  1. Navigieren Sie zu Ihrem Datenfluss.

  2. Wählen Sie das Ellipsensymbol neben dem Knoten, den Sie exportieren möchten.

  3. Bewegen Sie den Mauszeiger im Kontextmenü über Export und dann über Export via Jupyter Notebook.

  4. Wählen Sie eine der folgenden Optionen aus:

    • SageMaker Pipelines

    • Amazon S3

    • SageMaker Inferenz-Pipeline

    • SageMaker Funktionsspeicher

    • Python-Kode

  5. Das Dialogfeld Datenfluss als Notizbuch exportieren wird geöffnet. Wählen Sie eine der folgenden Optionen:

    • Laden Sie eine lokale Kopie herunter

    • An einen S3-Speicherort exportieren

  6. Wenn Sie An S3-Speicherort exportieren ausgewählt haben, geben Sie den Amazon S3 S3-Speicherort ein, an den Sie das Notizbuch exportieren möchten.

  7. Wählen Sie Export aus.

Ihr Jupyter-Notizbuch sollte entweder auf Ihren lokalen Computer heruntergeladen werden, oder Sie finden es an dem von Ihnen angegebenen Amazon S3 S3-Speicherort gespeichert.

Zielknoten verwalten

Ein Zielknoten in SageMaker Canvas gibt an, wo Ihre verarbeiteten und transformierten Daten gespeichert werden sollen. Wenn Sie sich dafür entscheiden, Ihre transformierten Daten nach Amazon S3 zu exportieren, verwendet Canvas den angegebenen Zielknotenstandort und wendet alle Transformationen an, die Sie in Ihrem Datenfluss konfiguriert haben. Weitere Informationen zu Exportaufträgen nach Amazon S3 finden Sie im vorherigen AbschnittExportieren zu Amazon S3.

Wenn Sie Ihre Daten nach Amazon S3 exportieren, wird Ihrem Datenfluss standardmäßig ein Zielknoten hinzugefügt. Sie können Ihrem Flow jedoch mehrere Zielknoten hinzufügen, sodass Sie gleichzeitig verschiedene Transformationen oder Varianten Ihrer Daten an verschiedene Amazon S3 S3-Standorte exportieren können. Sie können beispielsweise einen Zielknoten erstellen, der die Daten exportiert, nachdem alle Transformationen angewendet wurden, und einen anderen Zielknoten, der die Daten nur nach bestimmten anfänglichen Transformationen exportiert, wie z. B. einem Join-Vorgang. Diese Flexibilität ermöglicht es Ihnen, verschiedene Versionen oder Teilmengen Ihrer transformierten Daten an separaten S3-Speicherorten für verschiedene Anwendungsfälle zu exportieren und zu speichern.

In den folgenden Abschnitten wird beschrieben, wie Sie Zielknoten zu Ihrem Datenfluss hinzufügen und bearbeiten.

Fügen Sie einen Zielknoten hinzu

Gehen Sie wie folgt vor, um Ihrem Datenfluss einen Zielknoten hinzuzufügen.

Um einen Zielknoten hinzuzufügen
  1. Navigieren Sie zu Ihrem Datenfluss.

  2. Wählen Sie das Ellipsensymbol neben dem Knoten aus, an dem Sie den Zielknoten platzieren möchten.

  3. Zeigen Sie im Kontextmenü mit der Maus auf Exportieren und wählen Sie dann Ziel hinzufügen aus.

  4. Geben Sie im Seitenbereich Exportziel einen Datensatznamen ein, um der Ausgabe einen Namen zu geben.

  5. Geben Sie für Amazon S3 S3-Standort den Amazon S3 S3-Standort ein, an den Sie die Ausgabe exportieren möchten. Sie können den S3URI, den Alias oder ARN den S3-Standort oder den S3-Zugangspunkt eingeben. Weitere Informationen zu Zugriffspunkten finden Sie unter Verwaltung des Datenzugriffs mit Amazon S3 S3-Zugriffspunkten im Amazon S3 S3-Benutzerhandbuch.

  6. Geben Sie für Exporteinstellungen die folgenden Felder an:

    1. Dateityp — Das Dateiformat der exportierten Daten.

    2. Trennzeichen — Das Trennzeichen, das zum Trennen von Werten in der Datei verwendet wird.

    3. Komprimierung — Die Komprimierungsmethode, die verwendet wird, um die Dateigröße zu reduzieren.

  7. Geben Sie für die Partitionierung die folgenden Felder an:

    1. Anzahl der Partitionen — Die Anzahl der Datensatzdateien, die SageMaker Canvas als Ausgabe des Jobs schreibt.

    2. Spalten auswählen — Sie können eine Teilmenge von Spalten aus den Daten auswählen, die in die Partitionen aufgenommen werden sollen.

  8. Wählen Sie Hinzufügen, wenn Sie Ihrem Datenfluss einfach einen Zielknoten hinzufügen möchten, oder wählen Sie Hinzufügen und dann Exportieren, wenn Sie den Knoten hinzufügen und einen Exportjob starten möchten.

Sie sollten jetzt einen neuen Zielknoten in Ihrem Flow sehen.

Bearbeiten Sie einen Zielknoten

Sie können auch die Konfiguration eines vorhandenen Zielknotens bearbeiten und dann den Job erneut ausführen, um die Daten am angegebenen Amazon S3 S3-Standort zu überschreiben.

Gehen Sie wie folgt vor, um einen Zielknoten in Ihrem Datenfluss zu bearbeiten und einen Exportauftrag zu starten.

Um einen Zielknoten zu bearbeiten
  1. Navigieren Sie zu Ihrem Datenfluss.

  2. Wählen Sie das Ellipsensymbol neben dem Zielknoten, den Sie bearbeiten möchten.

  3. Wählen Sie im Kontextmenü Bearbeiten.

  4. Der Seitenbereich Ziel bearbeiten wird geöffnet. In diesem Bereich können Sie Details wie den Datensatznamen, den Amazon S3 S3-Speicherort und die Export- und Partitionierungseinstellungen bearbeiten.

  5. (Optional) Unter Weitere zu exportierende Knoten können Sie weitere Zielknoten auswählen, die verarbeitet werden sollen, wenn Sie den Exportauftrag ausführen.

  6. Lassen Sie die Option Gesamten Datensatz verarbeiten ausgewählt, wenn Canvas Ihre Datenflusstransformationen auf den gesamten Datensatz anwenden und das Ergebnis exportieren soll. Wenn Sie diese Option deaktivieren, wendet Canvas die Transformationen nur auf die Stichprobe Ihres Datensatzes an, die im interaktiven Data Wrangler-Datenfluss verwendet wird.

  7. Lassen Sie die Option Automatische Auftragskonfiguration aktiviert, wenn Canvas automatisch bestimmen soll, ob der Job mithilfe des Canvas-Anwendungsspeichers oder eines serverlosen Jobs ausgeführt werden soll. EMR Wenn Sie diese Option deaktivieren und Ihren Job manuell konfigurieren, können Sie wählen, ob Sie einen EMR serverlosen Auftrag oder einen SageMaker Verarbeitungsauftrag verwenden möchten. Anweisungen zur Konfiguration eines EMR serverlosen Auftrags oder eines SageMaker Verarbeitungsauftrags finden Sie im vorherigen Abschnitt. Exportieren zu Amazon S3

  8. Wenn Sie mit den Änderungen fertig sind, wählen Sie Aktualisieren.

Beim Speichern von Änderungen an Ihrer Zielknotenkonfiguration wird ein Job nicht automatisch erneut ausgeführt oder Daten überschrieben, die bereits verarbeitet und exportiert wurden. Exportieren Sie Ihre Daten erneut, um einen Job mit der neuen Konfiguration auszuführen. Wenn Sie sich entscheiden, Ihre Daten mit einem Job erneut zu exportieren, verwendet Canvas die aktualisierte Zielknotenkonfiguration, um die Daten zu transformieren und an den angegebenen Speicherort auszugeben, wobei alle vorhandenen Daten überschrieben werden.

Erstellen Sie einen Zeitplan für die automatische Verarbeitung neuer Daten

Anmerkung

Der folgende Abschnitt bezieht sich nur auf SageMaker Verarbeitungsaufträge. Wenn Sie die Standardeinstellungen von Canvas oder EMR Serverless verwendet haben, um einen Remote-Job zur Anwendung von Transformationen auf Ihren gesamten Datensatz zu erstellen, gilt dieser Abschnitt nicht.

Wenn Sie regelmäßig Daten verarbeiten, können Sie einen Zeitplan für die automatische Ausführung des Processing-Jobs erstellen. Sie können z. B. einen Zeitplan erstellen, der einen Processing-Job automatisch ausführt, wenn Sie neue Daten erhalten. Weitere Informationen zur Verarbeitung von Aufträgen finden Sie unter. Exportieren zu Amazon S3

Wenn Sie einen Job erstellen, müssen Sie eine IAM Rolle angeben, die über Berechtigungen zum Erstellen des Jobs verfügt. Sie können die AmazonSageMakerCanvasDataPrepFullAccessRichtlinie verwenden, um Berechtigungen hinzuzufügen.

Fügen Sie der Rolle die folgende Vertrauensrichtlinie hinzu, EventBridge damit sie übernommen werden kann.

{ "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com" }, "Action": "sts:AssumeRole" }
Wichtig

Wenn Sie einen Zeitplan erstellen, erstellt Data Wrangler einen eventRule in. EventBridge Es fallen Gebühren sowohl für die von Ihnen erstellten Ereignisregeln als auch für die Instances an, die zur Ausführung des Processing-Jobs verwendet werden.

Informationen zur EventBridge Preisgestaltung finden Sie unter EventBridge Amazon-Preise. Informationen zur Verarbeitung von Stellenpreisen finden Sie unter SageMaker Amazon-Preise.

Sie können mithilfe einer der folgenden Methoden einen Zeitplan erstellen:

  • CRONAusdrücke

    Anmerkung

    Data Wrangler unterstützt die folgenden Ausdrücke nicht:

    • LW#

    • Abkürzungen für Tage

    • Abkürzungen für Monate

  • RATEAusdrücke

  • Wiederkehrende – Legen Sie ein stündliches oder tägliches Intervall für die Ausführung des Jobs fest.

  • Bestimmte Zeit – Legen Sie bestimmte Tage und Uhrzeiten für die Ausführung des Jobs fest.

In den folgenden Abschnitten finden Sie Verfahren zur Planung von Aufträgen beim Ausfüllen der Auftragseinstellungen für die SageMaker Verarbeitung beim Exportieren Ihrer Daten nach Amazon S3. Alle folgenden Anweisungen beginnen im Abschnitt „Zeitpläne zuordnen“ in den Auftragseinstellungen für die SageMaker Verarbeitung.

CRON

Gehen Sie wie folgt vor, um einen Zeitplan mit einem CRON Ausdruck zu erstellen.

  1. Vergewissern Sie sich, dass Sie im Seitenbereich Nach Amazon S3 exportieren die Option Automatische Auftragskonfiguration deaktiviert und die Option SageMaker Verarbeitung ausgewählt haben.

  2. Öffnen Sie in den Auftragseinstellungen für die SageMaker Verarbeitung den Abschnitt Zeitpläne zuordnen und wählen Sie Neuen Zeitplan erstellen aus.

  3. Das Dialogfeld Neuen Zeitplan erstellen wird geöffnet. Geben Sie für Name des Zeitplans den Namen des Zeitplans an.

  4. Wählen Sie für Run Frequency die Option CRON.

  5. Geben Sie für jedes der Felder Minuten, Stunden, Monatstage, Monat und Wochentag gültige CRON Ausdruckswerte ein.

  6. Wählen Sie Create (Erstellen) aus.

  7. (Optional) Wählen Sie Anderen Zeitplan hinzufügen, um den Job nach einem zusätzlichen Zeitplan auszuführen.

    Anmerkung

    Sie können maximal zwei Zeitpläne zuordnen. Die Zeitpläne sind unabhängig voneinander und beeinflussen sich nicht gegenseitig, es sei denn, die Zeiten überschneiden sich.

  8. Wählen Sie eine der folgenden Optionen aus:

    • Planen und jetzt ausführen — Der Job wird sofort und anschließend gemäß den Zeitplänen ausgeführt.

    • Nur planen — Der Job wird nur nach den von Ihnen angegebenen Zeitplänen ausgeführt.

  9. Wählen Sie Exportieren, nachdem Sie die restlichen Exportjob-Einstellungen ausgefüllt haben.

RATE

Gehen Sie wie folgt vor, um einen Zeitplan mit einem RATE Ausdruck zu erstellen.

  1. Vergewissern Sie sich, dass Sie im Seitenbereich Nach Amazon S3 exportieren die Option Automatische Auftragskonfiguration deaktiviert und die Option SageMaker Verarbeitung ausgewählt haben.

  2. Öffnen Sie in den Auftragseinstellungen für die SageMaker Verarbeitung den Abschnitt Zeitpläne zuordnen und wählen Sie Neuen Zeitplan erstellen aus.

  3. Das Dialogfeld Neuen Zeitplan erstellen wird geöffnet. Geben Sie für Name des Zeitplans den Namen des Zeitplans an.

  4. Wählen Sie für Häufigkeit der Ausführung die Option Rate aus.

  5. Geben Sie für den Wert einen ganzzahligen Wert an.

  6. Wählen Sie für Einheit eine der folgenden Optionen aus:

    • Minuten

    • Stunden

    • Tage

  7. Wählen Sie Create (Erstellen) aus.

  8. (Optional) Wählen Sie Anderen Zeitplan hinzufügen, um den Job nach einem zusätzlichen Zeitplan auszuführen.

    Anmerkung

    Sie können maximal zwei Zeitpläne zuordnen. Die Zeitpläne sind unabhängig voneinander und beeinflussen sich nicht gegenseitig, es sei denn, die Zeiten überschneiden sich.

  9. Wählen Sie eine der folgenden Optionen aus:

    • Jetzt planen und ausführen — Der Job wird sofort und anschließend gemäß den Zeitplänen ausgeführt.

    • Nur planen — Der Job wird nur nach den von Ihnen angegebenen Zeitplänen ausgeführt.

  10. Wählen Sie Exportieren, nachdem Sie die restlichen Exportjob-Einstellungen ausgefüllt haben.

Recurring

Gehen Sie wie folgt vor, um einen Zeitplan zu erstellen, der einen Job regelmäßig ausführt.

  1. Vergewissern Sie sich, dass Sie im Seitenbereich Nach Amazon S3 exportieren die Option Automatische Auftragskonfiguration deaktiviert und die Option SageMaker Verarbeitung ausgewählt haben.

  2. Öffnen Sie in den Auftragseinstellungen für die SageMaker Verarbeitung den Abschnitt Zeitpläne zuordnen und wählen Sie Neuen Zeitplan erstellen aus.

  3. Das Dialogfeld Neuen Zeitplan erstellen wird geöffnet. Geben Sie für Name des Zeitplans den Namen des Zeitplans an.

  4. Wählen Sie für Ausführungshäufigkeit die Option Wiederkehrend aus.

  5. Geben Sie für Alle x Stunden die stündliche Häufigkeit an, mit der der Job während des Tages ausgeführt wird. Gültig sind ganzzahlige Werte im Bereich einschl. 1 und 23.

  6. Wählen Sie für An den Tagen eine der folgenden Optionen aus:

    • Täglich

    • An den Wochenenden

    • Wochentags

    • Tage auswählen

    1. (Optional) Wenn Sie Tage auswählen ausgewählt haben, wählen Sie die Wochentage aus, an denen der Job ausgeführt werden soll.

    Anmerkung

    Der Zeitplan wird jeden Tag zurückgesetzt. Wenn Sie einen Job so planen, dass er alle fünf Stunden ausgeführt wird, wird er während des Tages zu den folgenden Zeiten ausgeführt:

    • 00:00

    • 05:00

    • 10:00

    • 15:00

    • 20:00

  7. Wählen Sie Create (Erstellen) aus.

  8. (Optional) Wählen Sie Anderen Zeitplan hinzufügen, um den Job nach einem zusätzlichen Zeitplan auszuführen.

    Anmerkung

    Sie können maximal zwei Zeitpläne zuordnen. Die Zeitpläne sind unabhängig voneinander und beeinflussen sich nicht gegenseitig, es sei denn, die Zeiten überschneiden sich.

  9. Wählen Sie eine der folgenden Optionen aus:

    • Jetzt planen und ausführen — Der Job wird sofort ausgeführt und anschließend gemäß den Zeitplänen ausgeführt.

    • Nur planen — Der Job wird nur nach den von Ihnen angegebenen Zeitplänen ausgeführt.

  10. Wählen Sie Exportieren, nachdem Sie die restlichen Exportjob-Einstellungen ausgefüllt haben.

Specific time

Gehen Sie wie folgt vor, um einen Zeitplan zu erstellen, der einen Job zu bestimmten Zeiten ausführt.

  1. Vergewissern Sie sich, dass Sie im Seitenbereich Nach Amazon S3 exportieren die Option Automatische Auftragskonfiguration deaktiviert und die Option SageMaker Verarbeitung ausgewählt haben.

  2. Öffnen Sie in den Auftragseinstellungen für die SageMaker Verarbeitung den Abschnitt Zeitpläne zuordnen und wählen Sie Neuen Zeitplan erstellen aus.

  3. Das Dialogfeld Neuen Zeitplan erstellen wird geöffnet. Geben Sie für Name des Zeitplans den Namen des Zeitplans an.

  4. Wählen Sie als Ausführungshäufigkeit die Option Startzeit aus.

  5. Geben Sie für Startzeit eine Uhrzeit im UTC Format ein (z. B.09:00). Die Startzeit entspricht standardmäßig der Zeitzone, in der Sie sich befinden.

  6. Wählen Sie für An den Tagen eine der folgenden Optionen aus:

    • Täglich

    • An den Wochenenden

    • Wochentags

    • Tage auswählen

    1. (Optional) Wenn Sie Tage auswählen ausgewählt haben, wählen Sie die Wochentage aus, an denen der Job ausgeführt werden soll.

  7. Wählen Sie Create (Erstellen) aus.

  8. (Optional) Wählen Sie Anderen Zeitplan hinzufügen, um den Job nach einem zusätzlichen Zeitplan auszuführen.

    Anmerkung

    Sie können maximal zwei Zeitpläne zuordnen. Die Zeitpläne sind unabhängig voneinander und beeinflussen sich nicht gegenseitig, es sei denn, die Zeiten überschneiden sich.

  9. Wählen Sie eine der folgenden Optionen aus:

    • Jetzt planen und ausführen — Der Job wird sofort und anschließend gemäß den Zeitplänen ausgeführt.

    • Nur planen — Der Job wird nur nach den von Ihnen angegebenen Zeitplänen ausgeführt.

  10. Wählen Sie Exportieren, nachdem Sie die restlichen Exportjob-Einstellungen ausgefüllt haben.

Sie können das verwenden SageMaker AWS Management Console um die Jobs anzuzeigen, deren Ausführung geplant ist. Ihre Verarbeitungsaufträge werden innerhalb von Pipelines ausgeführt. Jeder Processing-Job hat seine eigene Pipeline. Er wird als Verarbeitungsschritt innerhalb der Pipeline ausgeführt. Sie können sich die Zeitpläne anzeigen lassen, die Sie in einer Pipeline erstellt haben. Weitere Informationen zum Anzeigen einer Pipeline finden Sie unter Anzeigen einer Pipeline.

Gehen Sie wie folgt vor, um sich die von Ihnen geplanten Jobs anzeigen zu lassen.

Gehen Sie wie folgt vor, um sich die von Ihnen geplanten Jobs anzeigen zu lassen.

  1. Öffnen Sie Amazon SageMaker Studio Classic.

  2. Öffnen Sie Pipelines

  3. Sehen Sie sich die Pipelines für die Jobs an, die Sie erstellt haben.

    Die Pipeline, in der der Job ausgeführt wird, verwendet den Namen des Jobs als Präfix. Wenn Sie z. B. einen Job mit dem Namen housing-data-feature-enginnering erstellt haben, lautet der Name der Pipeline canvas-data-prep-housing-data-feature-engineering.

  4. Wählen Sie die Pipeline aus, die Ihren Job enthält.

  5. Status der Pipelines anzeigen. Pipelines mit dem Status Erfolgreich haben den Processing-Job erfolgreich ausgeführt.

Gehen Sie wie folgt vor, um die Ausführung des Processing-Jobs zu beenden:

Um die Ausführung eines Processing-Jobs zu beenden, löschen Sie die Ereignisregel, die den Zeitplan angibt. Indem eine Ereignisregel gelöscht wird, werden keine mit dem Zeitplan verknüpften Jobs mehr ausgeführt. Informationen zum Löschen einer Regel finden Sie unter EventBridge Amazon-Regel deaktivieren oder löschen.

Sie können die mit den Zeitplänen verknüpften Pipelines auch beenden und löschen. Informationen zum Stoppen einer Pipeline finden Sie unter StopPipelineExecution. Hinweise zum Löschen einer Pipeline finden Sie unter DeletePipeline.